💼 仕事術・キャリア形成

2026年5月17日

HeyGenで社内OJT動画を作ろうとして気づいた3つの壁｜DX推進担当の実験レポート

執筆: ただの会社員

この記事でわかること

HeyGenのAIアバター動画生成ツールで自己紹介動画を作った実体験レポート
アバター作成で「やっておけばよかった」と後悔した2つの撮影・録音ミス
日本語字幕の課題と英語コンテンツとしての可能性
社内OJTマニュアル動画への応用構想と、自己ブランディングの手段としての評価

きっかけは「説明コストの削減」だった

仕事をしていると、同じ説明を何度もしなければならない場面が多い。新人が入るたびに繰り返すOJT、会議のたびに更新される業務マニュアルの読み上げ、プロジェクトが立ち上がるたびに作る説明資料……。

「この繰り返しを、なんとか減らせないか」というのが、今回HeyGenを試したきっかけだ。新人研修講師を10年以上やってきた経験から、「説明の質を人に依存させない仕組み」への関心はずっとあった。ただし、仕組みを作れても、それを使いこなせる人がいなければ意味がない——その両方を追いかけてきた自分にとって、AI動画は一つの答えになるかもしれないと感じている。

AI動画生成ツールはいくつか存在するが、HeyGenは「自分自身のアバターを作れる」という点で他と一線を画す。自分の顔と声を学習させることで、まるで自分が話しているかのような動画が生成できる。社内教育コンテンツを量産してマニュアル化し、いずれはRAGと連携させてAIが動画を参照しながら回答できる仕組みを作れないか——そんな構想を抱きながら、まず試してみることにした。

HeyGenのアバター作成：仕組みはシンプル

HeyGenのアバター作成は、大きく2ステップで完結する。

① 自分の写真（または短い動画）をアップロード
顔の特徴を学習させるための素材として使用される。複数アングルの写真を使うほど精度が上がる。

② 自分の声をアップロード
数十秒〜数分程度の音声を読み込ませると、テキストを入力するだけで「自分の声」で読み上げてくれるようになる。

この2つを準備すれば、あとは台本（テキスト）と資料スライドを用意するだけで動画が自動生成される。アバターが台本を読み上げながら、スライドと組み合わせたストーリー性のある動画を作ってくれる。

やっておけばよかった：2つの後悔

実際に作ってみて、準備段階で「これをやっておけばよかった」と思ったことが2点ある。

撮影は全身で

今回は上半身のみを撮影して素材として使ったのだが、後から仕様を読むと全身を撮影すればジェスチャー（手の動き）も再現できることがわかった。上半身だけだと、腕や手を使った身振りが生成されない。プレゼンのような場面では、手振りがあるかどうかで説得力がかなり変わる。次に作る機会があれば、必ず全身で撮影しておく。

音声録音は「実際に話す速さ」で

音声を録音する際、「できるだけはっきり聞こえるように」と意識するあまり、普段よりゆっくり話してしまった。AIはその音声を学習して声質や話し方を再現するため、録音の速度がそのまま生成動画の話速の基準になる。

完成した動画を見ると、全編を通じてゆっくりとした口調で話し続けるアバターになってしまい、3分間ずっとその調子が続くと不自然に感じた。後から動画編集ソフトで速度を上げて調整したが、手間がかかった。録音の時点から「普段の自分が話す速さ」を意識して吹き込むのが正解だったと思う。

実際に動画を作ってみた

今回は試験的に、自己紹介動画を作ってみた。内容は自分の仕事の経歴・得意なこと・今後やりたいことをまとめた3分程度のもの。

クオリティについて
率直に言って、想像以上だった。顔の表情や口の動きが台本の発音に合わせて動くので、一見すると本当に自分が話しているように見える。まばたきのタイミングや首のわずかな動きなど、細かいところまで自然に再現されており、「AIが作った動画」という違和感はほとんど感じなかった。

ただし、完成した動画は個人情報を多く含むため、残念ながら今回は公開できない。あくまで社内向けのコンテンツとして活用する予定だ。

処理時間について
3分の動画を生成するのに、約30分の処理時間がかかった。バックグラウンドで処理されるので待ち時間に別の作業はできるが、即時性を求める用途には向かない。毎日大量に量産するというよりは、「月に数本、丁寧に作る」くらいのペースが現実的だと感じた。

日本語対応：正直、まだ課題がある

HeyGenはアメリカ生まれのサービスだけあって、日本語対応に若干の課題がある。具体的に気になったのは以下の2点だ。

① 字幕1行あたりの文字数が少ない
英語と比べて日本語は1文字あたりの情報密度が高い。にもかかわらず、字幕の1行に表示できる文字数が英語想定の設計のため、日本語だと文章の途中で折り返しが発生してしまう。

② キーワードの途中で改行される
「高配当株投資」「ビジネスプロセス」といった複合語が途中で切れて表示されることがある。意味の区切りを無視した改行は読みにくく、コンテンツの印象を下げてしまう。

字幕の調整機能はあるが、手動で1か所ずつ直すのはなかなか手間がかかる。日本語コンテンツとして本格的に量産するには、もう一歩の改善を期待したいところだ。

英語コンテンツとしての可能性は大きい

一方で、英語コンテンツとしての活用可能性は非常に高いと感じた。

台本を日本語で書き、DeepLやChatGPTで英語に翻訳してからHeyGenに入力すると、英語字幕が非常にきれいに表示される。1行あたりの表示文字数が多く、適切な位置で改行されるため、英語向けには読みやすいコンテンツが作れる。

そして何より驚いたのが、「英語ペラペラな自分」が作れてしまうことだ。私は英語がほとんど話せないが、HeyGenを使えば流暢な英語で説明する自分のアバターが出来上がる。英語圏のクライアントや海外拠点向けに動画マニュアルを作りたい企業にとっては、非常に強力なツールになりうる。

社内教育への応用：将来的な構想

今回の体験を通じて、HeyGenの社内教育への応用可能性が具体的に見えてきた。

マニュアル動画の量産
業務手順を台本化し、アバター動画として蓄積することで、いつでも同じ品質の説明が提供できる。新人が入るたびに担当者が付きっきりで説明する必要がなくなる。

RAGとの連携
蓄積した動画のトランスクリプト（台本テキスト）をRAGのナレッジベースに取り込めば、AIが「動画で説明されている内容」を参照しながら質問に答えられるようになる。

英語展開
日本語の社内マニュアルを英語に翻訳し、英語アバター動画として展開すれば、海外拠点への展開コストを大幅に削減できる可能性がある。

その後：自己紹介動画は作れた、でも解約した

正直に書く。HeyGenは解約した。

自分自身がアバターとなり、自己紹介動画を作り切れたこと自体は大きな収穫だった。「AIが自分の顔と声で話す動画を生成できる」という体験は、テキストで読むのとまったく違うリアリティがある。これは実際に試さないとわからない感覚だ。

ただ、毎月のサブスクリプション料金が安くはない。日本語字幕の課題もある。現職のDX推進業務における優先順位を考えたとき、「今すぐ業務に組み込んで使い続けるフェーズではない」という判断に至った。

将来的には、HeyGenに代替できる日本語に強い動画生成ツールが出てくると思っている。AI動画の技術進化は速い。そのとき改めて、現業の優先順位をつけながら検証し直したい。経営陣への提案も、そのタイミングのほうが現実的だと判断している。

投稿者の所感

AI動画ツールは「作るのが大変だから動画は出せない」という企業の課題を大きく変える可能性を持っている。私がHeyGenで驚いたのは技術的な精度の高さもさることながら、「非エンジニアの自分でも普通に使えた」という点だ。特別なスキルがなくても、アバターの設定から動画生成まで2〜3時間もあれば一通り体験できる。

日本語対応の課題は今後の改善に期待しつつ、英語コンテンツや社内向けの試験的な活用から始めてみるのが現実的な一歩だと感じた。「自分が説明しなくても伝わる仕組み」を作ることは、業務効率化の観点からも非常に価値が高い。苦手なスケジュール管理より、こういう「一度作ったら繰り返し使える」仕組みづくりのほうが、自分には向いているとつくづく思う。

もう一つ、今回の体験を通じて気づいたことがある。HeyGenのようなAIアバター動画は、自分自身をブランド化する手段として有効だということだ。自分の顔と声で話す動画を量産できれば、SNSでもブログでも「この人の話を聞きたい」という印象を積み上げていける。資格や経歴を文字で伝えるよりも、動画で人柄ごと届けるほうが記憶に残りやすい。個人が「自分というブランド」を持つ時代において、AI動画はそのコストを一気に下げてくれるツールだと感じた。

#HeyGen #AI動画 #DX #生成AI #社内教育 #OJT

ただの会社員

AI/DX推進部副部長｜産業カウンセラー養成講座修了

地方在住の40代会社員。SE・PLを経てAI/DX推進に携わる副部長。情報処理安全確保支援士・ITIL4・AWS/Azure/GCP等30冠以上の資格を保有。転職で年収110万円アップの実体験をもとに、AI活用・資格学習・キャリア形成をリアルに発信しています。

プロフィール詳細 →

📌 あわせて読みたい

📰 記事一覧に戻る