After Effects 用ボイスチェンジャー ナレーション向け

モーションデザイナーが After Effects でナレーションをアニメーションと同期させる方法 — Adobe Audition を経由した low-latency audio capture 入力、タイミング変更時の AI ナレーション、多言語バージョン。

After Effects 用ボイスチェンジャー ナレーションワークフロー

モーショングラフィックスは視覚的なメディアです — それが話す必要があるまで。ブランドビデオ、説明動画、または製品プロモーションにナレーションを追加する瞬間、オーディオワークフローは合成と同じくらい重要になります。しかし、ほとんどの After Effects チュートリアルは音声を完全にスキップし、それをプロダクション前の詳細ではなく、プロダクションの決定として扱っています。

この投稿は、モーショングラフィックスをプロフェッショナルに構築するデザイナーを対象としています。まずアニメーション化し、次にナレーションを実行してから、古典的な問題に直面する人たちです — クライアントは再タイミング版、2 番目の言語、または異なる音声キャラクターを求めており、元の録音セッションはずっと前です。


TL;DR

  • After Effects にはライブボイス処理がありません — 実用的なパスは Adobe Audition への low-latency audio capture 入力で、その後 AE へのロードバックです。
  • AI ボイスクローンは、元の録音後にアニメーションのタイミングが変更されたときのナレーション問題を解決します。
  • 多言語モーショングラフィックスバージョンは、すべての言語トラックが同じ AI ナレーター音声を共有するときにスケーラブルになります。
  • 300 ミリ秒未満の low-latency audio capture レイテンシにより、ナレーション記録中に処理済み音声を自然に監視できます。
  • Windows 10/11 ではカーネルドライバーまたは仮想ケーブルソフトウェアは必要ありません。

After Effects ナレーションが異なる問題である理由

ポッドキャストボイスチェンジャーは会話にテクスチャーを追加します。ストリーミングボイスチェンジャーがキャラクターを作成します。これらのユースケースはどちらも、アニメーションタイミングへの厳密な同期を含みません。

モーショングラフィックスのナレーションは、音声が視覚的なビートにロックされているため、異なります。トランジションは特定のフレームで発生します。アニメーション化されたヘッドラインは、単語の着地と一致するように配置されたキーフレーム上に表示されます。構成全体は、ナレーターが達成する必要があるタイミング決定の周りで息をします。

つまり、アニメーションに対するあらゆる変更 — 半秒早く到着するトランジション、画面に 2 秒以上長く留まる下部サード — ナレーション記録を無効にする可能性があります。音声が同期されなくなります。再録音が必要です。

これは、この投稿が対処するワークフロー問題です。

After Effects が オーディオを処理する方法 (そしてできないこと)

Adobe After Effects はコンポジションおよびモーショングラフィックスアプリケーション、オーディオプロダクション環境ではありません。そのオーディオ機能は意図的に最小限です:

  • オーディオレイヤーがビデオと一緒にタイムラインに表示されます。
  • 波形表示は粗い同期参照用です。
  • 基本的なボリュームとステレオパンキーフレームが存在します。
  • RAM プレビューは合成と同期してオーディオを再生します。

これは基本的に完全なリストです。ネイティブボイス処理、エフェクトチェーン、MIDI、および変更を伴うライブ監視はありません。After Effects はオーディオプロダクション作業を姉妹アプリケーション Adobe Audition に延期します。

つまり、AE ナレーションワークフローでは、視覚的合成用の AE と音声プロダクション用の Audition (または別のオーディオエディター) という少なくとも 2 つのアプリケーションが関係しています。

Adobe Audition ラウンドトリップ: ステップバイステップ

Adobe Audition ラウンドトリップは、After Effects タイムラインに既に配置されているオーディオアセットを編集するための公式な方法です。次のように機能します:

ステップ 1: AE でオーディオレイヤーを配置します。 ナレーション .wav をインポートして、コンポジションに配置します。耳で粗く同期してください — ハンドルを調整して単語を視覚的なビートと整列させます。

ステップ 2: AE から Audition で開きます。 オーディオレイヤーを右クリック → Adobe Audition で編集します。Audition がファイルを読み込んで開き、AE タイムラインが背後に見たままになります。Audition が開いている間、AE をスクラブしてから同期を確認できます。

ステップ 3: Audition で処理を適用します。 ノイズフロアをクリーンアップし、必要に応じて EQ を適用し、ボリュームオートメーションを調整します。音声が変更された音声で記録された場合、これらの処理ステップは最小限です — 音声キャラクターは記録時に設定されました。

ステップ 4: Audition で保存します。 ファイル (Ctrl+S) を保存します。変更は自動的に AE コンポジションに反映されます。再インポートは不要です。AE の RAM プレビューは、更新されたオーディオを即座に反映します。

ステップ 5: 同期を確認します。 AE で完全な RAM プレビューを実行します。フレーズが視覚的なビートに比べてやや早いか遅い場合は、Audition に戻り、その領域をシフトして、再度保存します。

ラウンドトリップにより、手動インポートサイクルの摩擦が削除されます。ナレーションタイミングがアニメーションに対して改善されているモーショングラフィックスプロジェクトの場合、これが正しいワークフローです — オーディオエクスポートと手動再インポートではありません。

low-latency audio capture 経由で Audition に変更されたナレーションを記録する

変更された音声を使用してナレーションを Audition に記録するには、シグナルチェーンは以下の通りです:

マイク → 音声処理 (low-latency audio capture) → Windows オーディオデバイス → Audition 入力

low-latency audio capture (Windows Audio Session API) は、ソフトウェアが最小レイテンシでオーディオハードウェアにアクセスできるようにする低レベルの Windows オーディオサブシステムです。古い Windows オーディオパスとは異なり、low-latency audio capture 排他モードでは、オーディオアプリケーションに直接ハードウェアアクセスを与え、Windows オーディオミキサーをバイパスします。

ナレーション記録の場合、low-latency audio capture 排他モードは、ほとんどの Windows 10/11 システムで 30 ミリ秒未満の監視レイテンシを実現します。これが重要な理由は、高レイテンシ (80 ミリ秒を超える) で自分の声を聞くナレーターが無意識に速度を低下させたり、シラビングタイミングを失ったりするためです。30 ミリ秒未満は本質的にリアルタイムに感じます — 自然に話すことができます。

実用的なセットアップ:

  1. VoxBooster のアウトプットデバイスを標準 Windows 再生デバイス (ヘッドフォンまたは Audition に表示される仮想デバイス) に設定します。
  2. Audition で、入力ソースをそのデバイスに設定します。
  3. トラックをアームして、入力監視を有効にします。
  4. ナレーションを記録します — 話している間、ヘッドフォンで変更された音声が聞こえます。

結果の記録には既に処理された音声が含まれます。Audition では後処理音声変更は不要です — ここでの Audition の役割は、キャプチャ、編集、ノイズ処理です。音声変換ではありません。

アニメーションタイミングが変更されたときの AI 再ナレーション

ここで、最新の音声ワークフローは従来のナレーションプロダクションから分岐します。

従来のモデル: クライアントが最終的なアニメーションカットを承認し、声優が画像に記録し、記録がロックされます。その後の変更には、セッションの再予約が必要です。

問題: クライアントはナレーションの前に真に最終的なカットを承認することはめったにありません。再タイミングのリクエストは記録の後に到着します。場合によっては、クライアントがスクリプト自体を変更します。2 番目の言語バージョンは英語配信から 3 週間後に追加されます。

AI ボイスクローンはさまざまなモデルを許可します。ナレーター音声がクローン化されたら — 元の音声俳優の録音セッションから — 新しいフレーズ、改訂されたタイミング、または完全に新しいスクリプトをセッションを再予約することなく生成できます。出力は同じ音声の音色とキャラクターを使用します。

モーショングラフィックススタジオの場合:

再タイミング版: 影響を受けるフレーズのみを再生成し、Audition でこれらのセグメントを置き換え、AE で再同期します。

スクリプト変更: 変更された行を再生成します。構成内の他のすべてはそのままです。

多言語版: 同じナレーター音声で翻訳されたスクリプトを生成します。音声俳優がその言語を話さない場合でも、言語全体で音声キャラクターは一貫しています。

バッチ再ナレーション — さまざまな市場向けの同じモーショングラフィックスの複数バージョン — このワークフローは従来の記録方法ではスケーリングしません。

多言語モーショングラフィックス: オーディオローカライゼーション問題

国際的なクライアント向けのモーション設計では、同じアセットの言語ローカライズ版がますます必要になります。SaaS 企業の製品説明動画では、同じ 60 秒のアニメーションの英語、スペイン語、ポルトガル語、ドイツ語、日本語版が必要になる場合があります。

従来のアプローチは、言語ごとに別々の声優を雇い、各バージョンを再録音し、テキストレイヤーを個別に調整することです。これは一貫性の問題を作成します: 各言語バージョンは異なるプロダクションのように聞こえます。

一貫したナレーターのアプローチは、AI ボイスクローンを使用して、単一のナレーター識別からすべての言語バージョンを生成します。音声キャラクター — テンポ、音色、トーン — はすべてのバージョン間で同一です。言語のみが変更されます。

AE ワークフロー視点から:

  1. 最終英語ナレーションオーディオをエクスポートし、コンポジションに対して検証します。
  2. 各翻訳スクリプトを同じナレーター音声で生成します。
  3. AE で、言語ごとに 1 回英語コンポジションを複製します。
  4. 各複製のオーディオレイヤーをローカライズ版に置き換えます。
  5. テキストレイヤータイミングを調整して、ローカライズオーディオの句の長さを一致させます (翻訳されたテキストはめったに元のシラビでカウントが同一ではありません)。

ステップ 5 は多言語モーショングラフィックスの実際の労働です。翻訳されたフレーズはしばしばソースより長いか短いです。アニメーションのテキスト表示、下部サード、タイプを適応させる必要があります。一貫したナレーター音声により、複雑なローカライゼーションタスクから少なくとも 1 つの変数が削除されます。

参照: AI ボイスジェネレーター多言語ワークフロー および ニュースルーム多言語配信用ボイスクローン

AE ナレーションレイヤー用のオーディオ形式標準

不要な問題を生成する 1 つのワークフロー詳細: AE にインポートする前にオーディオを間違った形式でエクスポートします。

After Effects ナレーションレイヤーの信頼できる標準は 48 kHz、24 ビット、WAV です。各パラメーターが重要な理由は以下の通りです:

48 kHz サンプルレート: AE のほとんどのビデオプロジェクトはコンポジションオーディオ設定で 48 kHz に設定されています。44.1 kHz ファイルを 48 kHz コンポジションにインポートすると、レンダリング時に AE が再サンプリングされます。結果は通常良好ですが、処理が追加され、場合によっては微細なピッチアーティファクトが生成されます。一致させるために 48 kHz でレコーディングおよびエクスポートしてください。

24 ビット深度: 16 ビットは配信に十分ですが、24 ビットで作業すると、後で音楽と SFX をミックスするときにより多くのヘッドルームが得られます。ナレーションレベルは、低いボリュームで量子化ノイズなしで調整できます。

WAV、MP3 ではなく: MP3 はロスレス圧縮を導入します。AE オーディオミックスに位置し、音楽、サウンドデザイン、追加処理を備えたナレーションレイヤーの場合、MP3 からの圧縮アーティファクトが聞こえるようになります — 特に静止した呼吸と子音で。WAV はロスレスであり、ナレーション長ファイルでは無視できるファイルサイズを追加します。

比較: モーションデザイナー向けナレーションワークフローオプション

方法再タイミング時に再録音?言語スケールAE 統合音声俳優の再予約が必要
従来の VO セッションはい言語ごと手動インポートはい
自己記録、変更なしはい言語ごと手動インポートN/A
low-latency audio capture + Audition ラウンドトリップはい言語ごと自動ラウンドトリップN/A
AI クローン + low-latency audio capture キャプチャいいえ一度にすべて自動ラウンドトリップいいえ
AI クローンのみ (low-latency audio capture なし)いいえ一度にすべて手動インポートいいえ

low-latency audio capture + Audition ラウンドトリップ列は、low-latency audio capture だけで再タイミング問題を解決しないことを示しています — レイテンシとルーティング問題を解決します。再タイミングソリューションは AI クローンです。2 つの機能は、完全な最新のナレーションワークフローで補完的です。

After Effects の実用的なタイミング同期手法

完璧に記録されたナレーションでも、AE の視覚同期には意図的な手法が必要です:

マーカーを使用します。 AE では、コンポジションタイムラインとオーディオレイヤーの両方のマーカーが同期アンカーとして機能します。特定のキーフレームに着地する必要があるその単語にマーカーを配置し、そのマーカーが整列するまでオーディオレイヤーをスライドさせます。

オーディオでスクラブします。 AE でプレイヘッドをドラッグしながら Ctrl を押したままにして、オーディオをスクラブします。これは、特定の単語が特定のフレームに着地するかどうかを確認するのに RAM プレビューより高速です。

Audition の個々のフレーズを時間シフトします。 Audition の時間シフトツールは、明らかなピッチアーティファクトなしにフレーズを 5-15% 短縮または延長できます。小さなタイミング不一致の場合 — 2 秒短くする必要があるフレーズ — Audition での時間シフトは再録音より高速で、音声キャラクターを保持します。

プリカット静寂。 ナレーション録音には通常、ラウンドトリップ前に Audition で切断できるフレーズ間の沈黙が含まれます。よりコンパクトなナレーション記録は通常、アニメーション同期を改善します。

Windows 10/11 でのシグナルチェーンのセットアップ

完全なワークフローの清潔なセットアップ:

  1. マイクをシステムに接続します (USB マイクまたはインターフェース — low-latency audio capture で動作)。
  2. VoxBooster をインストールして、入力デバイスをマイクに構成します。出力をヘッドフォンまたは仮想デバイスに設定します。
  3. Adobe Audition で、編集 → 環境設定 → オーディオハードウェアに移動します。入力を VoxBooster が出力しているデバイスに設定します。
  4. Audition トラックで入力監視を有効にします。
  5. After Effects で、コンポジションオーディオサンプルレートが記録ターゲット (48 kHz) と一致することを確認します。
  6. Audition でナレーションが承認されたら、ファイル → 保存を使用して自動的に AE に反映させます。

カーネルドライバーのインストールは不要です。Win10/11 の VoxBooster はシステムオーディオドライバーを変更せずに low-latency audio capture 経由でオーディオをルーティングするため、管理者レベルのシステム変更なしでセットアップが機能し、同じマシンの他のオーディオソフトウェアと競合しません。

関連ワークフローについては、ポッドキャスト用ボイスチェンジャー および コンテンツクリエーター用ボイスチェンジャー を参照してください。Audition 固有の処理チェーンについては、Adobe Audition ボイスチェンジャーガイド を参照してください。

複数のナレーションバージョンを使用した AE プロジェクトの命名と組織化

プロジェクトに元のナレーション、再タイミング版、および 3 つの言語バージョンがある場合、AE での組織はエラーを防ぎます:

  • バージョンと言語でコンポジションに名前を付けます: Hero_60s_EN_v3Hero_60s_ES_v1
  • ナレーションオーディオファイルを AE プロジェクト構造の専用 audio/narration/ フォルダに保持します。
  • 日付またはバージョン番号を使用してオーディオファイルをバージョン管理: hero_narration_EN_48k_v3.wav
  • Audition のマルチトラックセッションを使用して、すべての言語バージョンを比較用の 1 つの場所に保持します。

この構造は、クライアントが 6 ヶ月後に改訂されたスペイン語版をリクエストしたとき、正しい AE コンポジションとオーディオソースを見つけることができ、未名のレイヤーを通じて狩りをすることなくることを保証します。


モーショングラフィックスのナレーションは事後考えではありません — それは構成内の他のすべての要素と同じくらい時間に敏感です。Audition ラウンドトリップ、low-latency audio capture ベースの記録、AI 再ナレーションは一緒に、最初の記録セッション後に変更が必然的に起こるときに反応性を保つワークフローを形成します。

複数のバージョン、複数の言語、またはその両方を提供するモーションデザイナーにとって、これらのツールは再ナレーションのコストを完全なプロダクションセッションから午後のレンダリングと同期調整にシフトさせます。


VoxBooster を 3 日間無料で試してください — low-latency audio capture ルーティング、AI ボイスクローン、Windows 10/11 での 300 ミリ秒未満のレイテンシ。カーネルドライバーなし、仮想ケーブルソフトウェアなし、管理者の問題なし。

VoxBoosterを試す — 3日間無料。

リアルタイム音声クローン、サウンドボード、エフェクト — 会話するすべての場所で。

  • カード不要
  • ~30msのレイテンシ
  • Discord · Teams · OBS
3日間無料で試す