ボイスチェンジャー + Runway Act-One:AI短編映画の完全ワークフロー
Runway MLのAct-One機能は、ソロクリエイターが達成できることを変えました。スマートフォンのカメラと自然光だけでシーンを演じた自分を録画すると、Act-Oneがあなたの顔の演技を生成された動画内の任意のキャラクターにマッピングします。ほとんどのインディー映画制作者にとって欠けているピースは音声です。Act-Oneは顔を処理しますが、あなたの口から出る声はまだあなた自身の声です。
リアルタイムボイスチェンジャーがそのギャップを埋めます。すでに変換された声で参照動画を録画すれば、出力クリップにはキャラクターの声が最初から組み込まれています。後処理もアフレコも不要です。
このガイドでは、完全なワークフローを解説します。キャラクターのアーキタイプ別プリセットの選択、Runwayがクリアにキャプチャできるようオーディオチェーンを設定すること、そして配信用にすべてをビデオエディタで組み立てることを扱います。
要点まとめ
- Runway Act-Oneは参照動画から顔の動きを読み取り、生成されたキャラクターにマッピングします。
- 仮想マイクを通じて動作するリアルタイムボイスチェンジャーで、キャラクター音声をすでに適用した状態で参照動画を録画できます。
- 参照録画のオーディオトラックが最終的なセリフになります。Act-Oneは音声に触れません。
- 録画ボタンを押す前に、キャラクターのアーキタイプに音声プリセットを合わせてください。
- VoxBoosterのlow-latency audio captureバーチャルマイクは、ドライバーのインストールなしにOBS、ウェブカメラソフトウェア、スクリーンレコーダーに認識されます。
- 最終的な組み立ては簡単です。Act-Oneの動画出力をインポートし、処理済みオーディオトラックを同期し、カラーグレーディングしてエクスポートします。
Runway Act-Oneとは?
Runway MLは、映画制作者、VFXスタジオ、コンテンツクリエイターが動画生成や編集タスクに使用する生成AIプラットフォームです。Act-Oneは特定の機能で、顔の動きの転送を行います。人間の演者の参照動画を分析し、生成された出力クリップ内のキャラクターの顔アニメーションを駆動します。
このワークフローは純粋なテキスト・トゥ・ビデオとは異なります。プロンプトで動きを説明する代わりに、あなたがそれを体現します。あなたの眉の動き、リップシンク、頭の傾きがキャラクターの表情になります。これにより、プロンプトのみの生成よりも大幅に自然で感情的に一貫したアニメーションが生まれます。真実の情報源が本物の人間のパフォーマンスデータだからです。
Act-OneはRunway Gen-4、グリーンスクリーンツール、インペインティングなど、より広範なツールセットに加わり、AIアシスト映画の完全な制作パイプラインとして機能します。
音声が見落とされがちな理由
クリエイターが最初にAct-Oneを試したとき、通常の結果は視覚的には印象的ですが、聴覚的には不調和です。キャラクターの顔は俳優の表情豊かさで動きますが、声は生のままで録音されています。自然な人間の音色、変換なしで、生成された映像の下に貼り付けられます。その乖離はすぐに明らかです。
従来の解決策はポストプロダクションでの音声処理です。クリーンに録音し、後から音声をエフェクトにかけます。これは機能しますが、同期の問題を生じさせます。Act-Oneのリップシンクは参照動画に依存しています。微妙な演技を録画してから後で重いボーカル処理を追加すると、母音を伸ばしたり、フォルマントシフトを加えたりすると、キャラクターの口の動きが処理済み音声と一致しなくなります。
リアルタイムでボイスチェンジャーを適用しながら録画することでこの問題を解決できます。演技中にヘッドフォンで変換された声を聞くことで、自然と口の動きとペースが処理済み音声に合わせられます。Act-Oneがその調整された動きをキャプチャします。結果として、生成された出力でよりタイトなリップシンクが実現します。
Runway Act-Oneが参照動画を読み取る方法
入力フォーマットを理解することで、より良い参照映像を録画できます。
Act-Oneは参照クリップでフェイストラッキングを実行します。以下が期待されます。
- 正面または正面に近い角度 - 横顔は精度を大幅に低下させます。顔をフレームの中央に配置し、カメラを目の高さに合わせることを目指してください。
- 一定した照明 - 鼻や目にかかる強い影はランドマーク検出を妨げます。柔らかい正面光(リングライト、窓の光)が理想的です。
- 背景の動きを最小限に - 背後を歩く人や動くオブジェクトはトラッカーを混乱させる可能性があります。
- 唇をはっきり見せる - 口の前の髭やマイクはリップシンクの忠実度を下げます。
- 720p以上、24fpsまたは30fps - 低解像度はトラッキングの精度を下げます。
- MP4コンテナ - アップロードパイプラインで最も信頼性が高いです。MOVも動作します。
- テイクごとに30秒未満 - Act-Oneはこの長さで効率的に処理します。より長いクリップも可能ですが、生成キュー時間が増加します。
参照動画のオーディオトラックはAct-One自体では分析されません。生成は純粋に視覚データによって駆動されます。つまり、オーディオトラックのボイスチェンジャー出力は顔アニメーションの品質にまったく影響しません。2つのレイヤーは完全に独立しています。
キャラクターのアーキタイプと音声プリセットの組み合わせ
最も優れたAct-One映画には音響的な一貫性があります。セリフが1行も書かれる前から、声がキャラクターに合っています。実践的な組み合わせガイドをご紹介します。
| キャラクターのアーキタイプ | 推奨音声処理 | メモ |
|---|---|---|
| 装甲の戦士 / 騎士 | ピッチを3-5半音下げる + 軽い残響 | 重みを加える。残響はヘルメットの共鳴をシミュレート |
| 超自然的 / エーテル的な存在 | ゆっくりとしたピッチ変調 + フォルマントを上げる | 不安定で異世界的なテクスチャを生み出す |
| ロボット / AI構造体 | ハードボコーダーまたはビットクラッシュプリセット | 明確で意図的なデリバリーで最も効果的 |
| 古い悪 / 悪役 | 重いピッチダウン + 微妙なコーラス | コーラスが複数の声の感覚を加える |
| 若い英雄 / 選ばれし者 | わずかにピッチアップ + 最小限の処理 | 感情的な範囲を保持する。処理しすぎない |
| エイリアン外交官 | フォルマントシフト + 軽いステレオ幅 | 非人間的に聞こえながら言葉を理解可能に保つ |
| ナレーター / 神託 | ピッチを2半音下げる + 長い残響の尾 | 壮大なドキュメンタリーのエネルギー |
この表は出発点であり、規則集ではありません。プリセットをブレンドして、演技中に自分の耳を信じてください。演技中にヘッドフォンで声が正しく聞こえれば、完成した映画でも正しく感じられるでしょう。
オーディオチェーンの設定
目標は、処理済み音声を録音ソフトウェア(参照動画のオーディオトラック用)とモニタリングヘッドフォン(演技中にキャラクターとして自分の声を聞くため)の両方にルーティングすることです。
ステップ1 - ボイスチェンジャーのインストールと設定
Windows 10または11にVoxBoosterをインストールします。カーネルドライバーは不要です。low-latency audio captureバーチャルマイクは最初の起動から数秒以内にWindowsのサウンド設定に標準的な入力デバイスとして表示されます。
VoxBoosterを開き、物理マイクを入力ソースとして選択し、上のアーキタイプ表からプリセットを選びます。出力セレクタで出力がVoxBooster Virtual Micにルーティングされていることを確認します。
ステップ2 - モニタリングの設定
VoxBoosterの設定でヘッドフォンモニタリングを有効にします。これで変換された声をリアルタイムでヘッドフォンから聞けるようになります。DSPプリセットの遅延は20ms未満で、演技中は知覚できません。AIボイスクローニングモードは短い処理ウィンドウ(エンドツーエンドで300ms未満)を追加します。最初は少し違和感を感じる演者もいます。テイクの前に数行練習してください。
ステップ3 - 録音ソフトウェアの設定
スクリーンレコーダーまたはウェブカメラキャプチャアプリ(OBS、Windowsカメラ、Loomなど)を開きます。オーディオ入力設定で、物理マイクの代わりにVoxBooster Virtual Micを選択します。これにより、録音が生の入力ではなく処理済み音声をキャプチャすることが保証されます。
OBSを使用する場合:
- ソースでAudio Input Captureソースを追加します。
- ソースプロパティで、デバイスドロップダウンからVoxBooster Virtual Micを選択します。
- ウェブカメラを指すVideo Capture Deviceソースを追加します。
- 録画を開始します。両方のストリームが同じ出力ファイルに書き込まれます。
ステップ4 - 参照テイクの録画
テイクを短く保ちます。10から25秒がAct-Oneの最適な範囲です。自然に演技し、カメラレンズとアイコンタクトを維持します。キャラクターへの完全なコミットメントでセリフを声に出して話してください。Act-Oneは顔の筋肉の動きを通じて感情の強度を読み取ります。
録画後、出力ファイルを確認します。オーディオトラックには処理済み音声が含まれているはずで、生のマイクフィードではありません。Runwayにアップロードする前にメディアプレーヤーでファイルを再生してください。
Runway Act-Oneへのアップロードと出力の生成
Runwayアカウントにログインし、Act-One機能に移動します。インターフェースは2つの入力を求めます。
- 参照動画 - 処理済み音声が含まれた録画済みパフォーマンスクリップ。
- キャラクターソース - Gen-4から生成された画像、アップロードされたキャラクターレンダー、または以前の生成出力。
参照動画をアップロードします。Act-Oneは分析パス中に顔の動きデータを抽出します。次にキャラクターを選択または生成します。生成設定(アスペクト比、スタイルガイド、シーン環境のプロンプトガイダンス)を設定します。
生成を送信します。キュー時間はプランとプラットフォームの負荷によって異なります。待っている間に、ポストプロダクション用のアセット(シーン背景要素、タイトルカード、音楽トラックなど)を準備できます。
出力クリップがダウンロードされると、パフォーマンスによって駆動されるキャラクタービデオが含まれています。ダウンロードしたファイルのオーディオトラックは、Runwayのパイプラインバージョンによっては無音か参照音声が通っているかのどちらかです。いずれの場合も、次のステップはビデオエディタでの最終コンポジットの組み立てです。
ポストプロダクションの組み立て
ビデオエディタ(DaVinci Resolve、Premiere Pro、CapCut、または任意のNLE)を開きます。ターゲット出力仕様に合った新しいプロジェクトを作成します(通常1920x1080または縦向きの1080x1920、24fps)。
トラックレイアウト:
| トラック | コンテンツ |
|---|---|
| V1 | Act-One生成キャラクタービデオ |
| V2 | 背景プレートまたは環境映像 |
| A1 | 参照録画からの処理済み音声 |
| A2 | 音楽 / 環境音 |
| A3 | オプションのSFXレイヤー |
参照録画の処理済み音声をV1のキャラクタービデオに同期させます。参照テイクで音声と動画を同時に録画したため、同期はすでに組み込まれています。アップロードパイプラインで数フレームトリミングされた場合を除き、手動で調整する必要はありません。
背景プレートを追加し、キャラクタークリップをカラーグレーディングして合わせ、音声をミックスします。YouTube、TikTok、Instagramへのアップロード用にH.264またはH.265でエクスポートします。
よくある問題と解決策
Act-One出力の顔の動きが硬くまたは不気味 通常、参照動画のトラッキング問題が原因です。照明の均一性を確認し、顔に強い影がかかっていないことを確認します。より柔らかい光源で再録画します。
生成された動画でリップシンクがずれる アップロード前に参照音声と動画が同時かつ同期して録画されていることを確認します。ソースファイルのずれは出力で増幅されます。音声を別に録画してマージした場合、マージがフレーム単位で正確であったことを確認します。
演技中にボイスチェンジャーが顕著な遅延を追加する DSPプリセットは20ms未満で動作し、本質的に知覚できません。遅延に気づく場合は、オーディオインターフェースのバッファサイズが高すぎないか確認してください。録音ソフトウェアのlow-latency audio captureバッファを128または256サンプルに減らしてください。
処理済み音声が最終クリップで過度に圧縮または歪んで聞こえる ボイスチェンジャーのゲインステージングが高すぎる可能性があります。VoxBoosterの出力レベルを信号が約-6 dBFSでピークに達するまで下げてください。これによりビデオエディタの音声処理のためのヘッドルームが残ります。
Act-Oneがアップロードされた参照動画を受け付けない ファイルがMP4(H.264)であること、解像度が少なくとも720pであること、持続時間がRunwayプランの記載制限内であることを確認します。元のキャプチャソフトウェアが珍しいコンテナを生成した場合は、HandBrakeで再エンコードします。
完全な制作チェックリスト
Runwayにアップロードする前にシーンごとにこのチェックリストを使用してください。
- プリセットを選択してキャラクターでリハーサル済み
- ヘッドフォンモニタリングの確認(変換された声を聞いている)
- 録音ソフトウェアをVoxBooster Virtual Mic入力に設定済み
- 照明を確認 - 均一、正面、顔に強い影なし
- 背景がクリア - 動くオブジェクトなし
- テストテイクを録画して再生 - 音声は処理済みで生ではない
- テイクの長さが30秒未満
- MP4 H.264、最低720pでファイルをエクスポート
- Runwayアップロード前にメディアプレーヤーでファイルが正しく再生される
マルチシーン短編映画へのスケールアップ
インディーAI映画制作者は同じ壁によく直面します。最初のテストクリップは素晴らしいですが、一貫した3から5分の短編映画を制作するには多くのクリップにわたる一貫性が必要です。いくつかの実践が役立ちます。
キャラクターの声の一貫性 - 制作を開始する前にプリセット設定を保存してください。同じキャラクターのすべてのテイクに同一のプリセットとゲイン設定を使用します。ピッチシフト量のわずかな変化もカット間で気づかれます。
参照動画の一貫性 - 同じキャラクターが登場するすべてのテイクに同じカメラポジション、レンズ、照明設定を使用します。Act-Oneは生成されたクリップ全体でより一貫した顔のスタイルを生成します。
バッチ処理 - 可能であれば、すべてのテイクを1回のセッションで録画します。一貫した音響環境(同じ部屋、同じマイクポジション)により、処理済み音声のトーンが均一に保たれます。
オーディオミキシング - すべてのセリフが同じプリセットで処理されているため、EQとコンプレッションの設定はA1バスで一度設定するだけで、すべてのシーンに均一に適用できます。
Runway独自のドキュメントとコミュニティショーケース(runwayml.com)には、参照用の拡張されたAct-Oneプロジェクトの例が含まれています。
Act-One作業においてボイスチェンジャーの品質が重要な理由
Act-Oneはインディー映画制作を、オーディオ品質がボトルネックになるレベルにまで引き上げます。この忠実度で生成されたキャラクタービデオには、それに見合ったオーディオトラックが必要です。基本的なピッチシフトプラグインは、高品質なビジュアル出力と衝突する金属的なアーティファクトを生成します。参照録画は最終的なオーディオトラックでもあり、再録音セッションはありません。そのためキャプチャ品質は恒久的です。
VoxBoosterはAIボイスクローニングのエンドツーエンドで300ms未満、DSPプリセットで20ms未満で音声を処理します。これは自然な演技に十分な速さです。low-latency audio captureバーチャルマイクはドライバーのインストールなしにWindowsに認識され、OBS、ウェブカメラソフトウェア、スクリーンレコーダーにクリーンに表示されます。結果として、ビジュアル出力を損なうのではなく、それと並んで成立するボイストラックが得られます。
価格は月額€5.99から。無料トライアルでコミットする前に完全な制作テストができます。
FAQ
Runway Act-Oneとは何ですか?参照動画をどのように使用しますか? Act-OneはRunway ML内の機能で、人間の俳優の表情と頭の動きを生成されたキャラクターに転送します。自分が演技している短い参照動画を提供すると、Act-Oneが顔の動きを読み取り、キャラクターにマッピングします。演技が良いほど、出力はより表情豊かになります。
Act-One参照動画の録画中にボイスチェンジャーを使用できますか? はい。Act-Oneは音声のピッチではなく、顔の形状と動きのみを分析するため、仮想マイクを通じてリアルタイムボイスチェンジャーを実行し、動画と処理済み音声を同時に録画できます。キャプチャした音声が最終的なセリフのトラックになります。Act-Oneはビジュアル面を独立して処理します。
Act-OneでファンタジーやSFキャラクターに最適な音声プリセットはどれですか? 装甲の英雄や戦士には、軽いリバーブ付きのピッチダウンプリセットがキャラクターを空間に定着させます。超自然的またはエーテル的なキャラクターには、遅いピッチ変調またはフォルマントシフトが異世界的なテクスチャを生み出します。ロボットプリセットはメカやAIキャラクターに適しています。重要なのは、参照映像で演じるキャラクターのアーキタイプにプリセットのエネルギーを合わせることです。
Runway Act-Oneは特定の参照動画フォーマットが必要ですか? Act-Oneは、よく照らされた正面ショット、顔がはっきり見え、背景が最小限のものが最適です。720p以上の解像度が推奨されます。MP4が最も信頼性の高いコンテナです。最初の参照テイクは30秒以内のクリップにしてください。長いシーンには複数のテイクを連鎖させることができます。
low-latency audio captureとは何ですか?ボイスチェンジャーの出力を録音するためになぜ重要ですか? low-latency audio capture(Windows Audio Session API)はWindows 10/11に内蔵された低遅延オーディオインターフェイスです。low-latency audio captureバーチャルマイクを提供するボイスチェンジャーは、スクリーンレコーダーやウェブカメラソフトウェアを含むあらゆる録音アプリが、ドライバーのインストールなしにほぼゼロ遅延で処理済み音声をキャプチャできるようにします。
リアルタイムボイスチェンジャーでAct-One参照動画を録画するには強力なPCが必要ですか? ミッドレンジのCPUは、20ms未満の遅延でリアルタイムDSPエフェクトを処理できます。AIボイスクローニングの推論はGPU負荷を増加させます。専用GPUは助けになりますが必須ではありません。参照録画ステップは通常短く(30秒未満)、控えめなハードウェアでもパフォーマンスコストは一時的なものです。
このワークフローは長編AI映画にも使用できますか?短いクリップのみですか? Act-Oneは短から中程度のクリップに最適化されており、Runwayの生成キューは1分未満のクリップを優先します。長い映画の場合、標準的なアプローチはシーンごとの制作です。シーンごとに参照テイクを録画し、各出力クリップを生成して、ビデオエディタで組み立てます。ボイスチェンジャーはテイクごとに一度実行され、処理済み音声は各クリップとともにエクスポートされます。