VoxBoosterの既成ボイスライブラリはほとんどのケースに対応する。しかし、どの既成ボイスも及ばない特定のシナリオがある:あなた自身の声――あなたのティンバー、あなたのアクセント、あなたのアイデンティティ――をリアルタイムで動かしたり、ナレーション、吹き替え、コンテンツに使いたい場合だ。
これがカスタムモデルのトレーニングが存在する理由だ。そして見た目に反して、プロセスはOBSを初めて設定するより簡単だ。
いつ自分の声でモデルをトレーニングする価値があるか
録音に進む前に、実際のユースケースを理解しておく価値がある:
動画を録音するコンテンツクリエイター: スクリプトを書いて、声が良い状態でなくても、elaborate マイクセットアップなしに、一日のどの時間でもクローンでナレーションを生成できる。
吹き替えや朗読者: 自分のティンバーを保ちながら、アイデンティティを失わずにパーソナリティエフェクトを上乗せできる――より低く、よりポーズをとった、よりドラマティックに。
多言語: 日本語を話す。あなたのクローンはあなたのティンバーで英語を話す。イントネーションはあなたのもの(モデルがあなたのプロソディを持っている)が、結果は汎用TTSよりずっと自然だ。
選択的な匿名性: ゲームの音声チャットで自分の本当の声を明かさずに通話に参加したい、でも一貫性が欲しい――毎回同じ代替の声。カスタムクローンはランダムプリセットよりこれを上手く解決する。
ステップ1:リファレンス録音
これがほとんどの人が軽視するステップだ。モデルのクオリティはリファレンスオーディオのクオリティに直接依存する。
長さ: 3〜5分の継続した発話。それ以上でも結果はあまり改善しない。3分未満だと劣化する。
何を話すか: 自然に話そう。声に出してテキストを読む――ニュース記事、短い物語、何かの説明。モデルはイントネーションの変化、自然なポーズ、様々な日本語の音が必要だ。同じ文を繰り返さないこと。
環境: できる限り静かに。エアコンはオフ。窓は閉める。マイクは口から10〜15cm。ダイナミックマイクがあればそれを使う。コンデンサーしかなければ、道が静かな夜に録音しよう。
避けること: 咳、突然の笑い、継続的なバックグラウンドノイズ、あまりに小さく話すか叫ぶこと。モデルは通常の会話的な話し方でトレーニングされている――極端なものはクオリティを劣化させる。
ステップ2:トレーニングウィザード
VoxBooster内で、ボイスクローン → マイボイス → 新しいモデルを作成タブに入る。
- 録音したオーディオをインポートする。 ウィザードはWAVとMP3を受け入れる。WAV 44.1kHz 16ビットが理想的;MP3 320kbpsも機能する。重い圧縮は避けること。
- プレビューを確認する。 VoxBoosterはトレーニング前に自動的にノイズクリーニングを行う――処理されたオーディオを聞いて許容できるか確認する。
- モデルに名前をつける。 この名前は後でボイスリストに表示される。
- トレーニングをクリック。 プロセスがあなたのマシン上でローカルに開始する。
ステップ3:ローカルトレーニング
トレーニングはGPU(NVIDIAのCUDA、AMDのROCm)またはGPUが専用がなければCPUで実行される。
NVIDIA GPU(RTX 3060以上): 5分のオーディオで10〜15分。
古いGPUまたはCPU: 20〜40分。バックグラウンドで実行させておける――VoxBoosterはフォーカスする必要はなく、メモリ上にあるだけでいい。
トレーニング中は、同じPCで重いビデオレンダリングや要求の高いゲームを避けよう。壊れるわけではない――ただし時間が長くなり、GPUのメモリが不足するとモデルにアーティファクトが出ることがある。
完了するとVoxBoosterが通知し、モデルが自動的にクローンリストに表示される。
ステップ4:モデルの使用
リストからカスタムモデルを選択し、リアルタイムをオンにして、話す。それだけ。
クローンはあなたのプロソディを引き継ぐ――あなたのポーズ、あなたの強調、あなたのリズム。アニメイトして話せば、クローンもアニメイトして出てくる。ゆっくりと真剣に話せば、ゆっくりと真剣に出てくる。音声コンテンツはあなたのもの;ティンバーはモデルのものだ。
ヒント:ライブ配信で使う前にショートコールでモデルをテストしよう。自分のクローン声を初めて聞くときは奇妙だ――ほぼ合っているがどこか違う。普通のことだ。相手は通常あなたの普通の声だと思う。
モデルの改良
最初のトレーニングの結果が満足いかない場合:
- よりクリーンなオーディオで再録音(より静かに、よりよいマイクポジション)
- 3分使っていたなら5分に増やす
- 録音での発話のタイプをより多様に――質問、感嘆、より速い発話とより遅い発話を含める
複数のモデルをトレーニングして比較できる。VoxBoosterはすべてをローカルに保存する――サーバーには何もアップロードされない。モデルファイルはディスク上にあり、通常80〜150 MBずつだ。
最終結果
適切なセットアップとクリーンな録音があれば、カスタムモデルがリアルタイム使用で最も説得力がある。それはあなたの声だ――モデルが本当にあなたのティンバーを知っていて、汎用プリセットに近づこうとしているわけではない。動画や配信に定期的に出演するコンテンツクリエイターや誰にとっても、これを機能させるための最初の2時間の労力は十分な価値がある。