毎週のように「音声エフェクト → ロボット」を選んだけど本当は「音声クローン → Marcus Blake」が欲しかった、というサポートチケットが届きます。どちらも出力で声が変わります。どう変えるかが全く違い、失敗の現れ方も違います。
エフェクトはDSP
エフェクト — デーモン、ヘリウム、ウォーキー、スタジアム、水中、計20+プリセット — は古典的なオーディオ信号処理チェーンで動きます:EQ、ピッチシフト、リバーブ、ビットクラッシュ、フォルマント調整、ノイズゲート。出力は決定論的:同じ入力 + 同じパラメータ = 同じ出力。
- レイテンシ: 約5ms。実質即時。
- 品質: 洗練された出力。各プリセットは箱から出してすぐクリーンに使えるよう調整されています。
- 範囲: 声の音を変えるが、アイデンティティは変えない。聴く人はあなたと分かる、ただ変調されている。
エフェクトは、特定の人物を装わずにキャラクター性だけ欲しい時(「デーモンっぽい声」「ラジオ声」)に完璧です。
クローンはニューラルモデル
Voice Cloneはターゲット音声で学習したニューラルネットに音声をリアルタイムで通します。モデルは発話の音韻的内容を解析し、ターゲット音声の音色で再合成します。
- レイテンシ: 約500ms(品質とのトレードオフで250msまで設定可能)。
- 品質: 良い声は短いクリップで「本物の人?」テストに合格;注意深く聴くとAIの痕跡が見える。
- 範囲: 声のアイデンティティを変える。別の人があなたの言葉をあなたの抑揚で話す感じ。
Voice Cloneは、別の誰かになる必要がある時に使う — ストリーミング用ナレーター声、TTRPGのNPC声、ボイスオーバーのキャラクター声など。
決定木
エフェクトを選ぶべき時:
- キャラクター音が欲しい、キャラクターのアイデンティティではなく。
- ゼロレイテンシが必要(競技系マルチプレイ、音楽パフォーマンス)。
- 観客に「まだあなたが話している」と分かってほしい。
クローンを選ぶべき時:
- 特定の別の人のような声になりたい。
- 500msの往復が許容できる(Discord通話、VO業、ポッドキャスト、ストリーム)。
- 観客に不信感を保留してほしい。
ほぼ全員がする間違い
ゲーム配信で「エフェクト → デーモン」を選び、威圧的な敵キャラのような声を期待する。出てくるのは安っぽいGarry’s Modミーム風の音。なぜならデーモンはピッチシフト+リバーブで、本物の悪魔声モデルではないから。
本当に欲しかったのは「Voice Clone → Theo Strand」(低く、かすれた、キャラクター系の声)をメイン配信声にして、「エフェクト → デーモン」を特定シーンのホットキー発動として使うセットアップです。
エンジンはスタックします。Voice Cloneをベース声として、エフェクトを上から一瞬だけトリガーできます。これが、一週間使い込んだストリーマーのほとんどが辿り着くセットアップです。