毎週のように「音声エフェクト → ロボット」を選んだけど本当は「音声クローン → Marcus Blake」が欲しかった、というサポートチケットが届きます。どちらも出力で声が変わります。どう変えるかが全く違い、失敗の現れ方も違います。

エフェクトはDSP

エフェクト — デーモン、ヘリウム、ウォーキー、スタジアム、水中、計20+プリセット — は古典的なオーディオ信号処理チェーンで動きます：EQ、ピッチシフト、リバーブ、ビットクラッシュ、フォルマント調整、ノイズゲート。出力は決定論的：同じ入力 + 同じパラメータ = 同じ出力。

エフェクトは、特定の人物を装わずにキャラクター性だけ欲しい時（「デーモンっぽい声」「ラジオ声」）に完璧です。

クローンはニューラルモデル

Voice Cloneはターゲット音声で学習したニューラルネットに音声をリアルタイムで通します。モデルは発話の音韻的内容を解析し、ターゲット音声の音色で再合成します。

Voice Cloneは、別の誰かになる必要がある時に使う — ストリーミング用ナレーター声、TTRPGのNPC声、ボイスオーバーのキャラクター声など。

エフェクトを選ぶべき時：

クローンを選ぶべき時：

ゲーム配信で「エフェクト → デーモン」を選び、威圧的な敵キャラのような声を期待する。出てくるのは安っぽいGarry’s Modミーム風の音。なぜならデーモンはピッチシフト+リバーブで、本物の悪魔声モデルではないから。

本当に欲しかったのは「Voice Clone → Theo Strand」（低く、かすれた、キャラクター系の声）をメイン配信声にして、「エフェクト → デーモン」を特定シーンのホットキー発動として使うセットアップです。

エンジンはスタックします。Voice Cloneをベース声として、エフェクトを上から一瞬だけトリガーできます。これが、一週間使い込んだストリーマーのほとんどが辿り着くセットアップです。