ゲームフォーラムで「ボイスチェンジャーがディレイを引き起こす」と誰かが不満を言っているのを見たことがあるだろう。その不満の多くは正当だ――ただ不正確だ。ボイスチェンジャー自体がディレイを引き起こすのではない。ドライバーバッファ、変換のタイプ、そして場合によっては設定ミスのオーディオルーティングの組み合わせだ。各部分を理解することが、機能するセットアップと2週間で捨てるセットアップを分ける。
ボイスチェンジャーでレイテンシを引き起こすもの
オーディオレイテンシには3つの異なる原因があり、それらが加算される:
ドライバーバッファ(バッファレイテンシ)。 Windowsはオーディオをブロック――フレーム単位でキャプチャする。ブロックが大きいほど、ドライバーが処理にデータを渡す前にアクティブなサンプルが多くなる。48 kHzで64フレームのバッファ≈1.3ms。512フレーム≈10.7ms。少なく見えるが、これは最初のステップに過ぎない。
プロセッシングレイテンシ。 これはアルゴリズムがあなたの声を変換するのにかかる時間だ。クラシックなDSPエフェクト――メカニカルなピッチシフト、EQ、リバーブ、フォルマントシフト――は計算が軽く、複雑さによって1〜8msで動作する。ニューラルクローン(別の声のティンバーにオーディオを再合成するネットワーク)は別の話:モデルはコンテキストが必要なので、推論前にオーディオのウィンドウをバッファリングする。実際には、リアルタイムモードで250〜500ms。
ネットワークレイテンシ。 ボイスチェンジャーからではなく――DiscordやTeams、使っている音声サーバーからくる。日本国内のDiscordサーバーでの平均pingは20〜50ms。これが処理に加算されるが、コントロールできない。
エフェクトvsニューラルクローン:実際のレイテンシの差
| モード | 典型的なレイテンシ | 会話で感知できる? |
|---|---|---|
| ピュアエフェクト(ロボット、低い、高い) | 5〜15ms | いいえ |
| シンプルなピッチシフト | 3〜10ms | いいえ |
| フォルマント+コンポジットEQ | 10〜25ms | めったにない |
| ニューラルクローン(ローレイテンシ) | 250〜350ms | はい、でも許容範囲 |
| ニューラルクローン(高クオリティ) | 400〜600ms | 気になる |
VoxBoosterでは、DSPエフェクトはデフォルトで64フレームのバッファでウルトラローレイテンシモードで動作する。ニューラルクローンには特定のトグルがある:「クオリティ優先」vs「レイテンシ優先」。レイテンシモードではウィンドウイングが下がり、クオリティが少し下がる――ほとんどの用途で許容範囲だ。
ボイスチェンジャーのレイテンシの測り方
特殊なソフトウェアは必要ない。最もシンプルな方法:
- Windowsのサウンドレコーダー(またはAudacity)を開く。
- 入力デバイスをVoxBoosterの仮想マイクとして設定する。
- 録音中に物理マイクの近くで手を叩く。
- 録音したオーディオで、元の音のピークとバーチャルにキャプチャされたピークの間のミリ秒単位の距離を測る。
2チャンネルが使えるなら、物理マイク+バーチャルを同時に録音してスペクトログラムで比較できる。基本的なDAWならどれでもこれができる。
ボイスチェンジャーのレイテンシが本当に問題になるとき
常時コール付きの競技FPS。 CS2、Valorant、レインボーシックス――通信は150〜300msのウィンドウで行われる。ニューラルクローンを動かしていると、処理だけでそのウィンドウの半分を使ってしまう。「ミッド」「ローテート」のコールが遅れてタイミングを逃す。ここではDSPエフェクトを使うか、自然な声をそのままにしよう。
リアルタイムのイヤホンモニタリングを使うもの。 ライブで自分の声をモニターする歌手、リアルタイムリターンを聞くポッドキャスター――250msは集中を崩すイライラするエコーだ。このシナリオではニューラルクローンを使わないこと。
問題にならないとき: カジュアルなDiscord、ゲームのロビー、Teamsミーティング、タイミングに対してクリティカルなものが何もない配信。グループ会話での250msはまったく気づかれない。相手はそれすら知らない。
最小レイテンシのためにVoxBoosterを設定する
設定 → オーディオで:
- バッファ:64フレーム(最高パフォーマンス、非力なPCではグリッチが出ることも)
- バッファ:128フレーム(ほとんどに向いたバランス)
- 処理モード:DSPエフェクトにはウルトラローレイテンシ
- ニューラルクローン:**「レイテンシ優先」**トグルをオン
64フレームでオーディオが途切れるなら、他のことを変える前に128に上げよう。バッファのグリッチは2msの追加レイテンシより破壊的だ。
最終的に重要な数字
使用の90%――Discord、配信、仕事のコール、ゲームロビー、サウンドボード――にとって、ボイスチェンジャーのレイテンシは問題にならない。ニューラルクローンの250msは許容範囲で、通常の会話では気づかれない。数字が本当に重要なのは、高レベルの競技FPSただ一つのシナリオだけで、その場合の解決策は単純だ:15ms以下で動作するDSPエフェクトを使えばいい。
文句を言う前に測定しよう。諦める前に設定しよう。