マイクを通じて声を変える方法:完全なチュートリアル
マイクを通じて声を変えることは、ほとんどのガイドが聞こえるより簡単です。ただし、ソフトウェアが実際に何をしているかを理解している場合のみです。このチュートリアルでは、音響基礎(ピッチ、フォルマント、共鳴)、Windowsオーディオシグナルチェーン、Discord、Zoom、OBS、ゲーム内音声チャットの段階的な設定をカバーしています。
TL;DR
- 音声変更は、任意のアプリが見る前にソフトウェアでマイクシグナルをインターセプトすることで機能します
- ピッチシフトのみはロボットのようにサウンドします。自然な結果のためにフォルマントシフトと組み合わせます
- low-latency audio captureはWindows低レベルオーディオAPIで、20ミリ秒未満の処理遅延を可能にします
- 出力は仮想マイクにルーティングします。アプリは本物の代わりに選択します
- セットアップは各アプリの同じパターン:入力として仮想マイクを選択します
- VoxBoosterは、1つのインストールでlow-latency audio capture、AI音声クローン、仮想ルーティングを処理します。任意のWindows 10/11マシンで300ミリ秒未満のエンドツーエンド
1. あなたが「声を変える」ときに実際に何が起こるか
あなたの声は複雑な音響信号です。3つの特性があなたがどのように聞こえるかを決定します:
ピッチ(F0 – 基本周波数) ピッチはあなたの声帯が振動する速度です。成人男性は平均約85〜180Hz。成人女性は約165〜255Hz。ピッチを1オクターブ上げるとF0が2倍になります。下げると半分になります。
フォルマント フォルマントは声道(喉、口、鼻腔)で生成される共鳴ピークで、声帯からのブザーを形成します。F1とF2が最も認識的に重要です。母音音を決定し、声に特性的な音色を与えます。バリトンとテノールが同じ音でも同じピッチで同じメロディーを歌う場合でも、フォルマントが異なるため、サウンドは異なります。
スペクトル包絡線 周波数全体のエネルギーの全体的な分布。声が「暖かい」「鼻音」「あえぎが」「シャープ」に聞こえます。
基本的なピッチシフターはフォルマントに触れずにF0を移動します。これは安いボイスチェンジャーがシマリスまたは吠えるモンスターのように聞こえる理由です。基本は移動しますが、共鳴は間違った場所にとどまります。プロフェッショナルなリアルタイム音声変更は、ピッチとフォルマントを独立して移動し、スペクトル包絡線をターゲット音声プロファイルに合わせて調整します。その組み合わせは、明らかに処理されたものではなく、説得力のある異なる声を生成するものです。
2. Windows上のlow-latency audio captureシグナルチェーン
シグナルパスの理解は、すべてを正しく構成し、問題を診断するのに役立ちます。
物理的なマイク
↓
Windowsオーディオドライバー(low-latency audio capture)
↓
音声変更ソフトウェア(キャプチャループ)
→ ピッチシフトエンジン
→ フォルマントシフトエンジン
→ エフェクトチェーン(EQ、リバーブ、ノイズゲート)
↓
仮想オーディオデバイス(仮想マイク)
↓
ターゲットアプリケーション(Discord / Zoom / OBS / ゲーム)
low-latency audio captureが重要な理由
Windowsには2つのメインオーディオインターフェースがあります:DirectSound(レガシー、高レイテンシー)およびlow-latency audio capture(Windows Audio Session API、Vistaで導入)。low-latency audio captureは2つのモードで実行できます:
- 共有モード - Windowsオーディオエンジンが複数のストリームを混合します。ミックスバッファを追加(通常10~20ミリ秒)しますが、他のアプリが同じデバイスを同時に使用できます。
- 排他モード - アプリケーションはハードウェアインターフェースの直接所有権を取得します。ゼロミキサーレイテンシー、ただし他のアプリは同時にそのデバイスを使用できません。
ボイスチェンジャーは通常、キャプチャ側(マイクを読み取る)でlow-latency audio capture共有モードで実行され、出力用に仮想WDM/MMEデバイスを作成します。仮想マイク。これにより、DiscordはZoom、およびその他のアプリが通常のWindowsオーディオ列挙を通じてそれを選択できます。
典型的なレイテンシー内訳(典型的なデスクトップ、2024ハードウェア)
| ステージ | 典型的なレイテンシー |
|---|---|
| マイクアナログ→デジタル(ADC) | 1~3ミリ秒 |
| low-latency audio captureキャプチャバッファ | 5~10ミリ秒 |
| 処理(ピッチ+フォルマント) | 10~30ミリ秒 |
| 仮想デバイス出力バッファ | 5~10ミリ秒 |
| アプリ受信 | 1~5ミリ秒 |
| 合計 | ~22~58ミリ秒 |
音声チャットでは50ミリ秒以下は知覚不能です。100ミリ秒以下は許容範囲内です。カーネルモードドライバーまたは大きなDSPバッファが必要なソフトウェアはこれを150ミリ秒以上に押すことができ、会話で認識可能になります。
3. 正しい音声変更ソフトウェアを選択する
アプリごとのセットアップに入る前に、あなたのユースケースに合ったソフトウェアを選択してください:
カジュアル使用/ストリーミング/ゲーム用: プリセットライブラリと仮想マイク出力を備えたリアルタイムボイスチェンジャー。low-latency audio capture対応とフォルマントシフトを探してください。ピッチだけではなく。
プロフェッショナルコンテンツ/ユニークな声のため: AI音声クローン、リアルタイムで訓練された音声モデルにあなたの音声をマップします。レイテンシーは少し高い(最新エンジンで300ミリ秒未満)がその結果は記録された声と区別できません。
絶対最低レイテンシーの場合: ネイティブlow-latency audio capture排他モード+小バッファサイズ(48 kHzで128サンプル= 2.67ミリ秒/バッファパス)。ライブパフォーマンスまたはステージ使用にのみ重要です。Discordやゲームには必要ありません。
インストール前に確認するべき主要機能:
- Windowsサウンド設定に表示される仮想マイクを作成します
- カーネルドライバーは不要(カーネルドライバーはゲーム内のアンチチートソフトウェアと競合する場合があります)
- 追加のVisual C++インストールなしにWindows 10および11で実行されます
- low-latency audio capture キャプチャサポート(WDM/MMEポーリングのみではなく)
VoxBoosterは署名されたWDM仮想オーディオデバイスをインストールし、low-latency audio captureを通じて処理します。カーネルモードドライバーなし。Windows 10および11で動作し、標準のピッチ/フォルマント効果にAI音声クローンを追加します。
4. ステップバイステップ:Discord用のセットアップ
Discordは最も一般的なユースケースで、最も簡単に構成できます。
ステップ1 — 音声変更ソフトウェアをインストールして起動します
インストーラーを実行してソフトウェアを起動します。Windows システムトレイに表示され、オーディオが流れていることを確認します(入力メーターは話すときに反応する必要があります)。
ステップ2 — Windowsで仮想マイクを確認します
設定 → システム → サウンド → その他のサウンド設定(またはスピーカートレイアイコンを右クリック → サウンド → 録音タブ)を開きます。新しい録音デバイスが表示される必要があります。通常「VoxBooster Virtual Microphone」のような名前です。「接続なし」と表示される場合は、音声変更サービスを再起動します。
ステップ3 — Windowsミキサーで物理マイクを無効にします
録音タブの物理マイク上で右クリック → 無効にする。これにより、Discordが同時に実マイクから生オーディオもキャプチャするのを防ぎます。後で再度有効化できます。
ステップ4 — Discordを設定します
ユーザー設定 → 音声とビデオに移動します。入力デバイスの下で、ドロップダウンから仮想マイクを選択します。入力モードを Voice Activity に設定し、Discordが話すときのみアクティブになるまで感度スライダーを調整します。
ステップ5 — テストします
Discordの音声とビデオ設定で確認させてくださいエコテストを使用するか、友人を持つプライベートサーバーに参加します。他の人があなたの元の音を処理した声を聞いていることを確認してください。
Discordエコの トラブルシューティング: 他の人があなたを2回聞く場合、物理マイクはWindowsで有効になっています。ステップ3を再確認します。
5. ステップバイステップ:Zoom用のセットアップ
Zoomは独自のオーディオ処理層(自動ノイズ抑制、エコーキャンセル)を追加し、音声変更出力と干渉する可能性があります。
ステップ1 — 上記のDiscordセクションのステップ1~3を完了します(インストール、仮想マイク確認、Windowsで物理マイク無効化)。
ステップ2 — Zoomを設定します
設定 → オーディオを開きます。マイクの下で、仮想マイクを選択します。マイクをテストをクリックして、レベルが登録されていることを確認します。
ステップ3 — Zoomのオーディオ処理を無効にします
これは重要です:設定 → オーディオ → 詳細に移動し、以下を設定します:
- バックグラウンドノイズを抑制する → 低(またはオフ)
- 断続的なノイズを抑制する → オフ
- エコーキャンセレーション → オート
Zoomのアグレッシブなノイズ抑制は音声変更アーティファクトを「ノイズ」として扱い、効果を低下させ、フィルタリングします。低またはオフに設定すると、処理されたオーディオが清潔に通過します。
ステップ4 — テストします
Zoomオーディオ設定でスピーカーとマイクをテストを使用するか、テストミーティングを開始します。変換された声がアーティファクトなしにクリーンに聞こえることを確認します。
6. ステップバイステップ:OBS用のセットアップ
OBS(Open Broadcaster Software)はストリーミングと記録に使用されます。通信アプリとは異なり、オーディオソースを処理します。システム全体の入力デバイスを選択するのではなく、ソースとしてオーディオをキャプチャします。
ステップ1 — 音声変更ソフトウェアをインストールして仮想マイクを確認します(Discordセクションのステップ1~2)。
ステップ2 — OBSでオーディオ入力キャプチャソースとして仮想マイクを追加します
OBSで、ソース → 追加 → オーディオ入力キャプチャに移動します。名前を付けます(例:「音声チェンジャー」)。デバイスドロップダウンで仮想マイクを選択します。
ステップ3 — 物理マイクソースを削除またはミュートします
以前、実マイクを指すOBSにマイクソースがあった場合、それをミュートするか削除して、二重化を避けます。
ステップ4 — ノイズゲートフィルターを追加します(オプションだが推奨)
オーディオ入力キャプチャソースを右クリック → フィルター → 追加 → ノイズゲート。閉じる閾値を約-50 dBに、開く閾値を約-40 dBに設定します。これにより、沈黙中の処理アーティファクトが記録に表示されるのを防ぎます。
ステップ5 — OBSで監視します
オーディオソースを右クリック → 高度なオーディオ設定 → 有効にします 監視と出力。記録またはストリーミング中にヘッドフォンを通じてリアルタイムで処理された声を聞きます。
7. ステップバイステップ:ゲーム内音声チャット
ほとんどのゲーム(Valorant、Fortnite、Counter-Strikeなど)はWindowsデフォルト通信デバイスを使用するか、ゲームのオーディオ設定で入力デバイスを選択できます。
オプションA — デフォルト通信デバイスとして設定します
Windowsサウンド → 録音タブで、仮想マイクを右クリック → デフォルト通信デバイスとして設定。通信デバイスを自動選択するゲームはそれを使用します。
オプションB — ゲーム内に設定します
ゲームのオーディオまたは音声設定を開きます。マイク/音声入力ドロップダウンを見つけて、名前で仮想マイクを選択します。これはそのゲーム特有のWindowsデフォルトをオーバーライドします。
アンチチートに関する考慮事項
いくつかのアンチチートシステム(Vanguard、EAC)がカーネルモードドライバーを監視します。Ring-0(カーネルドライバー)にインストールする音声チェンジャーはアンチチートフラグをトリガーできます。署名されたWDM仮想オーディオデバイスのみでユーザースペースアプリケーションとして実行されるソフトウェア。カーネルドライバーなし。この問題を完全に回避します。
ゲーム内レイテンシー
ゲーム内音声チャットはローカル音声変更レイテンシーの上に独自のネットワークレイテンシーを追加します。ローカル処理部分(マイク→仮想マイク)は50ミリ秒以下に保つ必要があります。ネットワーク部分はあなたの制御下にあります。総認識遅延はサーバーPingに依存し、主に音声チェンジャーには依存しません。
8. 声を調整:ピッチ、フォルマント、エフェクト
ルーティングが機能したら、変換の品質はパラメーターのチューニング方法に依存します。
ピッチシフト
最も自然な声は、元のピッチの±12セミトーン(1オクターブ)以内です。その先では、アーティファクトが知覚可能になります。説得力のある男性→女性のシフトの場合、+5~+8セミトーンを試してください。女性→男性の場合、-4~-6セミトーンを試してください。
フォルマントシフト
フォルマントシフトはピッチに関係なく声道の共鳴を移動させます。フォルマントを上げて、より若く/小さく聞こえます。下げて、より大きく/より深く聞こえます。既にピッチが移動している声の良い開始点は、+1~+2セミトーンでフォルマントを上げて対応することです。
ノイズゲート
-55 dBで閉じるようにノイズゲートを設定し、アルゴリズムが環境ノイズや呼吸音を処理するのを防ぎます。これにより、沈黙中の出力が清潔に保たれます。
リバーブとEQ
適度なルームリバーブ(減衰0.3~0.5秒)はピッチシフトアーティファクトをマスクできます。わずかなハイシェルフブースト(8 kHzを超える+2 dB)は理解を加えます。通信コンテキストで大きなリバーブを避けます。洞窟にいるように聞こえます。
AI音声クローン
ソフトウェアがAI音声モデルをサポートしている場合、チューニングアプローチは異なります:ピッチとフォルマントを手動で調整する代わりに、訓練された音声モデルを選択して、コンバージョン強度を調整します(エンジンがあなたのスピーチをターゲット音声に押す強度)。70~80%強度で開始します。高すぎるとファストスピーチにアーティファクトを引き起こします。低すぎるとオリジナルボイスが漏れます。
9. 一般的な問題のトラブルシューティング
「アプリは仮想マイクを見ていない」 音声変更サービスを再起動し、ターゲットアプリを再度開きます。一部のアプリはスタートアップ時にデバイスリストをキャッシュし、その後追加された新しいデバイスを検出しません。
「声がロボットまたはメタリックに聞こえる」 ピッチはシフトしていますが、フォルマントはシフトしていません。フォルマント保存を有効にするか、フォルマントシフトスライダーを調整して、ピッチシフト方向にほぼ一致させます。
「Discordでエコーまたはダブルボイス」 仮想マイクの隣で物理マイクがアクティブです。Windowsサウンド → 録音で物理マイクを無効にするか、ミュートします。
「Zoomのノイズ抑制が効果を殺す」 Zoomオーディオ抑制を低またはオフに設定します(設定 → オーディオ → 詳細)。
「ボイスチェンジャーはゲームクラッシュまたはアンチチートBANを引き起こす」 ソフトウェアはカーネルモードドライバーを使用します。署名されたWDM仮想デバイスのみのユーザースペースボイスチェンジャーに切り替えます。
「高レイテンシー - 話すときの明らかな遅延」 音声変更設定でlow-latency audio captureバッファサイズを増やします(小さいバッファ=低レイテンシーですが高CPUリスク)。また、同じlow-latency audio captureデバイスを使用する競合するオーディオアプリケーションを閉じます。
結論
Windowsでマイクを通じて声を変えることは4つのことに要約されます:操作している音響プロパティ(ピッチ、フォルマント、共鳴)を理解し、low-latency audio captureを通じて音声変更アプリケーションでシグナルをルーティングし、それを仮想マイクに出力し、各ターゲットアプリで仮想マイクを選択します。アプリごとのセットアップは、基礎となるパターンを理解したら実質的に同じです。
最も難しい部分は通常、変換を自然に聞こえるようにすることです。そしてこれにはピッチシフト単独ではなく、ピッチシフト以外のフォルマントシフトが必要です。
すべて1つの場所で - low-latency audio capture処理、AIクローン、仮想ルーティング、カーネルドライバーなし、Windows 10および11と互換性 - VoxBoosterは次のセッションで試す価値があります。