Audacity向けボイスチェンジャー:完全なワークフローガイド

Audacityはポッドキャスト世界の大きな部分のデフォルトDAWです。無料で、戦い、声の作業に本当に有能です。ネイティブに行わないのはリアルタイムであなたの声を変更することです。その差は外部ボイスチェンジャーが介入する場所であり、統合ほとんどの人が期待するより清潔です。

このガイドは、完全なワークフロー全体を説明しています。low-latency audio capture経由でAudacityにボイスチェンジャーをルーティングし、処理されたトラックを記録し、Audacityの組み込み効果で後処理し、文字音声にAI音声クローニングを使用し、最終的な記録をWhisper経由でショーノートトランスクリプトにパイプします。

TL; DR

Audacityは、low-latency audio capture互換の入力を記録します。ボイスチェンジャーが選択可能な記録デバイスになります。
Audacityのデバイスツールバーで、ボイスチェンジャーを入力ソースとして設定します。Audacity内のプラグインまたは拡張機能は必要ありません。
記録後にAudacityのノイズ低減+ EQチェーンを実行して、クリーンな最終オーディオを取得します。
AI音声クローニングを使用すると、本当に異なり、単なるピッチシフトではない音のキャラクター音声を記録できます。
Whisper転写をエクスポートされたWAVに実行して、数分でショーノートを生成します。
完全なワークフローは、カーネルドライバーをインストールすることなく、任意のWindows 10/11マシンで実行されます。

なぜAudacityはインディーポッドキャスターの標準のままです

Audacityは2000年以来存在し、シンプルな理由でインディーポッドキャストスペースで支配的なままです。それは完全に無料で、何でも実行され、音声焦点のポッドキャスターが実際に必要とするすべてを実行します。バージョン3.6(2024年後半にリリース)は、リアルタイム監視の改善と、サードパーティのオーディオルーティングをより信頼性の高いものにした改良low-latency audio capture Hostサポートを追加しました。

オープンソースモデルは、サブスクリプション、機能ゲート、クラウド依存関係がないことを意味します。予算が限られているか、音楽家が音楽デモを記録している週の番組を実行しているホビイストにとって、そのゼロコストプロファイルは重要です。トレードオフはAudacityがネイティブ音声変換を持っていないということです。それは、受け取ったものを記録し、その後処理し、クリーンなオーディオをエクスポートします。動的効果は、そこから外れます。

この制限は、実際には、あなたがそれを理解したら、実際にはワークフロー上の利点です。Audacityは編集およびエクスポートレイヤーになります。別のツールはリアルタイム音声変換を処理します。2つのコンポーネントは独立しています。どちらでも相互を邪魔することなく交換できます。

low-latency audio captureを理解する:このワークフローで重要な理由

low-latency audio capture(Windows Audio Session API)はMicrosoftの低レイテンシーオーディオインターフェースレイヤーで、VistaIUで導入され、Windows 10および11を通じて大幅に改善されました。アプリケーションとオーディオハードウェアの間に位置し、ユーザースペースでオーディオを処理し、カーネルレベルのドライバーを必要としません。

ポッドキャスターとミュージシャンの場合、low-latency audio captureは2つの理由で重要です:

古いMME/DirectSoundインターフェースより低いレイテンシー - 通常5-15msはMMEの50+msと比較してください。記録中に自分の声を監視するために、この違いは聞こえます。
low-latency audio captureループバック記録 - ボイスチェンジャーの出力を含む、Windows全体で再生されるすべてのオーディオを、Audacityの記録入力として取得できます。これは、全体的なワークフローが可能になるメカニズムです。

Audacityのデバイスツールバー(上部のドロップダウンのどれでも)では、ホストをWindows low-latency audio captureに設定できます。これにより、low-latency audio captureExclusive Mode(最も低いレイテンシー)とlow-latency audio captureループバックデバイスが入力ドロップダウンで解除されます。仮想オーディオエンドポイントを作成するボイスチェンジャーを含む、low-latency audio captureデバイスに出力するアプリケーションはここに表示されます。

ボイスチェンジャーをAudacity入力として設定する

セットアップは約2分かかります:

ボイスチェンジャーをインストールして起動します。 Audacityを開く前に、マイクからのオーディオを処理していることを確認してください。
Audacityを開きます。 デバイスツールバーで、ホストをWindows low-latency audio captureに設定します。
記録デバイスドロップダウンをクリックします。 あなたは、物理的なマイクとボイスチェンジャーによって作成された仮想デバイスを見ると思う。ボイスチェンジャーがlow-latency audio capture仮想エンドポイントを使用している場合、名前によってここに表示されます。
ボイスチェンジャーの出力デバイスを選択します。 これは「Voice Changer Output」またはツールに応じてアプリケーション自体の名前で、何か呼ぶことができます。
短いテストクリップを記録します。 それを再生して、処理された音声を聞いていることを確認します。素のマイク信号ではありません。

デバイスが表示されない場合は、2つのことを確認してください。ボイスチェンジャーをアクティブに実行する必要があります。デフォルトの再生デバイスとして設定するか、Windows Sound Settingsで明示的に有効にする必要があります。一部のツールでは、low-latency audio captureループバックを露出させるために、仮想デバイスをシステムデフォルトとして設定する必要があります。

low-latency audio capture注射を使用するツール(仮想デバイスの代わり、VoxBoosterのアプローチ)は異なって機能します。彼らはWindows Audioに接続しているため、Audacityは物理的なマイクを入力として見ますが、通過するオーディオは既に処理されています。この場合、Audacityで物理的なマイクを選択すると、変換されたシグナルを透過的に記録します。

Audacityでセッションを記録する

ボイスチェンジャーのルーティングが確認されたら、標準Audacity記録の実践が適用されます。声の最適化されたいくつかの設定:

サンプルレート: 44,100 Hzは、余地を持つ音声周波数をカバーしています。48,000 Hzは問題ありません。リサンプリングを避けるために、インターフェースがネイティブに支援しているものを使用します。

ビット深度: 32ビットフロートで記録します。Audacityは内部で32ビットフロートで動作するため、マッチングは変換ステップを避け、後処理EQおよび圧縮のためのヘッドルームを保存します。

監視: Overdubモニタリングを有効にします(記録ボタンのShift+クリック)。記録中にリアルタイムで処理された音声を聞きます。監視体積を設定してフィードバックを防ぎます。

部屋の音響: ボイスチェンジャーはボックスイッシュなルームを修正しません。衣類で並ぶクローゼットまたはマイクの後ろのリフレクションフィルターは、どの処理チェーンより最終的な記録品質にはるかに違います。

Audacityのポスト処理:標準的な音声チェーン

Audacityのエフェクトメニューには、生の記録からリリース対応オーディオへの移動に必要なすべてのものがあります。このチェーンは、ほとんどの音声資料を処理します:

ステップ1 - ノイズ削減

ボイスチェンジャーが記録前にバックグラウンドノイズを抑制しなかった場合は、ここで最初に行ってください。各セッションの開始時に2秒間のルームトーン(ライブマイク付きの沈黙)を記録します。その地域を選択し、エフェクト>ノイズ削減に移動して、ノイズプロファイルを取得をクリックしてから、完全な記録を選択し、削減12dB周辺、感度6および周波数スムージング3でエフェクトを適用します。

ボイスチェンジャーが既にノイズサプレッションを処理している場合は、このステップをスキップします。2つのノイズ低減パスを積み重ねると、音声キャラクターが低下します。

ステップ2 - 正規化

エフェクト>正規化 to -1 dBピーク。これにより、静かな記録が一貫したレベルにクリップなく持ち上げられます。コンプレッサーが予測可能な信号レベルを見るように、圧縮前にこれを実行します。

ステップ3 - イコライゼーション(フィルター曲線EQ)

効果>フィルター曲線EQはAudacityでパラメトリックEQを提供します。音声の場合:

低周波数ランブルを切り取るために80-100Hzでハイパスフィルター
周囲2-4 kHzで軽い助言(2-3 dB)プレゼンス
記録がボックスイッシュに聞こえる場合は400-600 Hz周辺の穏やかなカット

AIクローンされた音声を記録した場合、ターゲット音声の周波数プロファイルは既に処理されたシグナルに埋め込まれています。EQで軽く行く。あなたは主に部屋を修正しており、音声のキャラクターではなく。

ステップ4 - 圧縮

効果>コンプレッサー 3:1比率で、しきい値はおよそ-18dBの、攻撃0.2ms、減衰1秒。これにより、リスナーがボリュームノブを回す必要がないように動的範囲が均等になります。自然な声より固有のより一貫した動力学を持つ音声クローンの場合、より低い圧縮比(2:1以下)はしばしば自然に聞こえます。

ステップ5 - ラウドネス正規化

ポッドキャストプラットフォーム(Spotify、Apple Podcasts)は、モノラルまたは-14 LUFSのステレオに対して-16 LUFSを統合する必要があります。エフェクト>ラウドネス正規化を使用すると、これらの値を直接ターゲット設定できます。エクスポート前の最終ステップとして実行します。

AIボーカルクローニング文字音声用

AIボーカルクローニングの使用例は、ピッチシフターまたはロボット効果と異なります。音声を数学的に歪める代わりに、リアルタイムで音声パターンをターゲット音声プロファイルにマップしますが、音声を保存し、あなたの改変版ではなく、実際の別の人のように聞こえる音声を生成します。

インディーポッドキャスターのために、これは特定のクリエイティブドアを開きます:音声演技スキルのない文字音声。インタビュー番組は各定期的なセグメントに異なるペルソナを与えることができます。フィクションポッドキャストは、1人が読んだ複数の文字を持つことができます。チュートリアルシリーズは、月曜日の朝または金曜日の夜に記録するかどうかに関係なく、一貫した「ホスト」音声を持つことができます。

VoxBoosterのAI音声クローニングはWindows 10/11でローカルに実行されます。クラウド処理なし、マシンを離れるオーディオなし。レイテンシーは300ms未満のエンドツーエンドで、記録コンテキストでは無知(ライブストリーミングでさえ200-500msの範囲でヘッドルームを保つ)。カーネルドライバーではなくlow-latency audio capture注射を使用するため、Windowsはそれを標準オーディオデバイスとして扱います。Audacityは清潔な入力を見ます。

実際的な記録ワークフロー:Audacityで記録を押す前にVoxBoosterでクローンされた音声プロファイルをアクティブにします。トラックがクローンされた音声を直接キャプチャします。テイク間でプロファイルを切り替える。イントロナレーションについては、自然な声を実行し、ダイアログセクションの文字プロファイルに切り替えてください。

ショーノート用のWhisperトランスクリプトエクスポート

WhisperはOpenAIのオープンソース音声認識モデルで、Windowsでローカルに利用できます。ポッドキャスターの場合、完成した記録をショーノート、クローズドキャプション、または検索可能なアーカイブコンテンツとして機能するトランスクリプトに変わります。

ワークフロー:

完成したAudacityプロジェクトをWAVまたはFLACファイルとしてエクスポートします(ファイル>オーディオをエクスポート)。
エクスポートされたファイルをWhisperを通じて実行します。ベースモデルはほとんどの英語を正確に処理します。小型または中型モデルはアクセントのある音声または技術語彙に適しています。
Whisperは、指定した出力形式フラグに応じて.txt(プレーンテランスクリプト)または.srt(タイムスタンプ字幕)を出力します。

VoxBoosterを使用している場合、その組み込みWhisper統合は記録中にリアルタイムで転写します。セッションを終了し、トランスクリプトはすでに待ちます。個別のポスト処理ステップなし。これは、複数ステップの製造パイプラインを維持するのではなく、迅速に公開したいホビイストに重要です。

1つの重要な警告: Whisperは音声音韻、基礎スピーカーアイデンティティではなく。AIクローンされた音声は、音声が明確で言語モデルが語彙に精通していれば、正しく転写されます。実際には、AI音声クローニングは自然な音声と比較してアーティキュレーションをわずかに滑らかにします。これはWhisper精度を傷つけるのではなく改善する傾向があります。

Audacityラベルトラックとタイムスタンプ

Audacityのラベルトラックでは、タイムラインリージョンをテキスト注釈でマークできます。イントロ、インタビュー、スポンサーの読み取り、アウトロなど。これらのラベルはオーディオの隣に.txtファイルとしてエクスポートされ、正しくフォーマットされたとき、互換性のあるプレーヤー(Overcast、Pocket Casts)でポッドキャストチャプターマーカーに直接マップします。

Whisperタイムスタンプとまたはすべてのオーディオラベルトラック、完全なメタデータレイヤーのプロフェッショナルグレード、エピソード、有料ソフトウェアなし。編集中にラベルトラックとして章の境界をマークしてください。キャプションアップロード用にWhisper.srtをエクスポートします。

外部エフェクトとAudacityのプラグイン支援

Audacityはいくつかのプラグイン、VST2、VST3、LV2、LADSPA。これはホビイスト音楽家が組み込み効果を超えて行きたい場合に重要です。

音声作業のための知識の価値がある無料VSTプラグイン:

ReaPlugs ReaEQ - パラメトリックEQ、無料、CPUで軽い
TDR Nova - 別のプラグインなしでディーのままを処理するダイナミックEQ
OrilRiver - 太く聞こえるボーカルクローンに部屋の雰囲気を追加する無料リバーブ

Audacityでプラグイン、エフェクト>プラグイン追加/削除>リスキャンを取り付ける。エフェクトはスキャン後のカテゴリの下のエフェクトメニューに表示されます。

音声クローニングのために、記録前にリバーブを追加するのを避けてください。Audacityの後で適用してください。リバーブが焼き付けられた記録は、編集をはるかに難しくします。ボイスチェンジャーは声、フォーマント、色合いを処理する必要があります。Audacityは空間的な効果を処理します。

比較:Audacityでボイスチェンジャー統合方法

方法	セットアップの複雑さ	レイテンシー	反カンニングセーフ	Audacity入力
仮想マイクデバイス	1回限りデバイス選択	~10-20 ms	ツール別バリエーション	仮想デバイスを選択
low-latency audio captureループバック	low-latency audio captureホスト設定、ループバック選択	~5-10 ms	はい(ユーザースペース)	ループバックデバイス選択
low-latency audio capture注射	なし - 自動	~5-10 ms	はい(カーネルドライバーなし)	物理的なマイク選択
カーネルドライバー仮想デバイス	デバイス選択	~5-20 ms	リスク変動	仮想デバイスを選択
直接記録(ボイスチェンジャーなし)	なし	ハードウェア制限	N/A	物理的なマイク選択

low-latency audio captureベースのアプローチ(ループバックと注射)は最も低いオーバーヘッドがあり、Windows 10および11で確実に機能し、反カンニングシステムと相互作用しません。ゲーミングのためにセットアップも使用している人に関連。

完全なセッション:記録から公開エピソード

ここで、典型的なインディーポッドキャストセッションは、このワークフローで実行されます:

セッション前: ボイスチェンジャーを起動し、音声プロファイル(自然またはクローン)を選択し、レベルを確認します。
Audacityセットアップ: ホストをlow-latency audio captureに設定し、入力デバイスを確認し、2秒のノイズサンプルを記録します。
記録: 1つのトラックのフルエピソード、またはクリーナー編集のためのセグメントごとに別のトラック。
ノイズ削減: 2秒のサンプルからノイズプロファイルを取得し、フルトラックに適用します。
編集: フィラーワードをカット、長い一時停止を削除(Ctrl+Iを分割して削除)。
エフェクトチェーン: 正規化>フィルター曲線EQ>コンプレッサー>ラウドネス正規化(-16 LUFS)。
WAVエクスポート: Whisper転写のための完全な品質。
Whisperパス: Whisperを通じてエクスポートされたWAVを実行。トランスクリプトを確認してクリーンアップします。
MP3エクスポート: 128kbpsモノラルまたは192kbpsステレオでの最終エピソードファイル。
公開: ホスティングプラットフォームにMP3+トランスクリプトをアップロードしてください。

30分のエピソード用の総ポスト記録時間:このチェーン、トランスクリプト確認を含む45-60分。これは有料製造ツールと競争力があります。

開始:必要なもの

Audacity 3.6+ - audacityteam.orgから無料ダウンロード。low-latency audio captureホストオプションはインストール直後のデバイスツールバーにあります。
Windows 10/11マシン - Audacityはmacおよびlinuxでも実行されます。low-latency audio captureはWindowsのみです。このガイドはWindowsに固有です。
low-latency audio capture支援ボイスチェンジャー - VoxBoosterの3日間の無料トライアル(クレジットカードは不要)は、ここで説明した完全なAIクローニング+Whisper統合をカバーしています。有料プランは月額$6.99から始まります。
まともなマイク - USBコンデンサ(Blue Snowball、Audio-Technica AT2020 USB)は音声作業に十分です。ダイナミックマイクは部屋ノイズ拾いを減らします。

リアルタイムAI音声変換が技術的に機能する方法の詳細については、リアルタイム音声クローニングガイドは処理パイプラインを詳しく説明しています。ポッドキャスト記録ではなくストリーミングコンテキストを設定している場合、Discord設定用ボイスチェンジャー並列ワークフローをカバーしています。

よくある質問

Audacity内で直接ボイスチェンジャーを使用できますか?

Audacityは、選択した入力デバイスとしてWindowsが送信するものを記録します。ボイスチェンジャーからlow-latency audio captureループバックまたは仮想マイクをAudacityの入力リストにルーティングすると、処理されたオーディオはネイティブに記録されます。Audacity内のプラグインまたは拡張機能は必要ありません。

Audacity録音にボイスモッドを設定する最良の方法は何ですか?

Audacityのデバイスツールバーで、ボイスチェンジャーのlow-latency audio capture出力を記録デバイスとして選択してください。low-latency audio captureをサポートするほとんどのツール(VoxBoosterを含む)は、追加の構成なしで自動的に表示されます。記録してから、ノイズ低減とEQのためのAudacityの組み込み効果で後処理します。

ボイスチェンジャーの使用はAudacityのノイズ削減ツールに影響を与えますか?

Audacityの低減ノイズは、記録されたオーディオに機能します。ボイスチェンジャーが既に記録前にノイズサプレッションを適用している場合、Audacityのノイズ削減ステップはほぼ冗長です。アプリ内の抑制をスキップする場合は、まずAudacityで2秒のノイズプロファイルを記録してから、Effectsメニューの下でノイズ削減を適用します。

Audacityで音声変更された記録からWhisperトランスクリプトをエクスポートするにはどうすればよいですか?

Audacityでセッションをアーカイブ形式のWAVまたはFLAC形式として記録してから、Whisper(またはWhisper転写を含むVoxBoosterなどのツール)を通じて実行します。結果の.srtまたは.txtファイルは、ショーノートまたはキャプションソースとして直接機能します。Audacityのラベルトラックはタイムスタンプも同期できます。

Audacityはこれらのボイスチェンジャーで互換性がありますか?

はい。Audacity 3.6以降はデフォルトでlow-latency audio captureを低レイテンシー記録に使用しています。low-latency audio capture互換の仮想デバイスを公開するボイスチェンジャーまたはlow-latency audio captureに直接フックするボイスチェンジャーは、Windows 10および11のAudacityの入力デバイスリストに表示されます。

リアルタイムAI音声クローニングを行ってからAudacityで編集できますか?

はい。AIクローンされた音声をマイクを記録するのと同じ方法でAudacityを通じて記録してください。Audacityは入力デバイスが生成するものを取得するため、クローンされた音声は標準オーディオトラックとして記録されます。その後、完全なAudacityツールセットで切り込み、EQ、圧縮、エクスポートできます。

ポッドキャスト用のAudacityで音声変更されたオーディオを記録するときに使用する必要があるオーディオ形式は何ですか?

Audacityで44.1 kHzで32ビットフロートWAVとして記録してください。これにより、後処理のヘッドルームが保存されます。最終ファイルをMP3 128kbpsモノラル(音声に適切)またはミュージックベッドを混ぜている場合は192kbpsステレオとしてエクスポートします。Audacityの組み込みLAMEエンコーダが変換を処理します。

結論

Audacityボイスチェンジャーワークフローは、その無料ツールの評判が提案するよりも有能です。low-latency audio captureルーティングはプラグインやハックなしでの統合を処理します。Audacityの組み込みエフェクトチェーン(ノイズ低減、EQ、圧縮、ラウドネス正規化)は、リリース品質のポッドキャストオーディオに十分です。AIボーカルクローニングは、以前にプロのボイスアクターまたは高価なソフトウェアを必要とした創造的オプションを追加します。Whisperは自動的にショーノートになるトランスクリプトで逆流を閉じます。

完全なスタックは、テストするのに何もかかりません。Audacityは無料で、Whisperはオープンソース、VoxBoosterのトライアルはクレジットカードなしで3日間、完全な機能セットを実行します。ポッドキャストまたはホビーミュージックワークフローにボイスチェンジャーが追加できるものの探索を延期しました、これは低摩擦の場所で開始するのに最適です。

VoxBoosterをダウンロードして無料トライアルを開始します。AI音声クローニング、low-latency audio captureルーティング、および組み込みWhisper転写をAudacityで10分以内で実行してください。