Discordの通話を文字起こしする方法(無料・ローカル・2026年)

ローカルのWhisper AIを使ってDiscordの通話を無料で文字起こしする方法を学びます — ボットなし、クラウドアップロードなし。録音、精度、複数話者のヒントを含むステップバイステップガイド。

Discordの通話を文字起こしする方法は、ゲームコミュニティ、オンラインチーム、ポッドキャストクルー、モデレーションスタッフで絶えず出てくる質問です — そしてDiscordにはそれを行う組み込みの方法がないため、答えは明確ではありません。この記事では、無料ツールを使用してDiscord通話のクリーンで正確なトランスクリプトを取得するまさにその方法を説明し、ローカルとクラウドの方法の現実的なトレードオフを解説し、音声を完全にサードパーティのサーバーから離れた状態に保つステップバイステップのローカルWhisperワークフローを示します。


TL;DR

  • Discordにはネイティブの文字起こしがありません — まず通話を録音してからオーディオファイルを文字起こしする必要があります
  • 最良の無料ローカルオプションはOpenAI Whisperで、完全に自分のPCで動作します
  • OBS Studio(デスクトップオーディオキャプチャ)またはCraigボット(話者ごとのトラック)で録音します
  • コマンドラインからwhisper audio.mp3 --model smallで文字起こしするか、デスクトップアプリを使用します
  • 複数話者のラベリングには、WhisperをPyannote.audioと組み合わせるか、クラウドサービスを使用します
  • 録音することは参加者に必ず告知してください — 同意要件は国と米国の州によって異なります

なぜDiscordのボイスチャットを文字起こしするのか

Discordはゲームチャットアプリとして始まりましたが、インディーチーム、オンラインコミュニティ、コンテンツクリエーター、リモートファーストプロジェクトのインフラストラクチャ層に成長しました。その結果、Discordのボイスチャンネルで行われる通話は常にカジュアルなわけではありません — スタンドアップミーティング、ポッドキャスト録音、ギルドの戦略セッション、モデレーションヒアリング、クライアント通話です。

Discordの通話文字起こしを求める主な理由:

会議メモと説明責任。 多くのコミュニティ運営サーバーはボイスで口頭で決定を行います。トランスクリプトは誰かの記憶やストリームチャットからの雑なコピー&ペーストに頼ることなく、すべてのメンバーに検索可能な記録を提供します。

アクセシビリティ。 聴覚障害または難聴のメンバーはボイス会話のテキスト版が必要です。聴者のユーザーでも、トランスクリプトを使えば完全な録音を聞くことなく非同期でキャッチアップできます。

コンテンツの再利用。 Discordで会話を録音するポッドキャスターや配信者は、編集前に大まかなトランスクリプトを求めます — タイムスタンプの発見、番組メモの生成、ソーシャルメディア用の引用の抽出が速くなります。

モデレーション記録。 サーバーモデレーターは、時として紛争や嫌がらせ事件中に何が言われたかを文書化する必要があります。トランスクリプトは1時間のオーディオファイルよりも、審判プロセスで確認・共有しやすいです。

ディクテーションとポッドキャストの番組メモ。 作家やソロクリエーターは、Discordの通話をディクテーション媒体として使用します — アイデアを話し、録音をWhisperで最初のドラフトを得るために処理します。クリアなスピーチに対するWhisperの精度は、これを本当に便利なものにするほど十分です。


DiscordにネイティブのTranscription機能はありますか?

Discordには2026年時点での組み込み通話文字起こしはありません。プラットフォームはボイスチャンネルのライブキャプションを提供しています — 人々が話すときにリアルタイムのサブタイトルを生成するアクセシビリティ機能 — しかしそれらのキャプションはセッション中のみ存在し、保存されることはありません。全員がチャンネルを離れると、キャプションは消えます。

Discordのライブキャプションはクラウドベースの音声認識エンジンを使用しており、ダウンロード可能なトランスクリプトを生成しません。トランスクリプトの履歴もなく、エクスポートオプションもなく、事後にキャプションデータを取得できるAPIもありません。何が言われたかの永久的な記録が必要な場合は、録音と文字起こしを自分で処理する必要があります。


Discordの通話を文字起こしする方法:コアワークフロー

Discordの通話を文字起こしする方法の核心的な答えは2ステップのプロセスです:オーディオを録音し、その後ファイルに音声テキスト変換を実行する

ステップ1はDiscordがリアルタイムで仮想オーディオデバイスまたは専用ボットなしにサードパーティのデスクトップツールに生のオーディオストリームを公開しないために必要です。ステップ2はローカル(無料、プライベート)またはクラウドサービス(複数話者サポートが簡単、費用がかかるか使用制限あり)で行えます。

最初から最後までの完全なローカルワークフローを紹介します。

ステップ1:Discord通話を録音する

状況に応じた3つの堅実なオプションがあります:

OBS Studio(無料、ボット不要)

  1. まだお持ちでなければOBS Studioをダウンロードしてインストールします。
  2. OBSで、設定 → 出力 → 録画に移動します。文字起こし精度を最高にするためにWAVまたはFLACにフォーマットを設定します(MP3でも問題ありませんが品質は低くなります)。
  3. オーディオミキサーで「デスクトップオーディオ」が有効になっていることを確認します。これはDiscordボイスを含む、スピーカー/ヘッドフォンから出力されるすべてをキャプチャします。
  4. オプションでマイク/Auxソースを追加して自分の声を別のトラックでキャプチャします — 後の文字起こし精度と複数話者ダイアライゼーションに便利です。
  5. 通話が始まる前に録音を開始します。全員が切断したら停止します。
  6. 設定したパスで録音を見つけます(デフォルト:ビデオフォルダー)。

Craigボット(無料ティアあり、話者ごとのトラック)

Craigは録音専用に構築されたDiscordボットです。サーバーに招待し、ボイスチャンネルで/joinと入力すると、各参加者を別々のオーディオトラックに録音します。通話後、話者ごとの個別のFLACファイルのダウンロードリンクが電子メールで送られます。これによりダイアライゼーションがはるかに簡単になります — どのファイルがどの話者に属するかをすでに知っています。

Craigの無料ティアはほとんどのコミュニティ録音ニーズをカバーします。グループ通話の文字起こしにおいて、話者ごとのフォーマットがOBSに比べて最大のアドバンテージです。

VoxBoosterの内蔵録音(Windowsのみ)

VoxBoosterはオーディオ録音レイヤーを含んでいます。通話中にボイスエフェクトやノイズ抑制も実行している場合、録音は相手側が実際に聞いていたものを反映します。出力は文字起こし準備が整ったクリーンなWAVファイルです。すべての処理がローカルのため、何もどこにもアップロードされません。

ステップ2:Whisperで録音を文字起こしする

OpenAI Whisperは完全にあなたのPCで動作する無料のオープンソース音声認識モデルです。アカウントもAPIキーも使用制限もありません。設定についてはWhisperのWindows文字起こしガイドで詳しく確認できます。

Whisperのインストール

Python 3.9〜3.12とPATHにffmpegが必要です。pipでWhisperをインストールします:

pip install openai-whisper

ffmpegがアクセス可能か確認します:

ffmpeg -version

エラーが出る場合は、wingetでffmpegをインストールします:winget install Gyan.FFmpeg

文字起こしの実行

whisper discord_call.wav --model small --language en --output_format txt
  • --model smallは良いデフォルトです:約244 MB、高速、クリーンなスピーチで正確
  • --language enは言語検出をスキップして、言語がわかっている場合に速度を上げます
  • --output_format txtは平文テキストファイルを生成します;タイムスタンプ付きのサブタイトルが必要な場合はsrtを使用します

現代のCPUでの1時間の録音では、smallモデルで約8〜15分かかります。Nvidia GPU(CUDA)があれば2分未満に下がります。

出力場所: Whisperはデフォルトでソースファイルと同じフォルダーにトランスクリプトを保存します。


文字起こし方法の比較

方法コストプライバシー精度複数話者セットアップの手間
ローカルWhisper(CLI)無料完全ローカル高(small/mediumモデル)いいえ(言葉のみ)中 — Python+ffmpegが必要
ローカルWhisper+pyannote無料完全ローカルはい(話者ラベル)高 — 追加ライブラリ、GPUが助けになる
Craigボット+Whisper無料ボットがオーディオにアクセスはい(トラックごとのファイル)低〜中
AssemblyAI / Deepgram分単位課金クラウドアップロード非常に高はい(内蔵)低 — APIキーのみ
Otter.aiフリーミアムクラウドアップロード良好はい非常に低 — ブラウザベース
Discordライブキャプション無料クラウド(Discord)基本的いいえなし — 内蔵、保存されない

正しい選択はあなたの脅威モデルによります。センシティブなモデレーション会話や内部ビジネス通話を文字起こしする場合、ローカルWhisperはオーディオをサードパーティのサーバーから完全に離れた状態に保ちます。良い番組メモを素早く欲しいポッドキャスターには、AssemblyAIのようなクラウドサービスの方が手間が少ないです。ほとんどのゲーマーとコミュニティマネージャーには、OBS+ローカルWhisperの組み合わせが最適なバランスを提供します。


Discordオーディオ文字起こしでの複数話者の処理

Whisperは単一のテキストストリームを生成します。「ちょっと、それには同意できない」が一人から、「最後まで聞いてください」が別の人から発言されたとは認識しません。シンプルな2人の通話ではこれは管理可能です — トランスクリプトを読んでコンテキストを把握できます。5人以上の話者の通話では、ラベルなしのテキストは使いにくくなります。

オプション1:Craigからの話者ごとのファイル

Craigで録音した場合、すでに参加者ごとの別々のFLACファイルを持っています。各ファイルにWhisperを個別に実行します:

whisper alice.flac --model small --output_format txt
whisper bob.flac --model small --output_format txt

その後、タイムスタンプ付きの出力を時系列に結合します。Whisperが生成するタイムスタンプ([00:00 --> 00:15])を使ってインターリーブできます。手動ですが最も信頼性の高いアプローチです。

オプション2:ダイアライゼーション用pyannote.audio

pyannote.audioはオープンソースの話者ダイアライゼーションライブラリです。Whisperと組み合わせると次のような出力が生成されます:

[SPEAKER_00] 00:00:02 - 00:00:08: イベントを土曜日に移動すべきだと思います。
[SPEAKER_01] 00:00:09 - 00:00:14: 同意します、日曜日はサーバーの半数が忙しいです。

セットアップはより複雑です(モデルウェイト用のHugging Faceトークン、GPUが強く推奨)が、出力は会議メモとしてはるかに使いやすいです。APIがバージョン間で変わるため、最新のインストール手順はpyannoteのGitHubを確認してください。

オプション3:内蔵ダイアライゼーションのクラウドサービス

AssemblyAIやDeepgramのようなサービスは、APIの1クリックオプションとして話者ダイアライゼーションを提供しています。ファイルをアップロードし、diarization: trueを指定すると、ラベル付きのJSONが返ってきます。トレードオフはあなたのオーディオがマシンを離れることです — 通話の内容がセンシティブな場合はその判断を考慮してください。


Discordの録音と文字起こし:同意と法的考慮事項

Discordの会話を録音して文字起こしする前に、同意について考える必要があります。これはエチケットだけの問題ではなく、多くの場所で法的要件です。

一方的同意対全員同意州。 米国では、連邦法(ECPA)は一方的同意を許可しています — 他の人に知らせることなく、自分が参加している通話を録音できます。しかしカリフォルニア、イリノイ、フロリダを含む約12の米国の州では全員同意が必要です。カリフォルニア州居住者との通話を知らずに録音すると、民事責任を負う可能性があります。

EUとGDPR。 EUでは、誰かの声を録音することは個人データの処理を構成します。合法的な根拠が必要です — 通常は明示的な同意。参加者に通知し、通話の開始時に口頭での確認を取ります。

Discordのルール。 Discordのコミュニティガイドラインと利用規約は参加者による通話録音を明示的に禁止していませんが、他者を傷つけたり嫌がらせするための録音の配布はガイドラインに違反します。モデレーション目的で録音する場合は、サーバー独自のルールに従い、録音を安全に保管してください。

実践的なベストプラクティス: 最初に声に出してアナウンスします。「このノート用に通話を録音しています」はほとんどの状況で同意として十分です。正式なものについては、サーバーチャットでテキストによる確認を取ります。


Discordオーディオの文字起こし精度を向上させる方法

DiscordのOpusコーデックはオーディオを積極的に圧縮します。Discordボイスチャンネルからの録音は、ローカルマイク録音よりも多くの圧縮アーチファクトを持つ傾向があり、静かな話者や非ネイティブアクセントに対するWhisperの精度を損なう可能性があります。

助けになるいくつかのこと:

録音前のノイズ抑制。 通話中にノイズ抑制を実行すること(Discordクライアントに内蔵されているか、デスクトップアプリを通じて)は、文字起こしのためのよりクリーンなソースオーディオを生成します。VoxBoosterのローカルノイズ抑制は、例えばクラウド依存なしにリアルタイムで音声を処理します — そしてデバイスで処理が行われるため、クリーンな出力を直接録音できます。Discordでのボイス機能の仕組みを参照してください。

難しいオーディオにはより高いWhisperモデルを使用する。 ノイズの多い録音でsmallモデルが文字化けを生成する場合は、mediumまたはlarge-v3を試してください。ノイズの多いまたはアクセントのある音声では精度の向上が顕著です。

モノ対ステレオ。 Whisperはモノ録音でより良いパフォーマンスを発揮します。OBSのセットアップがステレオ録音する場合(左チャンネルマイク、右チャンネルDiscord)、文字起こし前にffmpegでモノにダウンミックスします:

ffmpeg -i stereo_recording.wav -ac 1 mono_recording.wav

言語を指定する。 通話の全員が英語を話す場合は、Whisperに--language enを渡します。言語検出をスキップすることで潜在的な失敗点がひとつ減り、最初のパスが速くなります。

初期プロンプト。 Whisperはプロンプトで見た語彙にモデルを偏らせる--initial_prompt引数を受け付けます。通話が特定のゲームや技術的なトピックについてであれば、関連用語でモデルを準備することで固有名詞のエラーを減らすことができます:

whisper call.wav --initial_prompt "Valorantのゲームプレイ戦略、エージェント選択、サイトコントロール"

コマンドラインなしでWhisperのDiscord文字起こし

Pythonコマンドを実行したくない人のために、いくつかのアプローチがあります:

VoxBoosterはグラフィカルインターフェース付きのWhisperグレードのローカル音声テキスト変換をバンドルしています。ターミナルを開くことなく、文字起こし画面にオーディオファイルをドロップしてテキストファイルを取得できます。すべての処理はPC上で動作します — ファイルはマシンを離れません。試してみるにはVoxBoosterをダウンロードするか、リアルタイムディクテーションを含む完全な機能セットが必要な場合は料金オプションを参照してください。

Whisper Desktop / Whisper Transcriber。 GitHubにはWhisper周りのいくつかのオープンソースGUIラッパーが存在します。品質は様々で、積極的にメンテナンスされていませんが、シンプルなポイントアンドクリックのファイル文字起こしだけが必要な場合は機能します。

GUI付きwhisper.cpp。 whisper.cppポートはPythonを必要としないC++実装です。一部のコミュニティフロントエンドがシンプルなドラッグアンドドロップインターフェースでラップしています。デスクトップWhisperセットアップについての詳細はWindowsのWhisperディクテーションガイドを参照してください。


Discord会議メモのためのトランスクリプトの活用

生のトランスクリプトを取得したら、次の課題はそれを有用なものにすることです。Whisperの出力はタイムスタンプ付きの密なテキストの壁でフォーマットがありません。簡単なクリーンアップワークフローを紹介します:

  1. タイムスタンプを除去します(不要な場合)。正規表現の検索置換機能を持つテキストエディタがこれを素早く処理します:\[\d{2}:\d{2}\.\d{3} --> \d{2}:\d{2}\.\d{3}\]を検索して何もなしで置換します。
  2. 上記のダイアライゼーションアプローチを使用するか、通話をよく知っている場合は手動で話者ラベルを追加します。
  3. サマライザーで実行します。 クリーンアップされたトランスクリプトを任意のLLMチャットインターフェースに貼り付け、箇条書きのアクションアイテムを生成するよう依頼します。これにより1時間の乱雑な通話が約30秒で5箇条書きのサマリーに変わります。
  4. サーバーに投稿します。 生のトランスクリプトではなくサマリー()を専用の#meeting-notesチャンネルに貼り付けます。メンバーは検索でき、リンクし、実際に言われたことに対して説明責任を問うことができます。

よくある質問

Discordには文字起こし機能が内蔵されていますか?

いいえ。2026年時点で、Discordにはネイティブの通話文字起こし機能はありません。Discordはアクセシビリティオプションとしてボイスチャンネルのライブキャプションを提供していますが、それらのキャプションはどこにも保存されません — セッションが終わると消えます。永久的なトランスクリプトを取得するには、通話を録音してから別途音声を文字起こしする必要があります。

Discordの通話を録音・文字起こしすることは合法ですか?

管轄によって異なります。多くの米国の州では一方的同意のみ必要です(相手に告げずに自分が参加している通話を録音できます)が、一部の州とほとんどのEU諸国ではすべての参加者の同意が必要です。録音前に参加者に必ず告知してください。Discord自体の利用規約では録音を禁止していませんが、現地の盗聴法を破ることはあなたの責任です。

Discordオーディオで最も正確な無料の文字起こしは何ですか?

OpenAI Whisperのlarge-v3モデルはクリーンな音声で5%以下の単語誤り率を達成し、ローカルで実行する場合は完全無料です。静かな環境で適切なヘッドセットで録音したDiscord通話であれば、smallまたはmediumのWhisperモデルで通常十分に正確で、large-v3よりもはるかに高速です。

複数の話者がいるDiscord通話を文字起こしできますか?

Whisper単独では話者分離(ダイアライゼーション)は行いません — 言葉は文字起こしされますが、誰が言ったかはラベル付けされません。話者ラベル付きの出力を得るには、Whisperをpyannote.audioのようなダイアライゼーションツールと組み合わせるか、ネイティブにダイアライゼーションを処理するAssemblyAIのようなクラウドサービスを使用する必要があります。ローカルダイアライゼーションは機能しますが、より多くのセットアップが必要です。

WindowsでDiscordの通話を録音するには?

最も簡単な方法は、デスクトップオーディオまたは仮想オーディオケーブルをキャプチャするよう設定したOBS Studioです。Discord出力を録音ソースにルーティングし、セッションを開始して、通話終了後にWAVまたはMP3として録音をエクスポートします。Craigボットは各話者を別々のトラックに録音する人気のDiscordネイティブオプションです。

Whisperで1時間のDiscord録音を文字起こしするのにどのくらいかかりますか?

smallモデルを使用した現代のCPU(Ryzen 5 / Core i5)では、1時間の録音に約8〜15分かかります。中程度のGPU(RTX 3060以上)とmediumモデルを使用すると、同じファイルが3分以内に文字起こしされます。GPU上のlarge-v3モデルは、より高い精度で5〜8分で処理します。

WhisperはDiscord文字起こしでどのオーディオ形式を受け付けますか?

WhisperはffmpegをBehind the scenesで使用するため、WAV、MP3、FLAC、M4A、OGG、およびほとんどの一般的なオーディオ形式を受け付けます。MP3またはWAVとして保存されたDiscord録音は完璧に機能します。OBSで録音する場合は、最高の精度のためにWAVとしてエクスポートしてください — 圧縮形式は文字起こし品質を損なうアーチファクトをもたらす可能性があります。


まとめ

Discordの通話を文字起こしする方法は2ステップに集約されます:OBSまたはCraigでオーディオを録音し、その後ローカルでWhisperで実行します。その組み合わせは無料で正確、かつプライベートです — 音声はマシンを離れません。グループ通話には、Craigの話者ごとの録音を個別のWhisperパスで組み合わせるか、セットアップを気にしないなら自動ダイアライゼーションのためにpyannote.audioを追加します。クラウドサービスはダイアライゼーションがすぐに欲しく、プライバシーがそれほど重要でない場合の合理的な代替手段です。

コマンドラインのセットアップを完全にスキップしたい場合は、VoxBoosterがローカルWhisperグレードの文字起こしをWindowsデスクトップアプリにリアルタイムのボイスエフェクト、ノイズ抑制、サウンドボードとともにバンドルしています — すべてデバイス上で処理され、カーネルドライバーは不要です。Discordのボイスチャンネルで多くの時間を過ごしており、ワークフローをオフラインで高速に保ちたい人にとって実用的なオールインワンです。

VoxBoosterを試す — 3日間無料。

リアルタイム音声クローン、サウンドボード、エフェクト — 会話するすべての場所で。

  • カード不要
  • ~30msのレイテンシ
  • Discord · Teams · OBS
3日間無料で試す