Windows での Whisper トランスクリプションは、あなた自身のハードウェア上で完全に実行される正確なオフライン音声テキスト化を提供します。サブスクリプションなし、クラウド アップロードなし、1 分あたりの料金なしです。このガイドは、前提条件から本番環境での使用まで、すべてをカバーしています。Python の pip インストール、軽量な whisper.cpp ポート、すぐに使える GUI アプリ、および Python 環境なしでリアルタイム トランスクリプションを必要とする場合の対応方法について説明します。
要約
- OpenAI Whisper は、5 つのサイズ層(tiny → large-v3)を備えた無料のオープンソース音声認識モデルです
- Python 3.9~3.12 で
pip install openai-whisperでインストール。PATH に ffmpeg が必要です whisper.cppはより軽量な C++ ポート。Python 不要で、GGML 量子化により CPU で動作します- GPU(CUDA)は、大規模なモデルでもトランスクリプション時間をほぼリアルタイムまで短縮します。CPU は small モデルで十分に機能します
- Python セットアップなしでライブ トランスクリプションが必要な場合は、VoxBooster が Whisper 級のローカル音声テキスト化をグローバル ホットキーでバンドルしています
- 一般的なエラー:ffmpeg の欠落、Python env の誤り、CUDA バージョンの不一致
Whisper トランスクリプションとは何ですか?
OpenAI Whisper は、680,000 時間の多言語オーディオでトレーニングされたオープンソースの自動音声認識(ASR)システムです。2022 年 9 月にリリースされて以来継続的に改善されており、ローカル モデルとして実行されます。つまり、オーディオ ファイルは PC を離れることはありません。99 言語を処理し、自動的に句読点を付け、large-v3 モデルでクリーン英語オーディオで 5% 未満の単語誤り率を達成します。
クラウド サービス(Otter.ai、Rev、Descript のトランスクリプション レイヤー)とは異なり、Windows での Whisper は 1 分あたりのコストがなく、データ ポリシーについて心配する必要もありません。Whisper トランスクリプションは、モデルの重みがダウンロードされた後、本当に無料です。
インストール前の前提条件
インストール方法を選択する前に、これらの依存関係を確認してください。
Python 3.9~3.12。 公式 Whisper パッケージには Python が必要です。確認してください。
py --version
ない場合は、python.org から最新 3.12 インストーラーをダウンロードしてください。インストール中に「Add Python to PATH」をチェックしてください。これが重要です。
ffmpeg。 Whisper は ffmpeg を使用してオーディオおよびビデオ ファイルをデコードします。これがないと、生の WAV でない場合、FileNotFoundError または空の出力が表示されます。Windows 10/11 の最速インストール方法は次のとおりです。
winget install Gyan.FFmpeg
新しいターミナルを開いて確認します。ffmpeg -version。
GPU(オプションですが推奨)。 Whisper は CPU で実行されますが、CUDA 対応の NVIDIA GPU は大きな違いを生みます。large モデルの場合、最新のデスクトップで 10 分のファイルを CPU でトランスクリプション処理するには 3~6 分かかります。mid レンジ GPU(RTX 3060、12 GB VRAM)では約 40 秒かかります。モデル サイズと VRAM 要件の詳細については、下の表を参照してください。
Whisper モデル サイズ:どれを選ぶか
| モデル | パラメータ | VRAM (FP16) | 相対速度 | 英語 WER | 最適用途 |
|---|---|---|---|---|---|
| tiny | 39 M | ~1 GB | ~32× リアルタイム | ~5.7% | クイック ドラフト、低スペック ハードウェア |
| base | 74 M | ~1 GB | ~16× リアルタイム | ~4.2% | 高速メモ、ライブ ストリーミング |
| small | 244 M | ~2 GB | ~6× リアルタイム | ~3.0% | ほとんどのユーザー ~ 最高の価値 |
| medium | 769 M | ~5 GB | ~2× リアルタイム | ~2.2% | プロフェッショナル トランスクリプション |
| large-v3 | 1550 M | ~10 GB | ~1× リアルタイム | ~1.6% | アクセント、多言語、医療 |
ここで「リアルタイム ファクター」(RTF)は、NVIDIA A100 での GPU 推論を意味します。コンシューマー RTX 3080 では、約 3~4 倍を掛けてください。CPU では、さらに 10~20 倍を掛けてください。
ほとんどの Windows ユーザーの場合: small から始めてください。最新の CPU でほぼリアルタイムで実行され、base よりアクセントの処理が優れており、2 GB の RAM/VRAM に収まります。密度の高い技術用語(法律、医療、コード レビュー)の精度が重要な場合は、次に medium をテストしてください。
方法 1:pip インストール(公式 Python パッケージ)
これは標準的な openai whisper windows インストールです。ターミナルに慣れていれば簡単です。最も柔軟性が高く、完全な Python API アクセス、すべての出力形式(txt、srt、vtt、json、tsv)、および他のスクリプトとの簡単な統合が可能です。
ステップ 1 ~ 仮想環境を作成する(推奨)
py -m venv whisper-env
whisper-env\Scripts\activate
これにより、Whisper の依存関係がシステム Python から分離されます。
ステップ 2 ~ Whisper をインストールする
pip install openai-whisper
これはモデル ライブラリと依存関係(PyTorch、tiktoken、tqdm、more-itertools など)をプルします。初回実行時には PyTorch を含め、1~3 GB のダウンロードが予想されます。
ステップ 3 ~ PyTorch と CUDA をインストールする(NVIDIA GPU がある場合)
上記のコマンドからの既定の PyTorch は CPU のみです。GPU 高速化の場合:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
cu121 サフィックスを、インストール済みの CUDA バージョンと一致させてください。nvidia-smi で表示されます。不確かな場合は、PyTorch インストール マトリックスを参照してください。
ステップ 4 ~ 最初のトランスクリプションを実行する
whisper my_audio.mp3 --model small
初回実行時にモデルの重み(small で約 244 MB)をダウンロードします。その後の実行は即座です。出力:オーディオと同じフォルダーに .txt、.srt、.vtt ファイルがあります。
ステップ 5 ~ 便利なフラグ
# 英語を強制(言語検出をスキップ、わずかに高速)
whisper audio.mp3 --model small --language en
# プレーン テキストのみを出力
whisper audio.mp3 --model small --output_format txt
# 特定のセグメント(秒単位)をトランスクリプション
whisper audio.mp3 --model small --clip_timestamps "30,90"
# GPU デバイスを明示的に使用
whisper audio.mp3 --model medium --device cuda
方法 2:whisper.cpp(Python 不要)
whisper.cpp は、Whisper 推論エンジンの C/C++ 再実装です。Python、CUDA、PyTorch なしで実行されます。Windows では、GGML 量子化された重みを使用します。llama.cpp で使用されるのと同じ形式です。OpenBLAS(CPU)または DirectML(AMD/Intel/NVIDIA GPU(CUDA 不要))で高速化できます。
Python パッケージの代わりに使用するのはなぜですか?
- 1 秒未満で起動(PyTorch 初期化なし)
- 同じモデルで 30~50% 少ない RAM を使用
- 単一
.exeとして出荷 ~ スクリプトまたは他のアプリへのバンドルが容易 - ストリーミング モード対応でほぼリアルタイム トランスクリプション
Windows インストール手順
事前構築 Windows バイナリは、GitHub の whisper.cpp リリース ページから入手できます。whisper-bin-x64.zip をダウンロードして抽出し、モデルをダウンロードしてください。
# PowerShell を使用 ~ small GGML モデルをダウンロード
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"
トランスクリプション実行:
.\main.exe -m models\ggml-small.bin -f audio.wav -otxt
注意:whisper.cpp は WAV 入力が必要です(16 kHz、モノラル、16 ビット PCM)。最初に ffmpeg で変換してください。
ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav
方法 3:Whisper ベースの GUI アプリ
ターミナルを使用したくない場合は、複数のオープンソース GUI アプリが Whisper をラップして、Windows でのクリック トゥ トランスクライブ エクスペリエンスを提供します。
Whisper Desktop ~ whisper.cpp をドラッグ アンド ドロップ インターフェースでラップする .NET 6 Windows アプリ。モデル選択、言語、バッチ処理をサポートします。Python は不要。GitHub でインストーラーが利用可能です。
FasterWhisper ベースの UI ~ FasterWhisper は CTranslate2 を使用した Python 再実装で、CPU 上で元のバージョンの 4 倍高速に実行されます。複数のコミュニティ GUI ラッパーが存在します。GitHub で「faster-whisper GUI Windows」を検索してください。これらはバッチ ファイル トランスクリプションに適しています。
Subtitle Edit ~ Whisper 統合を追加した人気のあるオープンソース字幕エディター。ビデオ字幕付け ワークフローに適しており、手動で調整できる SRT 出力が必要な場合。
これらの GUI アプリはファイル ベースのトランスクリプションをよく処理します。次のセクションにつながるギャップ:リアルタイム ライブ トランスクリプション(ホットキー付き)。
方法 4:VoxBooster(バンドル、Python セットアップ不要)
目標が ライブ トランスクリプション である場合(話しながら字幕、任意のアプリへのディクテーション、通話のキャプション)、上記のファイル ベースの方法は適切ではありません。完了したオーディオ ファイルを処理するのではなく、継続的なマイク ストリームを処理するために設計されていません。
VoxBooster は、Whisper 級のローカル音声認識をアプリに直接バンドルしています。Python 環境、モデル ダウンロード ウィザード、ffmpeg 依存関係がありません。VoxBooster を一度インストールするとトランスクリプション エンジンはサイドバーの Dictation で利用可能です。
raw pip インストールとの実践的な違い:
- グローバル ホットキー ~ 任意のアプリで
Ctrl+Shift+Dを押して話すとテキストがカーソル位置に表示されます - 統合ノイズ抑制 ~ マイク入力をクリーンアップしてから音声モデルに到達させます。ノイズの多い部屋で精度が大幅に向上します
- ターミナルなし ~ モデル選択と言語設定は GUI にあります
- 音声チェンジャー、サウンドボード、音声クローンとバンドル ~ Discord 音声変更または OBS に VoxBooster を既に使用している場合、ディクテーション機能は別のタブです
ディクテーション ワークフローの詳細については、Windows 音声ディクテーション ガイドを参照してください。
方法を選択する
| pip Whisper | whisper.cpp | GUI アプリ | VoxBooster | |
|---|---|---|---|---|
| Python 必須 | はい | いいえ | 場合によります | いいえ |
| GPU 必須 | いいえ(オプション) | いいえ(オプション) | いいえ(オプション) | いいえ(オプション) |
| リアルタイム ライブ | いいえ | 部分的 | いいえ | はい |
| グローバル ホットキー | いいえ | いいえ | いいえ | はい |
| バッチ ファイル トランスクリプション | はい | はい | はい | いいえ |
| SRT/VTT 出力 | はい | はい | はい | いいえ |
| インストール複雑性 | 中 | 中 | 低 | 低 |
ビデオ字幕用に SRT/VTT 出力が必要な場合、または Python でバッチ トランスクリプションをスクリプト化したい場合は pip whisper を選択してください。より小さなフットプリントを必要とする場合、または他のアプリで呼び出す whisper のサブプロセスを構築している場合は whisper.cpp を選択してください。ドラッグ アンド ドロップ ファイル トランスクリプション用に GUI アプリを選択してください。Python インストールなしでライブ ディクテーションを必要とする場合は VoxBooster を選択してください。
基本 CLI 使用パターン
pip パッケージが機能している場合、これらのパターンは実際のユースケースの 90% をカバーしています。
ミーティング レコーディングを SRT 字幕にトランスクリプション
whisper meeting.mp4 --model medium --language en --output_format srt
Whisper はビデオ ファイルを直接読み取ることができます(内部的に ffmpeg を呼び出します)。出力:同じフォルダーの meeting.srt。
オーディオ ファイルのフォルダーをトランスクリプション
for %f in (*.mp3) do whisper "%f" --model small --output_format txt
コマンド プロンプトで実行(PowerShell ではない ~ for ループ構文が異なります)。各ファイルは独自の .txt 出力を取得します。
英語への翻訳を強制
whisper french_audio.mp3 --model small --task translate
--task translate は入力言語に関係なく英語を出力します。多言語インタビューに便利です。
出力ディレクトリを指定
whisper audio.mp3 --model small --output_dir C:\Transcripts
一般的なエラーと修正
No module named 'whisper'
Whisper を現在アクティブな Python 環境とは異なる Python 環境にインストールしました。py -0 を実行してすべての Python インストールをリストアップし、正しい virtualenv をアクティベートしてから再インストールしてください。また、pip3 でインストールしたが py で実行している可能性もあります。
FileNotFoundError: [WinError 2] ffmpeg
ffmpeg が PATH にありません。winget install Gyan.FFmpeg でインストールしてターミナルを閉じてから再度開いてください。ffmpeg -version で確認します。
CUDA out of memory
GPU の VRAM に対して大きすぎるモデルを実行しています。次のサイズダウンを試すか、--fp16 False を追加して FP32 を強制してください(より多くの VRAM を使用しますが、特定の CUDA ビルドでメモリ割り当ての問題を修正することがあります)。または、--device cpu で CPU で実行してください。
RuntimeError: Expected all tensors to be on the same device
PyTorch CUDA バージョンの不一致。ドライバー バージョンに対して正しい CUDA サフィックスで PyTorch を再インストールしてください。nvidia-smi でドライバーを確認し、pytorch.org/get-started/locally で相互参照してください。
出力がガベージまたは間違った言語
Whisper はオーディオの最初の 30 秒から言語を自動検出します。ファイルの先頭に無音またはノイズがある場合、検出が失敗します。修正:--language en(またはターゲット言語)を明示的に追加してください。
GPU があってもトランスクリプションが遅い
Whisper が実際に CUDA を使用していることを確認してください。コマンドに --device cuda を追加してください。出力に「FP16 is not supported on CPU; using FP32 instead」が表示される場合、CUDA は使用されていません。PyTorch インストールを再度確認してください。
Whisper と他の Windows トランスクリプション オプションの比較
セットアップにコミットする前に、何と比較しているかを知る価値があります。
Windows 組み込み音声認識 / ディクテーション(Win+H) ~ 高速で統合されていますが、アクセント、技術用語、米国以外の英語で精度が低くなります。既定モードでは部分的なクラウド依存。SRT 出力がありません。
Dragon NaturallySpeaking / Dragon Professional ~ 歴史的に精度のベンチマーク。ディクテーション ワークフローが得意ですが、高額($300~$500)で Windows のみです。新しいドメイン用語の追加が遅い。ローカル処理(長所)。
Otter.ai、Rev、Descript トランスクリプション ~ クラウド ベース、サブスクリプション価格、本当に優れた精度。ただし、オーディオはマシンを離れます。秘密の会議、法的録音、NDA 下のもの には実行不可能です。
Azure Cognitive Services / Google Speech-to-Text ~ 開発者 API、クラウド ベース、1 分あたりの支払い。正確ですが、コードとインターネット接続が必要です。ローカル whisper インストール相当ではなく、whisper トランスクリプション精度はクリーン オーディオで無料のコストでも競争力があります。
Whisper の上記すべてに対する強み:無料、完全にローカル、検証可能なオープンソース重み、強力な多言語サポート、クリーン オーディオで有料サービスと競争力のある精度。弱み:Python パッケージにはネイティブ リアルタイム ストリーミング モードがなく、セットアップには CLI への快適さが必要です。
プライバシー:トランスクリプションのためにローカルが重要な理由
Windows で Whisper をローカルで実行する場合、オーディオは外部サーバーに接触しません。これはほとんどの人が実現するよりも重要です。Whisper トランスクリプションをクラウド有料サービスより優先する最大の実践的議論の 1 つです。
- 会議レコーディングには機密ビジネス情報が含まれることがあります
- 医療および法的ディクテーションはプライバシー規制(HIPAA、GDPR など)の対象です
- ジャーナリスト インタビューとソース会話は クラウド API に送信されるべきではありません
- 個人的な音声メモ、日記エントリ、セラピー セッション トランスクリプト ~ 誰かのサーバーに置きたくない
クラウド トランスクリプション サービスはプライバシー ポリシーを持っていますが、「データを販売しません」と「匿名化されたオーディオを使用してモデルを改善する可能性があります」は異なるステートメントです。Windows でローカル whisper インストールの場合、両方への答えは無関係です ~ オーディオはディスク上に留まります。
よくある質問
OpenAI Whisper は Windows でオフライン実行されますか? はい。モデルの重みをダウンロードすると、Whisper は 100% ローカルで実行されます。インターネット接続は不要です。初回ダウンロードのサイズは tiny で 75 MB から large-v3 で 3.09 GB の範囲です。その後、トランスクリプション処理は CPU または GPU 上で完全にローカルで行われ、データはマシンの外に出ません。
Windows の Whisper トランスクリプション用に必要な GPU は何ですか? GPU はオプションですが、処理速度を大幅に向上させます。small モデルの場合、2 GB の VRAM で十分です。medium には 5 GB、large-v3 には 10 GB 必要です。CPU のみの場合、base モデルは最新の i5/Ryzen 5 では約 10~15 倍のリアルタイム速度でトランスクリプション処理されます。つまり、1 分のオーディオは約 4~6 秒かかります。
Whisper モデル サイズの違いは何ですか? Whisper には 5 つのサイズがあります。tiny、base、small、medium、large(large-v2 および large-v3 バージョンあり)です。より大きなモデルはより正確ですが、処理速度が遅く、ファイルサイズも大きくなります。ほとんどの Windows ユーザーにとって、small は最高の精度対速度比を提供します。約 244 MB で、優れた多言語精度があり、最新ハードウェアの CPU 上でほぼリアルタイムで実行されます。
Windows で Whisper をリアルタイム ライブ トランスクリプション用に使用できますか? 元々の Python Whisper パッケージはファイルベースで、リアルタイム用には設計されていません。whisper.cpp にはストリーミング モードがありますが、セットアップは複雑です。本当に低レイテンシーのライブ トランスクリプション(話しながらの字幕、ディクテーション、通話のキャプション)には、VoxBooster のようなバンドル アプリが簡単です。Whisper 級の精度で Python 環境は不要です。
OpenAI Whisper と Dragon NaturallySpeaking や Windows ディクテーションの精度を比較するとどうですか? クリーン オーディオでは、Whisper large-v3 はほとんどの言語で 5% 未満の単語誤り率を達成し、Dragon Professional と競争力があり、技術用語、アクセント、多言語コンテンツについて Windows 組み込みディクテーションより優れています。ノイズの多い環境では精度が低下しますが、Whisper をノイズ抑制と組み合わせると、ほとんどの場合回復できます。
whisper.cpp とは何ですか?また、Python パッケージの代わりに使用するのはなぜですか? whisper.cpp は Whisper モデルの C/C++ ポートで、Python や CUDA なしで実行できます。Windows では、GGML 量子化された重みを使用し、DirectML または OpenBLAS で高速化できます。Python パッケージよりも高速に起動し、RAM 使用量が少なく、他のアプリへの統合が容易です。
Windows で「No module named whisper」エラーを修正するにはどうすればよいですか? これは通常、pip インストールが実行されている Python 環境とは異なる Python 環境に進行したことを意味します。「py -0」で インストール済み Python のリストを確認し、正しい virtualenv をアクティベートしてから再インストールしてください。「pip install openai-whisper」を実行してください。また、ffmpeg が PATH に存在することも確認してください。Whisper はオーディオ ファイルをデコードするために必要です。
結論:どの Whisper トランスクリプション セットアップが自分に適していますか?
SRT/VTT 出力を使用したバッチ ファイル トランスクリプション(ビデオ字幕、ミーティング レコーディング、ポッドキャスト ショー ノート用)が必要な場合、pip ベースの openai whisper windows インストールが最も柔軟なパスです。GPU に CUDA サポートを追加すると、medium でもほぼリアルタイム スループットが得られます。
より小さなフットプリントを必要とする場合、または whisper をサブプロセスとして呼び出すスクリプトを構築している場合、GGML 重みを備えた whisper.cpp は Windows でのより明確なローカル whisper インストール オプションです。Python、CUDA、バイナリとモデル ファイルだけが必要です。
ターミナル作業なしでローカル音声テキスト化 Windows 統合を必要とする場合、特にアプリへのライブ ディクテーション(話しながらの字幕、ディクテーション)の場合、VoxBooster は同じ Whisper 級の精度をグローバル ホットキーと統合ノイズ抑制でバンドルしています。Python、仮想環境、ffmpeg トラブルシューティングなし。これは、音声変更またはサウンドボード作業のためにアプリを既に使用している場合に特に便利です。whisper デスクトップ トランスクリプション機能は同じインターフェースの別のタブです。
どのパスを選択するかに関係なく、small モデルから始めてください。large-v3 品質の 80% を取得できます。計算コストは何分の 1 です。後で、ワークフローが実際に必要とする精度レベルがわかったら、いつでもアップグレードできます。
価格設定とプラン オプションについては、voxbooster.com/#pricing を参照してください。