Windows で Whisper トランスクリプションを設定する方法（ローカル + 無料）

Windows での Whisper トランスクリプションは、あなた自身のハードウェア上で完全に実行される正確なオフライン音声テキスト化を提供します。サブスクリプションなし、クラウドアップロードなし、1 分あたりの料金なしです。このガイドは、前提条件から本番環境での使用まで、すべてをカバーしています。Python の pip インストール、軽量な whisper.cpp ポート、すぐに使える GUI アプリ、および Python 環境なしでリアルタイムトランスクリプションを必要とする場合の対応方法について説明します。

要約

OpenAI Whisper は、5 つのサイズ層（tiny → large-v3）を備えた無料のオープンソース音声認識モデルです
Python 3.9～3.12 で pip install openai-whisper でインストール。PATH に ffmpeg が必要です
whisper.cpp はより軽量な C++ ポート。Python 不要で、GGML 量子化により CPU で動作します
GPU（CUDA）は、大規模なモデルでもトランスクリプション時間をほぼリアルタイムまで短縮します。CPU は small モデルで十分に機能します
Python セットアップなしでライブトランスクリプションが必要な場合は、VoxBooster が Whisper 級のローカル音声テキスト化をグローバルホットキーでバンドルしています
一般的なエラー：ffmpeg の欠落、Python env の誤り、CUDA バージョンの不一致

Whisper トランスクリプションとは何ですか？

OpenAI Whisper は、680,000 時間の多言語オーディオでトレーニングされたオープンソースの自動音声認識（ASR）システムです。2022 年 9 月にリリースされて以来継続的に改善されており、ローカルモデルとして実行されます。つまり、オーディオファイルは PC を離れることはありません。99 言語を処理し、自動的に句読点を付け、large-v3 モデルでクリーン英語オーディオで 5% 未満の単語誤り率を達成します。

クラウドサービス（Otter.ai、Rev、Descript のトランスクリプションレイヤー）とは異なり、Windows での Whisper は 1 分あたりのコストがなく、データポリシーについて心配する必要もありません。Whisper トランスクリプションは、モデルの重みがダウンロードされた後、本当に無料です。

インストール前の前提条件

インストール方法を選択する前に、これらの依存関係を確認してください。

Python 3.9～3.12。 公式 Whisper パッケージには Python が必要です。確認してください。

py --version

ない場合は、python.org から最新 3.12 インストーラーをダウンロードしてください。インストール中に「Add Python to PATH」をチェックしてください。これが重要です。

ffmpeg。 Whisper は ffmpeg を使用してオーディオおよびビデオファイルをデコードします。これがないと、生の WAV でない場合、FileNotFoundError または空の出力が表示されます。Windows 10/11 の最速インストール方法は次のとおりです。

winget install Gyan.FFmpeg

新しいターミナルを開いて確認します。ffmpeg -version。

GPU（オプションですが推奨）。 Whisper は CPU で実行されますが、CUDA 対応の NVIDIA GPU は大きな違いを生みます。large モデルの場合、最新のデスクトップで 10 分のファイルを CPU でトランスクリプション処理するには 3～6 分かかります。mid レンジ GPU（RTX 3060、12 GB VRAM）では約 40 秒かかります。モデルサイズと VRAM 要件の詳細については、下の表を参照してください。

Whisper モデルサイズ：どれを選ぶか

モデル	パラメータ	VRAM (FP16)	相対速度	英語 WER	最適用途
tiny	39 M	~1 GB	~32× リアルタイム	~5.7%	クイックドラフト、低スペックハードウェア
base	74 M	~1 GB	~16× リアルタイム	~4.2%	高速メモ、ライブストリーミング
small	244 M	~2 GB	~6× リアルタイム	~3.0%	ほとんどのユーザー～最高の価値
medium	769 M	~5 GB	~2× リアルタイム	~2.2%	プロフェッショナルトランスクリプション
large-v3	1550 M	~10 GB	~1× リアルタイム	~1.6%	アクセント、多言語、医療

ここで「リアルタイムファクター」（RTF）は、NVIDIA A100 での GPU 推論を意味します。コンシューマー RTX 3080 では、約 3～4 倍を掛けてください。CPU では、さらに 10～20 倍を掛けてください。

ほとんどの Windows ユーザーの場合： small から始めてください。最新の CPU でほぼリアルタイムで実行され、base よりアクセントの処理が優れており、2 GB の RAM/VRAM に収まります。密度の高い技術用語（法律、医療、コードレビュー）の精度が重要な場合は、次に medium をテストしてください。

方法 1：pip インストール（公式 Python パッケージ）

これは標準的な openai whisper windows インストールです。ターミナルに慣れていれば簡単です。最も柔軟性が高く、完全な Python API アクセス、すべての出力形式（txt、srt、vtt、json、tsv）、および他のスクリプトとの簡単な統合が可能です。

ステップ 1 ～仮想環境を作成する（推奨）

py -m venv whisper-env
whisper-env\Scripts\activate

これにより、Whisper の依存関係がシステム Python から分離されます。

ステップ 2 ～ Whisper をインストールする

pip install openai-whisper

これはモデルライブラリと依存関係（PyTorch、tiktoken、tqdm、more-itertools など）をプルします。初回実行時には PyTorch を含め、1～3 GB のダウンロードが予想されます。

ステップ 3 ～ PyTorch と CUDA をインストールする（NVIDIA GPU がある場合）

上記のコマンドからの既定の PyTorch は CPU のみです。GPU 高速化の場合：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

cu121 サフィックスを、インストール済みの CUDA バージョンと一致させてください。nvidia-smi で表示されます。不確かな場合は、PyTorch インストールマトリックスを参照してください。

ステップ 4 ～最初のトランスクリプションを実行する

whisper my_audio.mp3 --model small

初回実行時にモデルの重み（small で約 244 MB）をダウンロードします。その後の実行は即座です。出力：オーディオと同じフォルダーに .txt、.srt、.vtt ファイルがあります。

ステップ 5 ～便利なフラグ

# 英語を強制（言語検出をスキップ、わずかに高速）
whisper audio.mp3 --model small --language en

# プレーン テキストのみを出力
whisper audio.mp3 --model small --output_format txt

# 特定のセグメント（秒単位）をトランスクリプション
whisper audio.mp3 --model small --clip_timestamps "30,90"

# GPU デバイスを明示的に使用
whisper audio.mp3 --model medium --device cuda

方法 2：whisper.cpp（Python 不要）

whisper.cpp は、Whisper 推論エンジンの C/C++ 再実装です。Python、CUDA、PyTorch なしで実行されます。Windows では、GGML 量子化された重みを使用します。llama.cpp で使用されるのと同じ形式です。OpenBLAS（CPU）または DirectML（AMD/Intel/NVIDIA GPU（CUDA 不要））で高速化できます。

Python パッケージの代わりに使用するのはなぜですか？

1 秒未満で起動（PyTorch 初期化なし）
同じモデルで 30～50% 少ない RAM を使用
単一 .exe として出荷～スクリプトまたは他のアプリへのバンドルが容易
ストリーミングモード対応でほぼリアルタイムトランスクリプション

Windows インストール手順

事前構築 Windows バイナリは、GitHub の whisper.cpp リリースページから入手できます。whisper-bin-x64.zip をダウンロードして抽出し、モデルをダウンロードしてください。

# PowerShell を使用 ～ small GGML モデルをダウンロード
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

トランスクリプション実行：

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

注意：whisper.cpp は WAV 入力が必要です（16 kHz、モノラル、16 ビット PCM）。最初に ffmpeg で変換してください。

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

方法 3：Whisper ベースの GUI アプリ

ターミナルを使用したくない場合は、複数のオープンソース GUI アプリが Whisper をラップして、Windows でのクリックトゥトランスクライブエクスペリエンスを提供します。

Whisper Desktop ～ whisper.cpp をドラッグアンドドロップインターフェースでラップする .NET 6 Windows アプリ。モデル選択、言語、バッチ処理をサポートします。Python は不要。GitHub でインストーラーが利用可能です。

FasterWhisper ベースの UI ～ FasterWhisper は CTranslate2 を使用した Python 再実装で、CPU 上で元のバージョンの 4 倍高速に実行されます。複数のコミュニティ GUI ラッパーが存在します。GitHub で「faster-whisper GUI Windows」を検索してください。これらはバッチファイルトランスクリプションに適しています。

Subtitle Edit ～ Whisper 統合を追加した人気のあるオープンソース字幕エディター。ビデオ字幕付けワークフローに適しており、手動で調整できる SRT 出力が必要な場合。

これらの GUI アプリはファイルベースのトランスクリプションをよく処理します。次のセクションにつながるギャップ：リアルタイムライブトランスクリプション（ホットキー付き）。

方法 4：VoxBooster（バンドル、Python セットアップ不要）

目標が ライブトランスクリプション である場合（話しながら字幕、任意のアプリへのディクテーション、通話のキャプション）、上記のファイルベースの方法は適切ではありません。完了したオーディオファイルを処理するのではなく、継続的なマイクストリームを処理するために設計されていません。

VoxBooster は、Whisper 級のローカル音声認識をアプリに直接バンドルしています。Python 環境、モデルダウンロードウィザード、ffmpeg 依存関係がありません。VoxBooster を一度インストールするとトランスクリプションエンジンはサイドバーの Dictation で利用可能です。

raw pip インストールとの実践的な違い：

グローバルホットキー ～任意のアプリで Ctrl+Shift+D を押して話すとテキストがカーソル位置に表示されます
統合ノイズ抑制 ～マイク入力をクリーンアップしてから音声モデルに到達させます。ノイズの多い部屋で精度が大幅に向上します
ターミナルなし ～モデル選択と言語設定は GUI にあります
音声チェンジャー、サウンドボード、音声クローンとバンドル ～ Discord 音声変更または OBS に VoxBooster を既に使用している場合、ディクテーション機能は別のタブです

ディクテーションワークフローの詳細については、Windows 音声ディクテーションガイドを参照してください。

方法を選択する

	pip Whisper	whisper.cpp	GUI アプリ	VoxBooster
Python 必須	はい	いいえ	場合によります	いいえ
GPU 必須	いいえ（オプション）	いいえ（オプション）	いいえ（オプション）	いいえ（オプション）
リアルタイムライブ	いいえ	部分的	いいえ	はい
グローバルホットキー	いいえ	いいえ	いいえ	はい
バッチファイルトランスクリプション	はい	はい	はい	いいえ
SRT/VTT 出力	はい	はい	はい	いいえ
インストール複雑性	中	中	低	低

ビデオ字幕用に SRT/VTT 出力が必要な場合、または Python でバッチトランスクリプションをスクリプト化したい場合は pip whisper を選択してください。より小さなフットプリントを必要とする場合、または他のアプリで呼び出す whisper のサブプロセスを構築している場合は whisper.cpp を選択してください。ドラッグアンドドロップファイルトランスクリプション用に GUI アプリを選択してください。Python インストールなしでライブディクテーションを必要とする場合は VoxBooster を選択してください。

基本 CLI 使用パターン

pip パッケージが機能している場合、これらのパターンは実際のユースケースの 90% をカバーしています。

ミーティングレコーディングを SRT 字幕にトランスクリプション

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper はビデオファイルを直接読み取ることができます（内部的に ffmpeg を呼び出します）。出力：同じフォルダーの meeting.srt。

オーディオファイルのフォルダーをトランスクリプション

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

コマンドプロンプトで実行（PowerShell ではない～ for ループ構文が異なります）。各ファイルは独自の .txt 出力を取得します。

英語への翻訳を強制

whisper french_audio.mp3 --model small --task translate

--task translate は入力言語に関係なく英語を出力します。多言語インタビューに便利です。

出力ディレクトリを指定

whisper audio.mp3 --model small --output_dir C:\Transcripts

一般的なエラーと修正

No module named 'whisper' Whisper を現在アクティブな Python 環境とは異なる Python 環境にインストールしました。py -0 を実行してすべての Python インストールをリストアップし、正しい virtualenv をアクティベートしてから再インストールしてください。また、pip3 でインストールしたが py で実行している可能性もあります。

FileNotFoundError: [WinError 2] ffmpeg ffmpeg が PATH にありません。winget install Gyan.FFmpeg でインストールしてターミナルを閉じてから再度開いてください。ffmpeg -version で確認します。

CUDA out of memory GPU の VRAM に対して大きすぎるモデルを実行しています。次のサイズダウンを試すか、--fp16 False を追加して FP32 を強制してください（より多くの VRAM を使用しますが、特定の CUDA ビルドでメモリ割り当ての問題を修正することがあります）。または、--device cpu で CPU で実行してください。

RuntimeError: Expected all tensors to be on the same device PyTorch CUDA バージョンの不一致。ドライバーバージョンに対して正しい CUDA サフィックスで PyTorch を再インストールしてください。nvidia-smi でドライバーを確認し、pytorch.org/get-started/locally で相互参照してください。

出力がガベージまたは間違った言語 Whisper はオーディオの最初の 30 秒から言語を自動検出します。ファイルの先頭に無音またはノイズがある場合、検出が失敗します。修正：--language en（またはターゲット言語）を明示的に追加してください。

GPU があってもトランスクリプションが遅い Whisper が実際に CUDA を使用していることを確認してください。コマンドに --device cuda を追加してください。出力に「FP16 is not supported on CPU; using FP32 instead」が表示される場合、CUDA は使用されていません。PyTorch インストールを再度確認してください。

Whisper と他の Windows トランスクリプションオプションの比較

セットアップにコミットする前に、何と比較しているかを知る価値があります。

Windows 組み込み音声認識 / ディクテーション（Win+H） ～高速で統合されていますが、アクセント、技術用語、米国以外の英語で精度が低くなります。既定モードでは部分的なクラウド依存。SRT 出力がありません。

Dragon NaturallySpeaking / Dragon Professional ～歴史的に精度のベンチマーク。ディクテーションワークフローが得意ですが、高額（$300～$500）で Windows のみです。新しいドメイン用語の追加が遅い。ローカル処理（長所）。

Otter.ai、Rev、Descript トランスクリプション ～クラウドベース、サブスクリプション価格、本当に優れた精度。ただし、オーディオはマシンを離れます。秘密の会議、法的録音、NDA 下のものには実行不可能です。

Azure Cognitive Services / Google Speech-to-Text ～開発者 API、クラウドベース、1 分あたりの支払い。正確ですが、コードとインターネット接続が必要です。ローカル whisper インストール相当ではなく、whisper トランスクリプション精度はクリーンオーディオで無料のコストでも競争力があります。

Whisper の上記すべてに対する強み：無料、完全にローカル、検証可能なオープンソース重み、強力な多言語サポート、クリーンオーディオで有料サービスと競争力のある精度。弱み：Python パッケージにはネイティブリアルタイムストリーミングモードがなく、セットアップには CLI への快適さが必要です。

プライバシー：トランスクリプションのためにローカルが重要な理由

Windows で Whisper をローカルで実行する場合、オーディオは外部サーバーに接触しません。これはほとんどの人が実現するよりも重要です。Whisper トランスクリプションをクラウド有料サービスより優先する最大の実践的議論の 1 つです。

会議レコーディングには機密ビジネス情報が含まれることがあります
医療および法的ディクテーションはプライバシー規制（HIPAA、GDPR など）の対象です
ジャーナリストインタビューとソース会話はクラウド API に送信されるべきではありません
個人的な音声メモ、日記エントリ、セラピーセッショントランスクリプト～誰かのサーバーに置きたくない

クラウドトランスクリプションサービスはプライバシーポリシーを持っていますが、「データを販売しません」と「匿名化されたオーディオを使用してモデルを改善する可能性があります」は異なるステートメントです。Windows でローカル whisper インストールの場合、両方への答えは無関係です～オーディオはディスク上に留まります。

よくある質問

OpenAI Whisper は Windows でオフライン実行されますか？ はい。モデルの重みをダウンロードすると、Whisper は 100% ローカルで実行されます。インターネット接続は不要です。初回ダウンロードのサイズは tiny で 75 MB から large-v3 で 3.09 GB の範囲です。その後、トランスクリプション処理は CPU または GPU 上で完全にローカルで行われ、データはマシンの外に出ません。

Windows の Whisper トランスクリプション用に必要な GPU は何ですか？ GPU はオプションですが、処理速度を大幅に向上させます。small モデルの場合、2 GB の VRAM で十分です。medium には 5 GB、large-v3 には 10 GB 必要です。CPU のみの場合、base モデルは最新の i5/Ryzen 5 では約 10～15 倍のリアルタイム速度でトランスクリプション処理されます。つまり、1 分のオーディオは約 4～6 秒かかります。

Whisper モデルサイズの違いは何ですか？ Whisper には 5 つのサイズがあります。tiny、base、small、medium、large（large-v2 および large-v3 バージョンあり）です。より大きなモデルはより正確ですが、処理速度が遅く、ファイルサイズも大きくなります。ほとんどの Windows ユーザーにとって、small は最高の精度対速度比を提供します。約 244 MB で、優れた多言語精度があり、最新ハードウェアの CPU 上でほぼリアルタイムで実行されます。

Windows で Whisper をリアルタイムライブトランスクリプション用に使用できますか？ 元々の Python Whisper パッケージはファイルベースで、リアルタイム用には設計されていません。whisper.cpp にはストリーミングモードがありますが、セットアップは複雑です。本当に低レイテンシーのライブトランスクリプション（話しながらの字幕、ディクテーション、通話のキャプション）には、VoxBooster のようなバンドルアプリが簡単です。Whisper 級の精度で Python 環境は不要です。

OpenAI Whisper と Dragon NaturallySpeaking や Windows ディクテーションの精度を比較するとどうですか？ クリーンオーディオでは、Whisper large-v3 はほとんどの言語で 5% 未満の単語誤り率を達成し、Dragon Professional と競争力があり、技術用語、アクセント、多言語コンテンツについて Windows 組み込みディクテーションより優れています。ノイズの多い環境では精度が低下しますが、Whisper をノイズ抑制と組み合わせると、ほとんどの場合回復できます。

whisper.cpp とは何ですか？また、Python パッケージの代わりに使用するのはなぜですか？ whisper.cpp は Whisper モデルの C/C++ ポートで、Python や CUDA なしで実行できます。Windows では、GGML 量子化された重みを使用し、DirectML または OpenBLAS で高速化できます。Python パッケージよりも高速に起動し、RAM 使用量が少なく、他のアプリへの統合が容易です。

Windows で「No module named whisper」エラーを修正するにはどうすればよいですか？ これは通常、pip インストールが実行されている Python 環境とは異なる Python 環境に進行したことを意味します。「py -0」でインストール済み Python のリストを確認し、正しい virtualenv をアクティベートしてから再インストールしてください。「pip install openai-whisper」を実行してください。また、ffmpeg が PATH に存在することも確認してください。Whisper はオーディオファイルをデコードするために必要です。

結論：どの Whisper トランスクリプションセットアップが自分に適していますか？

SRT/VTT 出力を使用したバッチファイルトランスクリプション（ビデオ字幕、ミーティングレコーディング、ポッドキャストショーノート用）が必要な場合、pip ベースの openai whisper windows インストールが最も柔軟なパスです。GPU に CUDA サポートを追加すると、medium でもほぼリアルタイムスループットが得られます。

より小さなフットプリントを必要とする場合、または whisper をサブプロセスとして呼び出すスクリプトを構築している場合、GGML 重みを備えた whisper.cpp は Windows でのより明確なローカル whisper インストールオプションです。Python、CUDA、バイナリとモデルファイルだけが必要です。

ターミナル作業なしでローカル音声テキスト化 Windows 統合を必要とする場合、特にアプリへのライブディクテーション（話しながらの字幕、ディクテーション）の場合、VoxBooster は同じ Whisper 級の精度をグローバルホットキーと統合ノイズ抑制でバンドルしています。Python、仮想環境、ffmpeg トラブルシューティングなし。これは、音声変更またはサウンドボード作業のためにアプリを既に使用している場合に特に便利です。whisper デスクトップトランスクリプション機能は同じインターフェースの別のタブです。

どのパスを選択するかに関係なく、small モデルから始めてください。large-v3 品質の 80% を取得できます。計算コストは何分の 1 です。後で、ワークフローが実際に必要とする精度レベルがわかったら、いつでもアップグレードできます。

価格設定とプランオプションについては、voxbooster.com/#pricing を参照してください。