Windows 11の音声入力(Win+H)は動作しますが、本格的に使うには3つの問題があります:
- 日本語の精度が中程度。固有名詞、スラング、専門用語 — 頻繁に誤り、簡単な修正手段がありません。
- 部分的なクラウド依存。一部のモードは音声をマイクロソフトのサーバーに送信します。
- アプリごとのホットキーがない。Windowsのポップアップでしか動作せず、フォーカスを奪ってフローを壊します。
大量に書く人 — メール、Slack、Obsidian、台本、コード — なら、より良い音声入力は週あたりの節約時間で元が取れます。2026年のVoxBoosterでのセットアップがこれです。
ローカル・ニューラル音声入力で変わること
VoxBoosterはPCでローカル実行されるWhisper派生モデルを使います。実用的な違い:
- 日本語で十分な精度 — 大きく編集する必要がありません。コマンドによる句読点(「読点」「句点」「改行」)を受け付けます。
- 100%ローカル。何もサーバーに送りません。機密文書、機密コード、業務会話を音声入力する人にとって重要です。
- グローバルホットキー。任意のアプリ — Outlook、VS Code、ブラウザ、WhatsApp Web — で
Ctrl+Shift+Dを押しっぱなしにして話し、離すと、カーソルの位置のフィールドにテキストが表示されます。
セットアップ
- VoxBoosterで 音声入力 に行き、有効化。
- モデルを選ぶ: 高速(レイテンシー200ms、精度良)または 高精度(レイテンシー500ms、精度高)。ほとんどの用途で高速で十分。
- 主言語(ja-JP)と任意のセカンダリ(en-US)を設定 — 会話に技術的英語が混ざる場合に便利。
- グローバルホットキーを設定。既定:
Ctrl+Shift+D。 - 完了。任意のアプリを開き、カーソルを置き、ホットキーを押しっぱなしにして話し、離す。
使い方のモード
Push-to-dictate。 ホットキー押しっぱなし、話す、離す。テキストが即座に表示。これが80%のケースのモード。
Toggle。 ホットキーを一度押して開始、もう一度押して停止。長い音声入力(台本、長いメール)でキーを押し続けたくないときに便利。
常時オン。 音声トリガー(「Vox、書いて…」)を待つパッシブ認識。運転やRSIなどハンズフリー・フロー向け。
便利なコマンド
- 「読点」→
、 - 「句点」→
。 - 「はてな」→
? - 「びっくり」→
! - 「改行」→ 改行
- 「新しい段落」→ 改行2つ
- 「コロン」→
: - 「かっこ開く / かっこ閉じる」→
(/) - 「最後の単語を消して」→ 単語をバックスペース
- 「全部消して」→ 現在の音声入力バッファをクリア
うまくいくユースケース
- 大量のメール。 下書きを音声入力すると打つより3倍速い。最後に30秒のレビュー。
- Obsidian / Notion の個人メモ。 タイピング速度に制限されず、頭に浮かぶリズムでアイデアをキャプチャ。
- Slack / WhatsApp Web の返信。 長い返信で、グローバルホットキーでの音声入力は、スマホに切り替えて端末の音声入力を使うより速い。
- テキスト形式の音声メッセージ。 アイデアを話して録り、テキストで受け取り、素早く編集。読者の時間を音声より尊重。
- 台本、ブログ記事、ドキュメント。 初稿を音声入力すると打つより2〜4倍速い。テキスト編集は後で、普通に。
音声入力が勝てないケース
- コード。 変数名、構文、括弧の開閉 — コードを音声入力するのは、オートコンプリート付きで打つより遅い。例外: 関数内の長いコメントは音声入力に向いています。
- テーブル / スプレッドシート。 グリッド構造は音声のフローに合いません。
- 騒がしい環境。 大きなエアコンの部屋、カフェ、コワーキング — 精度が落ちます。打つほうが良い。
プライバシー
モデルはローカル実行、音声はPCを離れません、音声入力ログは既定で保存されません。ログが欲しい(失った下書きをレビューするため)なら、設定で「履歴を保持」を有効化; ファイルはあなただけがアクセスできるローカルフォルダに、Windowsで暗号化されて保存されます。
これはセンシティブな会話を音声入力する人にとって重要です。Windows標準の音声入力はオフラインモードでもデバイステレメトリを共有します。VoxBoosterはしません — 音声入力モジュールにテレメトリはゼロです。