Как настроить транскрипцию Whisper на Windows (локально и бесплатно)

Транскрипция Whisper на Windows обеспечивает точное распознавание речи в автономном режиме, которое работает полностью на вашем собственном оборудовании — никакой подписки, никакой загрузки в облако, никаких комиссий за минуту. Это руководство охватывает всё от предварительных требований до использования в боевых условиях: установка Python pip, более лёгкий портативный вариант whisper.cpp, готовые GUI-приложения и что делать, если вы хотите транскрипцию в реальном времени без окружения Python.

TL;DR

OpenAI Whisper — это бесплатная открытая модель распознавания речи с пятью уровнями размера (tiny → large-v3)
Установка через pip install openai-whisper на Python 3.9–3.12; требуется ffmpeg в PATH
whisper.cpp — более лёгкий портативный вариант на C++ — без Python, работает на процессоре через квантование GGML
Видеокарта (CUDA) ускоряет транскрипцию до близкого к реальному времени даже на больших моделях; процессор хорошо подходит для небольшой модели
Для прямой транскрипции без установки Python, VoxBooster объединяет локальное распознавание речи на уровне Whisper с глобальной горячей клавишей
Частые ошибки: отсутствует ffmpeg, неправильное окружение Python, несоответствие версии CUDA

Что такое транскрипция Whisper?

OpenAI Whisper — это открытая система автоматического распознавания речи (ASR), обученная на 680 000 часов многоязычного аудио. Выпущенная в сентябре 2022 года и постоянно совершенствуемая с тех пор, она работает как локальная модель — это означает, что ваши аудиофайлы никогда не покидают ваш ПК. Она поддерживает 99 языков, автоматически расставляет пунктуацию и достигает процента ошибок в словах менее 5% на чистом английском аудио с моделью large-v3.

В отличие от облачных сервисов (Otter.ai, Rev, слой транскрипции Descript), Whisper на Windows не имеет затрат за минуту и не требует беспокойства о политике защиты данных. Транскрипция Whisper действительно бесплатна после загрузки весов модели.

Предварительные требования перед установкой

Перед выбором метода установки убедитесь в следующих зависимостях:

Python 3.9–3.12. Официальный пакет Whisper требует Python. Проверьте, есть ли он у вас:

py --version

Если нет, загрузите последний установщик 3.12 с python.org. Во время установки установите флажок “Add Python to PATH” — это важно.

ffmpeg. Whisper использует ffmpeg для декодирования аудио и видеофайлов. Без этого вы получите FileNotFoundError или пустой вывод для всего, что не является сырым WAV. Самый быстрый способ установки на Windows 10/11:

winget install Gyan.FFmpeg

Затем откройте новый терминал и проверьте: ffmpeg -version.

Видеокарта (необязательно, но рекомендуется). Whisper работает на процессоре, но видеокарта NVIDIA с поддержкой CUDA существенно повышает производительность. Для большой модели транскрипция файла объёмом 10 минут на современном настольном ПК занимает 3–6 минут; на видеокарте среднего уровня (RTX 3060, 12 ГБ видеопамяти) это занимает около 40 секунд. Подробнее о размерах моделей и требованиях к видеопамяти см. в таблице ниже.

Размеры моделей Whisper: какой выбрать

Модель	Параметры	Видеопамять (FP16)	Относительная скорость	WER на англ.	Подходит для
tiny	39 M	~1 ГБ	~32× реального времени	~5.7%	Быстрые черновики, маломощное оборудование
base	74 M	~1 ГБ	~16× реального времени	~4.2%	Быстрые заметки, трансляции
small	244 M	~2 ГБ	~6× реального времени	~3.0%	Большинство пользователей — лучшее соотношение
medium	769 M	~5 ГБ	~2× реального времени	~2.2%	Профессиональная транскрипция
large-v3	1550 M	~10 ГБ	~1× реального времени	~1.6%	Акценты, многоязычность, медицина

“Фактор реального времени” (RTF) здесь означает вывод GPU на NVIDIA A100. На потребительском RTX 3080 умножьте примерно на 3–4×. На процессоре умножьте ещё на 10–20×.

Для большинства пользователей Windows: начните с small. Он работает близко к реальному времени на современном процессоре, лучше обрабатывает акценты, чем base, и занимает 2 ГБ ОЗУ/видеопамяти. Если точность на сложной технической лексике важна (юридические, медицинские документы, просмотры кода), попробуйте далее medium.

Метод 1: установка pip (официальный пакет Python)

Это канонический способ установки openai whisper на Windows — простой, если вы комфортно чувствуете себя в терминале. Это даёт вам наибольшую гибкость: полный доступ к Python API, все форматы вывода (txt, srt, vtt, json, tsv) и лёгкую интеграцию с другими скриптами.

Шаг 1 — создайте виртуальное окружение (рекомендуется)

py -m venv whisper-env
whisper-env\Scripts\activate

Это изолирует зависимости Whisper от вашего системного Python.

Шаг 2 — установите Whisper

pip install openai-whisper

Это загружает библиотеку моделей и её зависимости (PyTorch, tiktoken, tqdm, more-itertools). Ожидайте 1–3 ГБ загрузок при первом запуске, включая PyTorch.

Шаг 3 — установите PyTorch с CUDA (если у вас есть видеокарта NVIDIA)

Стандартный PyTorch из вышеуказанной команды работает только с процессором. Для ускорения GPU:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Сопоставьте суффикс cu121 с установленной у вас версией CUDA (nvidia-smi покажет её). Если вы не уверены, см. матрицу установки PyTorch.

Шаг 4 — запустите вашу первую транскрипцию

whisper my_audio.mp3 --model small

Первый запуск загружает веса модели (~244 МБ для small). Последующие запуски происходят мгновенно. Вывод: файлы .txt, .srt и .vtt рядом с вашим аудио.

Шаг 5 — полезные флаги

# Форсировать английский язык (пропустить определение языка, немного быстрее)
whisper audio.mp3 --model small --language en

# Вывести только простой текст
whisper audio.mp3 --model small --output_format txt

# Транскрибировать определённый фрагмент (секунды)
whisper audio.mp3 --model small --clip_timestamps "30,90"

# Использовать устройство GPU явно
whisper audio.mp3 --model medium --device cuda

Метод 2: whisper.cpp (без Python)

whisper.cpp — это переорганизация на C/C++ движка вывода Whisper. Работает без Python, CUDA или PyTorch. На Windows использует квантованные веса GGML — тот же формат, используемый llama.cpp — и может использовать ускорение через OpenBLAS (процессор) или DirectML (видеокарты AMD/Intel/NVIDIA без CUDA).

Почему использовать это вместо пакета Python?

Запускается менее чем за секунду (без инициализации PyTorch)
Использует на 30–50% меньше ОЗУ на той же модели
Поставляется как один .exe — проще встраивать в скрипты или другие приложения
Доступен режим потоковой передачи для транскрипции близкой к реальному времени

Шаги установки на Windows

Предварительно скомпилированные двоичные файлы для Windows доступны на странице выпусков whisper.cpp на GitHub. Загрузите whisper-bin-x64.zip, распакуйте, затем загрузите модель:

# Использование PowerShell — загружает небольшую модель GGML
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

Запустите транскрипцию:

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

Примечание: whisper.cpp требует входных данных WAV (16 кГц, моно, 16-битный PCM). Сначала конвертируйте с помощью ffmpeg:

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

Метод 3: GUI-приложения, основанные на Whisper

Если вам не нужен терминал вообще, несколько открытых GUI-приложений оборачивают Whisper для беспроблемного использования на Windows:

Whisper Desktop — приложение для .NET 6 Windows, которое оборачивает whisper.cpp с интерфейсом перетаскивания. Поддерживает выбор модели, язык и пакетную обработку. Не требует Python; установщик доступен на GitHub.

GUI на основе FasterWhisper — FasterWhisper — это переорганизация Python с использованием CTranslate2, работающая в 4 раза быстрее оригинальной на процессоре. Существует несколько графических оболочек сообщества; поищите “faster-whisper GUI Windows” на GitHub. Они хорошо работают для пакетной транскрипции файлов.

Subtitle Edit — популярный открытый редактор субтитров, добавивший интеграцию Whisper. Хорош для рабочих процессов субтитров видео, где вы хотите вывод SRT, который можно редактировать вручную.

Эти GUI-приложения хорошо охватывают транскрипцию файлов. Пробел, который они не заполняют: транскрипция в реальном времени с горячей клавишей, что приводит к следующему разделу.

Метод 4: VoxBooster (встроенный, без установки Python)

Если ваша цель — транскрипция в реальном времени — субтитры во время разговора, диктовка в любое приложение, субтитры звонка — методы на основе файлов выше не подходят. Они предназначены для обработки завершённого аудиофайла, а не непрерывного потока микрофона.

VoxBooster объединяет распознавание речи локально на уровне Whisper непосредственно в приложение. Никакого окружения Python, никакого мастера загрузки моделей, никакой зависимости ffmpeg. Вы устанавливаете VoxBooster один раз, и механизм транскрипции готов в разделе Диктовка на боковой панели.

Практические отличия от сырой установки pip:

Глобальная горячая клавиша — удерживайте Ctrl+Shift+D в любом приложении и говорите; текст появляется в вашем курсоре
Встроенное подавление шума — очищает вход микрофона перед тем, как он достигнет модели речи, что значительно улучшает точность в шумных помещениях
Без терминала — выбор модели и языковые параметры находятся в GUI
Встроено с изменением голоса, soundboard и клонированием голоса — если вы уже используете VoxBooster для изменения голоса в Discord или OBS, функция диктовки — это просто другая вкладка

Для более подробного обзора рабочего процесса диктовки см. руководство голосовой диктовки на Windows.

Выбор между методами

	pip Whisper	whisper.cpp	GUI-приложения	VoxBooster
Требуется Python	Да	Нет	Иногда	Нет
Нужна видеокарта	Нет (опционально)	Нет (опционально)	Нет (опционально)	Нет (опционально)
Прямая транскрипция	Нет	Частично	Нет	Да
Глобальная горячая клавиша	Нет	Нет	Нет	Да
Пакетная транскрипция файлов	Да	Да	Да	Нет
Вывод SRT/VTT	Да	Да	Да	Нет
Сложность установки	Средняя	Средняя	Низкая	Низкая

Выберите pip whisper, если вам нужен вывод SRT/VTT для видеосубтитров или вы хотите написать пакетную транскрипцию на Python. Выберите whisper.cpp, если вам нужен портативный двоичный файл с меньшими накладными расходами на память. Выберите GUI-приложение для перетаскивания файлов транскрипции. Выберите VoxBooster, если вам нужна диктовка в прямом эфире без установки Python.

Базовые шаблоны использования CLI

Когда пакет pip работает, эти шаблоны охватывают 90% реальных случаев использования.

Транскрибировать запись встречи в субтитры SRT

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper может напрямую читать видеофайлы (внутренне вызывает ffmpeg). Вывод: meeting.srt в той же папке.

Транскрибировать папку аудиофайлов

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

Запустите в Command Prompt (не PowerShell — синтаксис цикла for отличается). Каждый файл получает свой собственный вывод .txt.

Форсировать перевод на английский язык

whisper french_audio.mp3 --model small --task translate

--task translate выдаёт английский язык независимо от входного языка. Полезно для многоязычных интервью.

Указать выходной каталог

whisper audio.mp3 --model small --output_dir C:\Transcripts

Частые ошибки и исправления

No module named 'whisper' Вы установили whisper в другую окружение Python, чем то, которое в настоящий момент активно. Запустите py -0 для списка всех установок Python, активируйте правильное виртуальное окружение, затем переустановите. Также возможно: вы установили с помощью pip3, но запускаете с помощью py.

FileNotFoundError: [WinError 2] ffmpeg ffmpeg не в вашем PATH. Установите через winget install Gyan.FFmpeg, закройте и откройте ваш терминал заново, затем подтвердите с помощью ffmpeg -version.

CUDA out of memory Вы запускаете модель, которая слишком велика для видеопамяти вашей видеокарты. Попробуйте следующий размер, или добавьте --fp16 False для принудительного использования FP32 (использует больше видеопамяти, но иногда исправляет проблемы выделения на определённых сборках CUDA). Или запустите на процессоре с помощью --device cpu.

RuntimeError: Expected all tensors to be on the same device Несоответствие версии PyTorch CUDA. Переустановите PyTorch с правильным суффиксом CUDA для версии вашего драйвера. Проверьте свой драйвер с помощью nvidia-smi и перекрёстно проверьте на pytorch.org/get-started/locally.

Вывод повреждён или на неправильном языке Whisper автоматически определяет язык из первых 30 секунд аудио. Если ваш файл имеет молчание или шум в начале, определение не удаётся. Исправление: добавьте --language en (или ваш целевой язык) явно.

Транскрипция медленная даже с видеокартой Убедитесь, что Whisper действительно использует CUDA: добавьте --device cuda к вашей команде. Если вы видите FP16 is not supported on CPU; using FP32 instead в выводе, CUDA не используется — перепроверьте вашу установку PyTorch.

Whisper и другие опции транскрипции на Windows

Стоит узнать, что вы сравниваете, перед тем как приняться за установку:

Встроенное распознавание речи Windows / диктовка (Win+H) — быстро и хорошо интегрировано, но точность отстаёт по акцентам, технической лексике и не-американскому английскому. Частичная облачная зависимость в режиме по умолчанию. Нет вывода SRT.

Dragon NaturallySpeaking / Dragon Professional — исторически ориентир точности, хорош для рабочих процессов диктовки, но дорого ($300–$500), только Windows и медленно добавляет словарь для новых областей. Локальная обработка, что является плюсом.

Otter.ai, Rev, транскрипция Descript — облако, подписка, действительно хорошая точность, но аудио покидает вашу машину. Невизуально для приватных встреч, юридических записей или чего-либо под конфиденциальностью.

Azure Cognitive Services / Google Speech-to-Text — разработчикам APIs, облако, оплата за минуту. Точно, но требует кода и интернета. Не эквивалент установки локального whisper и точность транскрипции whisper конкурентна при нулевой текущей стоимости.

Сильные стороны Whisper по сравнению со всем вышеперечисленным: бесплатно, полностью локально, открытые исходные веса, которые вы можете проверить, сильная многоязычная поддержка и точность, конкурентная с платными сервисами на чистом аудио. Его слабость: нет встроенного режима прямой потоковой передачи в пакете Python и установка требует немного навыков CLI.

Приватность: почему локальность важна для транскрипции

Когда вы запускаете Whisper локально на Windows, аудио никогда не касается внешнего сервера. Это важнее, чем думает большинство людей — и это один из самых убедительных практических аргументов в пользу транскрипции Whisper над платными облачными альтернативами:

Записи встреч часто содержат конфиденциальную деловую информацию
Медицинская и юридическая диктовка подпадает под законы приватности (HIPAA, GDPR и т. д.)
Журналистские интервью и разговоры источников никогда не должны идти в облачные API
Личные голосовые заметки, дневники, расшифровки сеансов терапии — вещи, которые вы предпочитаете не иметь на чужом сервере

Облачные сервисы транскрипции имеют политику приватности, но “мы не продаём ваши данные” и “мы можем использовать анонимное аудио для улучшения моделей” — это разные утверждения. Со встроенной установкой whisper на Windows ответ на оба неактуален — аудио остаётся на вашем диске.

Часто задаваемые вопросы

Работает ли OpenAI Whisper в автономном режиме на Windows? Да. После загрузки весов модели Whisper работает 100% локально — интернет-соединение не требуется. Начальная загрузка варьируется от 75 МБ (tiny) до 3,09 ГБ (large-v3). После этого транскрипция происходит полностью на вашем процессоре или видеокарте без отправки данных вне вашей машины.

Какой видеокарте нужна для транскрипции Whisper на Windows? Видеокарта необязательна, но существенно ускоряет процесс. Для небольшой модели требуется 2 ГБ видеопамяти. Средняя требует 5 ГБ, large-v3 требует 10 ГБ. Только на процессоре базовая модель транскрибирует примерно в 10–15 раз быстрее реального времени на современном процессоре i5/Ryzen 5, то есть одна минута аудио занимает примерно 4–6 секунд.

В чём разница между размерами моделей Whisper? Whisper поставляется в пяти размерах — tiny, base, small, medium и large (с вариантами large-v2 и large-v3). Более крупные модели точнее, но медленнее и тяжелее. Для большинства пользователей Windows small обеспечивает лучшее соотношение точности и скорости: ~244 МБ, хорошая многоязычная точность, работает на процессоре примерно в реальном времени на современном оборудовании.

Могу ли я использовать Whisper для транскрипции в реальном времени на Windows? Исходный пакет Python Whisper основан на файлах и не предназначен для работы в реальном времени. whisper.cpp имеет режим потоковой передачи, но его настройка сложна. Для действительно низкой задержки при прямой транскрипции — субтитры во время разговора, диктовка, субтитры звонков — встроенное приложение, такое как VoxBooster, проще: точность на уровне Whisper без окружения Python.

Насколько точен OpenAI Whisper по сравнению с Dragon NaturallySpeaking или диктовкой Windows? На чистом аудио Whisper large-v3 показывает процент ошибок в словах менее 5% на большинстве языков, что конкурентоспособно с Dragon Professional и превосходит встроенную диктовку Windows по технической лексике, акцентам и многоязычному контенту. Точность снижается в шумных условиях, но сочетание Whisper с подавлением шума восстанавливает большую часть точности.

Что такое whisper.cpp и почему я бы использовал его вместо пакета Python? whisper.cpp — это порт модели Whisper на C/C++, который работает без Python или CUDA. На Windows он использует квантованные веса GGML и может использовать DirectML или OpenBLAS для ускорения. Он запускается быстрее, использует меньше оперативной памяти и его легче интегрировать в другие приложения, чем пакет Python.

Как исправить ошибку “No module named whisper” на Windows? Обычно это означает, что установка pip произошла в другую среду Python, чем та, из которой вы запускаете. Проверьте с помощью py -0 для списка установленных версий Python, активируйте правильное виртуальное окружение, затем переустановите: pip install openai-whisper. Также убедитесь, что у вас есть ffmpeg в PATH — Whisper нужен для декодирования аудиофайлов.

Заключение: какая установка Whisper подходит вам?

Если вам нужна пакетная транскрипция файлов с выводом SRT/VTT — для видеосубтитров, записей встреч, шоу-нот подкастов — установка openai whisper на основе pip — наиболее гибкий путь. Добавьте поддержку CUDA для вашей видеокарты и вы получите близкое к реальному времени пропускное на даже medium.

Если вы хотите меньше занимаемого места или создаёте скрипт, который вызывает whisper как подпроцесс, whisper.cpp с весами GGML — более чистый вариант для локальной установки whisper на Windows — без Python, без CUDA, просто двоичный файл и файл модели.

Если вы хотите локальное распознавание речи на Windows без любой работы в терминале — в частности, диктовку в реальном времени в приложения — VoxBooster объединяет точность на уровне Whisper с глобальной горячей клавишей и встроенным подавлением шума. Никакого Python, никаких виртуальных окружений, никакого устранения неполадок ffmpeg. Это особенно полезно, если вы уже используете приложение для изменения голоса или работы soundboard; функция транскрипции whisper — это просто другая вкладка в том же интерфейсе.

Начните с небольшой модели независимо от выбранного пути. Она достаёт вас на 80% пути к качеству large-v3 при дроби вычислительных затрат. Вы всегда можете обновить позже, когда узнаете, какой уровень точности ваш рабочий процесс действительно требует.

Для цены и параметры плана, см. voxbooster.com/#pricing.