Whisper Real Time Speech to Text на Windows: Полное руководство

Как запустить Whisper real time speech to text на Windows с локальным Whisper-large-v3, задержкой менее 300мс, живыми субтитрами и голосовыми командами — без облака.

Whisper real time speech to text на Windows превращает модель из офлайн batch-инструмента в движок живой транскрипции — локальный, приватный и достаточно точный для субтитрирования стрима, расшифровки совещания или питания воркфлоу голосовых команд без отправки ни единого байта в облако.

Это руководство охватывает всё: как работает инференс Whisper в реальном времени под капотом, требования к железу для каждого размера модели, три практических пути деплоя, Windows-специфическую маршрутизацию аудио через low-latency audio capture, и как VoxBooster интегрирует Whisper напрямую в свой аудиопайплайн.


Почему Whisper Real Time Отличается от Офлайн Whisper

Оригинальная статья описывает sequence-to-sequence модель, обученную на 680 000 часах аудио. Вы подаёте файл — получаете транскрипт. Это отлично для постобработки, но бесполезно, когда нужны субтитры, появляющиеся в течение секунды после речи.

Whisper real time работает, обрабатывая микрофон как непрерывный поток и разбивая его на перекрывающиеся окна, обычно по 1-3 секунды. Каждое окно проходит через модель независимо, результаты сшиваются и дедуплицируются перед выводом. Компромисс в том, что модель никогда не видит полный контекст предложения до генерации вывода, что вносит случайные «галлюцинации» на границах окон, которые полный офлайн-проход разрешил бы корректно. Whisper-large-v3 значительно снижает эту проблему по сравнению с предыдущими версиями — он обрабатывает короткие аудиосегменты значительно надёжнее.

Другой критичный фактор — детектор голосовой активности (VAD). Без VAD Whisper запускает инференс на тишине и генерирует фантомный текст. Хорошо настроенный VAD — Silero VAD является текущим стандартом — гарантирует, что инференс срабатывает только при наличии реальной речи, сокращая и задержку, и нагрузку на CPU/GPU на 40-70% при типичном использовании.


Требования к Железу

Путь с GPU (Рекомендуется)

МодельТребуемая VRAMТипичная задержка RTX 3060
tiny1 ГБ~50мс
small2 ГБ~80мс
medium4 ГБ~150-250мс
large-v36 ГБ~200-350мс

Для большинства сценариев транскрипции — субтитры для accessibility, заметки совещаний, субтитры для стримеров — Whisper-medium на 4 ГБ-карте попадает в оптимальную точку между точностью и задержкой.

Путь с CPU

Инференс только на CPU работает лишь для моделей small и tiny. Ожидайте задержку 500мс-2 секунды — заметную, но терпимую для неинтерактивного использования, например транскрипции записей совещаний. Для живых субтитров во время разговора CPU-only создаёт лаговый эффект, который ощущается как поломка.

Аудиооборудование

Работает любой микрофон, но качество сигнала напрямую влияет на точность транскрипции. Whisper обучен на разнообразных аудиоусловиях, поэтому довольно неплохо справляется с шумом, но гарнитура с close-talk микрофоном всегда превзойдёт настольный микрофон дальнего поля для работы в реальном времени.


Маршрутизация Аудио low-latency audio capture на Windows

Windows маршрутизирует аудио через Windows Audio Session API (low-latency audio capture). Понимание low-latency audio capture необходимо для корректной настройки Whisper, особенно если вы хотите транскрибировать системный вывод (то, что вы слышите), а не ввод с микрофона.

Эксклюзивный Режим vs. Общий Режим

low-latency audio capture работает в двух режимах:

Эксклюзивный режим даёт одному приложению прямой доступ к железу с минимальной задержкой — полезен для аудиообработки с низкой латентностью, но блокирует доступ других приложений к устройству.

Общий режим позволяет нескольким приложениям совместно использовать один аудиоэндпоинт, Windows управляет микшированием. Для захвата входного сигнала Whisper общий режим почти всегда правильный выбор — вы хотите, чтобы Whisper читал с того же микрофонного потока, что и другие приложения, ничего не блокируя.

Захват Входного Сигнала Микрофона

Python-библиотеки sounddevice и pyaudio обращаются к low-latency audio capture-эндпоинтам по индексу устройства. Выполните следующее, чтобы вывести список всех доступных аудиоустройств:

import sounddevice as sd
print(sd.query_devices())

Loopback-Захват (Системное Аудио)

Чтобы транскрибировать то, что воспроизводится через колонки — системное аудио, видеозвонок, игру — нужен low-latency audio capture loopback-захват. В sounddevice используйте low-latency audio capture_exclusive=False с указанием устройства вывода; библиотека обрабатывает loopback внутри на Windows.

Loopback-захват полезен для субтитрирования видеоконференций, где вы хотите транскрибировать собеседника, или для accessibility-воркфлоу, где нужны субтитры к любому аудио на ПК.


Три Пути Деплоя

Путь 1: faster-whisper + Кастомный Python-скрипт

faster-whisper — реализация Whisper на базе CTranslate2, которая работает в 4 раза быстрее оригинала при меньшем потреблении памяти. Поддерживает все размеры моделей и чисто интегрируется с real-time аудиолупом.

Установка:

pip install faster-whisper sounddevice numpy silero-vad

Базовый луп:

  1. Открыть аудиопоток через sounddevice на 16 кГц моно (нативная частота дискретизации Whisper)
  2. Буферизовать входящее аудио в скользящее окно
  3. Запустить Silero VAD; пропустить инференс, если речь не обнаружена
  4. Передать речевые сегменты методу transcribe() faster-whisper с beam_size=1 (быстрее) или beam_size=5 (точнее)
  5. Вывести или перенаправить результат

Этот путь даёт максимальный контроль, но требует уверенного знания Python. Рассчитывайте на 30-60 минут настройки размеров буферов и порогов VAD под ваш микрофон.

Путь 2: whisper.cpp

whisper.cpp — порт Whisper на C++, компилируемый в нативный Windows-бинарник с поддержкой CUDA. Включает real-time демо (stream.exe), которое открывает микрофон, запускает инференс с настраиваемыми размерами окон и выводит результаты в stdout.

Почему это лучше Python? Время запуска практически мгновенное, потребление памяти ниже, легко интегрируется в non-Python тулчейны. Стриминговый вывод можно перенаправить в файл, который OBS читает как источник живых субтитров.

Шаги сборки (PowerShell):

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build -DGGML_CUDA=1
cmake --build build --config Release
.\build\bin\Release\stream.exe -m models\ggml-large-v3.bin -t 8

Путь 3: VoxBooster с Интегрированным Whisper

VoxBooster поставляется с инференсом Whisper прямо в приложении — без отдельного Python-окружения, без ручной настройки CUDA. Модель запускается локально на вашем GPU через оптимизированный бэкенд, захват аудио low-latency audio capture обрабатывается внутри, а вывод доступен как оверлей, файл живых субтитров для OBS или low-latency вход для обработки голосовых команд.

Ключевое отличие от ручных Python-настроек — интегрированный этап шумоподавления. Аудио проходит через слой подавления шума VoxBooster прежде, чем попасть в буфер Whisper, что заметно улучшает точность в шумных условиях — шум кулера гарнитуры, кондиционер, звуки клавиатуры — без добавления задержки, заметной пользователю. End-to-end задержка от речи до отображаемого субтитра составляет менее 300мс на железе последних трёх лет.

Никакие kernel-драйверы не устанавливаются — никаких UAC-запросов, никаких конфликтов с античитами, никаких устройств в Диспетчере устройств.


Живые Субтитры для Стриминга и Accessibility

Интеграция с OBS

Независимо от того, используете ли вы faster-whisper, whisper.cpp или VoxBooster, точка интеграции с OBS — текстовый файл, обновляющийся в реальном времени.

  1. Настройте инструмент Whisper записывать вывод транскрипции в файл (например, C:\subtitles\live.txt)
  2. В OBS добавьте источник Текст (GDI+)
  3. Отметьте Читать из файла и укажите тот же путь
  4. OBS опрашивает файл и обновляет источник каждый кадр

Стилизуйте текстовый источник с полупрозрачным фоном для читаемости поверх геймплея или вебкамеры.

Случаи Использования для Accessibility

Для пользователей с нарушениями слуха живые субтитры Whisper на Windows предлагают несколько преимуществ перед встроенными Live Captions Windows 11:

  • Более высокая точность для технического словаря, сильных акцентов и языков помимо английского
  • Настраиваемый дисплей: размер шрифта, позиция, цвет и время показа настраиваются под индивидуальные потребности
  • Несколько входов: можно подавать как микрофон, так и loopback в один экземпляр Whisper
  • Офлайн-работа: нет зависимости от серверов распознавания речи или интернет-соединения

Для пользователей Windows 10 без доступа к Live Captions локальный Whisper — основная опция real-time accessibility без подписного сервиса.


Воркфлоу Голосовых Команд

Whisper speech to text достаточно точен для питания систем ambient голосовых команд — воркфлоу, где вы говорите команды ПК без нажатия кнопки или клика.

Архитектура обычно выглядит так:

Микрофон → VAD-фильтр → Whisper → текстовый буфер → парсер интентов → диспетчер действий

Парсер интентов может быть таким простым, как Python-словарь триггерных фраз, сопоставленных с вызовами subprocess.run(), или таким сложным, как локальная языковая модель, обрабатывающая команды на естественном языке. Для гейминга и создания контента типичные команды:

  • Начать/остановить запись
  • Переключить сцену в OBS
  • Запустить клип soundboard
  • Вкл/выкл микрофон

Лёгкая альтернатива — запускать Whisper для непрерывной транскрипции и использовать keyword spotter (openwakeword) как быстрый путь для самых распространённых команд — keyword spotter срабатывает менее чем за 50мс, Whisper обрабатывает всё остальное.


Точность: Чего Ожидать

Whisper-large-v3 достигает около 3-5% WER (word error rate) на чистом английском аудио. В real-time режиме с окнами 1-3 секунды ожидайте 5-8% WER из-за сниженного контекста на вызов инференса.

Факторы, улучшающие точность:

  • Лучшее расположение микрофона: close-talk гарнитура vs. настольный микрофон дальнего поля — легко разница в 2-3% WER
  • Шумоподавление перед входом: предварительная фильтрация снижает галлюцинации, вызванные фоновым шумом
  • Beam size: увеличение с 1 до 5 улучшает точность ценой ~50мс дополнительной задержки на чанк
  • Temperature: установка temperature=0 (жадное декодирование) снижает дисперсию вывода

Факторы, снижающие точность:

  • Разрезание на границе окна: слова, попадающие ровно на границу между окнами инференса, склонны к ошибкам — буферизация с перекрытием снижает этот эффект
  • Галлюцинации тишины: без VAD Whisper часто транскрибирует тишину как наполнители — всегда запускайте VAD

Выбор Между Whisper Real Time и Windows 11 Live Captions

КритерийLive Captions Win 11Локальный Whisper
Время настройки~90 секунд15-60 минут
Точность (чистый английский)ХорошаяОтличная (large-v3)
Точность (акценты/жаргон)УдовлетворительнаяХорошая-Отличная
Поддержка языков30+ языков99 языков
Задержка200-400мс150-800мс (зависит от GPU)
Интеграция с OBSНетВывод в файл
ОфлайнДаДа
Поддержка Windows 10НетДа
ПриватностьЛокально (Microsoft)Полностью локально
Стоимость железаНетGPU помогает значительно

Если вы на Windows 11 и нужны только английские субтитры для accessibility с минимальной настройкой — Live Captions правильный ответ. Если нужна поддержка Windows 10, более высокая точность для конкретных доменов, субтитры в OBS, голосовые команды или контроль над пайплайном транскрипции — локальный Whisper лучший выбор.


Начните Сегодня

Самый быстрый путь к работающей транскрипции Whisper real time:

  1. С VoxBooster: откройте приложение, перейдите в Настройки → Транскрипция, включите Whisper, выберите размер модели. Всё остальное обрабатывается автоматически, включая маршрутизацию аудио, VAD и выходной файл для OBS.

  2. Ручной faster-whisper: pip install faster-whisper sounddevice silero-vad, затем адаптируйте один из стриминговых примеров из GitHub faster-whisper. Рассчитывайте на 30 минут для рабочего прототипа.

  3. whisper.cpp: клонируйте, соберите с CUDA, запустите stream.exe. Самый быстрый сетап среди ручных путей, если вы comfortable с CMake.

Whisper real time на Windows больше не экспериментальная технология. С правильной моделью, GPU среднего класса и чистым аудиовходом вы получаете качество транскрипции и задержку, сопоставимые или превосходящие коммерческие облачные сервисы — без единого байта вашего голоса за пределами машины.

Попробуй VoxBooster — 3 дня бесплатно.

Клонирование голоса в реальном времени, саундборд и эффекты — везде, где ты говоришь.

  • Без карты
  • ~30 мс задержки
  • Discord · Teams · OBS
Попробовать 3 дня бесплатно