Транскрипция в реальном времени на Windows: полное руководство

Транскрипция в реальном времени на Windows за последние два года значительно улучшилась, и теперь выбор правильного инструмента — это не вопрос «работает ли это вообще?», а задача подобрать задержку, точность и интеграцию под конкретный сценарий использования. Неважно, нужны ли вам автоматические субтитры для прямого эфира, записи с совещаний без облачного сервиса или поддержка доступности для людей с нарушением слуха — Windows теперь предлагает несколько достойных вариантов, и каждый ведёт себя по-своему.

Это руководство охватывает всё: Windows 11 Live Captions, локальную транскрипцию на базе Whisper, сторонние инструменты и интеграцию в рабочий процесс стриминга или гейминга. Вы найдёте эталонные показатели задержки, честное сравнение точности, подробности о поддержке языков и пошаговую настройку двух наиболее полезных подходов.

TL;DR

В Windows 11 встроен Live Captions: офлайн, бесплатно, поддерживает более 30 языков, включается примерно за 90 секунд
Локальная транскрипция на базе Whisper даёт большую точность при акцентах и жаргоне, но требует больше настройки
Задержка варьируется от ~200 мс (Live Captions) до 1–3 секунд (Whisper только на CPU); GPU имеет принципиальное значение
Для стриминга интеграция с OBS требует направления вывода транскрипции в текстовый источник
Голосовой ввод (диктовка) и субтитры в реальном времени — разные функции для разных целей
Такие инструменты, как VoxBooster, объединяют живую транскрипцию с шумоподавлением и голосовыми эффектами в одном пайплайне

Что такое транскрипция в реальном времени?

Транскрипция в реальном времени — это процесс преобразования устной речи в читаемый текст с достаточно низкой задержкой, чтобы текст появлялся во время или в течение нескольких секунд после того, как человек говорит. Это отличается от пакетной транскрипции (загрузить запись и получить текст позже) и от голосовой диктовки в конкретном приложении вроде Word.

Три основных сценария использования, которые ищут люди:

Доступность — пользователи с нарушением слуха, следящие за лекцией, совещанием или видеозвонком
Создание контента — стримеры, добавляющие субтитры в реальном времени к трансляции, или авторы, генерирующие файлы субтитров
Продуктивность — заметки без рук во время совещаний, интервью или мозговых штурмов

Техническая задача — найти баланс между задержкой и точностью. Каждая система транскрипции работает с «фрагментами» аудио: чем длиннее фрагмент, который она ждёт перед транскрипцией, тем больше контекста у неё есть и тем точнее результат. Но больше контекста означает больше задержки. Инструменты ниже принимают разные компромиссы.

Windows 11 Live Captions: встроенный вариант

Windows 11 версии 22H2 и новее включает Live Captions как нативную функцию доступности. Она работает полностью на устройстве — Microsoft прямо указывает, что аудио не покидает ваш компьютер. Функция основана на локальной модели распознавания речи, поставляемой вместе с Windows.

Как включить Live Captions в Windows 11

Откройте Параметры → Специальные возможности → Субтитры
Включите Субтитры в реальном времени
Windows загрузит пакет распознавания речи для вашего языка (около 50–100 МБ, единоразово)
Нажмите Win + Ctrl + L, чтобы открыть или закрыть окно субтитров из любого приложения

Окно субтитров плавает поверх другого контента и может быть перемещено. Оно захватывает аудио с устройства, выбранного в качестве микрофона или устройства воспроизведения по умолчанию, — то есть работает как с вашим собственным голосом, так и с аудио из динамиков.

Сильные стороны Live Captions

Live Captions хорошо справляется с чёткой речью со стандартным акцентом и распространённой лексикой — и это бесплатный инструмент, всегда работающий офлайн. Запускается менее чем за две секунды, не требует подписки и обрабатывает всё локально, сохраняя конфиденциальность приватных разговоров. Плавающее окно действительно полезно во время видеозвонков: оно даёт резервный текстовый трек даже при падении качества звука у собеседника.

Задержка на практике обычно составляет 200–400 мс — достаточно быстро, чтобы следить за обычным разговором без ощущения, что читаешь вперёд или позади.

Недостатки Live Captions

Точность заметно снижается при:

Сильных региональных акцентах — модель обучена преимущественно на стандартном американском и британском английском
Техническом жаргоне и именах собственных — часто ошибается со специализированными терминами и редкими именами
Одновременной речи нескольких человек — двое говорящих одновременно дают непонятный вывод
Фоновом шуме — встроенного шумоподавления нет; шумные условия значительно ухудшают качество
Смене языка — в системных настройках задаётся один язык, автоматическое определение в ходе разговора недоступно

Кроме того, нет API, нет выходного файла и нет возможности захватить текст транскрипции для использования в другом приложении. Окно — только для отображения.

Официальную документацию Microsoft по этой функции смотрите на странице поддержки Microsoft Live Captions.

Локальная транскрипция на базе Whisper: точнее, сложнее в настройке

Whisper — модель распознавания речи от OpenAI, выпущенная в 2022 году. Поддерживает 99 языков, значительно лучше справляется с акцентами и жаргоном, чем большинство альтернатив, и может автоматически определять язык входящего аудио без ручной настройки. Веса модели находятся в открытом доступе, поэтому сторонние инструменты могут включать их и запускать полностью на вашем ПК.

Модели Whisper: размер, скорость и точность

Whisper доступен в нескольких размерах. Большие модели точнее, но медленнее и требуют больше памяти:

Модель	Параметры	Нужна VRAM	Прибл. задержка (GPU)	Прибл. задержка (CPU)
tiny	39M	~1 ГБ	100–200 мс	1–2 с
base	74M	~1 ГБ	150–300 мс	2–4 с
small	244M	~2 ГБ	300–600 мс	5–10 с
medium	769M	~5 ГБ	600 мс–1,5 с	20–40 с
large	1,5B	~10 ГБ	1–3 с	слишком медленно

Для использования в реальном времени small достигает лучшего практического соотношения точности и скорости на видеокарте среднего класса. Только на CPU tiny или base — единственные модели, остающиеся близкими к реальному времени. Приведённые значения задержки приблизительны и существенно варьируются в зависимости от оборудования.

GPU vs CPU: практическая разница

Если в вашем ПК есть дискретная видеокарта с минимум 4 ГБ VRAM, запускать Whisper с моделью small в реальном времени комфортно — транскрипция будет появляться примерно через полсекунды после окончания фразы. На машине только с CPU даже tiny отстаёт на одну-две секунды, что приемлемо для некоторых сценариев (записи с совещаний, доступность), но ощущается медленно для субтитров прямого эфира.

Это главное аппаратное соображение при выборе между Windows Live Captions и подходом на базе Whisper.

Живая транскрипция для стриминга и OBS

Стримеры хотят субтитры по двум причинам: соответствие требованиям доступности (особенно актуально, если среди зрителей есть люди с нарушением слуха) и вовлечённость аудитории (многие смотрят стримы без звука или в шумных условиях). В этом контексте субтитры — реальный инструмент удержания аудитории, а не просто галочка.

Сложность: как доставить текст в OBS

Ни Windows Live Captions, ни отдельный запускатель Whisper не предназначены для вывода текста, который OBS мог бы потреблять напрямую. Типичный подход к интеграции:

Инструмент транскрипции записывает текущую транскрипцию в текстовый файл на диске в реальном времени
OBS читает этот файл, используя источник Текст (GDI+), указывающий на путь к файлу
OBS обновляет отображение при каждом изменении файла

Это работает, но визуальный результат полностью зависит от частоты обновления файла и стилизации текстового источника. Некоторые инструменты обновляются каждые 200 мс; другие записывают на границах предложений, давая более прерывистый, но чистый вывод.

Альтернативный подход использует источник браузера в OBS, указывающий на localhost-сервер, запускаемый инструментом транскрипции, — это обеспечивает более богатое форматирование и прокрутку в реальном времени.

Модуль транскрипции VoxBooster

Модуль живой транскрипции VoxBooster создан именно для этого сценария стриминга. Он запускает Whisper локально на вашем ПК, применяет шумоподавление к входному сигналу микрофона перед подачей в модель речи (что значительно улучшает точность в игровых или музыкальных условиях) и записывает файл субтитров, который OBS может отслеживать. Вы один раз настраиваете путь к выходному файлу в настройках VoxBooster и добавляете текстовый источник в OBS — на этом интеграция завершена.

Поскольку VoxBooster уже управляет вашим аудиопайплайном для изменения голоса, запуск транскрипции через тот же пайплайн означает, что модель речи получает то же чистое, подавленное по шуму аудио, которое идёт в ваш голосовой канал, а не сырой сигнал микрофона с утечкой игрового аудио.

Голосовой ввод vs субтитры в реальном времени: не одно и то же

Распространённая путаница: голосовая диктовка и субтитры в реальном времени — это разные вещи, и в Windows для каждой из них есть отдельный инструмент.

Голосовая диктовка преобразует вашу речь в текстовый ввод в текущем активном текстовом поле. Вы активируете её, говорите, и она печатает в любом активном приложении — документе, поле чата, строке поиска. В Windows 11 нажмите Win + H для активации встроенной панели голосового ввода. Она работает на той же офлайн-модели, что и Live Captions, но вывод идёт непосредственно в приложение в виде нажатий клавиш.

Субтитры в реальном времени отображают скользящую транскрипцию аудио для чтения — они ничего не пишут ни в какое приложение. Это пассивный слой отображения.

Для заметок без рук нужна диктовка. Для доступности или отслеживания чужой речи нужны субтитры. Большинство инструментов делают что-то одно; модуль транскрипции VoxBooster выводит в файл (в стиле субтитров) и может также направлять текст в отдельное окно диктовки в зависимости от вашей конфигурации.

Сценарии доступности: совещания и лекции

Для ориентированного на доступность использования — нарушение слуха, нарушения слуховой обработки, работа в шумной среде — Windows Live Captions — первый инструмент, который стоит попробовать, потому что он не требует настройки и обрабатывает всё локально. Работает с любым аудио, воспроизводимым системой: звонки в Teams, видео YouTube, разговоры вживую, захваченные микрофоном.

Там, где Live Captions действительно подводит пользователей с нарушением слуха, — это специализированный контент: медицинская лекция, юридическое слушание, инженерная презентация. Процент ошибок со специфической отраслевой лексикой высок. В таких случаях модель Whisper medium или large (если позволяет оборудование) даёт значительно лучший вывод, поскольку модель обработала больше специализированных текстов во время обучения.

Otter.ai часто рекомендуют для транскрипции совещаний. Он обрабатывает диаризацию говорящих (обозначает, кто что сказал) лучше любого локального инструмента, но требует загрузки аудио в их облако. Для тех, у кого есть требования к конфиденциальности или ненадёжное интернет-соединение, локальные альтернативы — единственный реальный вариант.

Подробнее о шумоподавлении — которое напрямую влияет на качество транскрипции — читайте в нашем руководстве по программам шумоподавления.

Транскрипция в реальном времени для гейминга

Геймеры используют живую транскрипцию в нескольких конкретных сценариях:

Доступность в играх: игроки с нарушением слуха, следящие за голосовым чатом в игре или диалогами катсцен
Оверлей субтитров в прямом эфире: стримеры, показывающие живую транскрипцию своего комментария в виде субтитров на экране
Командная коммуникация: команды в тактических шутерах, которым нужен текстовый резерв для голосовых переговоров в шумных ситуациях

Проблема в игровых условиях — утечка аудио: игровой звук, звуки уведомлений и музыка смешиваются в модели транскрипции с вашим голосом, производя бессмыслицу в транскрипции. Решение — использовать в качестве источника транскрипции выделенный вход микрофона (не системное аудио) или применять шумоподавление перед моделью речи.

Пайплайн изменения голоса VoxBooster уже выполняет шумоподавление на сигнале микрофона. При одновременном включении транскрипции обе функции используют очищенное аудио, поэтому игровой звук не засоряет транскрипцию.

Подробнее о низкой задержке аудио в играх читайте в руководстве по настройке голосового чейнджера с низкой задержкой.

Сторонние инструменты: что ещё доступно

Помимо Windows Live Captions и VoxBooster, стоит знать ещё о нескольких инструментах:

Otter.ai — отличная диаризация говорящих и заметки с совещаний, но облачный и с подпиской. Не подходит для конфиденциальных сред или ненадёжного интернета.

Распознавание речи Windows (устаревший, доступен на Windows 10 и 11) — старая система диктовки. Требует обучения под ваш голос для приемлемой точности и не производит живой экран субтитров. Работает, но устарел.

Whisper Desktop / реализация Const-me — популярный Windows GUI с открытым исходным кодом для Whisper, запускающий модели локально. Точный, бесплатный и настраиваемый, но требует ручной настройки и не интегрируется с OBS или стриминговыми инструментами из коробки.

Subtitle Edit с живым аудио — прежде всего инструмент редактирования субтитров, но имеет режим живой транскрипции аудио через бэкенды Whisper или Vosk. Полезен для авторов контента, выполняющих ручную синхронизацию субтитров.

Ни один из них не сравнится с интегрированным опытом, когда транскрипция встроена в тот же инструмент, который управляет шумоподавлением и маршрутизацией аудио, — это главная причина рассмотреть комплексное решение.

Сравнение поддержки языков

Инструмент	Языки	Автоопределение	Офлайн
Windows 11 Live Captions	30+	Нет (настраивается в системных параметрах)	Да
Whisper (любой интерфейс)	99	Да	Да
Otter.ai	Английский, французский, немецкий, испанский (ограниченно)	Нет	Нет
Транскрипция VoxBooster	99 (через Whisper)	Да	Да

Многоязычные возможности Whisper — одно из его очевидных преимуществ. Если вы работаете на языке, отличном от английского, или ваша аудитория либо собеседники переключаются между языками, инструменты на базе Whisper гораздо лучше подходят для этой задачи. Windows Live Captions по состоянию на 2026 год не определяет язык автоматически; язык транскрипции меняется в Параметры → Время и язык → Речь.

Широкий технический обзор того, как работают эти системы, смотрите в статье Википедии о распознавании речи.

Настройка локальной транскрипции Whisper: шаг за шагом

Если хотите запустить транскрипцию Whisper локально без VoxBooster, вот ручной путь настройки на Windows:

Предварительные условия: Python 3.10+, pip и CUDA-совместимая видеокарта (опционально, но рекомендуется).

Установите Whisper: pip install openai-whisper
Установите зависимость для захвата аудио: pip install sounddevice
Напишите короткий Python-скрипт, который записывает аудио фрагментами по 5–10 секунд с вашего микрофона и транскрибирует каждый фрагмент через whisper.transcribe()
Выводите результат или записывайте его в файл, который может читать OBS

Это работает, но требует значительных ручных усилий. Размер фрагмента — это регулятор задержки-точности: меньшие фрагменты означают более быстрое отображение, но более высокую частоту ошибок на границах фрагментов, где слова обрезаются. Большинство пользователей в итоге выбирают фрагменты по 4–6 секунд для приемлемой точности.

VoxBooster управляет всем этим внутренне — выбором модели, настройкой фрагментов, предобработкой шумоподавления и выводом файла для OBS — через панель настроек, а не через Python-скрипты.

Как работает транскрипция в реальном времени изнутри?

Системы распознавания речи в реальном времени обычно следуют одному и тому же пайплайну:

Захват аудио — вход микрофона или системное аудио захватывается как необработанный PCM-поток
Обнаружение голосовой активности (VAD) — быстрая лёгкая модель определяет, когда кто-то говорит, а когда тишина; это не позволяет модели транскрипции обрабатывать пустое аудио впустую
Сегментация — отфильтрованное VAD аудио делится на сегменты (как правило, 3–30 секунд) для основной модели
Извлечение признаков — аудиофрагменты преобразуются в мел-спектрограммы — частотное представление, понятное нейронной сети
Инференс транскрипции — модель речи (Whisper или аналогичная) выполняет инференс на спектрограмме и выдаёт вероятности токенов
Постобработка — применяются знаки препинания, заглавные буквы и форматирование; сегменты говорящих могут быть помечены, если запущена диаризация

Задержка, которую вы испытываете, — это в основном сумма длины фрагмента и времени инференса. VAD помогает, обеспечивая обработку моделью только аудио, содержащего речь, что сокращает впустую потраченные циклы инференса и поддерживает скользящий буфер более чистым.

Часто задаваемые вопросы

Какой лучший бесплатный инструмент транскрипции в реальном времени для Windows?

Windows 11 Live Captions — действительно хороший бесплатный вариант: работает офлайн, поддерживает более 30 языков и не требует никакой настройки, кроме включения в Параметрах. Для большей точности или результатов профессионального уровня локальный инструмент на базе Whisper даёт лучшие результаты ценой нескольких минут настройки.

Есть ли в Windows 10 встроенная транскрипция в реальном времени?

В Windows 10 нет Live Captions. Можно использовать Распознавание речи Windows для базового голосового ввода текста, но панели отображения в реальном времени для непрерывного аудио нет. Для транскрипции в реальном времени на Windows 10 нужен сторонний инструмент со своим движком распознавания речи.

Насколько точен Windows 11 Live Captions?

Для чёткой речи со стандартным акцентом в тихой обстановке Live Captions удивительно точен — сопоставим с облачными сервисами для распространённой лексики. Точность заметно снижается при сильных акцентах, специализированном жаргоне, одновременно говорящих людях или фоновом шуме. Локальная модель Whisper с активным шумоподавлением стабильно превосходит его в этих условиях.

Можно ли использовать транскрипцию в реальном времени для субтитров в прямом эфире?

Да. Практический способ — направить вывод инструмента на базе Whisper в OBS через источник браузера или плагин, считывающий текстовый файл, обновляемый в реальном времени. Windows Live Captions не предназначен для прямой интеграции со стриминговым ПО. Модуль транскрипции VoxBooster записывает файл субтитров в реальном времени, который OBS может читать, упрощая создание субтитров для стримов.

Какова задержка локальной транскрипции Whisper на обычном ПК?

Задержка зависит от размера модели и видеокарты. На видеокарте среднего класса с небольшой моделью Whisper можно ожидать 300–600 мс от начала до конца. Только на CPU даже модель tiny работает с задержкой 1–3 секунды. Windows Live Captions на практике обычно показывает задержку 200–400 мс — достаточно быстро для задач доступности, но иногда неудобно для взаимодействия в реальном времени.

Работает ли транскрипция в реальном времени на нескольких языках?

Windows Live Captions поддерживает более 30 языков, но их нужно переключать в системных настройках: автоматически определять язык в ходе разговора он не умеет. Whisper поддерживает 99 языков и может автоматически определять язык для каждого сегмента, что делает его гораздо гибче для многоязычных сред или контента, где говорящие переключают языки.

Достаточно ли точен голосовой ввод в реальном времени для записи заметок на совещаниях?

Для совещаний с одним участником в тихой комнате с хорошим микрофоном точность достаточна для создания полезного черновика, требующего минимальной правки. Совещания с несколькими участниками сложнее: ни один инструмент реального времени не помечает говорящих нативно, поэтому получается сплошной текст, который нужно атрибутировать вручную. Специализированные записыватели совещаний вроде Otter.ai обрабатывают диаризацию, но требуют загрузки аудио в облако.

Заключение

Транскрипция в реальном времени на Windows в 2026 году уже не специализированный инструмент: она либо встроена в ОС, либо доступна через открытые модели, хорошо работающие на потребительском оборудовании. Windows 11 Live Captions — правильная отправная точка для большинства пользователей: бесплатно, офлайн и достаточно быстро для повседневной доступности и случайного использования. Если точность важнее удобства — технический контент, несколько языков, стриминг для широкой аудитории — локальная транскрипция на базе Whisper даёт значительно лучшие результаты, и настройка теперь значительно проще, чем раньше.

Главная оставшаяся проблема — интеграция. Получение живого текстового вывода в OBS, управление балансом задержки и точности, предотвращение галлюцинаций модели речи при утечке игрового звука в микрофон — всё это решаемые задачи, но они требуют либо ручной работы с Python, либо интегрированного инструмента, который берёт на себя эту «сантехнику».

VoxBooster управляет шумоподавлением, изменением голоса, саундбордом и живой транскрипцией в одном пайплайне. Используете ли вы модуль транскрипции или нет, чистый звук на входе любой последующей системы распознавания речи — это половина успеха. Полный набор функций можно изучить на странице возможностей или проверить цены, если готовы попробовать.

Скачайте VoxBooster — бесплатный 3-дневный пробный период, без банковской карты.