NVIDIA Maxine Voice: SDK, шумоподавление RTX и аудио в реальном времени

Полное руководство по SDK аудиоэффектов NVIDIA Maxine и RTX Voice — GPU-ускоренное шумоподавление, эхоподавление и интеграция с чейнджером голоса в реальном времени.

NVIDIA Maxine Voice: руководство по SDK, шумоподавление RTX и аудио в реальном времени

Технология NVIDIA Maxine audio — один из наиболее значимых скачков в GPU-ускоренной обработке аудио для рядового пользователя. То, что началось как RTX Voice — отдельное приложение, поразившее стримеров в 2020 году удалением шума механической клавиатуры с помощью модели на GPU, — превратилось в SDK аудиоэффектов Maxine: полноценный инструментарий для разработчиков с шумоподавлением, эхоподавлением и акустическим формированием луча в реальном времени. В этом руководстве рассматриваются принцип работы технологии, настройка и интеграция с чейнджером голоса для построения полной аудиоцепочки вещательного качества на Windows.


Коротко о главном

  • SDK аудиоэффектов NVIDIA Maxine — бесплатный инструментарий для разработчиков с GPU-ускоренным шумоподавлением, эхоподавлением и очисткой аудио на 48 кГц
  • RTX Voice — предшественник для конечных пользователей; NVIDIA Broadcast и SDK Maxine — актуальные версии
  • Требует RTX 20-й серии или новее (Tensor Core необходимы для нейросетевого инференса)
  • Задержка — 10–20 мс для одного прохода эффекта, незаметная в разговоре
  • Оптимальная цепочка: физический микрофон → шумоподавление Maxine → чейнджер голоса → виртуальный микрофон в Discord/OBS
  • VoxBooster встраивается в цепочку после Maxine без виртуального аудиокабеля

Что такое SDK аудиоэффектов NVIDIA Maxine?

SDK аудиоэффектов NVIDIA Maxine — набор API с GPU-ускорением, применяющих улучшение аудио на основе глубокого обучения к потокам аудио в реальном времени. Это не пользовательское приложение — это инструментарий для разработчиков, который производители ПО, независимые разработчики и исследователи используют для добавления шумоподавления и удаления эха студийного уровня в собственные приложения без необходимости строить эти модели с нуля.

SDK включает три основных аудиоэффекта:

  • Шумоподавление — удаляет фоновые звуки (вентиляторы, клавиатура, уличный шум, кондиционер) из сигнала микрофона с помощью нейронной сети, обученной на тысячах типов шума
  • Подавление эха в комнате — выявляет и устраняет акустические отражения, возникающие от воспроизведения звука через динамики обратно в комнату
  • Акустическое эхоподавление (AEC) — менее задержанный вариант эхоподавления, настроенный для конфигураций с наушниками и динамиком

Базовая архитектура использует свёрточные нейронные сети, работающие на Tensor Core GPU RTX, что объясняет, почему обработка добавляет всего 10–20 мс задержки вместо 80–150 мс, типичных для конвейера глубокого обучения на CPU.

Подробная техническая документация доступна на сайте NVIDIA Developer.

От RTX Voice к SDK Maxine: краткая история

2020 — запуск RTX Voice. NVIDIA выпустила RTX Voice как бесплатное отдельное приложение. Оно создавало виртуальный микрофон, пропуская сигнал реального микрофона через модель шумоподавления на GPU RTX. Результаты были сразу впечатляющими — шум механической клавиатуры, гул кондиционера и фоновый шум исчезали при минимальном влиянии на окраску голоса.

2021 — NVIDIA Broadcast. RTX Voice и RTX Greenscreen объединились в одно приложение NVIDIA Broadcast с добавлением удаления фона и коррекции взгляда для веб-камер. Модель шумоподавления обновили для лучшего сохранения голоса при высоком уровне шума.

2022–2024 — зрелость SDK Maxine. NVIDIA упаковала те же модели в SDK аудиоэффектов Maxine для разработчиков с расширенным набором параметров: интенсивность эффекта, частотное взвешивание, выбор модели.

2025–2026 — эра интеграции. Сторонние приложения, DAW и голосовое ПО начали напрямую интегрировать Maxine. API NVAFX доступен в виде формата плагина и прямого API на C++ и Python.

ПродуктАудиторияИнтерфейсУровень контроля
RTX Voice (legacy)Конечные пользователиGUI-приложениеНикакого — один клик
NVIDIA BroadcastКонечные пользователиGUI-приложениеМинимальный
SDK аудиоэффектов MaxineРазработчикиAPI C++ / PythonПолный
Интеграции сторонних разработчиковПользователи через приложенияРазныйРазный

Как работает шумоподавление Maxine

Модель шумоподавления — это рекуррентная нейронная сеть (RNN), обученная на большом корпусе чистой речи в сочетании с разнообразными фонами шума. В реальном времени она обрабатывает аудио в коротких кадрах — обычно в окнах по 10 мс — и предсказывает маску шума для каждой частотной полосы. Частоты, где доминирует шум, ослабляются; частоты, где доминирует голос, проходят без изменений.

По принципу это похоже на спектральное вычитание (классический подход в инструментах вроде Noise Reduction в Audacity), но нейронный подход отличается двумя ключевыми моментами:

  1. Обобщение на новые типы шума. Классическое спектральное вычитание требует заранее записанного профиля шума. Модель Maxine научилась распознавать речь и подавляет всё, что на неё не похоже, — даже незнакомые типы шума.
  2. Сохранение характеристик голоса. Модель обучена оставлять спектральную огибающую человеческого голоса практически нетронутой.

Компромисс — зависимость от GPU. Модели требуется пропускная способность матричного умножения Tensor Core для работы с задержкой реального времени.

Поддерживаемые уровни GPU

Поколение GPUTensor CoreПоддержка MaxineПримечания
Серия GTX 10/16НетНе поддерживаетсяНет Tensor Core
Серия RTX 20 (Turing)Да (1-е поколение)Полная поддержкаМинимальные требования
Серия RTX 30 (Ampere)Да (2-е поколение)Полная поддержкаРекомендуется для стримов
Серия RTX 40 (Ada Lovelace)Да (4-е поколение)Полная поддержкаСамый быстрый инференс
Серия RTX 50 (Blackwell)Да (5-е поколение)Полная поддержкаКарты 2025+

Подавление эха в комнате: недооценённая функция

Шумоподавление получает всё внимание, но подавление эха в комнате не менее ценно для многих конфигураций — особенно на открытых рабочих местах, где вместо наушников используются настольные динамики.

Эхо возникает, когда вывод динамика (звук игры, музыка, голос собеседника) просачивается обратно в микрофон. Решение Maxine AEC использует опорный сигнал — воспроизведённый через динамик звук — чтобы предсказать, какая часть входного сигнала микрофона является акустическим отражением, и вычесть её.

Когда использовать AEC вместо обычного шумоподавления:

  • Шумоподавление — когда проблема в окружающих фоновых звуках (вентилятор, клавиатура, улица)
  • AEC — когда проблема в акустической обратной связи от собственных динамиков
  • Оба вместе — для трансляции в открытом пространстве

Настройка NVIDIA Broadcast (путь для конечных пользователей)

Если вы стример или контент-мейкер и не хотите компилировать SDK, NVIDIA Broadcast — правильный выбор. Он устанавливает шумоподавление Maxine под капотом и предоставляет GUI.

Требования:

  • Windows 10 или 11
  • GPU RTX 20-й серии или новее
  • Версия драйвера 456.38 или выше

Шаги настройки:

  1. Скачайте NVIDIA Broadcast с nvidia.com/broadcast
  2. Установите и откройте. Приложение показывает три панели: Камера, Микрофон и Динамик.
  3. В разделе Микрофон выберите физический микрофон как входное устройство.
  4. Включите Удаление шума и при необходимости Удаление эха в комнате.
  5. Установите Выход на «NVIDIA RTX Voice (Microphone)» — это создаёт виртуальный микрофон.
  6. В Discord, OBS или любом другом приложении выберите «NVIDIA RTX Voice (Microphone)» как входное устройство.

Виртуальный микрофон, созданный Broadcast, выдаёт чистое аудио без шума, которое может принять любое другое приложение. Тот же паттерн виртуального микрофона используют чейнджеры голоса вроде VoxBooster — это значит, что их можно выстроить в цепочку.

Настройка SDK аудиоэффектов Maxine (путь для разработчиков)

Для разработчиков, строящих собственные приложения, SDK предоставляет прямой доступ к API тех же моделей.

Предварительные требования:

  • CUDA Toolkit 11.x или 12.x
  • GPU RTX с драйвером ≥456.38
  • SDK Maxine, загруженный с NGC Developer Portal

Основной рабочий процесс API (псевдокод C++):

NvAFX_CreateEffect(NVAFX_EFFECT_DENOISE, &handle)
NvAFX_SetU32(handle, NVAFX_PARAM_NUM_CHANNELS, 1)
NvAFX_SetU32(handle, NVAFX_PARAM_SAMPLE_RATE, 48000)
NvAFX_SetString(handle, NVAFX_PARAM_MODEL_PATH, "denoiser_48k.trtpkg")
NvAFX_Load(handle)
// Цикл по кадрам:
NvAFX_Run(handle, input_buffer, output_buffer, num_samples)
NvAFX_DestroyEffect(handle)

Файлы модели (.trtpkg) — это графы инференса, оптимизированные TensorRT. Они поставляются в комплекте с загрузкой SDK и должны находиться по указанному пути.

Практические размеры кадров:

  • Шумоподавление: 480 сэмплов при 48 кГц = 10 мс на кадр
  • Эхоподавление: 160 сэмплов при 16 кГц = 10 мс на кадр

Интеграция Maxine с чейнджером голоса реального времени

Самый мощный сценарий для пользователей ПК — объединение шумоподавления Maxine с чейнджером голоса для сдвига тона, эффектов или AI-конверсии голоса. Вот как выглядит аудиоцепочка:

Физический микрофон

Виртуальный микрофон NVIDIA Broadcast (чистый сигнал без шума)

VoxBooster (сдвиг тона / эффекты / AI-конверсия голоса)

Выход виртуального микрофона VoxBooster

Discord / OBS / Игра / Браузер

Почему важен порядок: Шумоподавление должно идти до чейнджера голоса, а не после. Если сначала запустить чейнджер, а потом подавлять шум, нейронная модель воспримет часть артефактов голосового эффекта как «шум» и заглушит их, ухудшив качество эффекта.

Бюджет задержки на каждом этапе:

ЭтапДобавленная задержка
Физический микрофон до драйвера2–5 мс
Шумоподавление NVIDIA Broadcast10–20 мс
VoxBooster, режим эффектов5–15 мс
VoxBooster, режим AI-голоса200–350 мс
Виртуальный микрофон до приложения2–5 мс
Итого (режим эффектов)~20–45 мс
Итого (режим AI-голоса)~215–385 мс

Задержка в режиме эффектов в разговоре не ощущается. Для подробного обзора настройки аудиоцепочки для стриминга смотрите руководство о чейнджерах голоса для контент-мейкеров.

Использование NVIDIA Maxine в Discord

У Discord есть собственное встроенное шумоподавление, но качество шумоподавления Maxine заметно выше при высоком уровне шума — особенно при шуме механической клавиатуры и кондиционера. Запуск Maxine перед входом в Discord позволяет использовать модель Maxine, сохраняя при этом эхоподавление Discord на уровне приложения.

Рекомендуемая настройка:

  1. Включите шумоподавление NVIDIA Broadcast на физическом микрофоне.
  2. В настройках Discord → Голос и видео установите Устройство ввода на «NVIDIA RTX Voice (Microphone)».
  3. В разделе Обработка голоса отключите встроенное шумоподавление Discord (оно добавляет задержку и артефакты двойной обработки), но оставьте эхоподавление включённым.
  4. Опционально пропустите сигнал через VoxBooster между Broadcast и Discord для голосовых эффектов.

Подробное руководство по устранению конфликтов смотрите в статье о конфликтах чейнджеров голоса и Krisp в Discord.

RTX Voice для стримов: интеграция с OBS

Для пользователей OBS Studio самая чистая интеграция — использование NVIDIA Broadcast как устройства микрофона без каких-либо фильтров шумоподавления в OBS: GPU обрабатывает всё заранее.

Настройка аудио в OBS:

  1. В OBS → Настройки → Аудио установите Вспомогательное аудио/Микрофон на «NVIDIA RTX Voice (Microphone)».
  2. В аудиомиксере нажмите правой кнопкой на источник микрофона → Фильтры.
  3. Удалите ранее добавленный фильтр Шумоподавления (двойная обработка ухудшает качество).
  4. Опционально добавьте фильтр Компрессор и Усиление для управления уровнями.

Для стримеров, желающих одновременно использовать голосовые эффекты или AI-клонирование голоса, добавьте VoxBooster в цепочку перед OBS. Подробнее — в руководстве по настройке чейнджера голоса для Discord.

Клонирование голоса с помощью ИИ после Maxine

Менее очевидный, но важный сценарий: подача очищенного аудио Maxine в конвейер AI-конверсии голоса. Если вы создаёте озвучку с AI-клонированным голосом, качество входного аудио напрямую влияет на результат конверсии. Зашумлённый вход даёт зашумлённые клоны.

Стандартная практика создания датасета клонирования голоса:

  1. Запишите исходное аудио (ваш голос или голос актёра с лицензией)
  2. Запустите шумоподавление Maxine в офлайн-режиме с максимальной интенсивностью — здесь важнее качество, а не задержка
  3. Разбейте на клипы по 5–15 секунд
  4. Подайте чистые сегменты в обучающий конвейер

Подробнее о рабочих процессах AI-клонирования голоса и их отличиях от чейнджеров реального времени — в нашем руководстве по клонированию голоса для озвучки.

Устранение типичных проблем с Maxine и RTX Voice

«Виртуальный микрофон NVIDIA RTX Voice не отображается в списке устройств» Перезапустите службу Windows Audio (Win+R → services.msc → Windows Audio → Перезапустить). NVIDIA Broadcast иногда не регистрирует виртуальное устройство после обновления системы.

«Эффект, похоже, не влияет на шум клавиатуры» Убедитесь, что Интенсивность эффекта в интерфейсе Broadcast установлена на 100%. Также проверьте, что в качестве входа Broadcast выбран физический микрофон, а не сам микрофон RTX Voice (это создаст петлю обратной связи).

«Голос звучит гулко или имеет “плавающий” характер» Модель шумоподавления слишком агрессивна в очень тихой комнате. Снизьте Интенсивность эффекта до 70–80%.

«После включения Broadcast задержка резко увеличилась» Обновите драйвер GPU. В старых драйверах (до версии 520) был баг, при котором Maxine обрабатывал данные в синхронном режиме с остановкой CPU вместо асинхронного GPU-режима, добавляя 60–80 мс лишней задержки.

«VoxBooster и NVIDIA Broadcast не выстраиваются в цепочку корректно» Убедитесь, что в настройках VoxBooster в качестве устройства ввода выбран «NVIDIA RTX Voice (Microphone)», а не физический микрофон.

Сравнение NVIDIA Maxine с другими решениями шумоподавления

РешениеТехнологияЗадержкаНужна GPUСтоимостьЛучше всего подходит для
NVIDIA Maxine / BroadcastНейросетевое (Tensor Core)10–20 мсRTX обязательнаБесплатноВладельцы GPU RTX
KrispНейросетевое (CPU)20–40 мсНетБесплатно / платноПользователи без RTX
Встроенное в DiscordНейросетевое (CPU/облако)20–50 мсНетБесплатно (Discord)Только Discord
Adobe Audition DenoiseСпектральное нейросетевоеТолько офлайнНетПлатно (Creative Cloud)Постпродакшен
RNNoiseНейросетевое (CPU, open source)~10 мсНетБесплатно (открытый код)Разработчики на любых GPU
Noise Reduction в AudacityСпектральное вычитаниеТолько офлайнНетБесплатноОфлайн-редактирование

Преимущество Maxine — GPU-ускоренная задержка в сочетании с моделью, обученной на значительно большем датасете, чем потребительский уровень Krisp. Рабочий процесс интеграции Krisp подробно рассмотрен в нашем руководстве по интеграции чейнджера голоса с Krisp.

SDK Maxine vs. NVIDIA Broadcast: что выбрать?

Если вы конечный пользователь, которому нужно шумоподавление без программирования, используйте NVIDIA Broadcast. Это потребительская обёртка над теми же базовыми моделями, обновляется автоматически и интегрируется со всеми основными приложениями через виртуальный микрофон.

Если вы разработчик, создающий приложение с улучшением аудио — голосовой чат, стриминговый инструмент, творческое ПО — SDK Maxine является правильным выбором. Он даёт:

  • Программный контроль над интенсивностью эффекта
  • Доступ к выбору модели (несколько уровней качества)
  • Возможность встроить шумоподавление без необходимости устанавливать отдельное приложение
  • Контроль на уровне кадра для интеграции с кастомными аудиоконвейерами

Заключение

SDK аудиоэффектов NVIDIA Maxine и RTX Voice — это реальный шаг вперёд в доступной, GPU-ускоренной обработке аудио. То, что раньше требовало аппаратного DSP-блока или дорогой студии звукозаписи, теперь работает за 10–20 мс на среднестатистическом игровом GPU.

Для большинства пользователей Windows с картой RTX практическая настройка проста: установите NVIDIA Broadcast, включите шумоподавление на микрофоне и позвольте всем остальным приложениям получать очищенный сигнал виртуального микрофона. Если поверх этого нужны голосовые эффекты в реальном времени, сдвиг тона или AI-конверсия голоса, такие инструменты, как VoxBooster, органично вписываются в эту цепочку — принимают виртуальный микрофон Broadcast как вход и публикуют собственный виртуальный микрофон как выход, без драйверов ядра и программ аудиомаршрутизации с правами администратора.

Полный обзор настройки аудиоцепочки для стриминга с голосовыми эффектами — в руководстве по чейнджерам голоса для Discord или в расширенном руководстве по чейнджерам голоса для стриминга.

Попробуй VoxBooster — 3 дня бесплатно.

Клонирование голоса в реальном времени, саундборд и эффекты — везде, где ты говоришь.

  • Без карты
  • ~30 мс задержки
  • Discord · Teams · OBS
Попробовать 3 дня бесплатно