NVIDIA Maxine Voice: SDK, Supresión de Ruido RTX y Audio en Tiempo Real

Guía completa del SDK de Efectos de Audio NVIDIA Maxine y RTX Voice: supresión de ruido con GPU, cancelación de eco y cómo combinarlos con un cambiador de voz en tiempo real.

NVIDIA Maxine Voice: Guía del SDK, Supresión de Ruido RTX y Audio en Tiempo Real

La tecnología NVIDIA Maxine audio representa uno de los avances más significativos en el procesamiento de audio para consumidores acelerado por GPU. Lo que comenzó como RTX Voice —una aplicación independiente que sorprendió a los streamers en 2020 al eliminar el ruido de los teclados mecánicos con un modelo de GPU— ha madurado hasta convertirse en el SDK de Efectos de Audio Maxine: un completo kit de herramientas para desarrolladores con supresión de ruido en tiempo real, cancelación de eco de sala y conformación de haz acústica. Esta guía cubre cómo funciona la tecnología, cómo configurarla y cómo combinarla con un cambiador de voz en tiempo real para obtener una cadena de audio de calidad profesional en Windows.


Resumen

  • El SDK de Efectos de Audio NVIDIA Maxine es un kit gratuito para desarrolladores con supresión de ruido acelerada por GPU, cancelación de eco y eliminación de ruido a 48 kHz
  • RTX Voice fue el predecesor para consumidores; NVIDIA Broadcast y el SDK Maxine son las versiones actuales
  • Requiere RTX de la serie 20 o más reciente (se necesitan Tensor Cores para la inferencia neural)
  • La latencia es de 10–20 ms para un solo paso de efecto, imperceptible en la conversación
  • Mejor flujo de trabajo: micrófono físico → supresión de ruido Maxine → cambiador de voz → salida de micrófono virtual a Discord/OBS
  • VoxBooster se integra perfectamente después de Maxine en la cadena de audio, sin necesidad de cable virtual

¿Qué es el SDK de Efectos de Audio NVIDIA Maxine?

El SDK de Efectos de Audio NVIDIA Maxine es un conjunto de APIs aceleradas por GPU que aplican mejoras de audio basadas en aprendizaje profundo a flujos de audio en tiempo real. No es una aplicación para consumidores —es un kit de herramientas para desarrolladores que proveedores de software, desarrolladores independientes e investigadores usan para añadir supresión de ruido y eliminación de eco de calidad de estudio a sus propias aplicaciones, sin necesidad de construir esos modelos desde cero.

El SDK incluye tres efectos de audio principales:

  • Supresión de Ruido — elimina sonidos de fondo (ventiladores, teclados, ruido de calle, climatización) de una señal de micrófono usando una red neuronal entrenada con miles de tipos de ruido
  • Cancelación de Eco de Sala — identifica y elimina reflexiones acústicas causadas por altavoces que reproducen audio de vuelta a la sala
  • Cancelación de Eco Acústico (AEC) — una variante de menor latencia de la cancelación de eco ajustada para configuraciones de auriculares y altavoces

La arquitectura subyacente usa redes neuronales convolucionales que se ejecutan en los Tensor Cores de GPUs RTX, lo que explica por qué el procesamiento añade solo 10–20 ms de latencia en lugar de los 80–150 ms que cabría esperar de un pipeline de aprendizaje profundo basado en CPU.

Puedes consultar documentación técnica detallada en el sitio de NVIDIA Developer.

De RTX Voice al SDK Maxine: breve historia

Para entender el estado actual de la tecnología, la cronología es importante.

2020 — Lanzamiento de RTX Voice. NVIDIA lanzó RTX Voice como una aplicación independiente gratuita. Creaba un micrófono virtual que pasaba la señal del micrófono real por un modelo de supresión de ruido de aprendizaje profundo en la GPU RTX. Los resultados fueron inmediatamente impresionantes —el ruido del teclado mecánico, el zumbido del climatizador y el ruido ambiental desaparecían con una coloración mínima de la voz.

2021 — NVIDIA Broadcast. RTX Voice y RTX Greenscreen se fusionaron en una sola aplicación llamada NVIDIA Broadcast, que añadió eliminación de fondo libre de ruido y corrección de contacto visual para webcams. El modelo de supresión de ruido se actualizó con mejor preservación de la voz a niveles de ruido más altos.

2022–2024 — Maduración del SDK Maxine. NVIDIA empaquetó los mismos modelos en el SDK de Efectos de Audio Maxine para desarrolladores. El SDK expuso más parámetros —intensidad del efecto, ponderación de frecuencias, selección de modelos— dando a los desarrolladores un control que la app GUI simplificaba deliberadamente.

2025–2026 — Era de integración. Aplicaciones de terceros, DAWs y software de voz comenzaron a integrar Maxine directamente. La API NVAFX está disponible ahora como formato de plugin y como API directa en C++ y Python.

ProductoAudienciaInterfazNivel de control
RTX Voice (legacy)ConsumidoresApp GUINinguno — un clic
NVIDIA BroadcastConsumidoresApp GUIMínimo
SDK de Efectos de Audio MaxineDesarrolladoresAPI C++ / PythonCompleto
Integraciones de tercerosUsuarios finales vía appsVariableVariable

Cómo funciona la supresión de ruido de Maxine

El modelo de supresión de ruido es una arquitectura de red neuronal recurrente (RNN) entrenada en un gran corpus de habla limpia combinada con fondos de ruido diversos. En tiempo de ejecución, procesa el audio en marcos cortos —típicamente ventanas de 10 ms— y predice una máscara de ruido para cada banda de frecuencia. Las frecuencias dominadas por el ruido se atenúan; las dominadas por la voz pasan sin cambios.

Esto es conceptualmente similar a la sustracción espectral (el enfoque clásico de herramientas como la Reducción de Ruido integrada de Audacity), pero el enfoque neural hace dos cosas de forma diferente:

  1. Generaliza a tipos de ruido nuevos. La sustracción espectral clásica necesita un perfil de ruido capturado con antelación. El modelo Maxine aprendió cómo suena el habla y suprime lo que no coincide —incluso ruidos que nunca ha visto específicamente.
  2. Preserva las características de la voz. El modelo está entrenado para dejar la envolvente espectral de la voz humana prácticamente intacta.

El compromiso es la dependencia de la GPU. El modelo requiere el rendimiento de multiplicación matricial de los Tensor Cores para funcionar con latencia en tiempo real.

Niveles de GPU compatibles

Generación de GPUTensor CoresCompatibilidad MaxineNotas
Serie GTX 10/16NoNo compatibleSin Tensor Cores
Serie RTX 20 (Turing)Sí (1.ª gen)CompatibleRequisito mínimo
Serie RTX 30 (Ampere)Sí (2.ª gen)CompatibleRecomendada para streaming
Serie RTX 40 (Ada Lovelace)Sí (4.ª gen)CompatibleInferencia más rápida
Serie RTX 50 (Blackwell)Sí (5.ª gen)CompatibleTarjetas 2025+

Cancelación de eco de sala: la función subestimada

La supresión de ruido recibe la mayor atención, pero la cancelación de eco de sala es igualmente valiosa para muchas configuraciones —especialmente en entornos de escritorio abierto donde se usan altavoces de escritorio en lugar de auriculares.

El eco de sala ocurre cuando la salida del altavoz (audio del juego, música, la voz de la otra persona) se filtra de vuelta al micrófono. La solución de Maxine AEC usa una señal de referencia —el audio reproducido por el altavoz— para predecir qué parte de la entrada del micrófono es reflexión acústica y sustraerla.

Cuándo usar AEC vs. supresión de ruido simple:

  • Usa supresión de ruido cuando el problema son sonidos ambientales de fondo (ventilador, teclado, calle)
  • Usa AEC cuando el problema es el retroalimentación acústica de tus propios altavoces al micrófono
  • Usa ambos en combinación para una configuración de transmisión en sala abierta

Configurar NVIDIA Broadcast (ruta para consumidores)

Si eres streamer o creador de contenido y no quieres compilar un SDK, NVIDIA Broadcast es la herramienta adecuada. Instala la supresión de ruido de Maxine internamente y la expone a través de una GUI.

Requisitos:

  • Windows 10 u 11
  • GPU RTX de la serie 20 o más reciente
  • Versión de controlador 456.38 o posterior

Pasos de configuración:

  1. Descarga NVIDIA Broadcast desde nvidia.com/broadcast
  2. Instala y abre. La app muestra tres paneles: Cámara, Micrófono y Altavoz.
  3. En Micrófono, selecciona tu micrófono físico como entrada.
  4. Activa Eliminación de Ruido y opcionalmente Eliminación de Eco de Sala.
  5. Establece Salida en “NVIDIA RTX Voice (Microphone)” — esto crea un dispositivo de micrófono virtual.
  6. En Discord, OBS o cualquier otra app, selecciona “NVIDIA RTX Voice (Microphone)” como dispositivo de entrada.

El micrófono virtual creado por Broadcast emite audio limpio y sin ruido que cualquier otra app puede recibir. Este mismo patrón de micrófono virtual lo usan cambiadores de voz como VoxBooster, lo que significa que puedes encadenarlos.

Configurar el SDK de Efectos de Audio Maxine (ruta para desarrolladores)

Para desarrolladores que construyen aplicaciones personalizadas, el SDK ofrece acceso directo a la API de los mismos modelos.

Requisitos previos:

Flujo de trabajo básico de la API (pseudocódigo C++):

NvAFX_CreateEffect(NVAFX_EFFECT_DENOISE, &handle)
NvAFX_SetU32(handle, NVAFX_PARAM_NUM_CHANNELS, 1)
NvAFX_SetU32(handle, NVAFX_PARAM_SAMPLE_RATE, 48000)
NvAFX_SetString(handle, NVAFX_PARAM_MODEL_PATH, "denoiser_48k.trtpkg")
NvAFX_Load(handle)
// Bucle por fotograma:
NvAFX_Run(handle, input_buffer, output_buffer, num_samples)
NvAFX_DestroyEffect(handle)

Los archivos de modelo (.trtpkg) son grafos de inferencia optimizados con TensorRT. Están incluidos en la descarga del SDK y deben estar presentes en la ruta especificada.

Tamaños de trama prácticos:

  • Supresión de ruido: 480 muestras a 48 kHz = 10 ms por trama
  • Cancelación de eco: 160 muestras a 16 kHz = 10 ms por trama

Integrar Maxine con un cambiador de voz en tiempo real

El caso de uso más potente para usuarios de escritorio es combinar la supresión de ruido de Maxine con un cambiador de voz que gestione el cambio de tono, efectos o conversión de voz con IA. Así funciona la cadena de audio:

Micrófono físico

Micrófono virtual de NVIDIA Broadcast (señal limpia y sin ruido)

VoxBooster (cambio de tono / efectos / conversión de voz con IA)

Salida de micrófono virtual de VoxBooster

Discord / OBS / Juego / Navegador

Por qué importa el orden: La supresión de ruido debe aplicarse antes del cambiador de voz, no después. Si ejecutas el cambiador de voz primero y luego suprimes el ruido, el modelo neural tratará algunos artefactos del efecto de voz como “ruido” y los atenuará, degradando la calidad del efecto.

Presupuesto de latencia en cada etapa:

EtapaLatencia añadida
Micrófono físico al driver2–5 ms
Supresión de ruido NVIDIA Broadcast10–20 ms
VoxBooster modo efectos5–15 ms
VoxBooster modo voz con IA200–350 ms
Micrófono virtual a la app2–5 ms
Total (modo efectos)~20–45 ms
Total (modo voz con IA)~215–385 ms

La latencia en modo efectos es imperceptible en la conversación. Para una vista completa de cómo configurar tu cadena de audio para streaming, consulta la guía sobre cambiadores de voz para creadores de contenido.

Usar NVIDIA Maxine en Discord

Discord tiene su propia supresión de ruido integrada, pero la supresión de calidad Maxine es perceptiblemente mejor a niveles de ruido altos, especialmente con teclados mecánicos y climatización. Ejecutar Maxine aguas arriba de la entrada de Discord permite usar el modelo de Maxine mientras se aprovecha la cancelación de eco de Discord a nivel de aplicación.

Configuración recomendada:

  1. Activa la supresión de ruido de NVIDIA Broadcast en tu micrófono físico.
  2. En Configuración de Discord → Voz y Vídeo, establece Dispositivo de Entrada como “NVIDIA RTX Voice (Microphone)”.
  3. En Procesamiento de Voz, desactiva la supresión de ruido integrada de Discord (añade latencia y artefactos de doble procesamiento) pero mantén la cancelación de eco activada.
  4. Opcionalmente, enruta a través de VoxBooster entre Broadcast y Discord para efectos de voz.

Consulta la guía detallada sobre conflictos entre cambiadores de voz y Krisp en Discord si tienes problemas de compatibilidad.

RTX Voice para streaming: integración con OBS

Para usuarios de OBS Studio, la integración más limpia usa NVIDIA Broadcast como dispositivo de micrófono y no añade ningún filtro de ruido en OBS —dejando que la GPU lo gestione antes.

Configuración de Audio en OBS:

  1. En OBS → Configuración → Audio, establece Micrófono/Audio Auxiliar como “NVIDIA RTX Voice (Microphone)”.
  2. En el mezclador de audio, haz clic derecho en tu fuente de micrófono → Filtros.
  3. Elimina cualquier filtro de Supresión de Ruido que hayas añadido previamente (el doble procesamiento degrada la calidad).
  4. Opcionalmente añade un filtro Compresor y un filtro de Ganancia para control de nivel.

Para streamers que también quieren efectos de voz o clonación de voz con IA en directo, añade VoxBooster a la cadena antes de OBS. Esta es la misma configuración que se detalla en configurar un cambiador de voz para Discord.

Clonación de voz con IA después de Maxine

Un uso silencioso pero importante: alimentar audio limpio de Maxine en un pipeline de conversión de voz con IA. Si estás creando contenido de locución con una voz clonada con IA, la calidad del audio de entrada afecta directamente a la salida de conversión. Una entrada ruidosa produce clones ruidosos.

La práctica estándar para construir un dataset de clonación de voz es:

  1. Graba audio fuente (tu voz o la de un actor de voz con licencia)
  2. Ejecuta la supresión de ruido de Maxine offline con máxima intensidad —aquí importa más la calidad que la latencia
  3. Segmenta en clips de 5–15 segundos
  4. Alimenta los segmentos limpios en el pipeline de entrenamiento

Para profundizar en los flujos de trabajo de clonación de voz con IA, consulta nuestra guía de clonación de voz para locución.

Solución de problemas comunes con Maxine y RTX Voice

“El micrófono virtual de NVIDIA RTX Voice no aparece en la lista de dispositivos” Reinicia el servicio de Audio de Windows (Win+R → services.msc → Windows Audio → Reiniciar). NVIDIA Broadcast a veces no registra su dispositivo virtual tras una actualización del sistema.

“El efecto parece no tener impacto sobre el ruido del teclado” Comprueba que la Intensidad del Efecto está al 100% en la interfaz de Broadcast. Verifica también que tu micrófono físico esté seleccionado como entrada en Broadcast —no el propio micrófono RTX Voice (lo que crearía un bucle de retroalimentación).

“La voz suena hueca o tiene una calidad ‘ondulante’” El modelo de supresión de ruido está siendo demasiado agresivo en una sala muy silenciosa. Reduce la Intensidad del Efecto al 70–80%.

“La latencia aumentó drásticamente al activar Broadcast” Comprueba que el controlador de tu GPU esté actualizado. Los controladores antiguos (anteriores a 520) tenían un error donde Maxine procesaba en modo síncrono de parada de CPU en lugar del modo GPU asíncrono, añadiendo 60–80 ms de latencia innecesaria.

“VoxBooster y NVIDIA Broadcast no se encadenan correctamente” Asegúrate de que el dispositivo de entrada de VoxBooster esté configurado como “NVIDIA RTX Voice (Microphone)” y no tu micrófono físico.

Comparación de NVIDIA Maxine con otras soluciones de supresión de ruido

SoluciónTecnologíaLatenciaGPU requeridaCosteMejor para
NVIDIA Maxine / BroadcastNeural (Tensor Core)10–20 msRTX necesariaGratisPropietarios de GPU RTX
KrispNeural (CPU)20–40 msNoGratis / de pagoUsuarios sin RTX
Discord integradoNeural (CPU/nube)20–50 msNoGratis (Discord)Solo Discord
Adobe Audition DenoiseNeural espectralSolo offlineNoDe pago (Creative Cloud)Postproducción
RNNoiseNeural (CPU, open source)~10 msNoGratis (código abierto)Desarrolladores en cualquier GPU
Reducción de Ruido AudacitySustracción espectralSolo offlineNoGratisEdición offline

La ventaja de Maxine es la latencia acelerada por GPU combinada con un modelo entrenado en un dataset vastamente mayor que el nivel de consumidor de Krisp. Cubrimos el flujo de trabajo de integración de Krisp en más detalle en nuestra guía de integración de cambiadores de voz con Krisp.

SDK Maxine vs. NVIDIA Broadcast: ¿cuál deberías usar?

Si eres un usuario final que quiere supresión de ruido sin programar, usa NVIDIA Broadcast. Es el envoltorio de consumidor sobre los mismos modelos subyacentes, se actualiza automáticamente y se integra con todas las apps principales a través de un micrófono virtual.

Si eres un desarrollador construyendo una aplicación que necesita mejora de audio —una app de chat de voz, una herramienta de streaming, un producto de software creativo— el SDK Maxine es la elección correcta. Te da:

  • Control programático sobre la intensidad del efecto
  • Acceso a la selección de modelos (múltiples niveles de calidad)
  • La capacidad de integrar supresión de ruido sin que los usuarios tengan que instalar una app separada
  • Control a nivel de trama para integración con pipelines de audio personalizados

Conclusión

El SDK de Efectos de Audio NVIDIA Maxine y RTX Voice representan un cambio genuino en el procesamiento de audio accesible y acelerado por GPU. Lo que antes requería una unidad DSP de hardware o una cabina de grabación cara ahora puede funcionar en 10–20 ms en una GPU de gaming de gama media.

Para la mayoría de usuarios de Windows con una tarjeta RTX, la configuración práctica es sencilla: instala NVIDIA Broadcast, activa la supresión de ruido en tu micrófono y deja que el resto de las apps reciban la señal de micrófono virtual limpia. Si también quieres efectos de voz en tiempo real, cambio de tono o conversión de voz con IA superpuesta, herramientas como VoxBooster encajan perfectamente en esa cadena —consumiendo el micrófono virtual de Broadcast como entrada y publicando su propio micrófono virtual como salida, todo sin controladores de kernel ni software de enrutamiento de audio a nivel de administrador.

Para una descripción completa de cómo configurar una cadena de audio para streaming con efectos de voz, consulta la guía sobre cambiadores de voz para Discord o la guía más amplia de cambiadores de voz para streaming.

Prueba VoxBooster — 3 días gratis.

Clonación de voz en tiempo real, soundboard y efectos — donde ya hablas.

  • Sin tarjeta
  • ~30ms de latencia
  • Discord · Teams · OBS
Probar 3 días gratis