¿RTX Voice y NVIDIA Maxine son lo mismo?

RTX Voice fue la aplicación para consumidores lanzada en 2020. NVIDIA luego integró su tecnología en NVIDIA Broadcast y publicó los algoritmos subyacentes como el SDK de Efectos de Audio Maxine para desarrolladores. Los tres comparten los mismos modelos de supresión neural, pero difieren en interfaz: app para consumidores vs. SDK para desarrolladores.

¿La supresión de ruido de NVIDIA Maxine funciona sin GPU RTX?

El SDK Maxine está diseñado para GPUs RTX (arquitectura Turing, serie RTX 20 en adelante) que incluyen Tensor Cores para inferencia acelerada. Sin una GPU RTX, el SDK funciona en modo CPU con mayor latencia o simplemente no carga. Las tarjetas GTX no tienen Tensor Cores y no están oficialmente soportadas.

¿Puedo usar NVIDIA Maxine con un cambiador de voz al mismo tiempo?

Sí. La configuración típica enruta el micrófono físico primero por Maxine (o NVIDIA Broadcast) para eliminar el ruido, y luego envía la salida limpia a un cambiador de voz en tiempo real como VoxBooster. El cambiador de voz recibe una señal más limpia, lo que mejora la calidad del cambio de tono y la conversión de voz con IA.

¿Qué frecuencia de muestreo usa el SDK de Efectos de Audio NVIDIA Maxine?

El SDK de Efectos de Audio Maxine procesa audio a 48 kHz, mono de 16 bits. Si tu micrófono o cambiador de voz opera a una frecuencia de muestreo diferente (por ejemplo, 44,1 kHz), necesitas remuestrear antes de pasar el audio al pipeline del SDK. La mayoría de los drivers de audio profesionales y el modo compartido de low-latency audio capture gestionan esto de forma transparente.

¿Cuánta memoria GPU requiere NVIDIA Maxine?

Un pipeline típico de Efectos de Audio Maxine —supresión de ruido más cancelación de eco— usa aproximadamente 500 MB a 1 GB de VRAM. En una RTX 3060 de gama media con 12 GB de VRAM esto es insignificante junto con cargas de trabajo de juegos o streaming. Configuraciones más complejas con todos los efectos habilitados pueden alcanzar 1,5 GB.

¿Es gratuito el SDK de Efectos de Audio NVIDIA Maxine?

El SDK en sí es gratuito para descargar desde el NVIDIA NGC Developer Portal. Las aplicaciones comerciales construidas sobre él deben cumplir los Términos de Servicio de NVIDIA, que generalmente permiten el uso comercial sin tarifa de tiempo de ejecución para efectos de audio. Consulta la licencia actual en la página NGC antes de lanzar un producto.

NVIDIA Maxine Voice: Guía del SDK, Supresión de Ruido RTX y Audio en Tiempo Real

La tecnología NVIDIA Maxine audio representa uno de los avances más significativos en el procesamiento de audio para consumidores acelerado por GPU. Lo que comenzó como RTX Voice —una aplicación independiente que sorprendió a los streamers en 2020 al eliminar el ruido de los teclados mecánicos con un modelo de GPU— ha madurado hasta convertirse en el SDK de Efectos de Audio Maxine: un completo kit de herramientas para desarrolladores con supresión de ruido en tiempo real, cancelación de eco de sala y conformación de haz acústica. Esta guía cubre cómo funciona la tecnología, cómo configurarla y cómo combinarla con un cambiador de voz en tiempo real para obtener una cadena de audio de calidad profesional en Windows.

Resumen

El SDK de Efectos de Audio NVIDIA Maxine es un kit gratuito para desarrolladores con supresión de ruido acelerada por GPU, cancelación de eco y eliminación de ruido a 48 kHz
RTX Voice fue el predecesor para consumidores; NVIDIA Broadcast y el SDK Maxine son las versiones actuales
Requiere RTX de la serie 20 o más reciente (se necesitan Tensor Cores para la inferencia neural)
La latencia es de 10–20 ms para un solo paso de efecto, imperceptible en la conversación
Mejor flujo de trabajo: micrófono físico → supresión de ruido Maxine → cambiador de voz → salida de micrófono virtual a Discord/OBS
VoxBooster se integra perfectamente después de Maxine en la cadena de audio, sin necesidad de cable virtual

¿Qué es el SDK de Efectos de Audio NVIDIA Maxine?

El SDK de Efectos de Audio NVIDIA Maxine es un conjunto de APIs aceleradas por GPU que aplican mejoras de audio basadas en aprendizaje profundo a flujos de audio en tiempo real. No es una aplicación para consumidores —es un kit de herramientas para desarrolladores que proveedores de software, desarrolladores independientes e investigadores usan para añadir supresión de ruido y eliminación de eco de calidad de estudio a sus propias aplicaciones, sin necesidad de construir esos modelos desde cero.

El SDK incluye tres efectos de audio principales:

Supresión de Ruido — elimina sonidos de fondo (ventiladores, teclados, ruido de calle, climatización) de una señal de micrófono usando una red neuronal entrenada con miles de tipos de ruido
Cancelación de Eco de Sala — identifica y elimina reflexiones acústicas causadas por altavoces que reproducen audio de vuelta a la sala
Cancelación de Eco Acústico (AEC) — una variante de menor latencia de la cancelación de eco ajustada para configuraciones de auriculares y altavoces

La arquitectura subyacente usa redes neuronales convolucionales que se ejecutan en los Tensor Cores de GPUs RTX, lo que explica por qué el procesamiento añade solo 10–20 ms de latencia en lugar de los 80–150 ms que cabría esperar de un pipeline de aprendizaje profundo basado en CPU.

Puedes consultar documentación técnica detallada en el sitio de NVIDIA Developer.

De RTX Voice al SDK Maxine: breve historia

Para entender el estado actual de la tecnología, la cronología es importante.

2020 — Lanzamiento de RTX Voice. NVIDIA lanzó RTX Voice como una aplicación independiente gratuita. Creaba un micrófono virtual que pasaba la señal del micrófono real por un modelo de supresión de ruido de aprendizaje profundo en la GPU RTX. Los resultados fueron inmediatamente impresionantes —el ruido del teclado mecánico, el zumbido del climatizador y el ruido ambiental desaparecían con una coloración mínima de la voz.

2021 — NVIDIA Broadcast. RTX Voice y RTX Greenscreen se fusionaron en una sola aplicación llamada NVIDIA Broadcast, que añadió eliminación de fondo libre de ruido y corrección de contacto visual para webcams. El modelo de supresión de ruido se actualizó con mejor preservación de la voz a niveles de ruido más altos.

2022–2024 — Maduración del SDK Maxine. NVIDIA empaquetó los mismos modelos en el SDK de Efectos de Audio Maxine para desarrolladores. El SDK expuso más parámetros —intensidad del efecto, ponderación de frecuencias, selección de modelos— dando a los desarrolladores un control que la app GUI simplificaba deliberadamente.

2025–2026 — Era de integración. Aplicaciones de terceros, DAWs y software de voz comenzaron a integrar Maxine directamente. La API NVAFX está disponible ahora como formato de plugin y como API directa en C++ y Python.

Producto	Audiencia	Interfaz	Nivel de control
RTX Voice (legacy)	Consumidores	App GUI	Ninguno — un clic
NVIDIA Broadcast	Consumidores	App GUI	Mínimo
SDK de Efectos de Audio Maxine	Desarrolladores	API C++ / Python	Completo
Integraciones de terceros	Usuarios finales vía apps	Variable	Variable

Cómo funciona la supresión de ruido de Maxine

El modelo de supresión de ruido es una arquitectura de red neuronal recurrente (RNN) entrenada en un gran corpus de habla limpia combinada con fondos de ruido diversos. En tiempo de ejecución, procesa el audio en marcos cortos —típicamente ventanas de 10 ms— y predice una máscara de ruido para cada banda de frecuencia. Las frecuencias dominadas por el ruido se atenúan; las dominadas por la voz pasan sin cambios.

Esto es conceptualmente similar a la sustracción espectral (el enfoque clásico de herramientas como la Reducción de Ruido integrada de Audacity), pero el enfoque neural hace dos cosas de forma diferente:

Generaliza a tipos de ruido nuevos. La sustracción espectral clásica necesita un perfil de ruido capturado con antelación. El modelo Maxine aprendió cómo suena el habla y suprime lo que no coincide —incluso ruidos que nunca ha visto específicamente.
Preserva las características de la voz. El modelo está entrenado para dejar la envolvente espectral de la voz humana prácticamente intacta.

El compromiso es la dependencia de la GPU. El modelo requiere el rendimiento de multiplicación matricial de los Tensor Cores para funcionar con latencia en tiempo real.

Niveles de GPU compatibles

Generación de GPU	Tensor Cores	Compatibilidad Maxine	Notas
Serie GTX 10/16	No	No compatible	Sin Tensor Cores
Serie RTX 20 (Turing)	Sí (1.ª gen)	Compatible	Requisito mínimo
Serie RTX 30 (Ampere)	Sí (2.ª gen)	Compatible	Recomendada para streaming
Serie RTX 40 (Ada Lovelace)	Sí (4.ª gen)	Compatible	Inferencia más rápida
Serie RTX 50 (Blackwell)	Sí (5.ª gen)	Compatible	Tarjetas 2025+

Cancelación de eco de sala: la función subestimada

La supresión de ruido recibe la mayor atención, pero la cancelación de eco de sala es igualmente valiosa para muchas configuraciones —especialmente en entornos de escritorio abierto donde se usan altavoces de escritorio en lugar de auriculares.

El eco de sala ocurre cuando la salida del altavoz (audio del juego, música, la voz de la otra persona) se filtra de vuelta al micrófono. La solución de Maxine AEC usa una señal de referencia —el audio reproducido por el altavoz— para predecir qué parte de la entrada del micrófono es reflexión acústica y sustraerla.

Cuándo usar AEC vs. supresión de ruido simple:

Usa supresión de ruido cuando el problema son sonidos ambientales de fondo (ventilador, teclado, calle)
Usa AEC cuando el problema es el retroalimentación acústica de tus propios altavoces al micrófono
Usa ambos en combinación para una configuración de transmisión en sala abierta

Configurar NVIDIA Broadcast (ruta para consumidores)

Si eres streamer o creador de contenido y no quieres compilar un SDK, NVIDIA Broadcast es la herramienta adecuada. Instala la supresión de ruido de Maxine internamente y la expone a través de una GUI.

Requisitos:

Windows 10 u 11
GPU RTX de la serie 20 o más reciente
Versión de controlador 456.38 o posterior

Pasos de configuración:

Descarga NVIDIA Broadcast desde nvidia.com/broadcast
Instala y abre. La app muestra tres paneles: Cámara, Micrófono y Altavoz.
En Micrófono, selecciona tu micrófono físico como entrada.
Activa Eliminación de Ruido y opcionalmente Eliminación de Eco de Sala.
Establece Salida en “NVIDIA RTX Voice (Microphone)” — esto crea un dispositivo de micrófono virtual.
En Discord, OBS o cualquier otra app, selecciona “NVIDIA RTX Voice (Microphone)” como dispositivo de entrada.

El micrófono virtual creado por Broadcast emite audio limpio y sin ruido que cualquier otra app puede recibir. Este mismo patrón de micrófono virtual lo usan cambiadores de voz como VoxBooster, lo que significa que puedes encadenarlos.

Configurar el SDK de Efectos de Audio Maxine (ruta para desarrolladores)

Para desarrolladores que construyen aplicaciones personalizadas, el SDK ofrece acceso directo a la API de los mismos modelos.

Requisitos previos:

CUDA Toolkit 11.x o 12.x
GPU RTX con controlador ≥456.38
SDK Maxine descargado del Portal del Desarrollador NGC

Flujo de trabajo básico de la API (pseudocódigo C++):

NvAFX_CreateEffect(NVAFX_EFFECT_DENOISE, &handle)
NvAFX_SetU32(handle, NVAFX_PARAM_NUM_CHANNELS, 1)
NvAFX_SetU32(handle, NVAFX_PARAM_SAMPLE_RATE, 48000)
NvAFX_SetString(handle, NVAFX_PARAM_MODEL_PATH, "denoiser_48k.trtpkg")
NvAFX_Load(handle)
// Bucle por fotograma:
NvAFX_Run(handle, input_buffer, output_buffer, num_samples)
NvAFX_DestroyEffect(handle)

Los archivos de modelo (.trtpkg) son grafos de inferencia optimizados con TensorRT. Están incluidos en la descarga del SDK y deben estar presentes en la ruta especificada.

Tamaños de trama prácticos:

Supresión de ruido: 480 muestras a 48 kHz = 10 ms por trama
Cancelación de eco: 160 muestras a 16 kHz = 10 ms por trama

Integrar Maxine con un cambiador de voz en tiempo real

El caso de uso más potente para usuarios de escritorio es combinar la supresión de ruido de Maxine con un cambiador de voz que gestione el cambio de tono, efectos o conversión de voz con IA. Así funciona la cadena de audio:

Micrófono físico
    ↓
Micrófono virtual de NVIDIA Broadcast (señal limpia y sin ruido)
    ↓
VoxBooster (cambio de tono / efectos / conversión de voz con IA)
    ↓
Salida de micrófono virtual de VoxBooster
    ↓
Discord / OBS / Juego / Navegador

Por qué importa el orden: La supresión de ruido debe aplicarse antes del cambiador de voz, no después. Si ejecutas el cambiador de voz primero y luego suprimes el ruido, el modelo neural tratará algunos artefactos del efecto de voz como “ruido” y los atenuará, degradando la calidad del efecto.

Presupuesto de latencia en cada etapa:

Etapa	Latencia añadida
Micrófono físico al driver	2–5 ms
Supresión de ruido NVIDIA Broadcast	10–20 ms
VoxBooster modo efectos	5–15 ms
VoxBooster modo voz con IA	200–350 ms
Micrófono virtual a la app	2–5 ms
Total (modo efectos)	~20–45 ms
Total (modo voz con IA)	~215–385 ms

La latencia en modo efectos es imperceptible en la conversación. Para una vista completa de cómo configurar tu cadena de audio para streaming, consulta la guía sobre cambiadores de voz para creadores de contenido.

Usar NVIDIA Maxine en Discord

Discord tiene su propia supresión de ruido integrada, pero la supresión de calidad Maxine es perceptiblemente mejor a niveles de ruido altos, especialmente con teclados mecánicos y climatización. Ejecutar Maxine aguas arriba de la entrada de Discord permite usar el modelo de Maxine mientras se aprovecha la cancelación de eco de Discord a nivel de aplicación.

Configuración recomendada:

Activa la supresión de ruido de NVIDIA Broadcast en tu micrófono físico.
En Configuración de Discord → Voz y Vídeo, establece Dispositivo de Entrada como “NVIDIA RTX Voice (Microphone)”.
En Procesamiento de Voz, desactiva la supresión de ruido integrada de Discord (añade latencia y artefactos de doble procesamiento) pero mantén la cancelación de eco activada.
Opcionalmente, enruta a través de VoxBooster entre Broadcast y Discord para efectos de voz.

Consulta la guía detallada sobre conflictos entre cambiadores de voz y Krisp en Discord si tienes problemas de compatibilidad.

RTX Voice para streaming: integración con OBS

Para usuarios de OBS Studio, la integración más limpia usa NVIDIA Broadcast como dispositivo de micrófono y no añade ningún filtro de ruido en OBS —dejando que la GPU lo gestione antes.

Configuración de Audio en OBS:

En OBS → Configuración → Audio, establece Micrófono/Audio Auxiliar como “NVIDIA RTX Voice (Microphone)”.
En el mezclador de audio, haz clic derecho en tu fuente de micrófono → Filtros.
Elimina cualquier filtro de Supresión de Ruido que hayas añadido previamente (el doble procesamiento degrada la calidad).
Opcionalmente añade un filtro Compresor y un filtro de Ganancia para control de nivel.

Para streamers que también quieren efectos de voz o clonación de voz con IA en directo, añade VoxBooster a la cadena antes de OBS. Esta es la misma configuración que se detalla en configurar un cambiador de voz para Discord.

Clonación de voz con IA después de Maxine

Un uso silencioso pero importante: alimentar audio limpio de Maxine en un pipeline de conversión de voz con IA. Si estás creando contenido de locución con una voz clonada con IA, la calidad del audio de entrada afecta directamente a la salida de conversión. Una entrada ruidosa produce clones ruidosos.

La práctica estándar para construir un dataset de clonación de voz es:

Graba audio fuente (tu voz o la de un actor de voz con licencia)
Ejecuta la supresión de ruido de Maxine offline con máxima intensidad —aquí importa más la calidad que la latencia
Segmenta en clips de 5–15 segundos
Alimenta los segmentos limpios en el pipeline de entrenamiento

Para profundizar en los flujos de trabajo de clonación de voz con IA, consulta nuestra guía de clonación de voz para locución.

Solución de problemas comunes con Maxine y RTX Voice

“El micrófono virtual de NVIDIA RTX Voice no aparece en la lista de dispositivos” Reinicia el servicio de Audio de Windows (Win+R → services.msc → Windows Audio → Reiniciar). NVIDIA Broadcast a veces no registra su dispositivo virtual tras una actualización del sistema.

“El efecto parece no tener impacto sobre el ruido del teclado” Comprueba que la Intensidad del Efecto está al 100% en la interfaz de Broadcast. Verifica también que tu micrófono físico esté seleccionado como entrada en Broadcast —no el propio micrófono RTX Voice (lo que crearía un bucle de retroalimentación).

“La voz suena hueca o tiene una calidad ‘ondulante’” El modelo de supresión de ruido está siendo demasiado agresivo en una sala muy silenciosa. Reduce la Intensidad del Efecto al 70–80%.

“La latencia aumentó drásticamente al activar Broadcast” Comprueba que el controlador de tu GPU esté actualizado. Los controladores antiguos (anteriores a 520) tenían un error donde Maxine procesaba en modo síncrono de parada de CPU en lugar del modo GPU asíncrono, añadiendo 60–80 ms de latencia innecesaria.

“VoxBooster y NVIDIA Broadcast no se encadenan correctamente” Asegúrate de que el dispositivo de entrada de VoxBooster esté configurado como “NVIDIA RTX Voice (Microphone)” y no tu micrófono físico.

Comparación de NVIDIA Maxine con otras soluciones de supresión de ruido

Solución	Tecnología	Latencia	GPU requerida	Coste	Mejor para
NVIDIA Maxine / Broadcast	Neural (Tensor Core)	10–20 ms	RTX necesaria	Gratis	Propietarios de GPU RTX
Krisp	Neural (CPU)	20–40 ms	No	Gratis / de pago	Usuarios sin RTX
Discord integrado	Neural (CPU/nube)	20–50 ms	No	Gratis (Discord)	Solo Discord
Adobe Audition Denoise	Neural espectral	Solo offline	No	De pago (Creative Cloud)	Postproducción
RNNoise	Neural (CPU, open source)	~10 ms	No	Gratis (código abierto)	Desarrolladores en cualquier GPU
Reducción de Ruido Audacity	Sustracción espectral	Solo offline	No	Gratis	Edición offline

La ventaja de Maxine es la latencia acelerada por GPU combinada con un modelo entrenado en un dataset vastamente mayor que el nivel de consumidor de Krisp. Cubrimos el flujo de trabajo de integración de Krisp en más detalle en nuestra guía de integración de cambiadores de voz con Krisp.

SDK Maxine vs. NVIDIA Broadcast: ¿cuál deberías usar?

Si eres un usuario final que quiere supresión de ruido sin programar, usa NVIDIA Broadcast. Es el envoltorio de consumidor sobre los mismos modelos subyacentes, se actualiza automáticamente y se integra con todas las apps principales a través de un micrófono virtual.

Si eres un desarrollador construyendo una aplicación que necesita mejora de audio —una app de chat de voz, una herramienta de streaming, un producto de software creativo— el SDK Maxine es la elección correcta. Te da:

Control programático sobre la intensidad del efecto
Acceso a la selección de modelos (múltiples niveles de calidad)
La capacidad de integrar supresión de ruido sin que los usuarios tengan que instalar una app separada
Control a nivel de trama para integración con pipelines de audio personalizados

Conclusión

El SDK de Efectos de Audio NVIDIA Maxine y RTX Voice representan un cambio genuino en el procesamiento de audio accesible y acelerado por GPU. Lo que antes requería una unidad DSP de hardware o una cabina de grabación cara ahora puede funcionar en 10–20 ms en una GPU de gaming de gama media.

Para la mayoría de usuarios de Windows con una tarjeta RTX, la configuración práctica es sencilla: instala NVIDIA Broadcast, activa la supresión de ruido en tu micrófono y deja que el resto de las apps reciban la señal de micrófono virtual limpia. Si también quieres efectos de voz en tiempo real, cambio de tono o conversión de voz con IA superpuesta, herramientas como VoxBooster encajan perfectamente en esa cadena —consumiendo el micrófono virtual de Broadcast como entrada y publicando su propio micrófono virtual como salida, todo sin controladores de kernel ni software de enrutamiento de audio a nivel de administrador.

Para una descripción completa de cómo configurar una cadena de audio para streaming con efectos de voz, consulta la guía sobre cambiadores de voz para Discord o la guía más amplia de cambiadores de voz para streaming.

NVIDIA Maxine Voice: SDK, Supresión de Ruido RTX y Audio en Tiempo Real