RTX Voice e NVIDIA Maxine são a mesma coisa?

RTX Voice foi o aplicativo para consumidores lançado em 2020. A NVIDIA depois incorporou sua tecnologia ao NVIDIA Broadcast e lançou os algoritmos subjacentes como o SDK de Efeitos de Áudio Maxine para desenvolvedores. Os três compartilham os mesmos modelos de supressão neural, mas diferem na interface: aplicativo para consumidores vs. SDK para desenvolvedores.

A supressão de ruído do NVIDIA Maxine funciona sem GPU RTX?

O SDK Maxine foi projetado para GPUs RTX (arquitetura Turing, série RTX 20 em diante) que incluem Tensor Cores para inferência acelerada. Sem uma GPU RTX, o SDK opera em modo CPU com maior latência ou simplesmente não carrega. As placas GTX não têm Tensor Cores e não são oficialmente suportadas.

Posso usar o NVIDIA Maxine com um modificador de voz ao mesmo tempo?

Sim. A configuração típica envia o microfone físico primeiro pelo Maxine (ou NVIDIA Broadcast) para eliminar o ruído, depois passa o sinal limpo para um modificador de voz em tempo real como o VoxBooster. O modificador de voz recebe um sinal mais limpo, o que melhora a qualidade do ajuste de pitch e da conversão de voz com IA.

Qual taxa de amostragem usa o SDK de Efeitos de Áudio NVIDIA Maxine?

O SDK de Efeitos de Áudio Maxine processa áudio a 48 kHz, mono de 16 bits. Se seu microfone ou modificador de voz opera em uma taxa de amostragem diferente (por exemplo, 44,1 kHz), você precisa fazer reamostrar antes de passar o áudio ao pipeline do SDK. A maioria dos drivers de áudio profissionais e o modo compartilhado do low-latency audio capture fazem isso de forma transparente.

Quanta memória GPU o NVIDIA Maxine requer?

Um pipeline típico de Efeitos de Áudio Maxine — supressão de ruído mais cancelamento de eco — usa aproximadamente 500 MB a 1 GB de VRAM. Em uma RTX 3060 de nível médio com 12 GB de VRAM isso é irrelevante junto com cargas de trabalho de jogos ou streaming. Configurações mais pesadas com todos os efeitos habilitados podem chegar a 1,5 GB.

O SDK de Efeitos de Áudio NVIDIA Maxine é gratuito?

O SDK em si é gratuito para baixar no NVIDIA NGC Developer Portal. Aplicativos comerciais construídos sobre ele devem cumprir os Termos de Serviço da NVIDIA, que geralmente permitem o uso comercial sem taxa de runtime para efeitos de áudio. Verifique a licença atual na página NGC antes de lançar um produto.

NVIDIA Maxine Voice: Guia do SDK, Supressão de Ruído RTX e Áudio em Tempo Real

A tecnologia NVIDIA Maxine audio representa um dos avanços mais significativos no processamento de áudio ao consumidor acelerado por GPU. O que começou como RTX Voice — um aplicativo independente que impressionou streamers em 2020 ao eliminar o barulho de teclados mecânicos com um modelo de GPU — evoluiu para o SDK de Efeitos de Áudio Maxine: um kit completo de ferramentas para desenvolvedores com supressão de ruído em tempo real, cancelamento de eco de sala e conformação de feixe acústico. Este guia aborda como a tecnologia funciona, como configurá-la e como combiná-la com um modificador de voz em tempo real para obter uma cadeia de áudio de qualidade de broadcast no Windows.

Resumo

O SDK de Efeitos de Áudio NVIDIA Maxine é um kit gratuito para desenvolvedores com supressão de ruído acelerada por GPU, cancelamento de eco e eliminação de ruído a 48 kHz
RTX Voice foi o predecessor para consumidores; o NVIDIA Broadcast e o SDK Maxine são as versões atuais
Requer RTX da série 20 ou mais recente (Tensor Cores são necessários para inferência neural)
A latência é de 10–20 ms para uma única passagem de efeito — imperceptível em conversa
Melhor fluxo de trabalho: microfone físico → supressão de ruído Maxine → modificador de voz → saída de microfone virtual para Discord/OBS
VoxBooster se integra perfeitamente após o Maxine na cadeia de áudio, sem necessidade de cabo virtual

O que é o SDK de Efeitos de Áudio NVIDIA Maxine?

O SDK de Efeitos de Áudio NVIDIA Maxine é um conjunto de APIs aceleradas por GPU que aplicam aprimoramentos de áudio baseados em aprendizado profundo a fluxos de áudio em tempo real. Não é um aplicativo para consumidores — é um kit de ferramentas para desenvolvedores que fornecedores de software, desenvolvedores independentes e pesquisadores usam para adicionar supressão de ruído e remoção de eco de qualidade de estúdio às suas próprias aplicações, sem precisar construir esses modelos do zero.

O SDK inclui três efeitos de áudio principais:

Supressão de Ruído — remove sons de fundo (ventiladores, teclados, barulho de rua, ar-condicionado) de um sinal de microfone usando uma rede neural treinada com milhares de tipos de ruído
Cancelamento de Eco de Sala — identifica e remove reflexões acústicas causadas por alto-falantes que reproduzem áudio de volta para a sala
Cancelamento de Eco Acústico (AEC) — uma variante de menor latência do cancelamento de eco ajustada para configurações de fone de ouvido com alto-falante

A arquitetura subjacente usa redes neurais convolucionais que rodam nos Tensor Cores de GPUs RTX, o que explica por que o processamento adiciona apenas 10–20 ms de latência em vez dos 80–150 ms esperados de um pipeline de aprendizado profundo baseado em CPU.

Documentação técnica detalhada está disponível no site do NVIDIA Developer.

De RTX Voice ao SDK Maxine: breve história

Para entender o estado atual da tecnologia, a linha do tempo é importante.

2020 — Lançamento do RTX Voice. A NVIDIA lançou o RTX Voice como um aplicativo gratuito independente. Ele criava um microfone virtual que passava o sinal do microfone real por um modelo de supressão de ruído de aprendizado profundo na GPU RTX. Os resultados foram imediatamente impressionantes — o barulho do teclado mecânico, o zumbido do ar-condicionado e o ruído ambiente desapareciam com coloração mínima da voz.

2021 — NVIDIA Broadcast. RTX Voice e RTX Greenscreen foram fundidos em um único aplicativo chamado NVIDIA Broadcast, que adicionou remoção de fundo sem ruído e correção de contato visual para webcams. O modelo de supressão de ruído foi atualizado com melhor preservação de voz em níveis mais altos de ruído.

2022–2024 — Maturação do SDK Maxine. A NVIDIA empacotou os mesmos modelos no SDK de Efeitos de Áudio Maxine para desenvolvedores. O SDK expôs mais parâmetros — intensidade do efeito, ponderação de frequências, seleção de modelos — dando aos desenvolvedores controle que o aplicativo GUI deliberadamente simplificava.

2025–2026 — Era de integração. Aplicativos de terceiros, DAWs e software de voz começaram a integrar o Maxine diretamente. A API NVAFX está disponível como formato de plugin e como API direta em C++ e Python.

Produto	Público	Interface	Nível de controle
RTX Voice (legacy)	Consumidores	App GUI	Nenhum — um clique
NVIDIA Broadcast	Consumidores	App GUI	Mínimo
SDK de Efeitos de Áudio Maxine	Desenvolvedores	API C++ / Python	Completo
Integrações de terceiros	Usuários finais via apps	Variado	Variado

Como funciona a supressão de ruído do Maxine

O modelo de supressão de ruído é uma arquitetura de rede neural recorrente (RNN) treinada em um grande corpus de fala limpa combinada com fundos de ruído diversos. Em tempo de execução, processa o áudio em quadros curtos — tipicamente janelas de 10 ms — e prevê uma máscara de ruído para cada faixa de frequência. Frequências dominadas por ruído são atenuadas; frequências dominadas pela voz passam sem alteração.

Isso é conceitualmente similar à subtração espectral (a abordagem clássica de ferramentas como a Redução de Ruído integrada do Audacity), mas a abordagem neural faz duas coisas de forma diferente:

Generaliza para novos tipos de ruído. A subtração espectral clássica precisa de um perfil de ruído capturado com antecedência. O modelo Maxine aprendeu como é a fala e suprime o que não combina — mesmo ruídos que nunca viu especificamente.
Preserva as características da voz. O modelo é treinado para deixar o envelope espectral da voz humana praticamente intacto.

A troca é a dependência da GPU. O modelo requer o throughput de multiplicação matricial dos Tensor Cores para rodar com latência em tempo real.

Níveis de GPU compatíveis

Geração de GPU	Tensor Cores	Suporte Maxine	Notas
Série GTX 10/16	Não	Não suportado	Sem Tensor Cores
Série RTX 20 (Turing)	Sim (1.ª gen)	Suporte completo	Requisito mínimo
Série RTX 30 (Ampere)	Sim (2.ª gen)	Suporte completo	Recomendada para streaming
Série RTX 40 (Ada Lovelace)	Sim (4.ª gen)	Suporte completo	Inferência mais rápida
Série RTX 50 (Blackwell)	Sim (5.ª gen)	Suporte completo	Placas 2025+

Cancelamento de eco de sala: o recurso subestimado

A supressão de ruído recebe a maior atenção, mas o cancelamento de eco de sala é igualmente valioso para muitas configurações — especialmente em ambientes de mesa aberta onde alto-falantes de mesa são usados em vez de fones de ouvido.

O eco de sala ocorre quando a saída do alto-falante (áudio do jogo, música, a voz da outra pessoa) vaza de volta para o microfone. A solução Maxine AEC usa um sinal de referência — o áudio reproduzido pelo alto-falante — para prever qual parte da entrada do microfone é reflexão acústica e subtraí-la.

Quando usar AEC vs. supressão de ruído simples:

Use supressão de ruído quando o problema são sons ambientais de fundo (ventilador, teclado, rua)
Use AEC quando o problema é retroalimentação acústica dos seus próprios alto-falantes ao microfone
Use ambos em combinação para uma configuração de transmissão em sala aberta

Configurar o NVIDIA Broadcast (caminho para consumidores)

Se você é streamer ou criador de conteúdo e não quer compilar um SDK, o NVIDIA Broadcast é a ferramenta certa. Ele instala a supressão de ruído do Maxine internamente e a expõe através de uma GUI.

Requisitos:

Windows 10 ou 11
GPU RTX da série 20 ou mais recente
Versão de driver 456.38 ou posterior

Passos de configuração:

Baixe o NVIDIA Broadcast em nvidia.com/broadcast
Instale e abra. O aplicativo mostra três painéis: Câmera, Microfone e Alto-falante.
Em Microfone, selecione seu microfone físico como entrada.
Ative Remoção de Ruído e opcionalmente Remoção de Eco de Sala.
Defina Saída como “NVIDIA RTX Voice (Microphone)” — isso cria um dispositivo de microfone virtual.
No Discord, OBS ou qualquer outro aplicativo, selecione “NVIDIA RTX Voice (Microphone)” como dispositivo de entrada.

O microfone virtual criado pelo Broadcast emite áudio limpo e sem ruído que qualquer outro aplicativo pode receber. Esse mesmo padrão de microfone virtual é usado por modificadores de voz como o VoxBooster — o que significa que você pode encadeá-los.

Configurar o SDK de Efeitos de Áudio Maxine (caminho para desenvolvedores)

Para desenvolvedores construindo aplicativos personalizados, o SDK oferece acesso direto à API dos mesmos modelos.

Pré-requisitos:

CUDA Toolkit 11.x ou 12.x
GPU RTX com driver ≥456.38
SDK Maxine baixado do Portal do Desenvolvedor NGC

Fluxo de trabalho básico da API (pseudocódigo C++):

NvAFX_CreateEffect(NVAFX_EFFECT_DENOISE, &handle)
NvAFX_SetU32(handle, NVAFX_PARAM_NUM_CHANNELS, 1)
NvAFX_SetU32(handle, NVAFX_PARAM_SAMPLE_RATE, 48000)
NvAFX_SetString(handle, NVAFX_PARAM_MODEL_PATH, "denoiser_48k.trtpkg")
NvAFX_Load(handle)
// Loop por quadro:
NvAFX_Run(handle, input_buffer, output_buffer, num_samples)
NvAFX_DestroyEffect(handle)

Os arquivos de modelo (.trtpkg) são grafos de inferência otimizados com TensorRT. Eles são incluídos no download do SDK e devem estar presentes no caminho especificado.

Tamanhos de quadro práticos:

Supressão de ruído: 480 amostras a 48 kHz = 10 ms por quadro
Cancelamento de eco: 160 amostras a 16 kHz = 10 ms por quadro

Integrar o Maxine com um modificador de voz em tempo real

O caso de uso mais poderoso para usuários de desktop é combinar a supressão de ruído do Maxine com um modificador de voz que cuide do ajuste de pitch, efeitos ou conversão de voz com IA. Veja como a cadeia de áudio funciona:

Microfone físico
    ↓
Microfone virtual do NVIDIA Broadcast (sinal limpo e sem ruído)
    ↓
VoxBooster (ajuste de pitch / efeitos / conversão de voz com IA)
    ↓
Saída de microfone virtual do VoxBooster
    ↓
Discord / OBS / Jogo / Navegador

Por que a ordem importa: A supressão de ruído deve vir antes do modificador de voz, não depois. Se você executar o modificador de voz primeiro e depois suprimir o ruído, o modelo neural tratará alguns artefatos do efeito de voz como “ruído” e os atenuará, degradando a qualidade do efeito.

Orçamento de latência em cada etapa:

Etapa	Latência adicionada
Microfone físico ao driver	2–5 ms
Supressão de ruído NVIDIA Broadcast	10–20 ms
VoxBooster modo efeitos	5–15 ms
VoxBooster modo voz com IA	200–350 ms
Microfone virtual ao aplicativo	2–5 ms
Total (modo efeitos)	~20–45 ms
Total (modo voz com IA)	~215–385 ms

A latência no modo efeitos é imperceptível em conversa. Para uma visão completa de como configurar sua cadeia de áudio para streaming, veja o guia sobre modificadores de voz para criadores de conteúdo.

Usar NVIDIA Maxine no Discord

O Discord tem sua própria supressão de ruído integrada, mas a supressão de qualidade Maxine é perceptivelmente melhor em níveis de ruído altos — especialmente teclados mecânicos e ar-condicionado. Executar o Maxine antes da entrada do Discord permite usar o modelo do Maxine enquanto aproveita o cancelamento de eco do Discord na camada do aplicativo.

Configuração recomendada:

Ative a supressão de ruído do NVIDIA Broadcast no seu microfone físico.
Nas Configurações do Discord → Voz e Vídeo, defina Dispositivo de Entrada como “NVIDIA RTX Voice (Microphone)”.
Em Processamento de Voz, desative a supressão de ruído integrada do Discord (adiciona latência e artefatos de processamento duplo) mas mantenha o cancelamento de eco ativado.
Opcionalmente roteie pelo VoxBooster entre o Broadcast e o Discord para efeitos de voz.

Veja o guia detalhado sobre conflitos entre modificadores de voz e Krisp no Discord para solução de problemas.

RTX Voice para streaming: integração com OBS

Para usuários do OBS Studio, a integração mais limpa usa o NVIDIA Broadcast como dispositivo de microfone e não adiciona nenhum filtro de ruído no OBS — deixando a GPU cuidar disso antes.

Configuração de Áudio no OBS:

No OBS → Configurações → Áudio, defina Áudio Auxiliar/Microfone como “NVIDIA RTX Voice (Microphone)”.
No mixer de áudio, clique com o botão direito na sua fonte de microfone → Filtros.
Remova qualquer filtro de Supressão de Ruído adicionado anteriormente (processamento duplo degrada a qualidade).
Opcionalmente adicione um filtro Compressor e um filtro de Ganho para controle de nível.

Para streamers que também querem efeitos de voz ou clonagem de voz com IA ao vivo, adicione o VoxBooster à cadeia antes do OBS. Essa é a mesma abordagem detalhada em configurar um modificador de voz para Discord.

Clonagem de voz com IA após o Maxine

Um uso menos óbvio mas importante: alimentar áudio limpo do Maxine em um pipeline de conversão de voz com IA. Se você está criando conteúdo de locução com uma voz clonada por IA, a qualidade do áudio de entrada afeta diretamente a saída da conversão. Uma entrada barulhenta produz clones barulhentos.

A prática padrão para construir um dataset de clonagem de voz é:

Grave áudio fonte (sua voz ou a de um ator de voz licenciado)
Execute a supressão de ruído do Maxine offline com intensidade máxima — aqui a qualidade importa mais que a latência
Segmente em clipes de 5–15 segundos
Alimente os segmentos limpos no pipeline de treinamento

Para um aprofundamento nos fluxos de trabalho de clonagem de voz com IA, veja nosso guia de clonagem de voz para locução.

Solução de problemas comuns com Maxine e RTX Voice

“O microfone virtual do NVIDIA RTX Voice não aparece na lista de dispositivos” Reinicie o serviço de Áudio do Windows (Win+R → services.msc → Windows Audio → Reiniciar). O NVIDIA Broadcast às vezes falha ao registrar seu dispositivo virtual após uma atualização do sistema.

“O efeito parece não ter impacto no barulho do teclado” Verifique se a Intensidade do Efeito está em 100% na interface do Broadcast. Verifique também que seu microfone físico está selecionado como entrada no Broadcast — não o próprio microfone RTX Voice (o que criaria um loop de retroalimentação).

“A voz soa oca ou tem uma qualidade ‘ondulante’” O modelo de supressão de ruído está sendo agressivo demais em uma sala muito silenciosa. Reduza a Intensidade do Efeito para 70–80%.

“A latência aumentou drasticamente após ativar o Broadcast” Verifique que o driver da sua GPU está atualizado. Drivers antigos (anteriores ao 520) tinham um bug onde o Maxine processava em modo síncrono de parada de CPU em vez do modo GPU assíncrono, adicionando 60–80 ms de latência desnecessária.

“VoxBooster e NVIDIA Broadcast não encadeiam corretamente” Certifique-se de que o dispositivo de entrada do VoxBooster está configurado como “NVIDIA RTX Voice (Microphone)” e não seu microfone físico.

Comparando NVIDIA Maxine com outras soluções de supressão de ruído

Solução	Tecnologia	Latência	GPU necessária	Custo	Melhor para
NVIDIA Maxine / Broadcast	Neural (Tensor Core)	10–20 ms	RTX necessária	Grátis	Proprietários de GPU RTX
Krisp	Neural (CPU)	20–40 ms	Não	Grátis / pago	Usuários sem RTX
Discord integrado	Neural (CPU/nuvem)	20–50 ms	Não	Grátis (Discord)	Somente Discord
Adobe Audition Denoise	Neural espectral	Somente offline	Não	Pago (Creative Cloud)	Pós-produção
RNNoise	Neural (CPU, open source)	~10 ms	Não	Grátis (código aberto)	Desenvolvedores em qualquer GPU
Redução de Ruído Audacity	Subtração espectral	Somente offline	Não	Grátis	Edição offline

A vantagem do Maxine é a latência acelerada por GPU combinada com um modelo treinado em um dataset vastamente maior que o nível de consumidor do Krisp. Cobrimos o fluxo de trabalho de integração do Krisp com mais detalhes em nosso guia de integração de modificadores de voz com Krisp.

SDK Maxine vs. NVIDIA Broadcast: qual usar?

Se você é um usuário final que quer supressão de ruído sem programação, use o NVIDIA Broadcast. É o wrapper para consumidores dos mesmos modelos subjacentes, é atualizado automaticamente e se integra a todos os principais aplicativos através de um microfone virtual.

Se você é um desenvolvedor construindo um aplicativo que precisa de aprimoramento de áudio — um app de chat de voz, uma ferramenta de streaming, um produto de software criativo — o SDK Maxine é a escolha certa. Ele oferece:

Controle programático sobre a intensidade do efeito
Acesso à seleção de modelos (múltiplos níveis de qualidade)
A capacidade de embutir supressão de ruído sem que os usuários precisem instalar um aplicativo separado
Controle no nível de quadro para integração com pipelines de áudio personalizados

Conclusão

O SDK de Efeitos de Áudio NVIDIA Maxine e o RTX Voice representam uma mudança genuína no processamento de áudio acessível e acelerado por GPU. O que antes exigia uma unidade DSP de hardware ou uma cabine de gravação cara agora pode rodar em 10–20 ms em uma GPU de gaming de nível médio.

Para a maioria dos usuários do Windows com uma placa RTX, a configuração prática é simples: instale o NVIDIA Broadcast, ative a supressão de ruído no seu microfone e deixe que os demais aplicativos recebam o sinal do microfone virtual limpo. Se você também quer efeitos de voz em tempo real, ajuste de pitch ou conversão de voz com IA por cima, ferramentas como o VoxBooster se encaixam perfeitamente nessa cadeia — consumindo o microfone virtual do Broadcast como entrada e publicando seu próprio microfone virtual como saída, tudo sem drivers de kernel ou software de roteamento de áudio em nível de administrador.

Para uma visão completa de como configurar uma cadeia de áudio para streaming com efeitos de voz, veja o guia sobre modificadores de voz para Discord ou o guia mais amplo de modificadores de voz para streaming.

NVIDIA Maxine Voice: SDK, Supressão de Ruído RTX e Áudio em Tempo Real