NVIDIA Maxine Voice: SDK, Supressão de Ruído RTX e Áudio em Tempo Real

Guia completo do SDK de Efeitos de Áudio NVIDIA Maxine e RTX Voice — supressão de ruído com GPU, cancelamento de eco e como combiná-los com um modificador de voz em tempo real.

NVIDIA Maxine Voice: Guia do SDK, Supressão de Ruído RTX e Áudio em Tempo Real

A tecnologia NVIDIA Maxine audio representa um dos avanços mais significativos no processamento de áudio ao consumidor acelerado por GPU. O que começou como RTX Voice — um aplicativo independente que impressionou streamers em 2020 ao eliminar o barulho de teclados mecânicos com um modelo de GPU — evoluiu para o SDK de Efeitos de Áudio Maxine: um kit completo de ferramentas para desenvolvedores com supressão de ruído em tempo real, cancelamento de eco de sala e conformação de feixe acústico. Este guia aborda como a tecnologia funciona, como configurá-la e como combiná-la com um modificador de voz em tempo real para obter uma cadeia de áudio de qualidade de broadcast no Windows.


Resumo

  • O SDK de Efeitos de Áudio NVIDIA Maxine é um kit gratuito para desenvolvedores com supressão de ruído acelerada por GPU, cancelamento de eco e eliminação de ruído a 48 kHz
  • RTX Voice foi o predecessor para consumidores; o NVIDIA Broadcast e o SDK Maxine são as versões atuais
  • Requer RTX da série 20 ou mais recente (Tensor Cores são necessários para inferência neural)
  • A latência é de 10–20 ms para uma única passagem de efeito — imperceptível em conversa
  • Melhor fluxo de trabalho: microfone físico → supressão de ruído Maxine → modificador de voz → saída de microfone virtual para Discord/OBS
  • VoxBooster se integra perfeitamente após o Maxine na cadeia de áudio, sem necessidade de cabo virtual

O que é o SDK de Efeitos de Áudio NVIDIA Maxine?

O SDK de Efeitos de Áudio NVIDIA Maxine é um conjunto de APIs aceleradas por GPU que aplicam aprimoramentos de áudio baseados em aprendizado profundo a fluxos de áudio em tempo real. Não é um aplicativo para consumidores — é um kit de ferramentas para desenvolvedores que fornecedores de software, desenvolvedores independentes e pesquisadores usam para adicionar supressão de ruído e remoção de eco de qualidade de estúdio às suas próprias aplicações, sem precisar construir esses modelos do zero.

O SDK inclui três efeitos de áudio principais:

  • Supressão de Ruído — remove sons de fundo (ventiladores, teclados, barulho de rua, ar-condicionado) de um sinal de microfone usando uma rede neural treinada com milhares de tipos de ruído
  • Cancelamento de Eco de Sala — identifica e remove reflexões acústicas causadas por alto-falantes que reproduzem áudio de volta para a sala
  • Cancelamento de Eco Acústico (AEC) — uma variante de menor latência do cancelamento de eco ajustada para configurações de fone de ouvido com alto-falante

A arquitetura subjacente usa redes neurais convolucionais que rodam nos Tensor Cores de GPUs RTX, o que explica por que o processamento adiciona apenas 10–20 ms de latência em vez dos 80–150 ms esperados de um pipeline de aprendizado profundo baseado em CPU.

Documentação técnica detalhada está disponível no site do NVIDIA Developer.

De RTX Voice ao SDK Maxine: breve história

Para entender o estado atual da tecnologia, a linha do tempo é importante.

2020 — Lançamento do RTX Voice. A NVIDIA lançou o RTX Voice como um aplicativo gratuito independente. Ele criava um microfone virtual que passava o sinal do microfone real por um modelo de supressão de ruído de aprendizado profundo na GPU RTX. Os resultados foram imediatamente impressionantes — o barulho do teclado mecânico, o zumbido do ar-condicionado e o ruído ambiente desapareciam com coloração mínima da voz.

2021 — NVIDIA Broadcast. RTX Voice e RTX Greenscreen foram fundidos em um único aplicativo chamado NVIDIA Broadcast, que adicionou remoção de fundo sem ruído e correção de contato visual para webcams. O modelo de supressão de ruído foi atualizado com melhor preservação de voz em níveis mais altos de ruído.

2022–2024 — Maturação do SDK Maxine. A NVIDIA empacotou os mesmos modelos no SDK de Efeitos de Áudio Maxine para desenvolvedores. O SDK expôs mais parâmetros — intensidade do efeito, ponderação de frequências, seleção de modelos — dando aos desenvolvedores controle que o aplicativo GUI deliberadamente simplificava.

2025–2026 — Era de integração. Aplicativos de terceiros, DAWs e software de voz começaram a integrar o Maxine diretamente. A API NVAFX está disponível como formato de plugin e como API direta em C++ e Python.

ProdutoPúblicoInterfaceNível de controle
RTX Voice (legacy)ConsumidoresApp GUINenhum — um clique
NVIDIA BroadcastConsumidoresApp GUIMínimo
SDK de Efeitos de Áudio MaxineDesenvolvedoresAPI C++ / PythonCompleto
Integrações de terceirosUsuários finais via appsVariadoVariado

Como funciona a supressão de ruído do Maxine

O modelo de supressão de ruído é uma arquitetura de rede neural recorrente (RNN) treinada em um grande corpus de fala limpa combinada com fundos de ruído diversos. Em tempo de execução, processa o áudio em quadros curtos — tipicamente janelas de 10 ms — e prevê uma máscara de ruído para cada faixa de frequência. Frequências dominadas por ruído são atenuadas; frequências dominadas pela voz passam sem alteração.

Isso é conceitualmente similar à subtração espectral (a abordagem clássica de ferramentas como a Redução de Ruído integrada do Audacity), mas a abordagem neural faz duas coisas de forma diferente:

  1. Generaliza para novos tipos de ruído. A subtração espectral clássica precisa de um perfil de ruído capturado com antecedência. O modelo Maxine aprendeu como é a fala e suprime o que não combina — mesmo ruídos que nunca viu especificamente.
  2. Preserva as características da voz. O modelo é treinado para deixar o envelope espectral da voz humana praticamente intacto.

A troca é a dependência da GPU. O modelo requer o throughput de multiplicação matricial dos Tensor Cores para rodar com latência em tempo real.

Níveis de GPU compatíveis

Geração de GPUTensor CoresSuporte MaxineNotas
Série GTX 10/16NãoNão suportadoSem Tensor Cores
Série RTX 20 (Turing)Sim (1.ª gen)Suporte completoRequisito mínimo
Série RTX 30 (Ampere)Sim (2.ª gen)Suporte completoRecomendada para streaming
Série RTX 40 (Ada Lovelace)Sim (4.ª gen)Suporte completoInferência mais rápida
Série RTX 50 (Blackwell)Sim (5.ª gen)Suporte completoPlacas 2025+

Cancelamento de eco de sala: o recurso subestimado

A supressão de ruído recebe a maior atenção, mas o cancelamento de eco de sala é igualmente valioso para muitas configurações — especialmente em ambientes de mesa aberta onde alto-falantes de mesa são usados em vez de fones de ouvido.

O eco de sala ocorre quando a saída do alto-falante (áudio do jogo, música, a voz da outra pessoa) vaza de volta para o microfone. A solução Maxine AEC usa um sinal de referência — o áudio reproduzido pelo alto-falante — para prever qual parte da entrada do microfone é reflexão acústica e subtraí-la.

Quando usar AEC vs. supressão de ruído simples:

  • Use supressão de ruído quando o problema são sons ambientais de fundo (ventilador, teclado, rua)
  • Use AEC quando o problema é retroalimentação acústica dos seus próprios alto-falantes ao microfone
  • Use ambos em combinação para uma configuração de transmissão em sala aberta

Configurar o NVIDIA Broadcast (caminho para consumidores)

Se você é streamer ou criador de conteúdo e não quer compilar um SDK, o NVIDIA Broadcast é a ferramenta certa. Ele instala a supressão de ruído do Maxine internamente e a expõe através de uma GUI.

Requisitos:

  • Windows 10 ou 11
  • GPU RTX da série 20 ou mais recente
  • Versão de driver 456.38 ou posterior

Passos de configuração:

  1. Baixe o NVIDIA Broadcast em nvidia.com/broadcast
  2. Instale e abra. O aplicativo mostra três painéis: Câmera, Microfone e Alto-falante.
  3. Em Microfone, selecione seu microfone físico como entrada.
  4. Ative Remoção de Ruído e opcionalmente Remoção de Eco de Sala.
  5. Defina Saída como “NVIDIA RTX Voice (Microphone)” — isso cria um dispositivo de microfone virtual.
  6. No Discord, OBS ou qualquer outro aplicativo, selecione “NVIDIA RTX Voice (Microphone)” como dispositivo de entrada.

O microfone virtual criado pelo Broadcast emite áudio limpo e sem ruído que qualquer outro aplicativo pode receber. Esse mesmo padrão de microfone virtual é usado por modificadores de voz como o VoxBooster — o que significa que você pode encadeá-los.

Configurar o SDK de Efeitos de Áudio Maxine (caminho para desenvolvedores)

Para desenvolvedores construindo aplicativos personalizados, o SDK oferece acesso direto à API dos mesmos modelos.

Pré-requisitos:

Fluxo de trabalho básico da API (pseudocódigo C++):

NvAFX_CreateEffect(NVAFX_EFFECT_DENOISE, &handle)
NvAFX_SetU32(handle, NVAFX_PARAM_NUM_CHANNELS, 1)
NvAFX_SetU32(handle, NVAFX_PARAM_SAMPLE_RATE, 48000)
NvAFX_SetString(handle, NVAFX_PARAM_MODEL_PATH, "denoiser_48k.trtpkg")
NvAFX_Load(handle)
// Loop por quadro:
NvAFX_Run(handle, input_buffer, output_buffer, num_samples)
NvAFX_DestroyEffect(handle)

Os arquivos de modelo (.trtpkg) são grafos de inferência otimizados com TensorRT. Eles são incluídos no download do SDK e devem estar presentes no caminho especificado.

Tamanhos de quadro práticos:

  • Supressão de ruído: 480 amostras a 48 kHz = 10 ms por quadro
  • Cancelamento de eco: 160 amostras a 16 kHz = 10 ms por quadro

Integrar o Maxine com um modificador de voz em tempo real

O caso de uso mais poderoso para usuários de desktop é combinar a supressão de ruído do Maxine com um modificador de voz que cuide do ajuste de pitch, efeitos ou conversão de voz com IA. Veja como a cadeia de áudio funciona:

Microfone físico

Microfone virtual do NVIDIA Broadcast (sinal limpo e sem ruído)

VoxBooster (ajuste de pitch / efeitos / conversão de voz com IA)

Saída de microfone virtual do VoxBooster

Discord / OBS / Jogo / Navegador

Por que a ordem importa: A supressão de ruído deve vir antes do modificador de voz, não depois. Se você executar o modificador de voz primeiro e depois suprimir o ruído, o modelo neural tratará alguns artefatos do efeito de voz como “ruído” e os atenuará, degradando a qualidade do efeito.

Orçamento de latência em cada etapa:

EtapaLatência adicionada
Microfone físico ao driver2–5 ms
Supressão de ruído NVIDIA Broadcast10–20 ms
VoxBooster modo efeitos5–15 ms
VoxBooster modo voz com IA200–350 ms
Microfone virtual ao aplicativo2–5 ms
Total (modo efeitos)~20–45 ms
Total (modo voz com IA)~215–385 ms

A latência no modo efeitos é imperceptível em conversa. Para uma visão completa de como configurar sua cadeia de áudio para streaming, veja o guia sobre modificadores de voz para criadores de conteúdo.

Usar NVIDIA Maxine no Discord

O Discord tem sua própria supressão de ruído integrada, mas a supressão de qualidade Maxine é perceptivelmente melhor em níveis de ruído altos — especialmente teclados mecânicos e ar-condicionado. Executar o Maxine antes da entrada do Discord permite usar o modelo do Maxine enquanto aproveita o cancelamento de eco do Discord na camada do aplicativo.

Configuração recomendada:

  1. Ative a supressão de ruído do NVIDIA Broadcast no seu microfone físico.
  2. Nas Configurações do Discord → Voz e Vídeo, defina Dispositivo de Entrada como “NVIDIA RTX Voice (Microphone)”.
  3. Em Processamento de Voz, desative a supressão de ruído integrada do Discord (adiciona latência e artefatos de processamento duplo) mas mantenha o cancelamento de eco ativado.
  4. Opcionalmente roteie pelo VoxBooster entre o Broadcast e o Discord para efeitos de voz.

Veja o guia detalhado sobre conflitos entre modificadores de voz e Krisp no Discord para solução de problemas.

RTX Voice para streaming: integração com OBS

Para usuários do OBS Studio, a integração mais limpa usa o NVIDIA Broadcast como dispositivo de microfone e não adiciona nenhum filtro de ruído no OBS — deixando a GPU cuidar disso antes.

Configuração de Áudio no OBS:

  1. No OBS → Configurações → Áudio, defina Áudio Auxiliar/Microfone como “NVIDIA RTX Voice (Microphone)”.
  2. No mixer de áudio, clique com o botão direito na sua fonte de microfone → Filtros.
  3. Remova qualquer filtro de Supressão de Ruído adicionado anteriormente (processamento duplo degrada a qualidade).
  4. Opcionalmente adicione um filtro Compressor e um filtro de Ganho para controle de nível.

Para streamers que também querem efeitos de voz ou clonagem de voz com IA ao vivo, adicione o VoxBooster à cadeia antes do OBS. Essa é a mesma abordagem detalhada em configurar um modificador de voz para Discord.

Clonagem de voz com IA após o Maxine

Um uso menos óbvio mas importante: alimentar áudio limpo do Maxine em um pipeline de conversão de voz com IA. Se você está criando conteúdo de locução com uma voz clonada por IA, a qualidade do áudio de entrada afeta diretamente a saída da conversão. Uma entrada barulhenta produz clones barulhentos.

A prática padrão para construir um dataset de clonagem de voz é:

  1. Grave áudio fonte (sua voz ou a de um ator de voz licenciado)
  2. Execute a supressão de ruído do Maxine offline com intensidade máxima — aqui a qualidade importa mais que a latência
  3. Segmente em clipes de 5–15 segundos
  4. Alimente os segmentos limpos no pipeline de treinamento

Para um aprofundamento nos fluxos de trabalho de clonagem de voz com IA, veja nosso guia de clonagem de voz para locução.

Solução de problemas comuns com Maxine e RTX Voice

“O microfone virtual do NVIDIA RTX Voice não aparece na lista de dispositivos” Reinicie o serviço de Áudio do Windows (Win+R → services.msc → Windows Audio → Reiniciar). O NVIDIA Broadcast às vezes falha ao registrar seu dispositivo virtual após uma atualização do sistema.

“O efeito parece não ter impacto no barulho do teclado” Verifique se a Intensidade do Efeito está em 100% na interface do Broadcast. Verifique também que seu microfone físico está selecionado como entrada no Broadcast — não o próprio microfone RTX Voice (o que criaria um loop de retroalimentação).

“A voz soa oca ou tem uma qualidade ‘ondulante’” O modelo de supressão de ruído está sendo agressivo demais em uma sala muito silenciosa. Reduza a Intensidade do Efeito para 70–80%.

“A latência aumentou drasticamente após ativar o Broadcast” Verifique que o driver da sua GPU está atualizado. Drivers antigos (anteriores ao 520) tinham um bug onde o Maxine processava em modo síncrono de parada de CPU em vez do modo GPU assíncrono, adicionando 60–80 ms de latência desnecessária.

“VoxBooster e NVIDIA Broadcast não encadeiam corretamente” Certifique-se de que o dispositivo de entrada do VoxBooster está configurado como “NVIDIA RTX Voice (Microphone)” e não seu microfone físico.

Comparando NVIDIA Maxine com outras soluções de supressão de ruído

SoluçãoTecnologiaLatênciaGPU necessáriaCustoMelhor para
NVIDIA Maxine / BroadcastNeural (Tensor Core)10–20 msRTX necessáriaGrátisProprietários de GPU RTX
KrispNeural (CPU)20–40 msNãoGrátis / pagoUsuários sem RTX
Discord integradoNeural (CPU/nuvem)20–50 msNãoGrátis (Discord)Somente Discord
Adobe Audition DenoiseNeural espectralSomente offlineNãoPago (Creative Cloud)Pós-produção
RNNoiseNeural (CPU, open source)~10 msNãoGrátis (código aberto)Desenvolvedores em qualquer GPU
Redução de Ruído AudacitySubtração espectralSomente offlineNãoGrátisEdição offline

A vantagem do Maxine é a latência acelerada por GPU combinada com um modelo treinado em um dataset vastamente maior que o nível de consumidor do Krisp. Cobrimos o fluxo de trabalho de integração do Krisp com mais detalhes em nosso guia de integração de modificadores de voz com Krisp.

SDK Maxine vs. NVIDIA Broadcast: qual usar?

Se você é um usuário final que quer supressão de ruído sem programação, use o NVIDIA Broadcast. É o wrapper para consumidores dos mesmos modelos subjacentes, é atualizado automaticamente e se integra a todos os principais aplicativos através de um microfone virtual.

Se você é um desenvolvedor construindo um aplicativo que precisa de aprimoramento de áudio — um app de chat de voz, uma ferramenta de streaming, um produto de software criativo — o SDK Maxine é a escolha certa. Ele oferece:

  • Controle programático sobre a intensidade do efeito
  • Acesso à seleção de modelos (múltiplos níveis de qualidade)
  • A capacidade de embutir supressão de ruído sem que os usuários precisem instalar um aplicativo separado
  • Controle no nível de quadro para integração com pipelines de áudio personalizados

Conclusão

O SDK de Efeitos de Áudio NVIDIA Maxine e o RTX Voice representam uma mudança genuína no processamento de áudio acessível e acelerado por GPU. O que antes exigia uma unidade DSP de hardware ou uma cabine de gravação cara agora pode rodar em 10–20 ms em uma GPU de gaming de nível médio.

Para a maioria dos usuários do Windows com uma placa RTX, a configuração prática é simples: instale o NVIDIA Broadcast, ative a supressão de ruído no seu microfone e deixe que os demais aplicativos recebam o sinal do microfone virtual limpo. Se você também quer efeitos de voz em tempo real, ajuste de pitch ou conversão de voz com IA por cima, ferramentas como o VoxBooster se encaixam perfeitamente nessa cadeia — consumindo o microfone virtual do Broadcast como entrada e publicando seu próprio microfone virtual como saída, tudo sem drivers de kernel ou software de roteamento de áudio em nível de administrador.

Para uma visão completa de como configurar uma cadeia de áudio para streaming com efeitos de voz, veja o guia sobre modificadores de voz para Discord ou o guia mais amplo de modificadores de voz para streaming.

Experimente o VoxBooster — 3 dias grátis.

Clone de voz em tempo real, soundboard e efeitos — onde você já fala.

  • Sem cartão
  • ~30ms de latência
  • Discord · Teams · OBS
Experimentar 3 dias grátis