NVIDIA Maxine Voice: SDK, RTX Noise Suppression & Real-Time Audio

Panduan lengkap NVIDIA Maxine Audio Effects SDK dan RTX Voice — GPU-accelerated noise suppression, echo cancellation, dan cara mengkombinasikan dengan real-time voice changer.

NVIDIA Maxine Voice: Panduan SDK, RTX Noise Suppression & Real-Time Audio

Teknologi audio NVIDIA Maxine merepresentasikan salah satu lompatan paling signifikan dalam pemrosesan audio consumer yang dipercepat GPU. Apa yang dimulai sebagai RTX Voice — aplikasi standalone yang membuat streamer kagum pada 2020 dengan menghilangkan dengungan keyboard mekanis dengan model GPU — telah matang menjadi Maxine Audio Effects SDK: developer toolkit lengkap untuk membangun aplikasi dengan denoising real-time, room echo cancellation, dan acoustic beamforming built-in. Panduan ini mencakup bagaimana teknologi bekerja, cara mengaturnya, dan cara melayering dengan voice changer real-time untuk rantai audio berkualitas broadcast lengkap pada Windows.


TL;DR

  • NVIDIA Maxine Audio Effects SDK adalah developer toolkit gratis dengan GPU-accelerated noise suppression, echo cancellation, dan denoising pada 48 kHz
  • RTX Voice adalah pendahulu consumer; NVIDIA Broadcast dan Maxine SDK adalah bentuk saat ini
  • Membutuhkan RTX 20-series atau lebih baru (Tensor Core diperlukan untuk neural inference)
  • Latency adalah 10-20 ms untuk pass efek tunggal — tidak terlihat dalam percakapan
  • Workflow terbaik: physical mic → Maxine denoising → voice changer → output virtual mic ke Discord/OBS
  • VoxBooster terintegrasi dengan rapi setelah Maxine dalam rantai audio, tidak diperlukan virtual cable

Apa Itu NVIDIA Maxine Audio Effects SDK?

NVIDIA Maxine Audio Effects SDK adalah set API yang dipercepat GPU yang menerapkan deep learning–based audio enhancement ke audio streams real-time. Ini bukan aplikasi consumer — ini adalah developer toolkit yang vendor software, indie developer, dan peneliti gunakan untuk menambahkan studio-quality denoising dan echo removal ke aplikasi mereka sendiri tanpa membangun model tersebut dari nol.

SDK mengirim tiga efek audio inti:

  • Noise Suppression — menghilangkan background sounds (kipas, keyboard, street noise, HVAC) dari sinyal microphone menggunakan neural network dilatih pada ribuan jenis noise
  • Room Echo Cancellation — mengidentifikasi dan menghilangkan refleksi akustik yang disebabkan oleh speaker memutar audio kembali ke ruangan (penyebab echo di laptop mic selama panggilan)
  • Acoustic Echo Cancellation (AEC) — varian echo cancellation latency rendah yang tuned untuk setup headphone+speaker

Arsitektur yang mendasarinya menggunakan convolutional neural network yang berjalan pada RTX GPU Tensor Core, yang mengapa pemrosesan hanya menambahkan 10-20 ms latency bukan 80-150 ms yang Anda harapkan dari pipeline deep learning berbasis CPU.

Dokumentasi teknis lebih detail tersedia di NVIDIA Developer site.

Dari RTX Voice ke Maxine SDK: Sejarah Singkat

Untuk memahami status teknologi saat ini, timeline penting.

2020 — Peluncuran RTX Voice. NVIDIA merilis RTX Voice sebagai aplikasi standalone gratis. Ini membuat virtual microphone yang menjalankan sinyal mic real Anda melalui model denoising deep learning pada GPU RTX Anda. Hasilnya segera mengesankan — mechanical keyboard noise, HVAC rumble, dan coffee-shop ambiance lenyap dengan minimal voice coloration. Tangkapannya adalah persyaratan instalasi untuk GPU RTX saja (meskipun community patches sebentar mengaktifkannya di kartu GTX dengan mem-bypass pemeriksaan).

2021 — NVIDIA Broadcast. RTX Voice dan RTX Greenscreen digabung ke dalam aplikasi tunggal yang disebut NVIDIA Broadcast, yang menambahkan fitur noise-free background removal dan eye contact correction untuk webcam. Model denoising audio diperbarui dengan voice preservation lebih baik pada noise level lebih tinggi.

2022-2024 — Kedewasaan Maxine SDK. NVIDIA mengemas model yang sama ke dalam Maxine Audio Effects SDK untuk developer, versioned terpisah dari aplikasi consumer. SDK mengekspos lebih banyak parameter — effect strength, frequency weighting, model selection — memberi developer kontrol yang GUI app dengan sengaja menyederhanakan.

2025-2026 — Era integrasi. Aplikasi pihak ketiga, DAW, dan voice software mulai mengintegrasikan Maxine secara langsung. API NVAFX (inti Maxine Audio Effects) sekarang tersedia sebagai format plugin dan sebagai API C++ / Python langsung.

ProdukAudienceInterfaceTingkat Kontrol
RTX Voice (legacy)ConsumersGUI appTidak ada — satu klik
NVIDIA BroadcastConsumersGUI appMinimal
Maxine Audio Effects SDKDevelopersC++ / Python APIPenuh
Integrasi pihak ketigaEnd user via appBervariasiBervariasi

Cara Kerja Maxine Noise Suppression di Bawah Topi

Model noise suppression adalah recurrent neural network (RNN) architecture dilatih pada corpus besar clean speech dipasangkan dengan background noise yang beragam. Pada runtime ini memproses audio dalam frame pendek — biasanya 10 ms window — dan memprediksi noise mask untuk setiap frequency bin. Frekuensi yang didominasi noise mendapat attenuasi; frekuensi yang didominasi voice lewat.

Ini secara konseptual serupa dengan spectral subtraction (pendekatan klasik yang digunakan oleh tool seperti Noise Reduction built-in Audacity), tetapi pendekatan neural melakukan dua hal berbeda:

  1. Ini menggeneralisasi ke jenis noise novel. Spectral subtraction klasik butuh noise profile yang ditangkap sebelumnya. Model Maxine belajar apa yang ucapan terlihat dan menekan apa pun yang tidak cocok — bahkan noise yang tidak pernah secara khusus dilihatnya.
  2. Ini menjaga karakteristik voice. Model dilatih untuk membiarkan spectral envelope voice manusia sebagian besar tidak berubah, yang mengapa voice yang diproses melalui RTX Voice / Maxine tidak mengembangkan “underwater” atau “watery” artifacts yang aggressive classical noise reduction menghasilkan.

Trade-off adalah GPU dependency. Model membutuhkan matrix multiplication throughput Tensor Core untuk berjalan pada latency real-time. CPU menjalankan model yang sama membutuhkan 60-120 ms per frame — terlalu lambat untuk conversational use.

GPU Tier Didukung

GPU GenerationTensor CoreDukungan MaxineCatatan
GTX 10/16 seriesTidak adaTidak didukungTidak ada Tensor Core
RTX 20 series (Turing)Ya (1st gen)Dukungan penuhPersyaratan minimum
RTX 30 series (Ampere)Ya (2nd gen)Dukungan penuhDirekomendasikan untuk streaming
RTX 40 series (Ada Lovelace)Ya (4th gen)Dukungan penuhInference tercepat
RTX 50 series (Blackwell)Ya (5th gen)Dukungan penuhKartu 2025+

Room Echo Cancellation: Fitur yang Kurang Dihargai

Noise suppression mendapat sebagian besar perhatian, tetapi room echo cancellation sama berharganya untuk banyak setup — terutama open-desk environment di mana speaker desktop digunakan bukan headphone.

Room echo terjadi ketika speaker output Anda (game audio, musik, voice orang lain) mengalir kembali ke microphone Anda. Microphone mendengar baik voice Anda maupun refleksi akustik ruangan dari apa yang baru saja speaker mainkan. Ini menciptakan familiar “mendengar diri sendiri dua kali” atau masalah “hollowness” pada panggilan, dan ini mengenalkan artifacts di voice changer yang mengharapkan sinyal vocal bersih.

Efek AEC Maxine mengatasi ini dengan menggunakan reference signal — audio yang dimainkan melalui speaker Anda — untuk memprediksi porsi mana dari input microphone adalah refleksi akustik dan kurangi. Ini adalah teknik signal processing yang well-established (NLMS adaptive filtering pada intinya), tetapi neural enhancement Maxine mengurangi residual echo yang adaptive filter tinggalkan di speaker level tinggi.

Kapan menggunakan AEC vs. noise suppression sederhana:

  • Gunakan noise suppression ketika masalahnya adalah background environmental sound (kipas, keyboard, street)
  • Gunakan AEC ketika masalahnya adalah acoustic feedback dari speaker Anda sendiri memasuki mic
  • Gunakan keduanya dalam kombinasi untuk open-room broadcast setup

Mengatur NVIDIA Broadcast (Consumer Path)

Jika Anda streamer atau content creator dan tidak ingin compile SDK, NVIDIA Broadcast adalah tool yang tepat. Ini menginstal Maxine’s denoising di bawah topi dan mengeksposnya melalui GUI.

Persyaratan:

  • Windows 10 atau 11
  • GPU RTX 20-series atau lebih baru
  • Versi driver 456.38 atau lebih baru (paling banyak user sudah jauh melewati ini)

Langkah setup:

  1. Download NVIDIA Broadcast dari nvidia.com/broadcast
  2. Instal dan luncurkan. Aplikasi menunjukkan tiga panel: Camera, Microphone, dan Speaker.
  3. Di bawah Microphone, pilih physical mic Anda sebagai input.
  4. Aktifkan Noise Removal dan secara opsional Room Echo Removal.
  5. Atur Output ke “NVIDIA RTX Voice (Microphone)” — ini membuat virtual microphone device.
  6. Di Discord, OBS, atau aplikasi lain apa pun, pilih “NVIDIA RTX Voice (Microphone)” sebagai input device.

Virtual microphone yang dibuat oleh Broadcast mengeluarkan clean, denoised audio yang aplikasi lain mana pun dapat terima. Ini adalah pola virtual device yang sama yang digunakan oleh voice changer seperti VoxBooster — dan berarti Anda dapat chain keduanya.

Mengatur Maxine Audio Effects SDK (Developer Path)

Untuk developer membangun aplikasi kustom, SDK menawarkan akses API langsung ke model yang sama.

Prasyarat:

  • CUDA Toolkit 11.x atau 12.x
  • GPU RTX dengan driver ≥456.38
  • Maxine SDK NVIDIA diunduh dari NGC Developer Portal

Workflow core API (C++ pseudocode overview):

NvAFX_CreateEffect(NVAFX_EFFECT_DENOISE, &handle)
NvAFX_SetU32(handle, NVAFX_PARAM_NUM_CHANNELS, 1)
NvAFX_SetU32(handle, NVAFX_PARAM_SAMPLE_RATE, 48000)
NvAFX_SetString(handle, NVAFX_PARAM_MODEL_PATH, "denoiser_48k.trtpkg")
NvAFX_Load(handle)
// Per-frame loop:
NvAFX_Run(handle, input_buffer, output_buffer, num_samples)
NvAFX_DestroyEffect(handle)

File model (.trtpkg) adalah TensorRT-optimized inference graph. Mereka dibundel dengan download SDK dan harus hadir di path yang Anda tentukan. SDK menangani GPU memory allocation dan CUDA stream management secara internal.

Python bindings tersedia via wrapper nvafx-python tidak resmi, yang membuatnya dapat diakses untuk rapid prototyping tanpa menulis aplikasi C++ penuh.

Ukuran frame praktis:

  • Noise suppression: 480 sample pada 48 kHz = 10 ms per frame
  • Echo cancellation: 160 sample pada 16 kHz = 10 ms per frame (butuh downsampling jika chain Anda berjalan pada 48 kHz)

Dokumentasi SDK merekomendasikan double-buffering input dan output frame untuk smooth over processing jitter, terutama ketika pipeline audio berjalan pada GPU yang sama seperti game atau screen capture.

Mengintegrasikan Maxine dengan Real-Time Voice Changer

Kasus penggunaan paling kuat untuk desktop user adalah mengkombinasikan denoising Maxine dengan voice changer yang menangani pitch shifting, efek, atau AI voice conversion. Berikut cara kerja rantai audio:

Physical Mic

NVIDIA Broadcast virtual mic (denoised, clean signal)

VoxBooster (pitch shift / effects / AI voice conversion)

Output virtual mic VoxBooster

Discord / OBS / Game / Browser

Rantai ini bekerja karena setiap tool mengekspos virtual microphone yang tool berikutnya dalam rantai dapat konsumsi sebagai input device. NVIDIA Broadcast mengeluarkan “NVIDIA RTX Voice (Microphone)”; VoxBooster membacanya sebagai mic sumber.

Mengapa urutan penting: Noise suppression harus datang sebelum voice changer, bukan sesudahnya. Jika Anda menjalankan voice changer terlebih dahulu kemudian denoise, denoiser neural akan memperlakukan beberapa voice-effect artifacts sebagai “noise” dan attenuate mereka, degrading kualitas efek Anda. Jalankan rantai clean-in → denoise → transform → output.

Budget latency pada setiap tahap:

TahapLatency Ditambahkan
Physical mic ke driver2-5 ms
NVIDIA Broadcast denoising10-20 ms
Mode efek VoxBooster5-15 ms
Mode voice AI VoxBooster200-350 ms
Virtual mic ke app2-5 ms
Total (effects mode)~20-45 ms
Total (AI voice mode)~215-385 ms

Latency effects mode tidak terlihat dalam percakapan. AI voice mode latency (~250 ms median) serupa dengan transatlantic VoIP call — terlihat tetapi workable untuk paling banyak streaming scenario. Untuk gaming competitive cepat dengan voice communication, effects mode direkomendasikan.

Untuk info lebih banyak tentang mengatur audio chain Anda untuk streaming, lihat panduan tentang voice changer untuk content creator.

Menggunakan NVIDIA Maxine Audio pada Discord

Discord memiliki noise suppression built-in sendiri yang dipowered oleh Krisp, tetapi Maxine-quality denoising perceptibly lebih baik pada noise level tinggi — terutama mechanical keyboard noise dan room HVAC. Menjalankan Maxine upstream Discord’s input membiarkan Anda menggunakan model Maxine sambil masih mendapat manfaat dari echo cancellation Discord pada app layer.

Setup direkomendasikan:

  1. Aktifkan NVIDIA Broadcast denoising pada physical mic Anda.
  2. Dalam Discord Settings → Voice & Video, atur Input Device ke “NVIDIA RTX Voice (Microphone).”
  3. Di bawah Voice Processing, disable Discord’s built-in Noise Suppression (ini menambahkan latency dan double-processing artifact) tetapi keep Echo Cancellation on.
  4. Secara opsional route melalui VoxBooster antara Broadcast dan Discord untuk voice effect.

Satu pertimbangan penting: Discord mungkin conflict jika Anda juga memiliki third-party noise suppressor seperti Krisp berjalan di plugin slot sendirinya. Periksa panduan detail kami di voice changer dan Krisp conflict di Discord untuk troubleshooting step.

RTX Voice untuk Streaming: Integrasi OBS

Untuk pengguna OBS Studio, integrasi terclean menggunakan NVIDIA Broadcast sebagai microphone device dan tidak menambahkan OBS-side noise filter apa pun — membiarkan GPU menangani upstream.

Audio Setup OBS:

  1. Di OBS → Settings → Audio, atur Mic/Auxiliary Audio ke “NVIDIA RTX Voice (Microphone).”
  2. Di audio mixer, klik kanan mic source Anda → Filters.
  3. Hapus filter Noise Suppression apa pun yang sudah ada jika Anda sebelumnya menambahkan (double-processing menurunkan quality).
  4. Secara opsional tambahkan Compressor filter dan Gain filter untuk kontrol level — ini oke untuk keep setelah Maxine.

Untuk streamer yang juga ingin voice effect atau AI voice cloning live selama broadcast mereka, tambahkan VoxBooster ke rantai sebelum OBS. OBS kemudian menerima Maxine-denoised + VoxBooster-transformed output melalui virtual microphone VoxBooster. Ini adalah pendekatan yang sama yang tercakup detail di setup voice changer untuk Discord.

Voice Cloning dan AI Voice Conversion Setelah Maxine

Kasus penggunaan yang lebih tenang tetapi penting: mengirimkan Maxine-cleaned audio ke pipeline AI voice conversion. Jika Anda membuat voiceover content dengan AI-cloned voice, kualitas input audio secara langsung mempengaruhi conversion output. Input berisik menghasilkan clone berisik.

Praktik standar untuk membangun dataset voice clone adalah:

  1. Rekam source audio (voice Anda, atau voice actor berlisensi)
  2. Jalankan Maxine noise suppression offline pada maximum effect strength — quality lebih penting daripada latency di sini
  3. Segment ke clip 5-15 detik
  4. Mengirimkan clip bersih ke training pipeline

Model voice yang dihasilkan akan memiliki noticeably cleaner high-frequency detail dan lebih sedikit noise-floor artifacts daripada satu yang dilatih pada rekaman microphone raw dalam typical home environment. Ini penting terutama untuk consonants (fricative seperti ‘s’, ‘f’, ‘sh’) di mana noise dengan mudah blur spectral fine structure yang model butuhkan untuk belajar.

Untuk deeper look di AI voice cloning workflow dan bagaimana perbedaannya dari real-time voice changer, lihat panduan voice cloning untuk voiceover.

Troubleshooting Common Maxine dan RTX Voice Issue

“NVIDIA RTX Voice virtual mic tidak menunjukkan dalam device list” Restart Windows Audio service (Win+R → services.msc → Windows Audio → Restart). NVIDIA Broadcast kadang gagal register virtual device-nya setelah system update. Jika problem persist, uninstal dan reinstall Broadcast.

“Efek terlihat tidak memiliki dampak pada keyboard noise” Periksa bahwa Effect Intensity berada pada 100% di UI Broadcast. Beberapa user secara accidental meninggalkannya pada 50%. Juga verifikasi physical mic Anda benar-benar dipilih sebagai Broadcast input — bukan RTX Voice mic sendiri (yang akan membuat feedback loop).

“Voice terdengar hollow atau memiliki kualitas ‘swimming’” Model denoising sedang over-aggressively menekan audio dalam very quiet room. Kurangi Effect Intensity ke 70-80%. Alternatively, gunakan Maxine SDK langsung dan lower parameter NVAFX_PARAM_INTENSITY.

“Latency meningkat dramatically setelah enabling Broadcast” Periksa GPU driver Anda updated. Driver lebih tua (pre-520) memiliki bug di mana Maxine memproses dalam synchronous CPU-stall mode bukan async GPU mode, menambah 60-80 ms latency tidak perlu.

“VoxBooster dan NVIDIA Broadcast tidak chain dengan benar” Pastikan input device VoxBooster diatur ke “NVIDIA RTX Voice (Microphone)” dan bukan physical mic Anda. Jika keduanya diatur ke physical mic, mereka memproses parallel bukan series — Anda akan mendapat efek tetapi bukan manfaat denoising. Juga confirm bahwa Windows Sound setting tidak telah revert default microphone ke physical device.

Membandingkan NVIDIA Maxine dengan Noise Suppression Solution Lainnya

Landscape noise suppression memiliki beberapa competing approach. Maxine bukan satu-satunya opsi kuat, tetapi perbandingan mengungkap di mana benar-benar berdiri.

SolutionTeknologiLatencyGPU RequiredBiayaBest For
NVIDIA Maxine / BroadcastNeural (Tensor Core)10-20 msRTX requiredGratisRTX GPU owner
KrispNeural (CPU)20-40 msTidak adaGratis / tier berbayarNon-RTX user
Discord built-inNeural (CPU/cloud)20-50 msTidak adaGratis (Discord)Discord only
Adobe Audition DenoiseSpectral neuralOffline onlyTidak adaBerbayar (Creative Cloud)Post-production
RNNoiseNeural (CPU, open source)~10 msTidak adaGratis (open source)Developer pada GPU apa pun
Audacity Noise ReductionSpectral subtractionOffline onlyTidak adaGratisOffline editing

Keuntungan Maxine adalah GPU-accelerated latency dikombinasikan dengan model yang dilatih pada vastly larger dataset daripada tier consumer Krisp. Untuk streamer dengan kartu RTX, Maxine atau NVIDIA Broadcast biasanya pilihan gratis terbaik. Non-RTX user harus lihat Krisp — model CPU-based telah meningkat signifikan dan berjalan well pada CPU modern. Kami mencakup workflow integrasi Krisp lebih detail di panduan integrasi voice changer Krisp.

Maxine Audio SDK vs. NVIDIA Broadcast: Yang Seharusnya Anda Gunakan

Jika Anda end user yang ingin noise suppression tanpa coding required, gunakan NVIDIA Broadcast. Ini adalah consumer wrapper di sekitar model underlying yang sama, mendapat update otomatis, dan terintegrasi dengan semua major app melalui virtual mic.

Jika Anda developer membangun aplikasi yang membutuhkan audio enhancement — voice chat app, streaming tool, produk creative software — Maxine SDK adalah pilihan yang tepat. Ini memberi Anda:

  • Programmatic kontrol atas effect intensity
  • Akses ke model selection (multiple model quality tier)
  • Kemampuan embed denoising tanpa memerlukan user install consumer app terpisah
  • Frame-level kontrol untuk integrasi dengan custom audio pipeline

SDK juga pilihan yang tepat untuk memproses offline audio file dalam batch — untuk training voice model, cleaning podcast recording, atau preprocessing audio dataset di mana GUI workflow akan terlalu lambat.

Kesimpulan

NVIDIA Maxine Audio Effects SDK dan RTX Voice merepresentasikan genuine step change dalam accessible, GPU-accelerated audio processing. Apa yang biasanya membutuhkan hardware DSP unit atau expensive recording booth sekarang dapat berjalan dalam 10-20 ms pada mid-range gaming GPU, menghilangkan noise yang classical algorithm tidak pernah reliably eliminasi.

Untuk paling banyak Windows user dengan kartu RTX, practical setup sederhana: instal NVIDIA Broadcast, aktifkan noise suppression pada mic Anda, dan biarkan setiap app lain terima cleaned virtual mic signal. Jika Anda juga ingin real-time voice effect, pitch shifting, atau AI voice cloning layered di atas, tool seperti VoxBooster slot dengan rapi ke dalam rantai itu — mengkonsumsi Broadcast virtual mic sebagai input dan menerbitkan virtual mic mereka sendiri sebagai output, semua tanpa kernel driver atau administrator-level audio routing software. Hasilnya adalah broadcast-quality audio chain dari desktop consumer, berjalan end-to-end pada di bawah 50 ms latency dalam effects mode.

Untuk overview lengkap tentang cara setup streaming audio chain dengan voice effect, lihat panduan tentang voice changer untuk Discord atau panduan voice changer untuk streaming yang lebih luas.

Coba VoxBooster — uji coba gratis 3 hari.

Kloning suara real-time, soundboard, dan efek — di mana pun kamu sudah biasa bicara.

  • Tanpa kartu kredit
  • ~30ms latensi
  • Discord · Teams · OBS
Coba gratis 3 hari