Cara Mengubah Suara Anda Melalui Mikrofon Apa Pun: Tutorial Lengkap
Mengubah suara Anda melalui mikrofon lebih sederhana daripada yang kebanyakan panduan bunyikan, tetapi hanya jika Anda memahami apa yang sebenarnya dilakukan perangkat lunak. Tutorial ini mencakup fundamental akustik (pitch, formant, resonansi), rantai sinyal audio Windows, dan konfigurasi langkah demi langkah untuk Discord, Zoom, OBS, dan obrolan suara dalam permainan.
TL;DR
- Mengubah suara bekerja dengan menembus sinyal mikrofon Anda dalam perangkat lunak, sebelum aplikasi apa pun melihatnya
- Pergeseran pitch saja terdengar robotik, gabungkan dengan pergeseran formant untuk hasil alami
- low-latency audio capture adalah API audio tingkat rendah Windows yang memungkinkan latensi pemrosesan di bawah 20 ms
- Output mengarahkan ke mikrofon virtual yang aplikasi Anda pilih alih-alih mikrofon nyata Anda
- Pengaturan adalah pola yang sama untuk setiap aplikasi: pilih mikrofon virtual sebagai input
- VoxBooster menangani low-latency audio capture, AI voice cloning, dan perutean virtual dalam satu instalasi, di bawah 300 ms end-to-end di mesin Windows 10/11 apa pun
1. Apa yang Benar-Benar Terjadi Ketika Anda “Mengubah Suara Anda”
Suara Anda adalah sinyal akustik yang kompleks. Tiga properti menentukan bagaimana kedengarannya:
Pitch (F0, frekuensi fundamental) Pitch adalah tingkat di mana pita suara Anda bergetar. Pria dewasa rata-rata sekitar 85-180 Hz; wanita dewasa sekitar 165-255 Hz. Menaikkan pitch sebesar satu oktaf menggandakan F0; menurunkannya membagi dua F0.
Formants Formants adalah puncak resonan yang dihasilkan oleh saluran vokal Anda (tenggorokan, mulut, rongga hidung) membentuk buzz mentah dari pita suara Anda. F1 dan F2 adalah yang paling penting secara perseptual, mereka menentukan suara vokal dan memberikan suara karakternya. Baritone dan tenor yang menyanyikan catatan yang sama pada pitch yang sama masih terdengar berbeda karena formants mereka berbeda.
Spectral envelope Distribusi energi keseluruhan di seluruh frekuensi, apa yang membuat suara terdengar “hangat”, “hidung”, “bernapas”, atau “tajam”.
Penggeser pitch dasar memindahkan F0 tanpa menyentuh formants. Inilah mengapa pengubah suara murah terdengar seperti chipmunk atau monster yang mengguruh, fundamental bergerak tetapi resonansi tetap di tempat yang salah. Perubahan suara real-time tingkat profesional menggeser pitch dan formants secara independen dan menyesuaikan spectral envelope agar sesuai dengan profil suara target. Kombinasi itulah yang menghasilkan suara yang berbeda secara meyakinkan daripada suara yang jelas diproses.
2. Rantai Sinyal low-latency audio capture di Windows
Memahami jalur sinyal membantu Anda mengonfigurasi semuanya dengan benar dan mendiagnosis masalah.
Mikrofon fisik
↓
Driver audio Windows (low-latency audio capture)
↓
Perangkat lunak pengubah suara (capture loop)
→ mesin pergeseran pitch
→ mesin pergeseran formant
→ rantai efek (EQ, reverb, noise gate)
↓
Perangkat audio virtual (mikrofon virtual)
↓
Aplikasi target (Discord / Zoom / OBS / game)
Mengapa low-latency audio capture penting
Windows memiliki dua antarmuka audio utama: DirectSound (warisan, latensi tinggi) dan low-latency audio capture (Windows Audio Session API, diperkenalkan di Vista). low-latency audio capture dapat berjalan dalam dua mode:
- Mode bersama, mesin audio Windows mencampur banyak aliran. Menambahkan buffer pencampuran (biasanya 10-20 ms) tetapi membiarkan aplikasi lain menggunakan perangkat yang sama secara bersamaan.
- Mode eksklusif, aplikasi mengambil kepemilikan langsung dari antarmuka perangkat keras. Latensi mixer nol, tetapi aplikasi lain tidak dapat menggunakan perangkat itu secara bersamaan.
Pengubah suara biasanya berjalan mode bersama low-latency audio capture pada sisi capture (membaca mikrofon Anda) dan membuat perangkat WDM/MME virtual untuk output, mikrofon virtual. Ini membiarkan Discord, Zoom, dan aplikasi lain mengambilnya melalui enumerasi audio Windows normal.
Breakdown latensi total (desktop tipikal, perangkat keras 2024)
| Tahap | Latensi Tipikal |
|---|---|
| Analog mikrofon > digital (ADC) | 1-3 ms |
| Buffer capture low-latency audio capture | 5-10 ms |
| Pemrosesan (pitch + formant) | 10-30 ms |
| Buffer keluaran perangkat virtual | 5-10 ms |
| Menerima aplikasi | 1-5 ms |
| Total | ~22-58 ms |
Di bawah 50 ms tidak terlihat dalam obrolan suara. Di bawah 100 ms dapat diterima. Perangkat lunak yang memerlukan driver mode kernel atau buffer DSP besar dapat mendorong ini di atas 150 ms, yang menjadi noticeable dalam percakapan.
3. Memilih Perangkat Lunak Pengubah Suara yang Tepat
Sebelum masuk ke setup per-aplikasi, pilih perangkat lunak yang sesuai dengan use case Anda:
Untuk penggunaan casual / streaming / gaming: Pengubah suara real-time dengan perpustakaan preset dan keluaran mikrofon virtual. Cari dukungan low-latency audio capture dan pergeseran formant, bukan hanya pitch.
Untuk konten profesional / suara unik: AI voice cloning, yang memetakan pidato Anda ke model suara terlatih secara real-time. Latensi sedikit lebih tinggi (di bawah 300 ms dengan mesin modern) tetapi hasilnya tidak dapat dibedakan dari suara yang direkam.
Untuk latensi terendah absolut: low-latency audio capture eksklusif mode asli + ukuran buffer kecil (128 sampel pada 48 kHz = 2,67 ms per pass buffer). Hanya penting untuk performa langsung atau penggunaan panggung, tidak perlu untuk Discord atau gaming.
Fitur utama untuk diperiksa sebelum memasang:
- Membuat mikrofon virtual yang muncul di pengaturan Suara Windows
- Tidak memerlukan driver kernel (driver kernel dapat bertentangan dengan perangkat lunak anti-cheat di game)
- Berjalan di Windows 10 dan Windows 11 tanpa instalasi Visual C++ tambahan
- Dukungan capture low-latency audio capture (bukan hanya polling WDM/MME)
VoxBooster memasang perangkat audio virtual WDM yang ditandatangani dan memproses melalui low-latency audio capture, tanpa driver mode kernel. Ini bekerja di Windows 10 dan Windows 11 dan menambahkan AI voice cloning di atas efek pitch/formant standar.
4. Langkah demi Langkah: Pengaturan untuk Discord
Discord adalah use case yang paling umum dan paling mudah dikonfigurasi.
Langkah 1, Instal dan luncurkan pengubah suara Anda
Jalankan installer dan luncurkan perangkat lunak. Konfirmkan bahwa itu muncul di system tray Windows dan bahwa audio mengalir (meter input harus bereaksi saat Anda berbicara).
Langkah 2, Verifikasi mikrofon virtual di Windows
Buka Settings > System > Sound > More sound settings (atau klik kanan ikon speaker tray > Sounds > tab Recording). Anda akan melihat perangkat recording baru, biasanya bernama seperti “VoxBooster Virtual Microphone” atau serupa. Jika muncul sebagai “Not plugged in,” restart layanan pengubah suara.
Langkah 3, Nonaktifkan mikrofon fisik Anda di mixer Windows
Klik kanan mikrofon fisik Anda di tab Recording > Disable. Ini mencegah Discord juga menangkap audio mentah dari mikrofon nyata Anda secara bersamaan. Anda dapat mengaktifkannya kembali ketika selesai.
Langkah 4, Konfigurasikan Discord
Buka User Settings > Voice & Video. Di bawah Input Device, pilih mikrofon virtual dari dropdown. Atur Input Mode ke Voice Activity dan sesuaikan slider sensitivitas sampai Discord hanya mengaktifkan saat Anda berbicara.
Langkah 5, Uji
Gunakan Let’s Check echo test di pengaturan Voice & Video Discord, atau bergabunglah dengan server pribadi dengan teman. Konfirmkan mereka mendengar suara yang diproses, bukan asli Anda.
Troubleshooting gema Discord: Jika orang lain mendengarkan Anda dua kali, mikrofon fisik Anda masih diaktifkan di Windows, periksa kembali Langkah 3.
5. Langkah demi Langkah: Pengaturan untuk Zoom
Zoom menambahkan lapisan pemrosesan audio sendiri (penekanan kebisingan otomatis, pembatalan gema) yang dapat mengganggu keluaran pengubah suara.
Langkah 1, Selesaikan Langkah 1-3 dari bagian Discord di atas (instal, verifikasi mikrofon virtual, nonaktifkan mikrofon fisik di Windows).
Langkah 2, Konfigurasikan Zoom
Buka Settings > Audio. Di bawah Microphone, pilih mikrofon virtual. Klik Test Mic untuk mengkonfirmasi level terdaftar.
Langkah 3, Nonaktifkan pemrosesan audio Zoom
Ini penting: buka Settings > Audio > Advanced dan atur:
- Suppress background noise > Rendah (atau Nonaktif)
- Suppress intermittent noise > Nonaktif
- Echo cancellation > Otomatis
Penekanan kebisingan agresif Zoom memperlakukan artefak pengubah suara sebagai “kebisingan” dan menyaringnya, menurunkan efeknya. Mengatur penekanan ke Rendah atau Nonaktif membiarkan audio yang diproses melewati dengan bersih.
Langkah 4, Uji
Gunakan Test Speaker & Microphone di pengaturan Audio Zoom, atau mulai rapat tes. Verifikasi suara yang ditransformasi terdengar bersih tanpa artefak.
6. Langkah demi Langkah: Pengaturan untuk OBS
OBS (Open Broadcaster Software) digunakan untuk streaming dan merekam. Ini menangani sumber audio secara berbeda dari aplikasi komunikasi, ia menangkap audio sebagai sumber daripada memilih perangkat input seluruh sistem.
Langkah 1, Instal pengubah suara dan verifikasi mikrofon virtual (Langkah 1-2 dari bagian Discord).
Langkah 2, Tambahkan mikrofon virtual sebagai sumber Audio Input Capture di OBS
Di OBS, buka Sources > Add > Audio Input Capture. Beri nama (mis., “Voice Changer”). Di dropdown perangkat, pilih mikrofon virtual.
Langkah 3, Hapus atau bisukan sumber mikrofon fisik Anda
Jika Anda sebelumnya memiliki sumber mikrofon di OBS yang menunjuk ke mikrofon nyata Anda, bisukan atau hapus untuk menghindari penggandaan.
Langkah 4, Tambahkan filter Noise Gate (opsional tetapi direkomendasikan)
Klik kanan sumber Audio Input Capture > Filters > Add > Noise Gate. Atur ambang tutup sekitar -50 dB dan ambang buka sekitar -40 dB. Ini mencegah artefak pemrosesan apa pun selama keheningan muncul dalam perekaman.
Langkah 5, Monitor di OBS
Klik kanan sumber audio > Advanced Audio Settings > aktifkan Monitor and Output untuk mendengar suara yang diproses melalui headphone Anda secara real-time saat merekam atau streaming.
7. Langkah demi Langkah: Obrolan Suara Dalam Permainan
Sebagian besar game (Valorant, Fortnite, Counter-Strike, dll.) menggunakan perangkat komunikasi default Windows atau membiarkan Anda memilih perangkat input di pengaturan audio game.
Opsi A, Atur sebagai perangkat komunikasi default
Di Windows Sound > tab Recording, klik kanan mikrofon virtual > Set as Default Communication Device. Game yang auto-select perangkat komunikasi akan menggunakannya.
Opsi B, Atur dalam game
Buka audio atau pengaturan suara game. Temukan dropdown input mikrofon/suara dan pilih mikrofon virtual berdasarkan nama. Ini mengganti default Windows untuk game itu secara khusus.
Pertimbangan anti-cheat
Beberapa sistem anti-cheat (Vanguard, EAC) memantau driver mode kernel. Pengubah suara yang memasang di ring-0 (driver kernel) dapat memicu flag anti-cheat. Perangkat lunak yang berjalan sebagai aplikasi user-space dengan perangkat audio virtual WDM yang ditandatangani, tanpa driver kernel, menghindari masalah ini sepenuhnya.
Latensi dalam game
Obrolan suara dalam game menambahkan latensi jaringan sendiri di atas latensi pengubah suara lokal. Bagian pemrosesan lokal (mikrofon > mikrofon virtual) harus tetap di bawah 50 ms; bagian jaringan di luar kontrol Anda. Total penundaan yang dirasakan tergantung pada server ping, bukan terutama pada pengubah suara.
8. Tuning Suara: Pitch, Formant, dan Efek
Setelah perutean bekerja, kualitas transformasi tergantung pada cara Anda menyesuaikan parameter.
Pergeseran pitch
Sebagian besar suara alami duduk dalam ±12 semitone (satu oktaf) dari pitch asli mereka. Melampaui itu, artefak menjadi terlihat. Untuk pergeseran pria > wanita yang meyakinkan, coba +5 hingga +8 semitone. Untuk wanita > pria, coba -4 hingga -6 semitone.
Pergeseran formant
Pergeseran formant memindahkan resonansi saluran vokal secara independen dari pitch. Naikkan formant untuk terdengar lebih muda/lebih kecil; turunkan untuk terdengar lebih besar/lebih dalam. Titik awal yang baik untuk suara yang sudah pitch-shifted adalah menaikkan formant +1 hingga +2 semitone untuk mencocokkan.
Noise gate
Atur noise gate untuk tutup di -55 dB untuk mencegah algoritma memproses kebisingan ambien atau suara napas. Ini membuat keluaran tetap bersih selama keheningan.
Reverb dan EQ
Reverb ruangan sedang (peluruhan 0,3-0,5 detik) dapat menutupi artefak pergeseran pitch. Peningkatan high-shelf kecil (+2 dB di atas 8 kHz) menambah kejelasan. Hindari reverb besar dalam konteks komunikasi, itu membuat Anda terdengar seperti Anda berada di gua.
AI voice cloning
Jika perangkat lunak Anda mendukung model suara AI, pendekatan tuning berbeda: alih-alih menyesuaikan pitch dan formant secara manual, Anda memilih model suara terlatih dan menyesuaikan intensitas konversi (seberapa kuat mesin mendorong pidato Anda menuju suara target). Mulai pada intensitas 70-80%, terlalu tinggi menyebabkan artefak pada pidato cepat; terlalu rendah membiarkan suara asli Anda bocor melalui.
9. Pemecahan Masalah Masalah Umum
“Aplikasi tidak melihat mikrofon virtual” Restart layanan pengubah suara, kemudian buka kembali aplikasi target. Beberapa aplikasi cache daftar perangkat saat startup dan tidak akan mendeteksi perangkat baru yang ditambahkan setelah.
“Suara terdengar robotik atau metalik” Pitch digeser tetapi formant tidak. Aktifkan preservasi formant atau sesuaikan slider pergeseran formant untuk kira-kira mencocokkan arah pergeseran pitch.
“Gema atau suara ganda di Discord” Mikrofon fisik aktif bersama yang virtual. Nonaktifkan atau bisukan mikrofon fisik di Windows Sound > Recording.
“Penekanan kebisingan Zoom membunuh efeknya” Atur penekanan audio Zoom ke Rendah atau Nonaktif (Settings > Audio > Advanced).
“Pengubah suara menyebabkan crash game atau ban anti-cheat” Perangkat lunak menggunakan driver mode kernel. Beralih ke pengubah suara user-space dengan perangkat virtual WDM yang ditandatangani saja.
“Latensi tinggi, jeda yang jelas saat berbicara” Naikkan ukuran buffer low-latency audio capture di pengaturan pengubah suara (buffer lebih kecil = latensi lebih rendah tetapi risiko CPU lebih tinggi). Atau, tutup aplikasi audio yang bersaing menggunakan perangkat low-latency audio capture yang sama.
Kesimpulan
Mengubah suara Anda melalui mikrofon di Windows bermuara pada empat hal: memahami properti akustik yang Anda manipulasi (pitch, formant, resonansi), merutekan sinyal melalui aplikasi pengubah suara melalui low-latency audio capture, mengeluarkannya ke mikrofon virtual, dan memilih mikrofon virtual itu di setiap aplikasi target. Setup per-aplikasi hampir identik setelah Anda memahami pola yang mendasari.
Bagian paling sulit biasanya membuat transformasi terdengar alami, dan itu memerlukan pergeseran formant bersama pergeseran pitch, bukan hanya offset frekuensi sederhana.
Untuk semuanya di satu tempat, pemrosesan low-latency audio capture, AI cloning, perutean virtual, tidak ada driver kernel, kompatibel dengan Windows 10 dan 11, VoxBooster layak dicoba di sesi berikutnya.