Whisper real time speech to text di Windows mengubah model dari alat batch offline menjadi mesin transkripsi langsung — lokal, pribadi, dan cukup presisi untuk memberi keterangan pada aliran langsung, metranskripsi pertemuan, atau memberi umpan pada alur kerja voice command tanpa mengirim satu byte pun ke cloud.
Panduan ini mencakup: cara kerja inferensi Whisper real-time di balik layar, persyaratan perangkat keras untuk setiap ukuran model, tiga jalur penerapan praktis, perutean audio capture latensi rendah spesifik Windows, dan cara VoxBooster mengintegrasikan Whisper langsung ke dalam pipeline audionya.
Mengapa Whisper Real-Time Berbeda dari Whisper Offline
Makalah Whisper asli mendeskripsikan model sequence-to-sequence yang dilatih pada 680.000 jam audio. Anda memberinya file; model mengembalikan transkrip. Itu sangat bagus untuk post-processing tetapi tidak berguna jika Anda memerlukan keterangan muncul dalam satu detik setelah berbicara.
Whisper real-time membagi aliran mikrofon menjadi jendela tumpang tindih — biasanya 1-3 detik. Setiap jendela melewati model secara independen dan hasil dijahit sebelum ditampilkan. Tradeoff adalah model tidak pernah melihat konteks kalimat lengkap, yang memperkenalkan “halusinasi” sesekali di batas jendela. Whisper-large-v3 mengurangi ini secara signifikan dengan menangani segmen audio pendek lebih robust daripada versi sebelumnya.
Faktor kritis lainnya adalah voice activity detector (VAD). Tanpa VAD, Whisper berjalan pada senyap dan menghasilkan teks phantom. Silero VAD adalah standar saat ini — ini memastikan inferensi hanya berfungsi ketika pidato ada, mengurangi latensi dan beban CPU/GPU sebesar 40-70% dalam penggunaan khas.
Persyaratan Perangkat Keras
Jalur GPU (Direkomendasikan)
| Model | VRAM Diperlukan | Latensi RTX 3060 Khas |
|---|---|---|
| tiny | 1 GB | ~50ms |
| small | 2 GB | ~80ms |
| medium | 4 GB | ~150-250ms |
| large-v3 | 6 GB | ~200-350ms |
Untuk sebagian besar use case transkripsi — keterangan aksesibilitas, catatan rapat, keterangan streamer — Whisper-medium pada kartu 4 GB mencapai sweet spot antara akurasi dan latensi.
Jalur CPU
Inferensi CPU-only hanya dapat digunakan untuk model small dan tiny. Harapkan latensi 500ms-2 detik, yang terasa diperhatikan tetapi dapat diterima untuk penggunaan non-interaktif seperti transkripsi rapat yang diputar ulang nanti. Untuk keterangan langsung selama percakapan, CPU-only akan menghasilkan efek tertinggal yang terasa rusak.
Perangkat Keras Audio
Mikrofon apa pun berfungsi, tetapi kualitas sinyal secara langsung mempengaruhi akurasi transkripsi. Whisper dilatih pada kondisi audio yang beragam, jadi menangani kebisingan secara wajar, tetapi headset dengan mikrofon close-talk akan selalu mengungguli mikrofon desk far-field untuk penggunaan real-time. Noise suppression yang diterapkan sebelum input Whisper membantu dengan biaya menambahkan tahap pemrosesan ke rantai Anda.
Capture Audio Latensi Rendah Routing Audio di Windows
Windows merutekan audio melalui Windows Audio Session API (capture audio latensi rendah). Memahami capture audio latensi rendah diperlukan untuk menyiapkan Whisper dengan benar, terutama jika Anda ingin metranskripsi output sistem (apa yang Anda dengar) bukan input mikrofon, atau jika Anda ingin memberi umpan audio post-processed ke Whisper.
Mode Eksklusif vs. Mode Bersama
Mode eksklusif memberi satu aplikasi akses perangkat keras langsung dengan latensi minimal tetapi mengunci yang lain. Mode bersama membiarkan beberapa aplikasi berbagi endpoint yang sama dengan Windows menangani campuran. Untuk capture input Whisper, mode bersama hampir selalu benar — Anda menginginkan Whisper membaca dari aliran mikrofon yang aplikasi lain gunakan, tanpa memblokir apa pun.
Capturing Microphone Input
Pustaka Python seperti sounddevice dan pyaudio mengakses endpoint capture audio latensi rendah berdasarkan indeks perangkat. Jalankan yang berikut untuk membuat daftar semua perangkat audio yang tersedia:
import sounddevice as sd
print(sd.query_devices())
Mikrofon Anda akan muncul sebagai perangkat input. Catat indeksnya — Anda akan meneruskannya sebagai parameter device saat membuka aliran audio.
Capturing Loopback (System Audio)
Untuk metranskripsi apa yang diputar melalui speaker Anda — panggilan video, game, audio aplikasi apa pun — gunakan capture audio latensi rendah loopback capture. Dalam sounddevice, atur capture audio latensi rendah_exclusive=False dan targetkan perangkat output; pustaka menangani loopback secara internal di Windows. Berguna untuk memberi keterangan konferensi video atau alur kerja aksesibilitas apa pun yang memerlukan keterangan pada semua audio PC.
Tiga Jalur Penerapan
Jalur 1: faster-whisper + Custom Python Script
faster-whisper adalah reimplementasi berbasis CTranslate2 dari Whisper yang berjalan 4x lebih cepat daripada yang asli dengan penggunaan memori lebih rendah. Mendukung semua ukuran model dan terintegrasi dengan bersih ke dalam loop audio real-time.
Penyiapan:
pip install faster-whisper sounddevice numpy silero-vad
Loop dasar adalah:
- Buka aliran audio dengan
sounddevicepada 16 kHz mono (sample rate asli Whisper) - Buffer audio masuk ke jendela rolling
- Jalankan Silero VAD; lewati inferensi jika tidak ada pidato terdeteksi
- Teruskan segmen pidato ke metode
transcribe()faster-whisperdenganbeam_size=1(lebih cepat) ataubeam_size=5(lebih akurat) - Cetak atau pipa hasilnya
Jalur ini memberikan kontrol maksimal tetapi memerlukan kenyamanan Python. Anggaran 30-60 menit mengoptimalkan ukuran buffer dan ambang VAD untuk mikrofon Anda.
Jalur 2: whisper.cpp
whisper.cpp adalah port C++ dari Whisper yang dikompilasi menjadi biner Windows asli dengan dukungan CUDA. Ia dilengkapi dengan demo real-time (stream.exe) yang membuka mikrofon, menjalankan inferensi dengan ukuran jendela yang dapat dikonfigurasi, dan mencetak output ke stdout.
Mengapa menggunakan ini daripada Python? Waktu startup mendekati instan (tidak ada penerjemah Python untuk dimuat), penggunaan memori lebih rendah, dan terintegrasi dengan mudah ke dalam toolchain non-Python. Output streaming dapat diarahkan ke file yang OBS baca sebagai sumber keterangan langsung.
Langkah-langkah build (PowerShell):
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build -DGGML_CUDA=1
cmake --build build --config Release
.\build\bin\Release\stream.exe -m models\ggml-large-v3.bin -t 8
Jalur 3: VoxBooster Integrated Whisper
VoxBooster dilengkapi dengan inferensi Whisper yang dibangun langsung ke dalam aplikasi — tidak ada lingkungan Python terpisah, tidak ada penyiapan CUDA manual. Model berjalan secara lokal pada GPU Anda melalui backend yang dioptimalkan, capture audio latensi rendah ditangani secara internal, dan output tersedia sebagai overlay, file keterangan langsung untuk OBS, atau input latensi rendah untuk pemrosesan voice command.
Perbedaan kunci dari penyiapan Python manual adalah tahap noise suppression terintegrasi. Audio melewati lapisan suppression VoxBooster sebelum mencapai buffer Whisper, yang secara terukur meningkatkan akurasi di lingkungan bising — kebisingan kipas headset, HVAC, klik keyboard — tanpa menambah latensi yang terlihat oleh pengguna. Latensi end-to-end dari pidato ke keterangan yang ditampilkan di bawah 300ms pada perangkat keras dari tiga tahun terakhir.
Tidak ada driver kernel yang dipasang, yang berarti tidak ada elevasi UAC, tidak ada konflik dengan software anti-cheat, dan tidak ada perangkat yang muncul di Device Manager. Hook audio latensi rendah berada di tingkat sesi dan bersih terputus saat aplikasi ditutup.
Live Captions untuk Streaming dan Aksesibilitas
Integrasi OBS
Baik Anda menggunakan faster-whisper, whisper.cpp, atau VoxBooster, titik integrasi dengan OBS adalah file teks yang diperbarui secara real-time.
- Konfigurasi alat Whisper Anda untuk menulis output transkripsi ke file (misalnya,
C:\captions\live.txt) - Di OBS, tambahkan sumber Text (GDI+)
- Periksa Read from file dan arahkan ke jalur yang sama
- OBS menyelidiki file dan memperbarui sumber setiap frame
Gaya sumber teks dengan latar belakang semi-transparan untuk memastikan keterbacaan di atas footage game atau webcam.
Use Case Aksesibilitas
Untuk pengguna dengan gangguan pendengaran, keterangan Whisper di Windows menawarkan beberapa keuntungan dibandingkan Windows 11 Live Captions:
- Akurasi lebih tinggi untuk kosa kata teknis, aksen kuat, dan bahasa non-Inggris
- Tampilan yang dapat disesuaikan: ukuran font, posisi, warna, dan persistensi
- Multi-input: umpan mikrofon dan loopback ke instance Whisper yang sama
- Sepenuhnya offline: tidak ada ketergantungan pada server pengenalan pidato Microsoft
Untuk pengguna Windows 10 tanpa akses Live Captions, Whisper lokal adalah opsi aksesibilitas real-time utama yang tidak memerlukan langganan.
Alur Kerja Voice Command
Whisper speech to text cukup akurat untuk memberdayakan sistem voice command ambient — alur kerja di mana Anda berbicara perintah ke PC tanpa menekan tombol atau mengklik tombol.
Arsitektur biasanya terlihat seperti ini:
Microphone → VAD filter → Whisper → text buffer → intent parser → action dispatcher
Intent parser bisa sesederhana kamus Python frasa pemicu yang dipetakan ke panggilan subprocess.run(), atau sesofistikasi model bahasa lokal yang menangani perintah bahasa alami. Untuk gaming dan content creation, perintah umum adalah:
- Mulai/berhenti merekam
- Alihkan adegan OBS
- Trigger soundboard clips
- Bisu/non-bisu mikrofon
Karena Whisper lokal, tidak ada latensi round-trip cloud. Kendala adalah waktu inferensi: Whisper-medium memerlukan 150-250ms per chunk — tidak terlihat untuk streaming, borderline untuk kontrol game real-time. Keyword spotter seperti openwakeword dapat bertindak sebagai jalur cepat untuk perintah umum (di bawah 50ms), dengan Whisper menangani semuanya yang lain.
Akurasi: Apa yang Diharapkan
Whisper-large-v3 mencapai tingkat kesalahan kata sekitar 3-5% pada audio Inggris yang bersih — kompetitif dengan layanan cloud komersial. Dalam mode real-time dengan jendela 1-3 detik, harapkan WER 5-8% karena konteks berkurang per panggilan inferensi.
Faktor yang meningkatkan akurasi:
- Penempatan mikrofon lebih baik: headset close-talk vs. mikrofon desk far-field adalah perbedaan WER 2-3% dengan mudah
- Noise suppression sebelum input: pre-filtering mengurangi halusinasi yang dipicu oleh suara latar
- Beam size: peningkatan dari 1 ke 5 meningkatkan akurasi dengan biaya latensi tambahan ~50ms per chunk
- Suhu: pengaturan
temperature=0(greedy decoding) mengurangi varians dalam output dan mencegah model “menghalusinasi” transkripsi kreatif audio ambigu
Faktor yang merusak akurasi:
- Pembagian batas jendela: kata yang jatuh tepat pada batas antara jendela inferensi rentan terhadap kesalahan — buffering overlap mengurangi ini
- Halusinasi kesunyian: tanpa VAD, Whisper sering metranskripsi kesunyian sebagai frasa pengisi — selalu jalankan VAD
- Kesenjangan fine-tuning: Whisper vanilla tidak dilatih pada komentar gaming atau aksen regional berat — harapkan lebih banyak kesalahan di sana
Memilih Antara Whisper Real Time dan Windows 11 Live Captions
| Kriteria | Windows 11 Live Captions | Whisper Lokal |
|---|---|---|
| Waktu setup | ~90 detik | 15-60 menit |
| Akurasi (EN bersih) | Bagus | Sangat bagus (large-v3) |
| Akurasi (aksen/jargon) | Adil | Bagus-Sangat bagus |
| Dukungan bahasa | 30+ bahasa | 99 bahasa |
| Latensi | 200-400ms | 150-800ms (tergantung GPU) |
| Integrasi OBS | Tidak ada | Output file |
| Offline | Ya | Ya |
| Dukungan Windows 10 | Tidak | Ya |
| Privasi | Lokal (Microsoft) | Sepenuhnya lokal |
| Biaya perangkat keras | Tidak ada | GPU sangat membantu |
Jika Anda berada di Windows 11 dan hanya membutuhkan keterangan Inggris untuk aksesibilitas dengan setup minimal, Live Captions adalah jawaban yang tepat. Jika Anda memerlukan dukungan Windows 10, akurasi lebih tinggi pada domain spesifik, keterangan OBS, voice commands, atau kontrol atas pipeline transkripsi, Whisper lokal adalah pilihan yang lebih baik.
Memulai Hari Ini
Jalur tercepat ke transkripsi Whisper real-time yang berfungsi:
-
Dengan VoxBooster: buka aplikasi, buka Settings → Transcription, aktifkan Whisper, pilih ukuran model. Semuanya ditangani secara otomatis termasuk routing audio, VAD, dan file output OBS.
-
Manual faster-whisper:
pip install faster-whisper sounddevice silero-vad, kemudian adaptasi salah satu contoh streaming dari GitHub faster-whisper. Harapkan 30 menit untuk mendapatkan prototipe yang bekerja. -
whisper.cpp: clone, compile dengan CUDA, jalankan
stream.exe. Setup tercepat di antara jalur manual jika Anda nyaman dengan CMake.
Whisper real time di Windows tidak lagi eksperimental. Dengan model yang tepat, GPU menengah, dan input audio bersih, Anda mendapatkan kualitas transkripsi dan latensi yang sebanding atau mengalahkan layanan cloud komersial — tanpa any of your speech meninggalkan mesin.