Panduan Lengkap Whisper Real Time Speech to Text di Windows

Jalankan Whisper real time speech to text di Windows dengan inferensi lokal Whisper-large-v3, latensi sub-300ms, live captions, dan alur kerja voice command — tidak perlu cloud.

Whisper real time speech to text di Windows mengubah model dari alat batch offline menjadi mesin transkripsi langsung — lokal, pribadi, dan cukup presisi untuk memberi keterangan pada aliran langsung, metranskripsi pertemuan, atau memberi umpan pada alur kerja voice command tanpa mengirim satu byte pun ke cloud.

Panduan ini mencakup: cara kerja inferensi Whisper real-time di balik layar, persyaratan perangkat keras untuk setiap ukuran model, tiga jalur penerapan praktis, perutean audio capture latensi rendah spesifik Windows, dan cara VoxBooster mengintegrasikan Whisper langsung ke dalam pipeline audionya.


Mengapa Whisper Real-Time Berbeda dari Whisper Offline

Makalah Whisper asli mendeskripsikan model sequence-to-sequence yang dilatih pada 680.000 jam audio. Anda memberinya file; model mengembalikan transkrip. Itu sangat bagus untuk post-processing tetapi tidak berguna jika Anda memerlukan keterangan muncul dalam satu detik setelah berbicara.

Whisper real-time membagi aliran mikrofon menjadi jendela tumpang tindih — biasanya 1-3 detik. Setiap jendela melewati model secara independen dan hasil dijahit sebelum ditampilkan. Tradeoff adalah model tidak pernah melihat konteks kalimat lengkap, yang memperkenalkan “halusinasi” sesekali di batas jendela. Whisper-large-v3 mengurangi ini secara signifikan dengan menangani segmen audio pendek lebih robust daripada versi sebelumnya.

Faktor kritis lainnya adalah voice activity detector (VAD). Tanpa VAD, Whisper berjalan pada senyap dan menghasilkan teks phantom. Silero VAD adalah standar saat ini — ini memastikan inferensi hanya berfungsi ketika pidato ada, mengurangi latensi dan beban CPU/GPU sebesar 40-70% dalam penggunaan khas.


Persyaratan Perangkat Keras

Jalur GPU (Direkomendasikan)

ModelVRAM DiperlukanLatensi RTX 3060 Khas
tiny1 GB~50ms
small2 GB~80ms
medium4 GB~150-250ms
large-v36 GB~200-350ms

Untuk sebagian besar use case transkripsi — keterangan aksesibilitas, catatan rapat, keterangan streamer — Whisper-medium pada kartu 4 GB mencapai sweet spot antara akurasi dan latensi.

Jalur CPU

Inferensi CPU-only hanya dapat digunakan untuk model small dan tiny. Harapkan latensi 500ms-2 detik, yang terasa diperhatikan tetapi dapat diterima untuk penggunaan non-interaktif seperti transkripsi rapat yang diputar ulang nanti. Untuk keterangan langsung selama percakapan, CPU-only akan menghasilkan efek tertinggal yang terasa rusak.

Perangkat Keras Audio

Mikrofon apa pun berfungsi, tetapi kualitas sinyal secara langsung mempengaruhi akurasi transkripsi. Whisper dilatih pada kondisi audio yang beragam, jadi menangani kebisingan secara wajar, tetapi headset dengan mikrofon close-talk akan selalu mengungguli mikrofon desk far-field untuk penggunaan real-time. Noise suppression yang diterapkan sebelum input Whisper membantu dengan biaya menambahkan tahap pemrosesan ke rantai Anda.


Capture Audio Latensi Rendah Routing Audio di Windows

Windows merutekan audio melalui Windows Audio Session API (capture audio latensi rendah). Memahami capture audio latensi rendah diperlukan untuk menyiapkan Whisper dengan benar, terutama jika Anda ingin metranskripsi output sistem (apa yang Anda dengar) bukan input mikrofon, atau jika Anda ingin memberi umpan audio post-processed ke Whisper.

Mode Eksklusif vs. Mode Bersama

Mode eksklusif memberi satu aplikasi akses perangkat keras langsung dengan latensi minimal tetapi mengunci yang lain. Mode bersama membiarkan beberapa aplikasi berbagi endpoint yang sama dengan Windows menangani campuran. Untuk capture input Whisper, mode bersama hampir selalu benar — Anda menginginkan Whisper membaca dari aliran mikrofon yang aplikasi lain gunakan, tanpa memblokir apa pun.

Capturing Microphone Input

Pustaka Python seperti sounddevice dan pyaudio mengakses endpoint capture audio latensi rendah berdasarkan indeks perangkat. Jalankan yang berikut untuk membuat daftar semua perangkat audio yang tersedia:

import sounddevice as sd
print(sd.query_devices())

Mikrofon Anda akan muncul sebagai perangkat input. Catat indeksnya — Anda akan meneruskannya sebagai parameter device saat membuka aliran audio.

Capturing Loopback (System Audio)

Untuk metranskripsi apa yang diputar melalui speaker Anda — panggilan video, game, audio aplikasi apa pun — gunakan capture audio latensi rendah loopback capture. Dalam sounddevice, atur capture audio latensi rendah_exclusive=False dan targetkan perangkat output; pustaka menangani loopback secara internal di Windows. Berguna untuk memberi keterangan konferensi video atau alur kerja aksesibilitas apa pun yang memerlukan keterangan pada semua audio PC.


Tiga Jalur Penerapan

Jalur 1: faster-whisper + Custom Python Script

faster-whisper adalah reimplementasi berbasis CTranslate2 dari Whisper yang berjalan 4x lebih cepat daripada yang asli dengan penggunaan memori lebih rendah. Mendukung semua ukuran model dan terintegrasi dengan bersih ke dalam loop audio real-time.

Penyiapan:

pip install faster-whisper sounddevice numpy silero-vad

Loop dasar adalah:

  1. Buka aliran audio dengan sounddevice pada 16 kHz mono (sample rate asli Whisper)
  2. Buffer audio masuk ke jendela rolling
  3. Jalankan Silero VAD; lewati inferensi jika tidak ada pidato terdeteksi
  4. Teruskan segmen pidato ke metode transcribe() faster-whisper dengan beam_size=1 (lebih cepat) atau beam_size=5 (lebih akurat)
  5. Cetak atau pipa hasilnya

Jalur ini memberikan kontrol maksimal tetapi memerlukan kenyamanan Python. Anggaran 30-60 menit mengoptimalkan ukuran buffer dan ambang VAD untuk mikrofon Anda.

Jalur 2: whisper.cpp

whisper.cpp adalah port C++ dari Whisper yang dikompilasi menjadi biner Windows asli dengan dukungan CUDA. Ia dilengkapi dengan demo real-time (stream.exe) yang membuka mikrofon, menjalankan inferensi dengan ukuran jendela yang dapat dikonfigurasi, dan mencetak output ke stdout.

Mengapa menggunakan ini daripada Python? Waktu startup mendekati instan (tidak ada penerjemah Python untuk dimuat), penggunaan memori lebih rendah, dan terintegrasi dengan mudah ke dalam toolchain non-Python. Output streaming dapat diarahkan ke file yang OBS baca sebagai sumber keterangan langsung.

Langkah-langkah build (PowerShell):

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build -DGGML_CUDA=1
cmake --build build --config Release
.\build\bin\Release\stream.exe -m models\ggml-large-v3.bin -t 8

Jalur 3: VoxBooster Integrated Whisper

VoxBooster dilengkapi dengan inferensi Whisper yang dibangun langsung ke dalam aplikasi — tidak ada lingkungan Python terpisah, tidak ada penyiapan CUDA manual. Model berjalan secara lokal pada GPU Anda melalui backend yang dioptimalkan, capture audio latensi rendah ditangani secara internal, dan output tersedia sebagai overlay, file keterangan langsung untuk OBS, atau input latensi rendah untuk pemrosesan voice command.

Perbedaan kunci dari penyiapan Python manual adalah tahap noise suppression terintegrasi. Audio melewati lapisan suppression VoxBooster sebelum mencapai buffer Whisper, yang secara terukur meningkatkan akurasi di lingkungan bising — kebisingan kipas headset, HVAC, klik keyboard — tanpa menambah latensi yang terlihat oleh pengguna. Latensi end-to-end dari pidato ke keterangan yang ditampilkan di bawah 300ms pada perangkat keras dari tiga tahun terakhir.

Tidak ada driver kernel yang dipasang, yang berarti tidak ada elevasi UAC, tidak ada konflik dengan software anti-cheat, dan tidak ada perangkat yang muncul di Device Manager. Hook audio latensi rendah berada di tingkat sesi dan bersih terputus saat aplikasi ditutup.


Live Captions untuk Streaming dan Aksesibilitas

Integrasi OBS

Baik Anda menggunakan faster-whisper, whisper.cpp, atau VoxBooster, titik integrasi dengan OBS adalah file teks yang diperbarui secara real-time.

  1. Konfigurasi alat Whisper Anda untuk menulis output transkripsi ke file (misalnya, C:\captions\live.txt)
  2. Di OBS, tambahkan sumber Text (GDI+)
  3. Periksa Read from file dan arahkan ke jalur yang sama
  4. OBS menyelidiki file dan memperbarui sumber setiap frame

Gaya sumber teks dengan latar belakang semi-transparan untuk memastikan keterbacaan di atas footage game atau webcam.

Use Case Aksesibilitas

Untuk pengguna dengan gangguan pendengaran, keterangan Whisper di Windows menawarkan beberapa keuntungan dibandingkan Windows 11 Live Captions:

  • Akurasi lebih tinggi untuk kosa kata teknis, aksen kuat, dan bahasa non-Inggris
  • Tampilan yang dapat disesuaikan: ukuran font, posisi, warna, dan persistensi
  • Multi-input: umpan mikrofon dan loopback ke instance Whisper yang sama
  • Sepenuhnya offline: tidak ada ketergantungan pada server pengenalan pidato Microsoft

Untuk pengguna Windows 10 tanpa akses Live Captions, Whisper lokal adalah opsi aksesibilitas real-time utama yang tidak memerlukan langganan.


Alur Kerja Voice Command

Whisper speech to text cukup akurat untuk memberdayakan sistem voice command ambient — alur kerja di mana Anda berbicara perintah ke PC tanpa menekan tombol atau mengklik tombol.

Arsitektur biasanya terlihat seperti ini:

Microphone → VAD filter → Whisper → text buffer → intent parser → action dispatcher

Intent parser bisa sesederhana kamus Python frasa pemicu yang dipetakan ke panggilan subprocess.run(), atau sesofistikasi model bahasa lokal yang menangani perintah bahasa alami. Untuk gaming dan content creation, perintah umum adalah:

  • Mulai/berhenti merekam
  • Alihkan adegan OBS
  • Trigger soundboard clips
  • Bisu/non-bisu mikrofon

Karena Whisper lokal, tidak ada latensi round-trip cloud. Kendala adalah waktu inferensi: Whisper-medium memerlukan 150-250ms per chunk — tidak terlihat untuk streaming, borderline untuk kontrol game real-time. Keyword spotter seperti openwakeword dapat bertindak sebagai jalur cepat untuk perintah umum (di bawah 50ms), dengan Whisper menangani semuanya yang lain.


Akurasi: Apa yang Diharapkan

Whisper-large-v3 mencapai tingkat kesalahan kata sekitar 3-5% pada audio Inggris yang bersih — kompetitif dengan layanan cloud komersial. Dalam mode real-time dengan jendela 1-3 detik, harapkan WER 5-8% karena konteks berkurang per panggilan inferensi.

Faktor yang meningkatkan akurasi:

  • Penempatan mikrofon lebih baik: headset close-talk vs. mikrofon desk far-field adalah perbedaan WER 2-3% dengan mudah
  • Noise suppression sebelum input: pre-filtering mengurangi halusinasi yang dipicu oleh suara latar
  • Beam size: peningkatan dari 1 ke 5 meningkatkan akurasi dengan biaya latensi tambahan ~50ms per chunk
  • Suhu: pengaturan temperature=0 (greedy decoding) mengurangi varians dalam output dan mencegah model “menghalusinasi” transkripsi kreatif audio ambigu

Faktor yang merusak akurasi:

  • Pembagian batas jendela: kata yang jatuh tepat pada batas antara jendela inferensi rentan terhadap kesalahan — buffering overlap mengurangi ini
  • Halusinasi kesunyian: tanpa VAD, Whisper sering metranskripsi kesunyian sebagai frasa pengisi — selalu jalankan VAD
  • Kesenjangan fine-tuning: Whisper vanilla tidak dilatih pada komentar gaming atau aksen regional berat — harapkan lebih banyak kesalahan di sana

Memilih Antara Whisper Real Time dan Windows 11 Live Captions

KriteriaWindows 11 Live CaptionsWhisper Lokal
Waktu setup~90 detik15-60 menit
Akurasi (EN bersih)BagusSangat bagus (large-v3)
Akurasi (aksen/jargon)AdilBagus-Sangat bagus
Dukungan bahasa30+ bahasa99 bahasa
Latensi200-400ms150-800ms (tergantung GPU)
Integrasi OBSTidak adaOutput file
OfflineYaYa
Dukungan Windows 10TidakYa
PrivasiLokal (Microsoft)Sepenuhnya lokal
Biaya perangkat kerasTidak adaGPU sangat membantu

Jika Anda berada di Windows 11 dan hanya membutuhkan keterangan Inggris untuk aksesibilitas dengan setup minimal, Live Captions adalah jawaban yang tepat. Jika Anda memerlukan dukungan Windows 10, akurasi lebih tinggi pada domain spesifik, keterangan OBS, voice commands, atau kontrol atas pipeline transkripsi, Whisper lokal adalah pilihan yang lebih baik.


Memulai Hari Ini

Jalur tercepat ke transkripsi Whisper real-time yang berfungsi:

  1. Dengan VoxBooster: buka aplikasi, buka Settings → Transcription, aktifkan Whisper, pilih ukuran model. Semuanya ditangani secara otomatis termasuk routing audio, VAD, dan file output OBS.

  2. Manual faster-whisper: pip install faster-whisper sounddevice silero-vad, kemudian adaptasi salah satu contoh streaming dari GitHub faster-whisper. Harapkan 30 menit untuk mendapatkan prototipe yang bekerja.

  3. whisper.cpp: clone, compile dengan CUDA, jalankan stream.exe. Setup tercepat di antara jalur manual jika Anda nyaman dengan CMake.

Whisper real time di Windows tidak lagi eksperimental. Dengan model yang tepat, GPU menengah, dan input audio bersih, Anda mendapatkan kualitas transkripsi dan latensi yang sebanding atau mengalahkan layanan cloud komersial — tanpa any of your speech meninggalkan mesin.

Coba VoxBooster — uji coba gratis 3 hari.

Kloning suara real-time, soundboard, dan efek — di mana pun kamu sudah biasa bicara.

  • Tanpa kartu kredit
  • ~30ms latensi
  • Discord · Teams · OBS
Coba gratis 3 hari