Cara Mengatur Transkripsi Whisper di Windows (Lokal + Gratis)

Transkripsi Whisper di Windows memberi Anda pengenalan suara akurat dan offline yang berjalan sepenuhnya pada perangkat keras Anda sendiri — tanpa berlangganan, tanpa unggahan cloud, tanpa biaya per menit. Panduan ini mencakup segalanya dari prasyarat hingga penggunaan produksi: pemasangan Python pip, port yang lebih ringan whisper.cpp, aplikasi GUI siap pakai, dan apa yang harus dilakukan ketika Anda menginginkan transkripsi waktu nyata tanpa lingkungan Python.

TL;DR

OpenAI Whisper adalah model pengenalan suara gratis dan sumber terbuka dengan lima tingkatan ukuran (tiny → large-v3)
Instal via pip install openai-whisper pada Python 3.9–3.12; memerlukan ffmpeg pada PATH
whisper.cpp adalah port C++ yang lebih ringan — tidak ada Python, berjalan pada CPU via kuantisasi GGML
GPU (CUDA) memotong waktu transkripsi menjadi hampir waktu nyata bahkan pada model besar; CPU bekerja dengan baik untuk model kecil
Untuk transkripsi live tanpa setup Python apa pun, VoxBooster bundel STT lokal grade-Whisper dengan hotkey global
Kesalahan umum: ffmpeg hilang, env Python salah, ketidakcocokan versi CUDA

Apa Itu Transkripsi Whisper?

OpenAI Whisper adalah sistem pengenalan suara otomatis (ASR) open-source yang dilatih pada 680.000 jam audio multibahasa. Dirilis pada September 2022 dan terus ditingkatkan sejak itu, ia berjalan sebagai model lokal — berarti file audio Anda tidak pernah meninggalkan PC. Ia menangani 99 bahasa, menambahkan tanda baca secara otomatis, dan mencapai tingkat kesalahan kata di bawah 5% pada audio bahasa Inggris bersih dengan model large-v3.

Tidak seperti layanan cloud (Otter.ai, Rev, lapisan transkripsi Descript), Whisper di Windows tidak memiliki biaya per menit dan tidak ada kebijakan data yang perlu dikhawatirkan. Transkripsi Whisper benar-benar gratis setelah bobot model diunduh.

Prasyarat Sebelum Anda Instal

Sebelum memilih metode instalasi, urutkan ketergantungan ini:

Python 3.9–3.12. Paket Whisper resmi memerlukan Python. Periksa apakah Anda memilikinya:

py --version

Jika tidak, unduh penginstal 3.12 terbaru dari python.org. Selama instalasi, centang “Add Python to PATH” — hal ini penting.

ffmpeg. Whisper menggunakan ffmpeg untuk decoding file audio dan video. Tanpanya, Anda akan mendapatkan FileNotFoundError atau output kosong pada apa pun yang bukan WAV mentah. Metode instalasi tercepat di Windows 10/11:

winget install Gyan.FFmpeg

Kemudian buka terminal baru dan verifikasi: ffmpeg -version.

GPU (opsional tetapi disarankan). Whisper berjalan pada CPU, tetapi GPU NVIDIA yang kompatibel CUDA membuat perbedaan signifikan. Untuk model besar, transkripsi CPU file 10 menit memakan waktu 3-6 menit pada desktop modern; pada GPU mid-range (RTX 3060, 12 GB VRAM) memakan waktu sekitar 40 detik. Lebih lanjut tentang ukuran model dan persyaratan VRAM dalam tabel di bawah.

Ukuran Model Whisper: Mana yang Dipilih

Model	Parameter	VRAM (FP16)	Kecepatan relatif	WER bahasa Inggris	Terbaik untuk
tiny	39 M	~1 GB	~32x waktu nyata	~5,7%	Draft cepat, perangkat keras low-end
base	74 M	~1 GB	~16x waktu nyata	~4,2%	Catatan cepat, streaming langsung
small	244 M	~2 GB	~6x waktu nyata	~3,0%	Sebagian besar pengguna — nilai terbaik
medium	769 M	~5 GB	~2x waktu nyata	~2,2%	Transkripsi profesional
large-v3	1550 M	~10 GB	~1x waktu nyata	~1,6%	Aksen, multibahasa, medis

“Faktor waktu nyata” (RTF) di sini berarti inferensi GPU pada NVIDIA A100. Pada RTX 3080 konsumen, kalikan kira-kira 3-4x. Pada CPU, kalikan lagi 10-20x.

Untuk sebagian besar pengguna Windows: mulai dengan small. Ia berjalan hampir waktu nyata pada CPU modern, menangani aksen lebih baik dari base, dan cocok dalam 2 GB RAM/VRAM. Jika akurasi pada kosakata teknis padat penting (legal, medis, review kode), uji medium selanjutnya.

Metode 1: Instalasi pip (Paket Python Resmi)

Ini adalah instalasi openai whisper windows kanonik — mudah jika Anda nyaman dengan terminal. Ini memberi Anda fleksibilitas paling banyak: akses API Python penuh, semua format output (txt, srt, vtt, json, tsv), dan integrasi mudah dengan skrip lain.

Langkah 1 — Buat lingkungan virtual (direkomendasikan)

py -m venv whisper-env
whisper-env\Scripts\activate

Ini membuat ketergantungan Whisper terisolasi dari Python sistem Anda.

Langkah 2 — Instal Whisper

pip install openai-whisper

Ini menarik perpustakaan model dan dependensinya (PyTorch, tiktoken, tqdm, more-itertools). Diharapkan 1-3 GB unduhan pada run pertama termasuk PyTorch.

Langkah 3 — Instal PyTorch dengan CUDA (jika Anda memiliki GPU NVIDIA)

PyTorch default dari perintah di atas hanya CPU. Untuk akselerasi GPU:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Cocokkan sufiks cu121 ke versi CUDA yang Anda instal (nvidia-smi menampilkannya). Lihat matriks instalasi PyTorch jika Anda tidak yakin.

Langkah 4 — Jalankan transkripsi pertama Anda

whisper my_audio.mp3 --model small

Run pertama mengunduh bobot model (~244 MB untuk small). Run berikutnya instan. Output: file .txt, .srt, dan .vtt di samping audio Anda.

Langkah 5 — Flag yang berguna

# Paksa bahasa Inggris (lewati deteksi bahasa, sedikit lebih cepat)
whisper audio.mp3 --model small --language en

# Output hanya teks biasa
whisper audio.mp3 --model small --output_format txt

# Transkripsi segmen tertentu (detik)
whisper audio.mp3 --model small --clip_timestamps "30,90"

# Gunakan perangkat GPU secara eksplisit
whisper audio.mp3 --model medium --device cuda

Metode 2: whisper.cpp (Tidak Ada Python yang Diperlukan)

whisper.cpp adalah reimplementasi C/C++ dari mesin inferensi Whisper. Ia berjalan tanpa Python, CUDA, atau PyTorch. Di Windows, ia menggunakan bobot GGML yang dikuantisasi — format yang sama digunakan oleh llama.cpp — dan dapat mempercepat via OpenBLAS (CPU) atau DirectML (GPU AMD/Intel/NVIDIA tanpa CUDA).

Mengapa menggunakannya daripada paket Python?

Mulai dalam waktu kurang dari satu detik (tidak ada inisialisasi PyTorch)
Menggunakan 30-50% lebih sedikit RAM pada model yang sama
Dikirim sebagai .exe tunggal — lebih mudah untuk di-bundle ke dalam skrip atau aplikasi lain
Mode streaming tersedia untuk transkripsi hampir waktu nyata

Langkah instalasi Windows

Biner Windows pra-bangun tersedia dari halaman rilis whisper.cpp di GitHub. Unduh whisper-bin-x64.zip, ekstrak, lalu unduh model:

# Menggunakan PowerShell — mengunduh model GGML kecil
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

Jalankan transkripsi:

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

Catatan: whisper.cpp memerlukan input WAV (16 kHz, mono, 16-bit PCM). Konversi dengan ffmpeg terlebih dahulu:

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

Metode 3: Aplikasi GUI Dibangun di Whisper

Jika Anda tidak menginginkan terminal sama sekali, beberapa aplikasi GUI open-source membungkus Whisper untuk pengalaman klik-ke-transkripsi di Windows:

Whisper Desktop — aplikasi .NET 6 Windows yang membungkus whisper.cpp dengan antarmuka drag-and-drop. Mendukung pemilihan model, bahasa, dan pemrosesan batch. Tidak memerlukan Python; penginstal tersedia di GitHub.

UI Berbasis FasterWhisper — FasterWhisper adalah reimplementasi Python menggunakan CTranslate2 yang berjalan 4x lebih cepat dari yang asli pada CPU. Beberapa pembungkus GUI komunitas ada; cari “faster-whisper GUI Windows” di GitHub. Ini bekerja dengan baik untuk transkripsi file batch.

Subtitle Edit — editor subtitle open-source populer yang menambahkan integrasi Whisper. Bagus untuk alur kerja subtitel video di mana Anda menginginkan output SRT yang dapat Anda tweak secara manual.

Aplikasi GUI ini mencakup transkripsi berbasis file dengan baik. Celah yang tidak mereka isi: transkripsi live waktu nyata dengan hotkey, yang mengarah ke bagian berikutnya.

Metode 4: VoxBooster (Bundled, Setup Python Tidak Diperlukan)

Jika tujuan Anda adalah transkripsi live — subtitle saat Anda berbicara, diktat ke aplikasi apa pun, keterangan panggilan — metode berbasis file di atas tidak cocok. Mereka dirancang untuk memproses file audio yang telah selesai, bukan aliran mikrofon berkelanjutan.

VoxBooster bundel pengenalan suara lokal grade-Whisper langsung ke dalam aplikasi. Tidak ada lingkungan Python, tidak ada wizard unduhan model, tidak ada ketergantungan ffmpeg. Anda menginstal VoxBooster sekali dan mesin transkripsi siap di bawah Dictation di sidebar.

Perbedaan praktis vs. instalasi pip murni:

Hotkey global — tahan Ctrl+Shift+D di aplikasi apa pun dan berbicara; teks muncul di kursor Anda
Penyangga kebisingan terintegrasi — membersihkan input mikrofon sebelum mencapai model suara, yang secara signifikan meningkatkan akurasi di ruangan bising
Tidak ada terminal — pemilihan model dan pengaturan bahasa ada di GUI
Bundled dengan voice changer, soundboard, dan voice clone — jika Anda sudah menggunakan VoxBooster untuk perubahan suara Discord atau OBS, fitur diktat hanya tab lain

Untuk pandangan lebih mendalam tentang alur kerja diktat, lihat panduan diktat suara di Windows.

Memilih Antara Metode

	pip Whisper	whisper.cpp	Aplikasi GUI	VoxBooster
Python diperlukan	Ya	Tidak	Terkadang	Tidak
GPU diperlukan	Tidak (opsional)	Tidak (opsional)	Tidak (opsional)	Tidak (opsional)
Live waktu nyata	Tidak	Sebagian	Tidak	Ya
Hotkey global	Tidak	Tidak	Tidak	Ya
Transkripsi file batch	Ya	Ya	Ya	Tidak
Output SRT/VTT	Ya	Ya	Ya	Tidak
Kompleksitas instalasi	Sedang	Sedang	Rendah	Rendah

Pilih pip whisper jika Anda memerlukan output SRT/VTT untuk subtitle video, atau Anda ingin script transkripsi batch dalam Python. Pilih whisper.cpp jika Anda menginginkan biner portabel dengan overhead memori lebih rendah. Pilih aplikasi GUI untuk transkripsi file drag-and-drop. Pilih VoxBooster jika Anda menginginkan diktat live tanpa instalasi Python.

Pola Penggunaan CLI Dasar

Setelah paket pip bekerja, pola ini mencakup 90% kasus penggunaan nyata.

Transkripsi rekaman rapat ke subtitle SRT

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper dapat membaca file video secara langsung (ia memanggil ffmpeg secara internal). Output: meeting.srt di folder yang sama.

Transkripsi folder file audio

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

Jalankan di Command Prompt (bukan PowerShell — sintaks loop for berbeda). Setiap file mendapat output .txt sendiri.

Paksa terjemahan ke bahasa Inggris

whisper french_audio.mp3 --model small --task translate

--task translate output bahasa Inggris terlepas dari bahasa input. Berguna untuk wawancara multibahasa.

Tentukan direktori output

whisper audio.mp3 --model small --output_dir C:\Transcripts

Kesalahan Umum dan Perbaikan

No module named 'whisper' Anda menginstal whisper di lingkungan Python yang berbeda dari yang saat ini aktif. Jalankan py -0 untuk membuat daftar semua instalasi Python, aktifkan virtualenv yang tepat, lalu instal ulang. Juga mungkin: Anda memasang dengan pip3 tetapi menjalankan dengan py.

FileNotFoundError: [WinError 2] ffmpeg ffmpeg tidak ada di PATH Anda. Instal via winget install Gyan.FFmpeg, tutup dan buka kembali terminal Anda, lalu konfirmasi dengan ffmpeg -version.

CUDA out of memory Anda menjalankan model yang terlalu besar untuk VRAM GPU. Coba ukuran berikutnya, atau tambahkan --fp16 False untuk memaksa FP32 (menggunakan lebih banyak VRAM tetapi kadang memperbaiki masalah alokasi pada build CUDA tertentu). Atau, jalankan pada CPU dengan --device cpu.

RuntimeError: Expected all tensors to be on the same device Ketidakcocokan versi PyTorch CUDA. Instal ulang PyTorch dengan sufiks CUDA yang benar untuk versi driver Anda. Periksa driver Anda dengan nvidia-smi dan referensi silang di pytorch.org/get-started/locally.

Output berantakan atau dalam bahasa yang salah Whisper mendeteksi bahasa secara otomatis dari 30 detik pertama audio. Jika file Anda memiliki keheningan atau kebisingan di awal, deteksi gagal. Perbaikan: tambahkan --language en (atau bahasa target Anda) secara eksplisit.

Transkripsi lambat bahkan dengan GPU Konfirmasi Whisper benar-benar menggunakan CUDA: tambahkan --device cuda ke perintah Anda. Jika Anda melihat FP16 is not supported on CPU; using FP32 instead di output, CUDA tidak digunakan — periksa kembali instalasi PyTorch Anda.

Whisper vs. Opsi Transkripsi Windows Lainnya

Sebaiknya ketahui apa yang Anda bandingkan sebelum berkomitmen pada setup:

Pengenalan suara / diktat bawaan Windows (Win+H) — cepat dan terintegrasi dengan baik, tetapi akurasi tertinggal pada aksen, kosakata teknis, dan bahasa Inggris non-AS. Ketergantungan cloud sebagian dalam mode default. Tidak ada output SRT.

Dragon NaturallySpeaking / Dragon Professional — secara historis tolok ukur akurasi, kuat untuk alur kerja diktat, tetapi mahal ($300-$500), hanya Windows dan lambat menambah kosakata untuk domain baru. Pemrosesan lokal, yang merupakan plus.

Otter.ai, Rev, transkripsi Descript — berbasis cloud, berlangganan harga, akurasi benar-benar baik, tetapi audio meninggalkan mesin Anda. Tidak layak untuk rapat pribadi, rekaman hukum, atau apa pun di bawah NDA.

Azure Cognitive Services / Google Speech-to-Text — API pengembang, berbasis cloud, bayar per menit. Akurat, tetapi memerlukan kode dan koneksi internet. Bukan setara instalasi whisper lokal, dan akurasi transkripsi whisper kompetitif dengan biaya nol berkelanjutan.

Kekuatan Whisper vs. semua di atas: gratis, sepenuhnya lokal, bobot sumber terbuka yang dapat Anda verifikasi, dukungan multibahasa yang kuat, dan akurasi yang kompetitif dengan layanan berbayar pada audio bersih. Kelemahannya: tidak ada mode streaming waktu nyata asli dalam paket Python, dan setup memerlukan kenyamanan CLI sedikit.

Privasi: Mengapa Lokal Penting untuk Transkripsi

Ketika Anda menjalankan Whisper secara lokal di Windows, audio tidak pernah menyentuh server eksternal. Ini penting lebih dari yang disadari sebagian besar orang — dan ini adalah salah satu argumen praktis terbesar untuk transkripsi Whisper dibandingkan alternatif cloud berbayar:

Rekaman rapat sering berisi informasi bisnis rahasia
Diktat medis dan hukum tunduk pada peraturan privasi (HIPAA, GDPR, dll.)
Wawancara jurnalis dan percakapan sumber tidak boleh pernah masuk ke API cloud
Catatan suara pribadi, entri jurnal, transkrip sesi terapi — hal-hal yang Anda lebih suka tidak ada di server orang lain

Layanan transkripsi cloud memiliki kebijakan privasi, tetapi “kami tidak menjual data Anda” dan “kami mungkin menggunakan audio anonimisasi untuk meningkatkan model” adalah pernyataan berbeda. Dengan instalasi whisper lokal di Windows, jawaban untuk keduanya tidak relevan — audio tetap di disk Anda.

FAQ

Apakah OpenAI Whisper berjalan offline di Windows? Ya. Setelah Anda mengunduh bobot model, Whisper berjalan 100% lokal — tidak ada koneksi internet yang diperlukan. Unduhan awal berkisar dari 75 MB (tiny) hingga 3,09 GB (large-v3). Setelah itu, transkripsi terjadi sepenuhnya pada CPU atau GPU Anda tanpa data meninggalkan mesin Anda.

GPU apa yang saya butuhkan untuk transkripsi Whisper di Windows? GPU bersifat opsional tetapi mempercepat banyak hal. Untuk model kecil, 2 GB VRAM sudah cukup. Medium memerlukan 5 GB, large-v3 memerlukan 10 GB. Hanya CPU, model dasar mentranskrip sekitar 10-15 kali lebih cepat dari waktu nyata pada i5/Ryzen 5 modern, berarti satu menit audio memakan waktu sekitar 4-6 detik.

Apa perbedaan antara ukuran model Whisper? Whisper tersedia dalam lima ukuran — tiny, base, small, medium, dan large (dengan varian large-v2 dan large-v3). Model yang lebih besar lebih akurat tetapi lebih lambat dan lebih berat. Untuk sebagian besar pengguna Windows, small memberikan rasio akurasi-kecepatan terbaik: ~244 MB, akurasi multibahasa yang baik, berjalan pada CPU hampir waktu nyata pada perangkat keras modern.

Bisakah saya menggunakan Whisper untuk transkripsi live waktu nyata di Windows? Paket Python Whisper asli berbasis file dan tidak dirancang untuk waktu nyata. whisper.cpp memiliki mode streaming, tetapi setup kompleks. Untuk transkripsi live latensi rendah yang sesungguhnya — subtitle saat Anda berbicara, diktat, keterangan panggilan — aplikasi yang di-bundle seperti VoxBooster lebih mudah: akurasi grade-Whisper tanpa lingkungan Python yang diperlukan.

Seberapa akurat OpenAI Whisper dibandingkan dengan Dragon NaturallySpeaking atau Diktat Windows? Pada audio bersih, Whisper large-v3 memposting tingkat kesalahan kata di bawah 5% di sebagian besar bahasa, kompetitif dengan Dragon Professional dan lebih baik daripada diktat bawaan Windows pada kosakata teknis, aksen, dan konten multibahasa. Akurasi menurun dalam kondisi bising, tetapi menggabungkan Whisper dengan penyangga kebisingan memulihkan sebagian besar.

Apa itu whisper.cpp dan mengapa saya menggunakannya daripada paket Python? whisper.cpp adalah port C/C++ dari model Whisper yang berjalan tanpa Python atau CUDA. Di Windows, ia menggunakan bobot GGML yang dikuantisasi dan dapat memanfaatkan DirectML atau OpenBLAS untuk akselerasi. Ini dimulai lebih cepat, menggunakan RAM lebih sedikit, dan lebih mudah diintegrasikan ke dalam aplikasi lain daripada paket Python.

Bagaimana cara memperbaiki kesalahan “No module named whisper” di Windows? Ini biasanya berarti pemasangan pip masuk ke lingkungan Python yang berbeda dari yang Anda jalankan. Periksa dengan py -0 untuk membuat daftar Python yang dipasang, aktifkan virtualenv yang tepat, lalu pasang ulang: pip install openai-whisper. Juga konfirmasi Anda memiliki ffmpeg pada PATH — Whisper membutuhkannya untuk decoding file audio.

Kesimpulan: Setup Transkripsi Whisper Mana yang Tepat untuk Anda?

Jika Anda memerlukan transkripsi file batch dengan output SRT/VTT — untuk subtitle video, rekaman rapat, catatan podcast — instalasi pip-based openai whisper windows adalah jalur paling fleksibel. Tambahkan dukungan CUDA untuk GPU Anda dan Anda mendapatkan throughput hampir waktu nyata bahkan pada medium.

Jika Anda menginginkan jejak lebih kecil atau membangun skrip yang memanggil whisper sebagai subprocess, whisper.cpp dengan bobot GGML adalah opsi lebih bersih untuk instalasi whisper lokal di Windows — tidak ada Python, tidak ada CUDA, hanya biner dan file model.

Jika Anda menginginkan integrasi pengenalan suara lokal Windows tanpa pekerjaan terminal apa pun — khususnya diktat live ke dalam aplikasi — VoxBooster bundel akurasi grade-Whisper yang sama dengan hotkey global dan penyangga kebisingan terintegrasi. Tidak ada Python, tidak ada lingkungan virtual, tidak ada troubleshooting ffmpeg. Ini sangat berguna jika Anda sudah menggunakan aplikasi untuk perubahan suara atau pekerjaan soundboard; fitur transkripsi whisper desktop hanya tab lain di antarmuka yang sama.

Mulai dengan model kecil terlepas dari jalur apa pun yang Anda ambil. Ini membuat Anda 80% dari cara ke kualitas large-v3 dengan sebagian kecil dari biaya komputasi. Anda selalu dapat upgrade nanti setelah Anda tahu tingkat akurasi apa yang alur kerja Anda benar-benar butuhkan.

Untuk opsi harga dan rencana, lihat voxbooster.com/#pricing.