Voice Meeting Notes dengan Whisper di Windows

Transkripsi panggilan Zoom, Teams, dan Meet secara lokal di Windows menggunakan Whisper dan loopback penangkapan audio berlatenci rendah — tidak ada unggah cloud, privasi penuh, ringkasan item tindakan Markdown.

Jika setiap rapat berakhir dengan rantai email yang bertanya “apa yang sebenarnya kami putuskan?”, masalahnya bukan rapatnya — masalahnya adalah kurangnya transkrip yang dapat diandalkan. Layanan transkripsi cloud memecahkan ini sebagian, tetapi memerlukan mengunggah audio panggilan Anda ke server pihak ketiga. Untuk alasan hukum, kepatuhan, atau ketenangan pikiran pribadi yang tidak selalu dapat diterima.

Panduan ini menunjukkan kepada Anda cara membangun alur kerja voice meeting notes sepenuhnya di PC Windows Anda: tangkap audio rapat menggunakan loopback penangkapan audio berlatenci rendah, jalankan melalui model Whisper OpenAI secara lokal, dan secara otomatis ekstrak ringkasan Markdown dengan keputusan dan item tindakan. Tidak ada unggah cloud. Tidak ada langganan. Pemrosesan terjadi pada mesin Anda.


TL;DR

LangkahAlatWaktu
Tangkap audioFFmpeg + loopback penangkapan audio berlatenci rendahLangsung
TranskripsiWhisper (medium.en)~4 menit / rapat 1 jam
Ekstrak tindakanPython + LLM lokal atau tempel ke AI~2 menit
OutputFile Markdown .mdSegera

Mengapa Transkripsi Lokal Mengalahkan Cloud untuk Rapat

Sebagian besar layanan transkripsi cloud — Otter.ai, Fireflies, Zoom’s built-in AI Notes — bekerja dengan mengirim audio Anda ke server jarak jauh tempat diproses dan sering disimpan untuk pelatihan model. Untuk panggilan tangkapan pribadi itu bagus. Untuk panggilan yang berisi nama klien, proyeksi keuangan, informasi medis, atau diskusi hukum, itu tidak.

Menjalankan Whisper secara lokal berarti file audio tidak pernah meninggalkan mesin. Tidak ada kunci API yang terikat pada akun perusahaan Anda, tidak ada kebijakan retensi yang harus dibaca, dan tidak ada kemungkinan pelanggaran pihak ketiga mengekspos konten panggilan Anda. Transkrip dan ringkasan hidup di mana pun Anda menyimpannya.

Ada juga argumen biaya. Transkripsi cloud pada skala — 100 jam rapat per bulan di seluruh tim — biaya $40–$200 per bulan per pengguna pada sebagian besar platform. Inferensi lokal pada GPU yang sudah Anda miliki biaya nol per transkrip setelah pengaturan.


Hukum dan Persetujuan — Baca Ini Terlebih Dahulu

Merekam atau metranskripsi rapat tanpa persetujuan peserta adalah ilegal di banyak yurisdiksi, termasuk banyak negara bagian AS (hukum persetujuan dua pihak), UE (Artikel GDPR 6), dan lainnya di seluruh dunia.

Sebelum Anda metranskripsi rapat apa pun:

  1. Umumkan dengan jelas di awal: “Saya menangkap audio untuk transkripsi lokal untuk menghasilkan catatan rapat.”
  2. Berikan peserta opsi untuk keluar atau berbicara off the record.
  3. Periksa kebijakan perekaman panggilan perusahaan Anda — banyak yang memerlukan persetujuan IT atau hukum.
  4. Simpan transkrip dengan aman dan terapkan aturan penanganan data yang sama seperti dokumen rahasia lainnya.

Artikel ini adalah panduan teknis. Ini bukan saran hukum.


Yang Anda Butuhkan

  • Windows 10 atau 11 — loopback penangkapan audio berlatenci rendah tersedia di keduanya
  • Python 3.10+ — dari python.org atau winget
  • FFmpeg — untuk penangkapan audio dari perangkat loopback
  • openai-whisper atau faster-whisper — mesin transkripsi
  • GPU NVIDIA (opsional tetapi direkomendasikan) — RTX 2060 atau lebih baik untuk inferensi cepat; CPU juga berfungsi
  • Aplikasi rapat: Zoom, Microsoft Teams, Google Meet, atau aplikasi penghasil audio apa pun

Langkah 1 — Identifikasi Perangkat Loopback Penangkapan Audio Berlatenci Rendah Anda

Loopback penangkapan audio berlatenci rendah menangkap apa pun yang diputar Windows melalui perangkat output Anda — audio yang sama yang Anda dengar di headphone Anda. Tidak perlu instalasi driver; ini adalah bagian dari tumpukan audio Windows sejak Vista.

Buka terminal dan jalankan:

ffmpeg -list_devices true -f dshow -i dummy 2>&1 | findstr /i "audio"

Anda akan melihat output seperti:

"Speakers (Realtek High Definition Audio)" (audio)
"Headphones (USB Audio Device)" (audio)

Catat nama tepat dari perangkat output aktif Anda. Untuk penangkapan loopback, tambahkan (loopback) ke nama perangkat saat Anda menggunakannya dengan FFmpeg.

Alternatifnya, gunakan Python untuk menampilkan perangkat:

import sounddevice as sd
print(sd.query_devices())

Cari perangkat dengan (loopback) dalam nama atau host API penangkapan audio berlatenci rendah.


Langkah 2 — Rekam Audio Rapat

Mulai panggilan Zoom, Teams, atau Meet Anda. Sebelum konten utama dimulai, mulai FFmpeg di terminal terpisah:

ffmpeg -f dshow -i audio="Speakers (Realtek High Definition Audio) (loopback)" \
  -ar 16000 -ac 1 -c:a pcm_s16le \
  meeting_2026-06-12.wav

Bendera kunci:

  • -ar 16000 — tingkat sampel native Whisper; tidak perlu pengambilan sampel ulang
  • -ac 1 — mono; mengurangi ukuran file dan cocok dengan input yang diharapkan Whisper
  • -c:a pcm_s16le — WAV tak terkompresi untuk akurasi terbaik

Hentikan perekaman saat rapat berakhir dengan Ctrl+C. Rapat 1 jam pada pengaturan ini menghasilkan kira-kira 115 MB.

Tip: Jika kualitas audio Anda buruk karena kebisingan latar belakang, menjalankan penekanan derau VoxBooster pada saluran mikrofon Anda sebelum panggilan menjaga suara Anda tetap bersih dalam tangkapan. Loopback penangkapan audio berlatenci rendah menangkap output campuran, sehingga audio peserta lain mendapat manfaat dari pemrosesan derau platform mereka sendiri.


Langkah 3 — Instal Whisper

Jika Anda belum menginstal Whisper:

pip install openai-whisper
# Untuk inferensi CPU/GPU yang lebih cepat:
pip install faster-whisper

Untuk akselerasi GPU (NVIDIA), juga instal:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Periksa versi CUDA Anda terlebih dahulu dengan nvidia-smi dan cocokkan versi cu sesuai.


Langkah 4 — Transkripsi Rekaman

Menggunakan openai-whisper (CLI)

whisper meeting_2026-06-12.wav --model medium.en --output_format txt --output_dir ./transcripts

Ini menyimpan file .txt dan file subtitle .srt. Model medium.en hanya berbahasa Inggris, yang lebih cepat dan lebih akurat untuk rapat bahasa Inggris dibandingkan medium multibahasa.

Menggunakan faster-whisper (Script Python)

from faster_whisper import WhisperModel

model = WhisperModel("medium.en", device="cuda", compute_type="float16")

segments, info = model.transcribe("meeting_2026-06-12.wav", beam_size=5)

with open("transcript.txt", "w", encoding="utf-8") as f:
    for segment in segments:
        timestamp = f"[{segment.start:.1f}s]"
        f.write(f"{timestamp} {segment.text.strip()}\n")

print("Transcription complete.")

faster-whisper menggunakan CTranslate2 di bawah tenda dan 2–4× lebih cepat dari aslinya pada perangkat keras yang sama.


Langkah 5 — Ekstrak Item Tindakan ke Markdown

Transkrip mentah adalah dinding teks. Artefak yang berguna adalah ringkasan terstruktur: keputusan yang dibuat, tugas yang ditugaskan, dan pertanyaan terbuka. Berikut adalah skrip Python sederhana yang menggunakan Ollama (LLM lokal) untuk menghasilkan satu:

import subprocess
import sys

transcript_path = sys.argv[1]

with open(transcript_path, "r", encoding="utf-8") as f:
    transcript = f.read()

prompt = f"""You are a meeting notes assistant. Given the transcript below, produce a Markdown document with:
1. **Meeting Summary** (3-5 sentences)
2. **Decisions Made** (bulleted list)
3. **Action Items** (bulleted list with owner and deadline if mentioned)
4. **Open Questions** (bulleted list)

Transcript:
{transcript}
"""

result = subprocess.run(
    ["ollama", "run", "llama3"],
    input=prompt,
    capture_output=True,
    text=True,
    encoding="utf-8"
)

output_path = transcript_path.replace(".txt", "_summary.md")
with open(output_path, "w", encoding="utf-8") as f:
    f.write(result.stdout)

print(f"Summary saved to {output_path}")

Jalankan sebagai:

python extract_actions.py transcripts/meeting_2026-06-12.txt

Tidak ada Ollama? Tempel transkrip langsung ke AI obrolan mana pun dengan prompt yang sama. Outputnya identik — hanya langkah otomasi yang berbeda.


Panduan Pemilihan Model

ModelVRAMKecepatan (GPU)Kecepatan (CPU)Terbaik Untuk
tiny.en1 GBSangat cepat5 menit/jamDraf cepat, pengujian
small.en2 GBCepat20 menit/jamMesin CPU-only
medium.en5 GBSeimbang60 menit/jamRekomendasi default
large-v310 GBLambatTidak praktisAkurasi maksimal, RTX 4070+

Semua model berjalan sepenuhnya offline setelah unduhan awal.


Perbandingan: Whisper Lokal vs. Layanan Transkripsi Cloud

FiturWhisper (lokal)Otter.aiFirefliesZoom AI Notes
Data meninggalkan perangkatTidakYaYaYa
Biaya per bulan$0$10–$20/pengguna$10–$19/penggunaDisertakan dengan Zoom
Akurasi (Inggris)88–94% WER~88%~87%~85%
Diarization pembicaraDengan pyannoteYaYaYa
Kosa kata khususMelalui promptBerbayarBerbayarTidak
Mampu offlineYaTidakTidakTidak
Waktu pengaturan30 menit5 menit5 menit0 menit

Layanan cloud menang pada kenyamanan dan diarization keluar dari kotak. Whisper lokal menang pada privasi, biaya pada skala, dan kemampuan untuk bekerja tanpa internet.


Menambahkan Speaker Diarization

Whisper saja tidak mengidentifikasi siapa yang mengatakan apa. Untuk rapat di mana atribusi penting, gabungkan dengan pyannote.audio:

pip install pyannote.audio
from pyannote.audio import Pipeline

pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-3.1",
    use_auth_token="YOUR_HF_TOKEN"
)

diarization = pipeline("meeting_2026-06-12.wav")

for turn, _, speaker in diarization.itertracks(yield_label=True):
    print(f"{speaker}: {turn.start:.1f}s – {turn.end:.1f}s")

Anda kemudian dapat menyelaraskan stempel waktu diarization dengan stempel waktu segmen Whisper untuk menghasilkan transkrip berlabel pembicara. Model pyannote berjalan secara lokal setelah unduhan — akun Hugging Face diperlukan untuk menerima lisensi model, tetapi inferensi sepenuhnya offline.


Mengotomatisasi Seluruh Pipeline

Setelah ketiga langkah bekerja secara individual, rantai mereka ke dalam satu skrip yang berjalan setelah rapat berakhir:

# record.bat — jalankan selama rapat
ffmpeg -f dshow -i audio="Speakers (Realtek High Definition Audio) (loopback)" ^
  -ar 16000 -ac 1 -c:a pcm_s16le ^
  "meetings\%DATE:~10,4%-%DATE:~4,2%-%DATE:~7,2%.wav"
# process.bat — jalankan setelah rapat
set FILE=%1
python transcribe.py %FILE%
python extract_actions.py %FILE:.wav=.txt%
start "" "%FILE:.wav=_summary.md%"

Jalankan process.bat meetings\2026-06-12.wav dan ringkasan terbuka di editor Markdown default Anda secara otomatis.


Privasi dan Pertimbangan Penyimpanan

Ingat hal-hal berikut saat menyimpan transkrip rapat:

  • Enkripsi file WAV dan transkrip jika mereka berisi informasi bisnis sensitif. Windows BitLocker atau VeraCrypt menangani ini di tingkat folder.
  • Tetapkan kebijakan retensi — hapus file WAV mentah setelah transkripsi; simpan hanya ringkasan kecuali Anda memerlukan kutipan verbatim.
  • Drive bersama: Jika Anda menyinkronkan transkrip ke OneDrive atau SharePoint, periksa apakah sistem tersebut menerapkan OCR atau pengindeksan AI ke dokumen yang diunggah.
  • Kontrol akses: Batasi file transkrip hanya untuk peserta. Folder \meetings\ bersama pada drive jaringan tidak boleh terbuka untuk seluruh perusahaan.

Soft CTA

Penekanan derau VoxBooster memastikan saluran mikrofon Anda bersih sebelum audio mencapai loopback penangkapan audio berlatenci rendah, yang secara langsung meningkatkan tingkat kesalahan kata Whisper pada suara Anda. Ini berjalan secara lokal di Windows 10/11, tidak memerlukan driver kernel, dan terintegrasi dengan aplikasi rapat apa pun. Uji coba gratis 3 hari tersedia — tidak perlu kartu kredit.

Setelah uji coba: rencana mulai dari $6.99/bulan.


FAQ

Apakah Whisper metranskripsi secara real-time pada PC Windows normal? Tidak benar-benar real-time dengan akurasi penuh — Whisper adalah model batch. Pada GPU mid-range (RTX 3060) model small atau medium metranskripsi rapat 1 jam dalam waktu sekitar 3-5 menit setelah panggilan berakhir. Untuk keterangan langsung pertimbangkan Whisper Live atau fork whisper-streaming, meskipun mereka menukar beberapa akurasi untuk latensi.

Apakah sah metranskripsi rapat Zoom atau Teams? Legalitas tergantung pada yurisdiksi dan kebijakan perusahaan. Di sebagian besar tempat Anda harus memberitahu semua peserta sebelum merekam atau metranskripsi. Selalu umumkan di awal rapat bahwa Anda menangkap audio untuk catatan, dan dapatkan persetujuan eksplisit. Artikel ini adalah panduan teknis, bukan saran hukum.

Perangkat loopback penangkapan audio berlatenci rendah apa yang perlu saya instal? Tidak perlu instalasi driver. Loopback penangkapan audio berlatenci rendah adalah API Windows 10/11 native yang mencerminkan perangkat output aktif apa pun — speaker atau headphone — sebagai sumber penangkapan. FFmpeg, Python sounddevice, dan sebagian besar perpustakaan audio mengeksposnya secara langsung. Tidak perlu kabel virtual atau driver pihak ketiga.

Model Whisper mana yang harus saya gunakan untuk transkripsi rapat? Model medium.en adalah keseimbangan praktis terbaik: 1,5 GB VRAM, ~90% pengurangan tingkat kesalahan kata di atas tiny, dan 4-6× lebih cepat dari large pada GPU. Untuk mesin CPU-only gunakan small.en — metranskripsi rapat 1 jam dalam waktu kira-kira 20 menit pada CPU modern. Large-v3 hanya masuk akal jika Anda memiliki RTX 4070 atau lebih baik.

Dapatkah saya metranskripsi rapat tanpa GPU? Ya. Whisper berjalan pada CPU melalui paket openai-whisper atau backend faster-whisper CTranslate2, yang mengurangi waktu inferensi CPU kira-kira setengahnya. Rapat yang memerlukan 8 menit pada GPU memerlukan waktu sekitar 20-25 menit pada CPU Intel atau AMD modern dengan small.en — dapat diterima untuk pemrosesan batch rapat.

Bagaimana cara mengekstrak item tindakan secara otomatis dari transkrip? Metode paling sederhana adalah skrip Python yang menyalurkan transkrip Whisper ke prompt LLM lokal (Ollama + llama3 atau Mistral) meminta daftar poin dari keputusan dan tugas. Alternatifnya, tempel transkrip mentah ke AI obrolan mana pun. Penekanan derau VoxBooster menjaga audio yang ditangkap tetap bersih, yang secara langsung meningkatkan akurasi transkrip.

Apakah alur kerja ini berfungsi dengan rapat Penelusuran Microsoft Teams yang direkam? Ya, dua cara: tangkap audio langsung melalui loopback penangkapan audio berlatenci rendah selama panggilan, atau unduh rekaman rapat Penelusuran dari OneDrive dan jalankan Whisper pada file MP4. Jalur kedua lebih sederhana dan memungkinkan Anda metranskripsi ulang kapan saja tanpa tinggal di rapat.


Bacaan Lanjutan

Coba VoxBooster — uji coba gratis 3 hari.

Kloning suara real-time, soundboard, dan efek — di mana pun kamu sudah biasa bicara.

  • Tanpa kartu kredit
  • ~30ms latensi
  • Discord · Teams · OBS
Coba gratis 3 hari