Ghi Chép Cuộc Họp Bằng Giọng Nói Với Whisper trên Windows

Nếu mỗi cuộc họp kết thúc bằng chuỗi email hỏi “chúng tôi thực sự quyết định gì?”, vấn đề không phải là cuộc họp — vấn đề là thiếu bản ghi lại đáng tin cậy. Các dịch vụ chuyển đổi văn bản thành giọng nói trên đám mây giải quyết vấn đề này một phần, nhưng cần tải lên âm thanh cuộc gọi của bạn lên máy chủ của bên thứ ba. Vì lý do pháp lý, tuân thủ hoặc có đủ lý do riêng tư mà điều này không phải lúc nào cũng chấp nhận được.

Hướng dẫn này chỉ cho bạn cách xây dựng quy trình công việc voice meeting notes hoàn toàn trên PC Windows của bạn: ghi âm cuộc họp bằng loopback chụp âm thanh độ trễ thấp, chạy nó qua mô hình Whisper OpenAI cục bộ, và tự động trích xuất tóm tắt Markdown với các quyết định và mục tác vụ. Không có tải lên đám mây. Không có đăng ký. Xử lý xảy ra trên máy của bạn.

TL;DR

Bước	Công Cụ	Thời Gian
Ghi Âm	FFmpeg + loopback chụp âm thanh độ trễ thấp	Trực Tiếp
Chuyển Đổi Văn Bản Thành Giọng Nói	Whisper (medium.en)	~4 phút / cuộc họp 1 giờ
Trích Xuất Tác Vụ	Python + LLM cục bộ hoặc dán vào AI	~2 phút
Đầu Ra	Tệp Markdown `.md`	Ngay Lập Tức

Tại Sao Chuyển Đổi Văn Bản Thành Giọng Nói Cục Bộ Vượt Trội Hơn Cloud Cho Các Cuộc Họp

Hầu hết các dịch vụ chuyển đổi văn bản thành giọng nói trên đám mây — Otter.ai, Fireflies, Zoom’s built-in AI Notes — hoạt động bằng cách gửi âm thanh của bạn đến máy chủ từ xa nơi nó được xử lý và thường được lưu để huấn luyện mô hình. Đối với các cuộc gọi bắt đầu riêng tư điều đó rất tốt. Đối với các cuộc gọi chứa tên khách hàng, dự báo tài chính, thông tin y tế hoặc thảo luận pháp lý thì không.

Chạy Whisper cục bộ có nghĩa là tệp âm thanh không bao giờ rời khỏi máy. Không có khóa API liên kết với tài khoản công ty của bạn, không có chính sách giữ lại để đọc, và không có khả năng vi phạm của bên thứ ba để hiển thị nội dung cuộc gọi của bạn. Bản ghi lại và tóm tắt sống ở bất kỳ nơi nào bạn lưu chúng.

Cũng có lập luận chi phí. Chuyển đổi văn bản thành giọng nói trên đám mây quy mô — 100 giờ họp mỗi tháng trên toàn bộ nhóm — chi phí $40–$200 mỗi tháng trên mỗi người dùng trên hầu hết các nền tảng. Suy luận cục bộ trên GPU bạn đã sở hữu không chi phí gì cho mỗi bản ghi lại sau khi thiết lập.

Pháp Luật và Sự Đồng Ý — Hãy Đọc Điều Này Trước Tiên

Ghi âm hoặc chuyển đổi văn bản thành giọng nói cuộc họp mà không có sự đồng ý của người tham gia là bất hợp pháp ở nhiều thẩm quyền pháp lý, bao gồm nhiều tiểu bang Hoa Kỳ (luật sự đồng ý của hai bên), EU (Điều 6 GDPR), và những nơi khác trên toàn thế giới.

Trước khi bạn chuyển đổi văn bản thành giọng nói bất kỳ cuộc họp nào:

Thông báo rõ ràng ở đầu: “Tôi đang ghi âm để chuyển đổi văn bản thành giọng nói cục bộ để tạo ghi chú cuộc họp.”
Cung cấp cho những người tham gia lựa chọn để từ chối hoặc nói ngoài hồ sơ.
Kiểm tra chính sách ghi cuộc gọi của công ty bạn — nhiều nơi yêu cầu chấp thuận của CNTT hoặc pháp lý.
Lưu trữ bản ghi lại một cách an toàn và áp dụng các quy tắc xử lý dữ liệu giống như các tài liệu bí mật khác.

Bài viết này là hướng dẫn kỹ thuật. Đó không phải là lời khuyên pháp lý.

Những Gì Bạn Cần

Windows 10 hoặc 11 — loopback chụp âm thanh độ trễ thấp có sẵn trên cả hai
Python 3.10+ — từ python.org hoặc winget
FFmpeg — để ghi âm từ thiết bị loopback
openai-whisper hoặc faster-whisper — công cụ chuyển đổi văn bản thành giọng nói
GPU NVIDIA (tùy chọn nhưng được khuyến khích) — RTX 2060 hoặc tốt hơn để suy luận nhanh; CPU cũng hoạt động
Ứng dụng họp: Zoom, Microsoft Teams, Google Meet, hoặc bất kỳ ứng dụng tạo âm thanh nào

Bước 1 — Xác Định Thiết Bị Loopback Chụp Âm Thanh Độ Trễ Thấp Của Bạn

Loopback chụp âm thanh độ trễ thấp ghi lại bất cứ điều gì Windows phát lại qua thiết bị đầu ra của bạn — âm thanh tương tự như bạn nghe trong tai nghe của mình. Không cần cài đặt trình điều khiển; đó là một phần của ngăn xếp âm thanh Windows kể từ Vista.

Mở terminal và chạy:

ffmpeg -list_devices true -f dshow -i dummy 2>&1 | findstr /i "audio"

Bạn sẽ thấy đầu ra như:

"Speakers (Realtek High Definition Audio)" (audio)
"Headphones (USB Audio Device)" (audio)

Ghi chú tên chính xác của thiết bị đầu ra hoạt động của bạn. Để ghi âm loopback, hãy thêm (loopback) vào tên thiết bị khi bạn sử dụng nó với FFmpeg.

Ngoài ra, hãy sử dụng Python để liệt kê các thiết bị:

import sounddevice as sd
print(sd.query_devices())

Tìm kiếm các thiết bị có (loopback) trong tên hoặc host API chụp âm thanh độ trễ thấp.

Bước 2 — Ghi Âm Cuộc Họp

Bắt đầu cuộc gọi Zoom, Teams hoặc Meet của bạn. Trước khi nội dung chính bắt đầu, hãy bắt đầu FFmpeg trong terminal riêng:

ffmpeg -f dshow -i audio="Speakers (Realtek High Definition Audio) (loopback)" \
  -ar 16000 -ac 1 -c:a pcm_s16le \
  meeting_2026-06-12.wav

Các cờ chính:

-ar 16000 — tốc độ lấy mẫu gốc Whisper; không cần lấy mẫu lại
-ac 1 — mono; giảm kích thước tệp và phù hợp với đầu vào mong muốn của Whisper
-c:a pcm_s16le — WAV không nén để độ chính xác tốt nhất

Dừng ghi âm khi cuộc họp kết thúc bằng Ctrl+C. Một cuộc họp 1 giờ ở các cài đặt này tạo ra khoảng 115 MB.

Mẹo: Nếu chất lượng âm thanh của bạn kém vì tiếng ồn nền, hãy chạy khử tiếng ồn VoxBooster trên kênh micrôfon của bạn trước cuộc gọi để giữ giọng nói của bạn sạch trong bản ghi. Loopback chụp âm thanh độ trễ thấp ghi lại đầu ra hỗn hợp, vì vậy âm thanh của những người tham gia khác được hưởng lợi từ xử lý khử tiếng ồn của nền tảng của riêng họ.

Bước 3 — Cài Đặt Whisper

Nếu bạn chưa cài đặt Whisper:

pip install openai-whisper
# Để suy luận CPU/GPU nhanh hơn:
pip install faster-whisper

Để tăng tốc GPU (NVIDIA), cũng cài đặt:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Kiểm tra phiên bản CUDA của bạn trước tiên bằng nvidia-smi và khớp phiên bản cu cho phù hợp.

Bước 4 — Chuyển Đổi Văn Bản Thành Giọng Nói Bản Ghi

Sử dụng openai-whisper (CLI)

whisper meeting_2026-06-12.wav --model medium.en --output_format txt --output_dir ./transcripts

Điều này lưu tệp .txt và tệp phụ đề .srt. Mô hình medium.en chỉ tiếng Anh, nhanh hơn và chính xác hơn cho các cuộc họp tiếng Anh so với medium đa ngôn ngữ.

Sử dụng faster-whisper (Tập Lệnh Python)

from faster_whisper import WhisperModel

model = WhisperModel("medium.en", device="cuda", compute_type="float16")

segments, info = model.transcribe("meeting_2026-06-12.wav", beam_size=5)

with open("transcript.txt", "w", encoding="utf-8") as f:
    for segment in segments:
        timestamp = f"[{segment.start:.1f}s]"
        f.write(f"{timestamp} {segment.text.strip()}\n")

print("Transcription complete.")

faster-whisper sử dụng CTranslate2 dưới vỏ và nhanh gấp 2–4 lần so với bản gốc trên cùng một phần cứng.

Bước 5 — Trích Xuất Các Mục Tác Vụ Thành Markdown

Bản ghi lại thô là một bức tường văn bản. Tạo phẩm hữu ích là một tóm tắt có cấu trúc: các quyết định được đưa ra, các tác vụ được gán và các câu hỏi mở. Dưới đây là một tập lệnh Python đơn giản sử dụng Ollama (LLM cục bộ) để tạo ra:

import subprocess
import sys

transcript_path = sys.argv[1]

with open(transcript_path, "r", encoding="utf-8") as f:
    transcript = f.read()

prompt = f"""You are a meeting notes assistant. Given the transcript below, produce a Markdown document with:
1. **Meeting Summary** (3-5 sentences)
2. **Decisions Made** (bulleted list)
3. **Action Items** (bulleted list with owner and deadline if mentioned)
4. **Open Questions** (bulleted list)

Transcript:
{transcript}
"""

result = subprocess.run(
    ["ollama", "run", "llama3"],
    input=prompt,
    capture_output=True,
    text=True,
    encoding="utf-8"
)

output_path = transcript_path.replace(".txt", "_summary.md")
with open(output_path, "w", encoding="utf-8") as f:
    f.write(result.stdout)

print(f"Summary saved to {output_path}")

Chạy như:

python extract_actions.py transcripts/meeting_2026-06-12.txt

Không có Ollama? Dán bản ghi lại trực tiếp vào bất kỳ AI trò chuyện nào với cùng lời nhắc. Đầu ra là giống hệt — chỉ có bước tự động hóa khác.

Hướng Dẫn Lựa Chọn Mô Hình

Mô Hình	VRAM	Tốc Độ (GPU)	Tốc Độ (CPU)	Tốt Nhất Cho
tiny.en	1 GB	Rất nhanh	5 phút/giờ	Dự thảo nhanh, thử nghiệm
small.en	2 GB	Nhanh	20 phút/giờ	Máy chỉ CPU
medium.en	5 GB	Cân Bằng	60 phút/giờ	Khuyến Nghị Mặc Định
large-v3	10 GB	Chậm	Không Thực Tế	Độ Chính Xác Tối Đa, RTX 4070+

Tất cả các mô hình chạy hoàn toàn ngoại tuyến sau khi tải xuống ban đầu.

So Sánh: Whisper Cục Bộ vs. Dịch Vụ Chuyển Đổi Văn Bản Thành Giọng Nói Trên Đám Mây

Tính Năng	Whisper (cục bộ)	Otter.ai	Fireflies	Zoom AI Notes
Dữ Liệu Rời Khỏi Thiết Bị	Không	Có	Có	Có
Chi Phí Mỗi Tháng	$0	$10–$20/người dùng	$10–$19/người dùng	Bao Gồm Với Zoom
Độ Chính Xác (Tiếng Anh)	88–94% WER	~88%	~87%	~85%
Diarization Diễn Giả	Với pyannote	Có	Có	Có
Kỹ Năng Tùy Chỉnh	Thông Qua Lời Nhắc	Trả Phí	Trả Phí	Không
Có Khả Năng Ngoại Tuyến	Có	Không	Không	Không
Thời Gian Thiết Lập	30 Phút	5 Phút	5 Phút	0 Phút

Các dịch vụ trên đám mây thắng trong tiện lợi và diarization sẵn sàng. Whisper cục bộ thắng trong quyền riêng tư, chi phí quy mô, và khả năng hoạt động mà không có internet.

Thêm Speaker Diarization

Whisper một mình không xác định ai nói gì. Đối với các cuộc họp nơi quy kết có ý nghĩa, kết hợp với pyannote.audio:

pip install pyannote.audio

from pyannote.audio import Pipeline

pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-3.1",
    use_auth_token="YOUR_HF_TOKEN"
)

diarization = pipeline("meeting_2026-06-12.wav")

for turn, _, speaker in diarization.itertracks(yield_label=True):
    print(f"{speaker}: {turn.start:.1f}s – {turn.end:.1f}s")

Bạn có thể sau đó căn chỉnh dấu thời gian diarization với dấu thời gian phân khúc Whisper để tạo bản ghi lại được dán nhãn diễn giả. Các mô hình pyannote chạy cục bộ sau khi tải xuống — cần có tài khoản Hugging Face để chấp nhận giấy phép mô hình, nhưng suy luận hoàn toàn ngoại tuyến.

Tự Động Hóa Toàn Bộ Pipeline

Sau khi ba bước hoạt động riêng lẻ, hãy chuỗi chúng vào một tập lệnh duy nhất chạy sau khi cuộc họp kết thúc:

# record.bat — chạy trong quá trình họp
ffmpeg -f dshow -i audio="Speakers (Realtek High Definition Audio) (loopback)" ^
  -ar 16000 -ac 1 -c:a pcm_s16le ^
  "meetings\%DATE:~10,4%-%DATE:~4,2%-%DATE:~7,2%.wav"

# process.bat — chạy sau cuộc họp
set FILE=%1
python transcribe.py %FILE%
python extract_actions.py %FILE:.wav=.txt%
start "" "%FILE:.wav=_summary.md%"

Chạy process.bat meetings\2026-06-12.wav và tóm tắt sẽ mở trong trình soạn thảo Markdown mặc định của bạn tự động.

Quyền Riêng Tư và Cân Nhắc Lưu Trữ

Hãy nhớ những điều sau khi lưu trữ bản ghi lại cuộc họp:

Mã hóa các tệp WAV và bản ghi lại nếu chúng chứa thông tin kinh doanh nhạy cảm. Windows BitLocker hoặc VeraCrypt xử lý việc này ở cấp độ thư mục.
Đặt chính sách giữ lại — xóa các tệp WAV thô sau khi chuyển đổi văn bản thành giọng nói; chỉ giữ tóm tắt trừ khi bạn cần trích dẫn từng chữ.
Chia sẻ các ổ đĩa: Nếu bạn đồng bộ hóa bản ghi lại với OneDrive hoặc SharePoint, hãy kiểm tra xem các hệ thống đó có áp dụng OCR hoặc lập chỉ mục AI cho các tài liệu được tải lên không.
Kiểm soát truy cập: Hạn chế các tệp bản ghi lại chỉ dành cho những người tham gia. Thư mục \meetings\ được chia sẻ trên ổ đĩa mạng không nên mở cho toàn bộ công ty.

Soft CTA

Khử tiếng ồn VoxBooster đảm bảo kênh micrôfon của bạn sạch trước khi âm thanh đạt loopback chụp âm thanh độ trễ thấp, giúp cải thiện tỷ lệ lỗi từ Whisper trên giọng nói của bạn trực tiếp. Nó chạy cục bộ trên Windows 10/11, không yêu cầu trình điều khiển kernel, và tích hợp với bất kỳ ứng dụng họp nào. Dùng thử miễn phí 3 ngày có sẵn — không cần thẻ tín dụng.

Sau khi dùng thử: các kế hoạch bắt đầu từ $6.99/tháng.

FAQ

Whisper có chuyển đổi văn bản thành giọng nói theo thời gian thực trên PC Windows thường xuyên không? Không thực sự real-time với độ chính xác đầy đủ — Whisper là một mô hình batch. Trên GPU mid-range (RTX 3060) mô hình small hoặc medium chuyển đổi câu họp 1 giờ trong khoảng 3-5 phút sau khi cuộc gọi kết thúc. Để tìm kiếm trực tiếp hãy xem xét Whisper Live hoặc whisper-streaming forks, mặc dù chúng đánh đổi độ chính xác cho độ trễ.

Có hợp pháp không khi chuyển đổi văn bản thành giọng nói cuộc họp Zoom hoặc Teams? Tính hợp pháp tùy thuộc vào thẩm quyền pháp lý và chính sách công ty. Ở hầu hết các nơi bạn phải thông báo cho tất cả những người tham gia trước khi ghi âm hoặc chuyển đổi văn bản thành giọng nói. Luôn công bố rõ ràng ở đầu cuộc họp rằng bạn đang ghi âm để tạo ghi chú, và lấy sự đồng ý rõ ràng. Bài viết này là hướng dẫn kỹ thuật chứ không phải lời khuyên pháp lý.

Tôi cần cài đặt thiết bị loopback chụp âm thanh độ trễ thấp nào? Không cần cài đặt trình điều khiển. Loopback chụp âm thanh độ trễ thấp là API Windows 10/11 gốc phản chiếu bất kỳ thiết bị đầu ra hoạt động nào — loa hoặc tai nghe — làm nguồn chụp. FFmpeg, Python sounddevice và hầu hết các thư viện âm thanh hiển thị nó trực tiếp. Không cần dây ảo hoặc trình điều khiển của bên thứ ba.

Mô hình Whisper nào mà tôi nên sử dụng để chuyển đổi văn bản thành giọng nói cuộc họp? Mô hình medium.en là sự cân bằng thực tiễn tốt nhất: 1,5 GB VRAM, ~90% giảm tỷ lệ lỗi từ so với tiny, và 4-6 lần nhanh hơn large trên GPU. Đối với máy chỉ CPU hãy sử dụng small.en — chuyển đổi văn bản thành giọng nói cuộc họp 1 giờ trong khoảng 20 phút trên CPU hiện đại. Large-v3 chỉ có ý nghĩa nếu bạn có RTX 4070 hoặc tốt hơn.

Tôi có thể chuyển đổi văn bản thành giọng nói cuộc họp mà không cần GPU không? Có. Whisper chạy trên CPU thông qua gói openai-whisper hoặc backend faster-whisper CTranslate2, giảm thời gian suy luận CPU khoảng một nửa. Một cuộc họp sẽ mất 8 phút trên GPU mất khoảng 20-25 phút trên CPU Intel hoặc AMD hiện đại với small.en — có thể chấp nhận được để xử lý batch sau cuộc họp.

Làm cách nào tôi có thể trích xuất các mục tác vụ tự động từ bản ghi lại? Phương pháp đơn giản nhất là tập lệnh Python chuyển bản ghi lại Whisper vào lời nhắc LLM cục bộ (Ollama + llama3 hoặc Mistral) yêu cầu danh sách từng quyết định và tác vụ. Ngoài ra, dán bản ghi thô vào bất kỳ AI trò chuyện nào. Khử tiếng ồn VoxBooster giữ âm thanh được ghi sạch, giúp cải thiện độ chính xác chuyển đổi văn bản thành giọng nói trực tiếp.

Quy trình công việc này có hoạt động với các cuộc họp Teams đã ghi âm không? Có, hai cách: ghi âm trực tiếp thông qua loopback chụp âm thanh độ trễ thấp trong quá trình gọi, hoặc tải xuống bản ghi cuộc họp Teams từ OneDrive và chạy Whisper trên tệp MP4. Đường dẫn thứ hai đơn giản hơn và cho phép bạn chuyển đổi văn bản thành giọng nói lại bất kỳ lúc nào mà không cần ở lại cuộc họp.

Đọc Tiếp Tục

OpenAI Whisper on GitHub — trọng lượng mô hình, điểm chuẩn và tài liệu cài đặt
Zoom Recording and Transcription — Official Help — cách Zoom xử lý bản ghi trên đám mây
Speech recognition — Wikipedia — nền tảng trên công nghệ ASR và số liệu WER
Real-time voice meeting notes with VoxBooster — cách xử lý âm thanh real-time hoạt động
Best noise suppression for Windows meetings — so sánh các công cụ khử tiếng ồn cục bộ