วิธีตั้งค่าการแปลงเสียง Whisper บน Windows (ท้องถิ่น + ฟรี)

คำแนะนำที่สมบูรณ์สำหรับการแปลงเสียง Whisper บน Windows: ติดตั้งผ่าน pip, whisper.cpp, แอปพลิเคชัน GUI หรือ VoxBooster — ไม่มี cloud, ไม่มีการสมัครสมาชิก, การรู้จำเสียงที่แม่นยำแบบออฟไลน์

การแปลงเสียง Whisper บน Windows ให้ความแม่นยำในการรู้จำเสียงและการทำงานแบบออฟไลน์ที่ทำงานอย่างสมบูรณ์บนฮาร์ดแวร์ของคุณ — ไม่มีการสมัครสมาชิก ไม่มีการอัปโหลด cloud ไม่มีค่าธรรมเนียมต่อนาที คำแนะนำนี้ครอบคลุมทุกสิ่งตั้งแต่ข้อกำหนดเบื้องต้นถึงการใช้งานการผลิต: การติดตั้ง Python pip, พอร์ต whisper.cpp ที่เบากว่า, แอปพลิเคชัน GUI ที่พร้อมใช้งาน และสิ่งที่ต้องทำเมื่อคุณต้องการการแปลงเสียงแบบเวลาจริงโดยไม่มีสภาพแวดล้อม Python

TL;DR

  • OpenAI Whisper คือแบบจำลองการรู้จำเสียงแบบโอเพนซอร์สฟรีที่มี five size tiers (tiny → large-v3)
  • ติดตั้งผ่าน pip install openai-whisper บน Python 3.9–3.12; ต้อง ffmpeg บน PATH
  • whisper.cpp เป็นพอร์ต C++ ที่เบากว่า — ไม่มี Python ทำงานบน CPU ผ่านการวัดปริมาณ GGML
  • GPU (CUDA) ตัดเวลาการแปลงให้เกือบเวลาจริงแม้กระทั่งบนรุ่นขนาดใหญ่; CPU ทำงานได้ดีสำหรับรุ่นเล็ก
  • สำหรับการแปลงเสียงสดโดยไม่ต้องติดตั้ง Python VoxBooster bundle STT ระดับ Whisper ท้องถิ่นพร้อมกับปุ่มร้อนโลก
  • ข้อผิดพลาดทั่วไป: ffmpeg หายไป env Python ผิด ไม่ตรงกันของเวอร์ชัน CUDA

การแปลงเสียง Whisper คืออะไร?

OpenAI Whisper เป็นระบบการรู้จำเสียงอัตโนมัติ (ASR) แบบโอเพนซอร์สที่ได้รับการฝึกอบรมบน 680,000 ชั่วโมงของเสียงหลายภาษา เพิ่มเติมในเดือนกันยายน 2022 และปรับปรุงอย่างต่อเนื่องตั้งแต่นั้นมา มันทำงานเป็นแบบจำลองท้องถิ่น — หมายความว่าไฟล์เสียงของคุณไม่เคยออกจากพีซีของคุณ มันจัดการ 99 ภาษา เพิ่มการเว้นวรรคอัตโนมัติ และบรรลุอัตราข้อผิดพลาดคำที่ต่ำกว่า 5% บนเสียงภาษาอังกฤษที่สะอาดสลวยด้วยแบบจำลอง large-v3

ซึ่งแตกต่างจากบริการ cloud (Otter.ai, Rev, ชั้นการแปลงของ Descript) Whisper บน Windows ไม่มีค่าธรรมเนียมต่อนาทีและไม่มีนโยบายข้อมูลที่ต้องกังวล การแปลงเสียง Whisper นั้นฟรีทั้งหมดหลังจากดาวน์โหลดน้ำหนักแบบจำลอง


ข้อกำหนดเบื้องต้นก่อนที่คุณจะติดตั้ง

ก่อนที่จะเลือกวิธีการติดตั้ง ให้จัดเรียงการพึ่งพาเหล่านี้:

Python 3.9–3.12. แพ็คเกจ Whisper อย่างเป็นทางการต้องการ Python ตรวจสอบว่าคุณมีมัน:

py --version

ถ้าไม่ให้ดาวน์โหลดตัวติดตั้ง 3.12 ล่าสุดจาก python.org ในระหว่างการติดตั้ง ให้ทำเครื่องหมาย “Add Python to PATH” — นี่คือสิ่งสำคัญ

ffmpeg. Whisper ใช้ ffmpeg เพื่อถอดรหัสไฟล์เสียงและวิดีโอ หากไม่มี คุณจะได้รับ FileNotFoundError หรือเอาต์พุตว่างเปล่าบนสิ่งใดก็ตามที่ไม่ใช่ WAV ดิบ วิธีการติดตั้งที่เร็วที่สุดบน Windows 10/11:

winget install Gyan.FFmpeg

จากนั้นเปิดเทอร์มินัลใหม่และตรวจสอบ: ffmpeg -version

GPU (ไม่บังคับ แต่แนะนำ). Whisper ทำงานบน CPU แต่ GPU NVIDIA ที่รองรับ CUDA ทำให้เกิดความแตกต่างอย่างมีนัยสำคัญ สำหรับแบบจำลองขนาดใหญ่ การแปลง CPU ของไฟล์ 10 นาที ใช้เวลา 3-6 นาที บนเดสก์ท็อปสมัยใหม่; บน GPU กลาง (RTX 3060, 12 GB VRAM) ใช้เวลาประมาณ 40 วินาที ข้อมูลเพิ่มเติมเกี่ยวกับขนาดแบบจำลองและข้อกำหนด VRAM ในตารางด้านล่าง


ขนาดแบบจำลอง Whisper: เลือกอันไหน

รุ่นพารามิเตอร์VRAM (FP16)ความเร็วสัมพัทธ์WER ภาษาอังกฤษดีที่สุดสำหรับ
tiny39 M~1 GB~32x เวลาจริง~5.7%เรียงร่างด่วน, ฮาร์ดแวร์คลาสต่ำ
base74 M~1 GB~16x เวลาจริง~4.2%หมายเหตุด่วน, การสตรีมสด
small244 M~2 GB~6x เวลาจริง~3.0%ผู้ใช้ส่วนใหญ่ — มูลค่าที่ดีที่สุด
medium769 M~5 GB~2x เวลาจริง~2.2%การแปลงเสียงเชิงวิชาชีพ
large-v31550 M~10 GB~1x เวลาจริง~1.6%ลักษณะเฉพาะ, หลายภาษา, การแพทย์

“ปัจจัยเวลาจริง” (RTF) ที่นี่หมายถึงการอนุมาน GPU บน NVIDIA A100 บน RTX 3080 ผู้บริโภค ให้คูณด้วยประมาณ 3-4 เท่า บน CPU ให้คูณอีก 10-20 เท่า

สำหรับผู้ใช้ Windows ส่วนใหญ่: เริ่มต้นด้วย small มันทำงานเกือบเวลาจริงบน CPU สมัยใหม่ จัดการลักษณะเฉพาะที่ดีกว่า base และพอดีกับ 2 GB ของ RAM/VRAM หากความแม่นยำในศัพท์เฉพาะด้านเทคนิคที่หนาแน่นสำคัญ (กฎหมาย, การแพทย์, การตรวจสอบรหัส) ให้ทดสอบ medium ต่อไป


วิธีที่ 1: การติดตั้ง pip (แพ็คเกจ Python อย่างเป็นทางการ)

นี่คือการติดตั้ง openai whisper windows ตามหลักเกณฑ์ — ตรงไปตรงมาหากคุณสบายใจกับเทอร์มินัล ให้ความยืดหยุ่นสูงสุด: การเข้าถึง API Python เต็ม รูปแบบเอาต์พุตทั้งหมด (txt, srt, vtt, json, tsv) และการรวมง่ายกับสคริปต์อื่น

ขั้นตอนที่ 1 — สร้างสภาพแวดล้อมเสมือน (แนะนำ)

py -m venv whisper-env
whisper-env\Scripts\activate

สิ่งนี้ช่วยให้การพึ่งพา Whisper โดดเดี่ยวจาก Python ระบบของคุณ

ขั้นตอนที่ 2 — ติดตั้ง Whisper

pip install openai-whisper

สิ่งนี้ดึงไลบรารีแบบจำลองและการพึ่งพา (PyTorch, tiktoken, tqdm, more-itertools) คาดว่า 1-3 GB ของการดาวน์โหลดในการรันครั้งแรก รวมถึง PyTorch

ขั้นตอนที่ 3 — ติดตั้ง PyTorch พร้อม CUDA (หากคุณมี GPU NVIDIA)

PyTorch เริ่มต้นจากคำสั่งข้างบนคือ CPU เท่านั้น สำหรับการเร่งความเร็ว GPU:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

จับคู่ cu121 ต่อหลักสำหรับเวอร์ชัน CUDA ที่คุณติดตั้ง (nvidia-smi แสดงให้เห็น) ดูที่ เมทริกซ์ติดตั้ง PyTorch หากคุณไม่แน่ใจ

ขั้นตอนที่ 4 — เรียกใช้การแปลงเสียงครั้งแรกของคุณ

whisper my_audio.mp3 --model small

การรันแรกดาวน์โหลดน้ำหนักแบบจำลอง (~244 MB สำหรับ small) การรันต่อเนื่องเป็นแบบทันที เอาต์พุต: ไฟล์ .txt, .srt และ .vtt ข้างเสียงของคุณ

ขั้นตอนที่ 5 — ธงที่มีประโยชน์

# บังคับใช้ภาษาอังกฤษ (ข้ามการตรวจหาภาษา เร็วกว่าเล็กน้อย)
whisper audio.mp3 --model small --language en

# เอาต์พุตข้อความธรรมชาติเท่านั้น
whisper audio.mp3 --model small --output_format txt

# แปลงส่วนเฉพาะ (วินาที)
whisper audio.mp3 --model small --clip_timestamps "30,90"

# ใช้อุปกรณ์ GPU อย่างชัดเจน
whisper audio.mp3 --model medium --device cuda

วิธีที่ 2: whisper.cpp (ไม่จำเป็นต้องใช้ Python)

whisper.cpp เป็นการนำกลับมาใช้ C/C++ ของเอนจิน Whisper inference มันทำงานโดยไม่มี Python, CUDA หรือ PyTorch บน Windows มันใช้น้ำหนัก GGML ที่ได้รับการวัด — รูปแบบเดียวกับที่ใช้โดย llama.cpp — และสามารถเร่งความเร็วผ่าน OpenBLAS (CPU) หรือ DirectML (GPU AMD/Intel/NVIDIA โดยไม่มี CUDA)

ทำไมต้องใช้มันแทนแพ็คเกจ Python?

  • เริ่มต้นในเวลาน้อยกว่าหนึ่งวินาที (ไม่มีการเริ่มต้น PyTorch)
  • ใช้ 30-50% น้อยกว่า RAM บนแบบจำลองเดียวกัน
  • ส่งมอบเป็น .exe เดี่ยว — ง่ายต่อการจัดเตรียมไว้ในสคริปต์หรือแอปพลิเคชันอื่น
  • โหมดการสตรีมมิ่งพร้อมใช้งานสำหรับการแปลงเสียงเกือบเวลาจริง

ขั้นตอนการติดตั้ง Windows

ไบนารี Windows ที่สร้างไว้ล่วงหน้ามีจากหน้าการเผยแพร่ whisper.cpp บน GitHub ดาวน์โหลด whisper-bin-x64.zip แยก จากนั้นดาวน์โหลดแบบจำลอง:

# ใช้ PowerShell — ดาวน์โหลดแบบจำลอง GGML เล็ก ๆ
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

เรียกใช้การแปลงเสียง:

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

หมายเหตุ: whisper.cpp ต้องการอินพุต WAV (16 kHz, mono, PCM 16-bit) แปลงด้วย ffmpeg ก่อน:

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

วิธีที่ 3: แอปพลิเคชัน GUI สร้างขึ้นบน Whisper

หากคุณไม่ต้องการเทอร์มินัลเลยแอปพลิเคชัน GUI แบบโอเพนซอร์สหลายตัวใช้ Whisper สำหรับประสบการณ์คลิกเพื่อแปลงบน Windows:

Whisper Desktop — แอปพลิเคชัน Windows .NET 6 ที่ใช้ whisper.cpp พร้อมกับอินเทอร์เฟสลากและวาง สนับสนุนการเลือกแบบจำลอง ภาษา และการประมวลผลเป็นชุด ไม่จำเป็นต้องมี Python; ตัวติดตั้งพร้อมใช้งาน GitHub

UI ตาม FasterWhisper — FasterWhisper เป็นการนำกลับมาใช้ Python โดยใช้ CTranslate2 ที่ทำงานเร็ว 4 เท่าของต้นฉบับบน CPU ตัวห่อ GUI ชุมชนหลายตัวมีอยู่; ค้นหา “faster-whisper GUI Windows” บน GitHub สิ่งเหล่านี้ทำงานได้ดีสำหรับการแปลงไฟล์เป็นชุด

Subtitle Edit — โปรแกรมแก้ไขคำบรรยายแบบโอเพนซอร์สที่นิยมซึ่งเพิ่มการรวม Whisper ดีสำหรับเวิร์กโฟลว์การจัดตำแหน่งคำบรรยายวิดีโอที่คุณต้องการเอาต์พุต SRT ที่คุณสามารถปรับแต่งได้ด้วยตนเอง

แอปพลิเคชัน GUI เหล่านี้ครอบคลุมการแปลงตามไฟล์ได้ดี ช่องว่างที่พวกเขาไม่เติม: การแปลงเสียงสดแบบเวลาจริงพร้อมกับปุ่มร้อน ซึ่งนำไปสู่ส่วนถัดไป


วิธีที่ 4: VoxBooster (ได้รับการจัดเตรียมไว้ ไม่จำเป็นต้องติดตั้ง Python)

หากเป้าหมายของคุณคือ การแปลงเสียงสด — คำบรรยายขณะคุณพูด การเขียนหนังสือไปยังแอปพลิเคชันใด ๆ การให้คำบรรยายการโทร — วิธีการตามไฟล์ข้างบนไม่เหมาะสม พวกเขาออกแบบมาเพื่อประมวลผลไฟล์เสียงที่เสร็จสิ้นแล้ว ไม่ใช่สตรีมไมโครโฟนต่อเนื่อง

VoxBooster bundle STT ระดับ Whisper ท้องถิ่นโดยตรงเข้าไปในแอปพลิเคชัน ไม่มีสภาพแวดล้อม Python ไม่มีตัวช่วยดาวน์โหลดแบบจำลอง ไม่มีการพึ่งพา ffmpeg คุณติดตั้ง VoxBooster ครั้งเดียวและเครื่องมือแปลงเสียงพร้อมอยู่ภายใต้ Dictation ในแถบข้าง

ความแตกต่างของปฏิบัติเมื่อเทียบกับการติดตั้ง pip บริสุทธิ์:

  • ปุ่มร้อนโลก — ถือ Ctrl+Shift+D ในแอปพลิเคชันใด ๆ และพูด; ข้อความปรากฏที่เคอร์เซอร์ของคุณ
  • การปราบปรามเสียงรบกวนในตัว — ล้างอินพุตไมโครโฟนก่อนที่จะถึงแบบจำลองเสียงซึ่งปรับปรุงความแม่นยำอย่างมีนัยสำคัญในห้องที่ศัตรู
  • ไม่มีเทอร์มินัล — การเลือกแบบจำลองและการตั้งค่าภาษาอยู่ใน GUI
  • Bundled พร้อมกับ voice changer, soundboard และ voice clone — หากคุณใช้ VoxBooster แล้วสำหรับ การเปลี่ยนเสียง Discord หรือ OBS คุณลักษณะการเขียนหนังสือเป็นเพียงแท็บอื่น

สำหรับมุมมองที่ลึกซึ้งยิ่งขึ้นของเวิร์กโฟลว์การเขียนหนังสือ ดู คำแนะนำการเขียนหนังสือเสียงบน Windows


การเลือกระหว่างวิธีการ

pip Whisperwhisper.cppแอปพลิเคชัน GUIVoxBooster
Python ที่จำเป็นใช่ไม่บางครั้งไม่
GPU ที่จำเป็นไม่ (ไม่บังคับ)ไม่ (ไม่บังคับ)ไม่ (ไม่บังคับ)ไม่ (ไม่บังคับ)
สดแบบเวลาจริงไม่บางส่วนไม่ใช่
ปุ่มร้อนโลกไม่ไม่ไม่ใช่
การแปลงไฟล์เป็นชุดใช่ใช่ใช่ไม่
เอาต์พุต SRT/VTTใช่ใช่ใช่ไม่
ความซับซ้อนของการติดตั้งปานกลางปานกลางต่ำต่ำ

เลือก pip whisper หากคุณต้องการเอาต์พุต SRT/VTT สำหรับคำบรรยายวิดีโอ หรือคุณต้องการแปลงไฟล์เป็นชุดใน Python เลือก whisper.cpp หากคุณต้องการไบนารีแบบพกพาพร้อมค่าโสหุ่ยของหน่วยความจำที่ต่ำกว่า เลือกแอปพลิเคชัน GUI สำหรับการแปลงไฟล์ลากและวาง เลือก VoxBooster หากคุณต้องการการเขียนหนังสือสดโดยไม่ต้องติดตั้ง Python


ลักษณะการใช้ CLI พื้นฐาน

เมื่อแพ็คเกจ pip ทำงาน ลักษณะเหล่านี้ครอบคลุม 90% ของกรณีการใช้งานจริง

แปลงการบันทึกการประชุมไปยังคำบรรยาย SRT

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper สามารถอ่านไฟล์วิดีโอโดยตรง (เรียก ffmpeg ภายในนอก) เอาต์พุต: meeting.srt ในโฟลเดอร์เดียวกัน

แปลงโฟลเดอร์ของไฟล์เสียง

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

เรียกใช้ในพรอมต์คำสั่ง (ไม่ใช่ PowerShell — ไวยากรณ์ลูป for แตกต่างกัน) ไฟล์แต่ละไฟล์ได้รับเอาต์พุต .txt ของตัวเอง

บังคับการแปลเป็นภาษาอังกฤษ

whisper french_audio.mp3 --model small --task translate

--task translate เอาต์พุตภาษาอังกฤษโดยไม่คำนึงถึงภาษาที่ป้อน มีประโยชน์สำหรับการสัมภาษณ์หลายภาษา

ระบุไดเรกทอรี่เอาต์พุต

whisper audio.mp3 --model small --output_dir C:\Transcripts

ข้อผิดพลาดทั่วไปและการแก้ไข

No module named 'whisper' คุณติดตั้ง whisper ในสภาพแวดล้อม Python ที่แตกต่างจากสภาพแวดล้อมที่ใช้งานอยู่ เรียกใช้ py -0 เพื่อแสดงรายการการติดตั้ง Python ทั้งหมด เปิดใช้งาน virtualenv ที่ถูกต้อง จากนั้นติดตั้งใหม่ นอกจากนี้ยังเป็นไปได้: คุณติดตั้งด้วย pip3 แต่เรียกใช้ด้วย py

FileNotFoundError: [WinError 2] ffmpeg ffmpeg ไม่อยู่บน PATH ของคุณ ติดตั้งผ่าน winget install Gyan.FFmpeg ปิดและเปิดเทอร์มินัลของคุณใหม่ จากนั้นยืนยันด้วย ffmpeg -version

CUDA out of memory คุณกำลังรันแบบจำลองที่ใหญ่เกินไปสำหรับ VRAM GPU ของคุณ ลองขนาดถัดไป หรือเพิ่ม --fp16 False เพื่อบังคับใช้ FP32 (ใช้ RAM มากขึ้น แต่บางครั้งแก้ไขปัญหาการจัดสรรใน CUDA builds บางตัว) หรือ เรียกใช้บน CPU ด้วย --device cpu

RuntimeError: Expected all tensors to be on the same device เวอร์ชัน PyTorch CUDA ไม่ตรงกัน ติดตั้ง PyTorch ใหม่ด้วยต่อหลัก CUDA ที่ถูกต้องสำหรับเวอร์ชันไดรเวอร์ของคุณ ตรวจสอบไดรเวอร์ของคุณด้วย nvidia-smi และอ้างอิงไขว้ที่ pytorch.org/get-started/locally

เอาต์พุตถูกหลอกหรือในภาษาที่ผิด Whisper ตรวจหาภาษาโดยอัตโนมัติจาก 30 วินาทีแรกของเสียง หากไฟล์ของคุณมีความเงียบหรือเสียงรบกวนที่ด้านหน้า การตรวจหาล้มเหลว แก้ไข: เพิ่ม --language en (หรือภาษาเป้าหมายของคุณ) อย่างชัดเจน

การแปลงเสียงช้าแม้ว่าจะมี GPU ยืนยันว่า Whisper ใช้ CUDA จริง: เพิ่ม --device cuda ลงในคำสั่งของคุณ หากคุณเห็น FP16 is not supported on CPU; using FP32 instead ในเอาต์พุต CUDA ไม่ถูกใช้ — ตรวจสอบการติดตั้ง PyTorch ของคุณใหม่


Whisper vs ตัวเลือกการแปลงเสียง Windows อื่น ๆ

เป็นประโยชน์ที่จะรู้ว่าคุณกำลังเปรียบเทียบอะไรก่อนยอมรับการตั้งค่า:

การรู้จำเสียง / การเขียนหนังสือในตัว Windows (Win+H) — เร็วและรวมเข้ากับได้ดี แต่ความแม่นยำล้าหลังบนลักษณะเฉพาะ ศัพท์เฉพาะด้านเทคนิค และภาษาอังกฤษที่ไม่ใช่ของ US การพึ่งพา cloud บางส่วนในโหมดเริ่มต้น ไม่มีเอาต์พุต SRT

Dragon NaturallySpeaking / Dragon Professional — ประวัติศาสตร์มาตรฐานความแม่นยำ แข็งแกร่งสำหรับเวิร์กโฟลว์การเขียนหนังสือ แต่แพง ($300-$500) Windows เท่านั้น และช้าในการเพิ่มศัพท์เฉพาะสำหรับโดเมนใหม่ การประมวลผลในพื้นที่ ซึ่งเป็นปัจจัยบวก

Otter.ai, Rev, การแปลงเสียง Descript — ตามคลาउด์, ราคาการสมัครสมาชิก, ความแม่นยำดี แต่เสียงออกจากเครื่องของคุณ ไม่เหมาะสำหรับการประชุมส่วนตัว การบันทึกทางกฎหมาย หรือสิ่งใด ๆ ภายใต้ NDA

Azure Cognitive Services / Google Speech-to-Text — API ผู้พัฒนา ตามคลาउด์ จ่ายต่อนาที แม่นยำ แต่ต้องการรหัสและการเชื่อมต่ออินเทอร์เน็ต ไม่เทียบเท่ากับการติดตั้ง whisper ท้องถิ่น และความแม่นยำของการแปลง whisper มีการแข่งขันด้วยต้นทุนต่อเนื่องเป็นศูนย์

จุดแข็งของ Whisper เมื่อเทียบกับทั้งหมดข้างต้น: ฟรี, ท้องถิ่นอย่างสมบูรณ์ น้ำหนักแบบโอเพนซอร์สที่คุณสามารถตรวจสอบ, การสนับสนุนหลายภาษาที่แข็งแกร่ง และความแม่นยำที่มีการแข่งขันกับบริการที่ได้รับการสนับสนุนบนเสียงที่สะอาดสลวย จุดอ่อนของมัน: ไม่มีโหมดการสตรีมมิ่งเวลาจริงดั้งเดิมในแพ็คเกจ Python และการตั้งค่าต้องการความสบายใจ CLI เล็กน้อย


ความเป็นส่วนตัว: ทำไมท้องถิ่นถึงสำคัญสำหรับการแปลงเสียง

เมื่อคุณเรียกใช้ Whisper ในท้องถิ่นบน Windows เสียงไม่เคยสัมผัสเซิร์ฟเวอร์ภายนอก สิ่งนี้สำคัญมากกว่าที่คนส่วนใหญ่ตระหนัก — และเป็นข้อโต้แย้งทางปฏิบัติที่ใหญ่ที่สุดข้อหนึ่งสำหรับการแปลงเสียง Whisper เมื่อเทียบกับทางเลือก cloud ที่ได้รับการสนับสนุน:

  • การบันทึกการประชุมมักมีข้อมูลทางธุรกิจ
  • การเขียนหนังสือทางการแพทย์และกฎหมายอยู่ภายใต้การควบคุมความเป็นส่วนตัว (HIPAA, GDPR ฯลฯ)
  • สัมภาษณ์นักข่าวและการสนทนาของแหล่งที่มาไม่ควรไปยัง API cloud
  • บันทึกเสียงส่วนตัว รายการสมุดบัญชี บันทึกการประชุมเชิงบำบัด — สิ่งต่าง ๆ ที่คุณยินดีไม่มีบนเซิร์ฟเวอร์ของคนอื่น

บริการแปลงเสียง Cloud มีนโยบายความเป็นส่วนตัว แต่ “เราไม่ขายข้อมูลของคุณ” และ “เราอาจใช้เสียงไม่เปิดเผยตัวตนเพื่อปรับปรุงแบบจำลอง” เป็นคำสั่งที่แตกต่างกัน ด้วยการติดตั้ง whisper ท้องถิ่นบน Windows คำตอบสำหรับทั้งคู่ไม่เกี่ยวข้อง — เสียงยังคงอยู่บนดิสก์ของคุณ


FAQ

OpenAI Whisper ทำงานแบบออฟไลน์บน Windows หรือไม่? ใช่ หลังจากที่คุณดาวน์โหลดน้ำหนักแบบจำลอง Whisper จะทำงาน 100% ในเครื่อง — ไม่จำเป็นต้องเชื่อมต่ออินเทอร์เน็ต การดาวน์โหลดครั้งแรกมีตั้งแต่ 75 MB (tiny) ถึง 3.09 GB (large-v3) หลังจากนั้น การแปลงเสียงจะเกิดขึ้นทั้งหมดบน CPU หรือ GPU ของคุณโดยไม่มีข้อมูลออกจากเครื่องของคุณ

ฉันต้องการ GPU ใดสำหรับการแปลงเสียง Whisper บน Windows? GPU เป็นตัวเลือกแต่ช่วยเพิ่มความเร็วมากมาย สำหรับรุ่นเล็ก 2 GB VRAM ก็เพียงพอ ระดับกลางต้องมี 5 GB, large-v3 ต้องมี 10 GB บน CPU เท่านั้น รุ่นพื้นฐานแปลงประมาณ 10-15 เท่าเร็วกว่าเวลาจริงบน i5/Ryzen 5 สมัยใหม่ ซึ่งหมายความว่าเสียงหนึ่งนาทีใช้เวลาประมาณ 4-6 วินาที

ความแตกต่างระหว่างขนาดแบบจำลอง Whisper คืออะไร? Whisper มีขนาดห้าขนาด — tiny, base, small, medium และ large (พร้อมรูปแบบ large-v2 และ large-v3) แบบจำลองที่ใหญ่กว่ามีความแม่นยำมากขึ้นแต่ช้าลงและหนักขึ้น สำหรับผู้ใช้ Windows ส่วนใหญ่ small ให้อัตราส่วนความแม่นยำต่อความเร็วที่ดีที่สุด: ~244 MB, ความแม่นยำหลายภาษาที่ดี, ทำงานบน CPU เกือบเวลาจริงบนฮาร์ดแวร์สมัยใหม่

ฉันสามารถใช้ Whisper สำหรับการแปลงเสียงสดแบบเวลาจริงบน Windows ได้หรือไม่? แพ็คเกจ Python Whisper ดั้งเดิมเป็นแบบตามไฟล์และไม่ได้ออกแบบสำหรับเวลาจริง whisper.cpp มีโหมดการสตรีมมิ่ง แต่การตั้งค่านั้นซับซ้อน สำหรับการแปลงเสียงสดที่มีความหน่วงต่ำจริงๆ — คำบรรยายขณะคุณพูด การเขียนหนังสือ การให้คำบรรยายการโทร — แอปพลิเคชันที่มีการจัดเตรียมไว้เช่น VoxBooster นั้นง่ายกว่า: ความแม่นยำระดับ Whisper โดยไม่จำเป็นต้องมีสภาพแวดล้อม Python

OpenAI Whisper มีความแม่นยำเพียงใดเมื่อเทียบกับ Dragon NaturallySpeaking หรือการเขียนหนังสือ Windows? บนเสียงที่สะอาด Whisper large-v3 โพสต์อัตราข้อผิดพลาดคำต่ำกว่า 5% ในภาษาส่วนใหญ่ ซึ่งมีการแข่งขันกับ Dragon Professional และดีกว่าการเขียนหนังสือในตัว Windows ในการรู้เรื่องด้านเทคนิค ลักษณะเฉพาะของบริบท และเนื้อหาหลายภาษา ความแม่นยำลดลงในสภาพที่ศัตรู แต่การรวม Whisper กับการปราบปรามเสียงรบกวนจะสืบคืนส่วนใหญ่

Whisper.cpp คืออะไรและเหตุใดฉันจึงใช้มันแทนแพ็คเกจ Python? whisper.cpp เป็นพอร์ต C/C++ ของแบบจำลอง Whisper ที่ทำงานโดยไม่มี Python หรือ CUDA บน Windows มันใช้น้ำหนัก GGML ที่ได้รับการวัด และสามารถใช้ประโยชน์จาก DirectML หรือ OpenBLAS เพื่อให้เร่งความเร็ว มันเริ่มต้นเร็วกว่า ใช้ RAM น้อยกว่า และง่ายต่อการรวมเข้ากับแอปพลิเคชันอื่นมากกว่าแพ็คเกจ Python

ฉันจะแก้ไขข้อผิดพลาด “No module named whisper” บน Windows ได้อย่างไร? นี่มักหมายความว่าการติดตั้ง pip ไปยังสภาพแวดล้อม Python ที่แตกต่างจากที่คุณกำลังรัน ตรวจสอบด้วย py -0 เพื่อแสดงรายการการติดตั้ง Python ทั้งหมด เปิดใช้งาน virtualenv ที่ถูกต้อง จากนั้นติดตั้งใหม่: pip install openai-whisper นอกจากนี้ยังต้องยืนยันว่าคุณมี ffmpeg บน PATH — Whisper ต้องการมันเพื่อถอดรหัสไฟล์เสียง


สรุป: เซตอัพการแปลงเสียง Whisper ใดที่เหมาะสมสำหรับคุณ?

หากคุณต้องการการแปลงไฟล์เป็นชุดพร้อมเอาต์พุต SRT/VTT — สำหรับคำบรรยายวิดีโอ การบันทึกการประชุม บันทึกพอดคาสต์ — การติดตั้ง pip-based openai whisper windows คือเส้นทางที่ยืดหยุ่นมากที่สุด เพิ่มการสนับสนุน CUDA สำหรับ GPU ของคุณ และคุณได้รับปริมาณงานเกือบเวลาจริงแม้กระทั่งบน medium

หากคุณต้องการ footprint ที่เล็กลง หรือกำลังสร้างสคริปต์ที่เรียก whisper เป็น subprocess whisper.cpp ด้วยน้ำหนัก GGML นั้นเป็นตัวเลือกที่สะอาดกว่าสำหรับการติดตั้ง whisper ท้องถิ่นบน Windows — ไม่มี Python ไม่มี CUDA เพียงแค่ไบนารีและไฟล์แบบจำลอง

หากคุณต้องการการรวมการรู้จำเสียงท้องถิ่น Windows โดยไม่ต้องใช้งานเทอร์มินัล — โดยเฉพาะการเขียนหนังสือสดลงในแอปพลิเคชัน — VoxBooster bundle ความแม่นยำระดับ Whisper เดียวกันพร้อมกับปุ่มร้อนโลกและการปราบปรามเสียงรบกวนในตัว ไม่มี Python ไม่มี virtualenv ไม่มี ffmpeg troubleshooting สิ่งนี้มีประโยชน์เป็นพิเศษหากคุณใช้แอปพลิเคชันแล้วเพื่อเปลี่ยนเสียงหรือทำงาน soundboard; คุณลักษณะการแปลงเสียง whisper desktop เป็นเพียงแท็บอื่นในอินเทอร์เฟสเดียวกัน

เริ่มต้นด้วยรุ่นเล็กไม่ว่าเส้นทางใดที่คุณใช้ มันทำให้คุณได้ 80% ของวิธีถึงคุณภาพ large-v3 ในส่วนเล็ก ๆ ของต้นทุนการคำนวณ คุณสามารถอัพเกรดในภายหลังเมื่อคุณรู้ว่าระดับความแม่นยำใดที่เวิร์กโฟลว์ของคุณต้องการ

สำหรับตัวเลือกราคาและแผน ดู voxbooster.com/#pricing

ลอง VoxBooster — ทดลองใช้ฟรี 3 วัน

โคลนเสียงเรียลไทม์ ซาวด์บอร์ด และเอฟเฟกต์ — ทุกที่ที่คุณคุย

  • ไม่ต้องใช้บัตรเครดิต
  • ความหน่วง ~30ms
  • Discord · Teams · OBS
ลองฟรี 3 วัน