Transkrypcja Whisper na Windows daje Ci dokładną, offline, zamianę mowy na tekst, która działa w całości na Twoim własnym sprzęcie — bez subskrypcji, bez wysyłania do chmury, bez opłaty za minutę. Ten poradnik obejmuje wszystko od wymagań wstępnych do użytku produkcyjnego: instalacja Python pip, lżejszy port whisper.cpp, gotowe aplikacje GUI oraz co robić, gdy chcesz transkrypcję live bez środowiska Python.
TL;DR
- OpenAI Whisper to darmowy model rozpoznawania mowy o otwartym kodzie źródłowym z pięcioma poziomami rozmiaru (tiny → large-v3)
- Zainstaluj za pomocą
pip install openai-whisperna Python 3.9–3.12; wymaga ffmpeg w PATH whisper.cppto lżejszy port C++ — bez Python, działa na CPU za pośrednictwem kwantyzacji GGML- GPU (CUDA) zmniejsza czas transkrypcji do zbliżonego do czasu rzeczywistego nawet na dużych modelach; CPU działa dobrze dla modelu small
- Do transkrypcji live bez żadnej instalacji Python, VoxBooster pakuje lokalne STT na poziomie Whisper z globalnym skrótem
- Typowe błędy: brakujący ffmpeg, zła zmienna środowiska Python, niezgodność wersji CUDA
Co to jest transkrypcja Whisper?
OpenAI Whisper to otwarty system rozpoznawania mowy (ASR) wytrenowany na 680 000 godzin wielojęzycznych nagrań. Wydany we wrześniu 2022 r. i stale ulepszhany, działa jako model lokalny — co oznacza, że Twoje pliki audio nigdy nie opuszczają Twój komputer. Obsługuje 99 języków, automatycznie dodaje znaki interpunkcyjne i osiąga współczynniki błędów słów poniżej 5% na czystym angielskim audio z modelem large-v3.
W przeciwieństwie do usług w chmurze (Otter.ai, Rev, warstwa transkrypcji Descript), Whisper na Windows nie ma kosztu za minutę i nie musisz martwić się polityką danych. Transkrypcja Whisper jest naprawdę bezpłatna po pobraniu wag modelu.
Wymagania wstępne przed instalacją
Zanim wybierzesz metodę instalacji, załóż te zależności:
Python 3.9–3.12. Oficjalny pakiet Whisper wymaga Python. Sprawdź, czy go masz:
py --version
Jeśli nie, pobierz najnowszy instalator 3.12 z python.org. Podczas instalacji zaznacz opcję „Add Python to PATH” — to jest ważne.
ffmpeg. Whisper używa ffmpeg do dekodowania plików audio i wideo. Bez niego otrzymasz FileNotFoundError lub pusty wynik na wszystkim innym niż surowy WAV. Najszybsza metoda instalacji na Windows 10/11:
winget install Gyan.FFmpeg
Następnie otwórz nowy terminal i sprawdź: ffmpeg -version.
GPU (opcjonalne, ale rekomendowane). Whisper działa na CPU, ale GPU z CUDA firmy NVIDIA robi ogromną różnicę. W przypadku modelu large, transkrypcja pliku 10-minutowego na nowoczesnym komputerze zajmuje 3–6 minut; na GPU klasy średniej (RTX 3060, 12 GB VRAM) zajmuje około 40 sekund. Więcej na temat rozmiarów modeli i wymagań VRAM w poniższej tabeli.
Rozmiary modelu Whisper: Który wybrać
| Model | Parametry | VRAM (FP16) | Szybkość względna | Błąd słów ENG | Najlepiej do |
|---|---|---|---|---|---|
| tiny | 39 M | ~1 GB | ~32× czas rzeczywisty | ~5,7% | Szybkie szkice, sprzęt niskoklasowy |
| base | 74 M | ~1 GB | ~16× czas rzeczywisty | ~4,2% | Szybkie notatki, transmisja live |
| small | 244 M | ~2 GB | ~6× czas rzeczywisty | ~3,0% | Większość użytkowników — najlepszy stosunek |
| medium | 769 M | ~5 GB | ~2× czas rzeczywisty | ~2,2% | Profesjonalna transkrypcja |
| large-v3 | 1550 M | ~10 GB | ~1× czas rzeczywisty | ~1,6% | Akcenty, wielojęzyczność, medycyna |
„Współczynnik czasu rzeczywistego” (RTF) tutaj oznacza wnioskowanie GPU na NVIDIA A100. Na konsumenckim RTX 3080, pomnóż w przybliżeniu przez 3–4×. Na CPU, pomnóż ponownie przez 10–20×.
Dla większości użytkowników Windows: zacznij od small. Działa w przybliżeniu w czasie rzeczywistym na nowoczesnym CPU, lepiej obsługuje akcenty niż base i mieści się w 2 GB RAM/VRAM. Jeśli dokładność na gęstym słownictwie technicznym ma znaczenie (prawo, medycyna, przeglądy kodu), następnie przetestuj medium.
Metoda 1: instalacja pip (Oficjalny pakiet Python)
To kanoniczna instalacja openai whisper na Windows — prosta, jeśli czujesz się swobodnie z terminalem. Daje Ci największą elastyczność: pełny dostęp do API Python, wszystkie formaty wyjściowe (txt, srt, vtt, json, tsv) i łatwą integrację z innymi skryptami.
Krok 1 — Utwórz wirtualne środowisko (rekomendowane)
py -m venv whisper-env
whisper-env\Scripts\activate
To izoluje zależności Whisper od Twojego systemowego Python.
Krok 2 — Zainstaluj Whisper
pip install openai-whisper
To pobiera bibliotekę modelu i jej zależności (PyTorch, tiktoken, tqdm, more-itertools). Spodziewaj się pobrania 1–3 GB przy pierwszym uruchomieniu, w tym PyTorch.
Krok 3 — Zainstaluj PyTorch z CUDA (jeśli masz GPU NVIDIA)
Domyślny PyTorch z powyższego polecenia jest tylko dla CPU. Do przyspieszenia GPU:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
Dopasuj sufiks cu121 do zainstalowanej wersji CUDA (nvidia-smi to pokazuje). Zobacz macierz instalacji PyTorch jeśli jesteś niepewny.
Krok 4 — Uruchom swoją pierwszą transkrypcję
whisper my_audio.mp3 --model small
Pierwsze uruchomienie pobiera wagi modelu (~244 MB dla small). Kolejne uruchomienia są natychmiastowe. Wyjście: plik .txt, .srt i .vtt obok Twojego audio.
Krok 5 — Przydatne flagi
# Wymusz angielski (pomiń automatyczną detencję języka, lekko szybciej)
whisper audio.mp3 --model small --language en
# Wyjście tylko czysty tekst
whisper audio.mp3 --model small --output_format txt
# Transkrybuj konkretny segment (sekundy)
whisper audio.mp3 --model small --clip_timestamps "30,90"
# Użyj urządzenia GPU jawnie
whisper audio.mp3 --model medium --device cuda
Metoda 2: whisper.cpp (Bez wymagania Python)
whisper.cpp to reimplementacja C/C++ silnika wnioskowania Whisper. Działa bez Python, CUDA lub PyTorch. Na Windows używa wag skwantyzowanych GGML — tego samego formatu używanego przez llama.cpp — i może przyspieszać przez OpenBLAS (CPU) lub DirectML (GPU AMD/Intel/NVIDIA bez CUDA).
Dlaczego go użyć zamiast pakietu Python?
- Uruchamia się w mniej niż sekundę (bez inicjalizacji PyTorch)
- Używa 30–50% mniej RAM na tym samym modelu
- Dostarczany jako pojedynczy
.exe— łatwiejszy do zabudowania w skrypty lub inne aplikacje - Dostępny tryb przesyłania dla transkrypcji prawie w czasie rzeczywistym
Kroki instalacji Windows
Wstępnie skompilowane binarne Windows są dostępne na stronie wydań whisper.cpp na GitHub. Pobierz whisper-bin-x64.zip, rozpakuj, następnie pobierz model:
# Za pomocą PowerShell — pobiera mały model GGML
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"
Uruchom transkrypcję:
.\main.exe -m models\ggml-small.bin -f audio.wav -otxt
Uwaga: whisper.cpp wymaga wejścia WAV (16 kHz, mono, 16-bit PCM). Konwertuj najpierw za pomocą ffmpeg:
ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav
Metoda 3: Aplikacje GUI zbudowane na Whisper
Jeśli w ogóle nie chcesz terminala, kilka aplikacji GUI o otwartym kodzie źródłowym opakowuje Whisper do kliknij-i-transkrybuj na Windows:
Whisper Desktop — aplikacja .NET 6 Windows, która opakowuje whisper.cpp z interfejsem drag-and-drop. Obsługuje wybór modelu, język i przetwarzanie wsadowe. Nie wymaga Python; instalator dostępny na GitHub.
UI oparte na FasterWhisper — FasterWhisper to reimplementacja Python używająca CTranslate2, która działa 4× szybciej niż oryginał na CPU. Istnieje kilka opakowań GUI społeczności; szukaj „faster-whisper GUI Windows” na GitHub. Działają dobrze do transkrypcji wsadowych plików.
Subtitle Edit — popularny edytor napisów o otwartym kodzie źródłowym, który dodał integrację Whisper. Dobry do przepływów pracy dodawania napisów do wideo, gdzie chcesz wyjście SRT, które możesz ręcznie edytować.
Te aplikacje GUI dobrze pokrywają transkrypcję opartą na plikach. Luka, którą nie wypełniają: transkrypcja live w czasie rzeczywistym z skrótem, co prowadzi do następnej sekcji.
Metoda 4: VoxBooster (Bundle’owana, bez ustawiania Python)
Jeśli Twoim celem jest transkrypcja live — napisy podczas mówienia, dyktowanie do każdej aplikacji, napisy rozmowy — powyższe metody oparte na plikach nie są odpowiednie. Są zaprojektowane do przetwarzania ukończonego pliku audio, a nie ciągłego strumienia mikrofonu.
VoxBooster pakuje lokalną zamianę mowy na tekst na poziomie Whisper bezpośrednio w aplikacji. Bez środowiska Python, bez kreatora pobierania modelu, bez zależności ffmpeg. Instalujesz VoxBooster raz, a silnik transkrypcji jest gotowy w Dictation na pasku bocznym.
Praktyczne różnice w porównaniu z surową instalacją pip:
- Globalny skrót — przytrzymaj
Ctrl+Shift+Dw dowolnej aplikacji i mów; tekst pojawi się przy Twoim kursorze - Zintegrowane tłumienie szumu — oczyszcza wejście mikrofonu zanim dotrze do modelu mowy, co znacznie poprawia dokładność w hałaśliwych pokojach
- Bez terminala — wybór modelu i ustawienia języka są w GUI
- Zabudowany z voice changer, soundboard i voice clone — jeśli już używasz VoxBooster do zmiany głosu na Discordzie lub OBS, funkcja dyktowania to tylko kolejna karta
Aby uzyskać głębsze spojrzenie na przepływ pracy dyktowania, zobacz poradnik dyktowania głosowego na Windows.
Wybór między metodami
| pip Whisper | whisper.cpp | Aplikacje GUI | VoxBooster | |
|---|---|---|---|---|
| Python wymagany | Tak | Nie | Czasami | Nie |
| GPU wymagany | Nie (opcjonalnie) | Nie (opcjonalnie) | Nie (opcjonalnie) | Nie (opcjonalnie) |
| Live w czasie rzeczywistym | Nie | Częściowo | Nie | Tak |
| Globalny skrót | Nie | Nie | Nie | Tak |
| Transkrypcja wsadowa plików | Tak | Tak | Tak | Nie |
| Wyjście SRT/VTT | Tak | Tak | Tak | Nie |
| Złożoność instalacji | Średnia | Średnia | Niska | Niska |
Wybierz pip whisper jeśli potrzebujesz wyjścia SRT/VTT do napisów wideo, lub chcesz skryptować transkrypcję wsadową w Python. Wybierz whisper.cpp jeśli chcesz przenośny binarny z mniejszym obciążeniem pamięci. Wybierz aplikację GUI do transkrypcji pliku drag-and-drop. Wybierz VoxBooster jeśli chcesz dyktowanie live bez instalacji Python.
Podstawowe wzorce użycia CLI
Po uruchomieniu pakietu pip, te wzorce obejmują 90% rzeczywistych przypadków użycia.
Transkrybuj nagranie spotkania do napisów SRT
whisper meeting.mp4 --model medium --language en --output_format srt
Whisper może bezpośrednio czytać pliki wideo (wewnętrznie wywołuje ffmpeg). Wyjście: meeting.srt w tym samym folderze.
Transkrybuj folder plików audio
for %f in (*.mp3) do whisper "%f" --model small --output_format txt
Uruchom w Command Prompt (nie PowerShell — składnia pętli for się różni). Każdy plik otrzymuje swoje własne wyjście .txt.
Wymusz tłumaczenie na angielski
whisper french_audio.mp3 --model small --task translate
--task translate wyświetla angielski niezależnie od języka wejścia. Przydatne do wielojęzycznych wywiadów.
Określ katalog wyjściowy
whisper audio.mp3 --model small --output_dir C:\Transcripts
Typowe błędy i rozwiązania
No module named 'whisper'
Zainstalowałeś whisper w innym środowisku Python niż aktualnie aktywne. Uruchom py -0 aby wyświetlić wszystkie instalacje Python, aktywuj właściwe virtualenv, następnie zainstaluj ponownie. Możliwe też: zainstalowałeś za pomocą pip3, ale uruchamiasz za pomocą py.
FileNotFoundError: [WinError 2] ffmpeg
ffmpeg nie jest w Twoim PATH. Zainstaluj przez winget install Gyan.FFmpeg, zamknij i ponownie otwórz terminal, następnie potwierdź za pomocą ffmpeg -version.
CUDA out of memory
Uruchamiasz model zbyt duży dla VRAM Twojej karty graficznej. Spróbuj następny rozmiar w dół, lub dodaj --fp16 False aby wymusić FP32 (używa więcej VRAM, ale czasami naprawia problemy alokacji na niektórych buildach CUDA). Alternatywnie, uruchom na CPU za pomocą --device cpu.
RuntimeError: Expected all tensors to be on the same device
Niezgodność wersji PyTorch CUDA. Zainstaluj ponownie PyTorch z poprawnym sufiksem CUDA dla Twojej wersji sterownika. Sprawdź swój sterownik za pomocą nvidia-smi i sprawdź krzyżowo na pytorch.org/get-started/locally.
Wyjście jest nieczytelne lub w złym języku
Whisper automatycznie wykrywa język z pierwszych 30 sekund audio. Jeśli Twój plik ma ciszę lub szum na początku, detencja zawiedzie. Napraw: dodaj --language en (lub docelowy język) jawnie.
Transkrypcja jest powolna nawet z GPU
Potwierdź, że Whisper rzeczywiście używa CUDA: dodaj --device cuda do Twojego polecenia. Jeśli widzisz FP16 is not supported on CPU; using FP32 instead w wyjściu, CUDA nie jest używane — sprawdź ponownie swoją instalację PyTorch.
Whisper vs. Inne opcje transkrypcji na Windows
Warto wiedzieć, z czym porównujesz się, zanim się zaangażujesz w konfigurację:
Wbudowana zamiana mowy na tekst Windows / dyktowanie (Win+H) — szybka i dobrze zintegrowana, ale dokładność pozostaje w tyle na akcentach, specjalistycznym słownictwie i angielszczyźnie spoza USA. Częściowa zależność chmury w trybie domyślnym. Bez wyjścia SRT.
Dragon NaturallySpeaking / Dragon Professional — historycznie punkt odniesienia dla dokładności, silna dla przepływów pracy dyktowania, ale droga ($300–$500), tylko Windows i powolna w dodawaniu słownictwa do nowych domeny. Przetwarzanie lokalne, co jest plusem.
Otter.ai, Rev, transkrypcja Descript — oparte na chmurze, subskrypcjonowane, naprawdę dobra dokładność, ale audio opuszcza Twoją maszynę. Nieżywe dla prywatnych spotkań, nagrań prawnych, lub czegokolwiek poufnego.
Azure Cognitive Services / Google Speech-to-Text — developer API, oparte na chmurze, płatność za minutę. Dokładne, ale wymaga kodu i połączenia internetowego. Nie jest lokalnym odpowiednikiem instalacji whisper i dokładność transkrypcji whisper jest konkurencyjna przy zerowych ciągłych kosztach.
Mocne strony Whisper w porównaniu ze wszystkimi powyższymi: bezpłatny, w pełni lokalny, otwarte wagi źródłowe, które możesz zweryfikować, mocne wsparcie wielojęzyczne i dokładność konkurencyjna z usługami płatnymi na czystym audio. Jego słabość: brak natywnego trybu przesyłania w czasie rzeczywistym w pakiecie Python i instalacja wymaga pewnego komfortu CLI.
Prywatność: Dlaczego Local ma znaczenie dla transkrypcji
Gdy uruchamiasz Whisper lokalnie na Windows, audio nigdy nie dotyka serwera zewnętrznego. To ma znaczenie bardziej niż większość ludzi zdaje sobie sprawę — i jest to jeden z największych praktycznych argumentów na rzecz transkrypcji Whisper zamiast płatnych alternatyw chmury:
- Nagrania ze spotkań często zawierają poufne informacje biznesowe
- Dyktowanie medyczne i prawne podlega przepisom prywatności (HIPAA, GDPR, itp.)
- Wywiady dziennikarskie i rozmowy źródłowe nigdy nie powinny trafiać do API chmury
- Osobiste notatki głosowe, wpisy dziennika, transkrypty sesji terapeutycznych — rzeczy, które wolałbyś nie mieć na czyimś serwerze
Usługi transkrypcji w chmurze mają polityki prywatności, ale „nie sprzedajemy Twoich danych” i „możemy używać anonimowego audio do ulepszania modeli” to różne stwierdzenia. Z lokalną instalacją whisper na Windows, odpowiedź na oba jest nieistotna — audio pozostaje na Twoim dysku.
FAQ
Czy OpenAI Whisper działa offline na Windows? Tak. Po pobraniu wag modelu, Whisper działa w 100% lokalnie — nie jest wymagane połączenie internetowe. Pobieranie początkowe wynosi od 75 MB (tiny) do 3,09 GB (large-v3). Po tym transkrypcja odbywa się w całości na Twoim CPU lub GPU bez żadnych danych opuszczających Twoją maszynę.
Jakiego GPU potrzebuję do transkrypcji Whisper na Windows? GPU jest opcjonalne, ale znacznie przyspiesza proces. W przypadku modelu small wystarczy 2 GB VRAM. Medium wymaga 5 GB, large-v3 wymaga 10 GB. Na samym CPU model bazowy transkrybuje w przybliżeniu 10–15× szybciej niż czas rzeczywisty na nowoczesnym i5/Ryzen 5, co oznacza, że jedna minuta audio zajmuje około 4–6 sekund.
Jaka jest różnica między rozmiarami modelu Whisper? Whisper dostępny jest w pięciu rozmiarach — tiny, base, small, medium i large (z wariantami large-v2 i large-v3). Większe modele są dokładniejsze, ale wolniejsze i cięższe. Dla większości użytkowników Windows, small daje najlepszy stosunek dokładności do szybkości: ~244 MB, dobra dokładność wielojęzyczna, działa na CPU w przybliżeniu w czasie rzeczywistym na nowoczesnym sprzęcie.
Czy mogę użyć Whisper do transkrypcji live w czasie rzeczywistym na Windows? Oryginalny pakiet Python Whisper jest oparty na plikach i nie jest przeznaczony do czasu rzeczywistego. whisper.cpp ma tryb przesyłania, ale konfiguracja jest złożona. Do naprawdę niskoopóźnieniowej transkrypcji live — napisów podczas mówienia, dyktowania, napisów podczas rozmowy — łatwiej jest użyć aplikacji bundle’owanej jak VoxBooster: dokładność na poziomie Whisper bez wymagania środowiska Python.
Jak dokładny jest OpenAI Whisper w porównaniu z Dragon NaturallySpeaking lub Dyktowaniem Windows? Na czystym audio, Whisper large-v3 osiąga współczynniki błędów słów poniżej 5% w większości języków, konkurencyjny z Dragon Professional i lepszy niż wbudowane dyktowanie Windows w przypadku specjalistycznego słownictwa, akcentów i treści wielojęzycznych. Dokładność spada w warunkach hałaśliwych, ale połączenie Whisper z tłumieniem szumu przywraca większość dokładności.
Co to jest whisper.cpp i dlaczego miałbym go użyć zamiast pakietu Python? whisper.cpp to port C/C++ modelu Whisper, który działa bez Python lub CUDA. Na Windows używa wag skwantyzowanych GGML i może wykorzystywać DirectML lub OpenBLAS do przyspieszenia. Uruchamia się szybciej, zużywa mniej RAM i jest łatwiejszy do zintegrowania w inne aplikacje niż pakiet Python.
Jak naprawić błąd „No module named whisper” na Windows? Zwykle oznacza to, że instalacja pip przeszła do innego środowiska Python niż to, z którego się uruchamia. Sprawdź za pomocą „py -0” aby wyświetlić zainstalowane wersje Python, aktywuj właściwe virtualenv, a następnie zainstaluj ponownie: „pip install openai-whisper”. Sprawdź również, czy masz ffmpeg w PATH — Whisper go potrzebuje do dekodowania plików audio.
Podsumowanie: Jaka instalacja transkrypcji Whisper jest dla Ciebie odpowiednia?
Jeśli potrzebujesz transkrypcji pliku wsadowego z wyjściem SRT/VTT — do napisów wideo, nagrań spotkań, notatek z podcastów — instalacja openai whisper na Windows oparta na pip to najnigówniejsza ścieżka. Dodaj obsługę CUDA dla Twojego GPU i otrzymasz przepustowość prawie w czasie rzeczywistym nawet na medium.
Jeśli chcesz mniejszy rozmiar pliku lub budujesz skrypt, który wywołuje whisper jako podproces, whisper.cpp z wagami GGML jest czystszą opcją dla lokalnej instalacji whisper na Windows — bez Python, bez CUDA, tylko binarny i plik modelu.
Jeśli chcesz lokalną integrację zamiany mowy na tekst Windows bez żadnej pracy terminalowej — konkretnie dyktowanie live do aplikacji — VoxBooster pakuje tę samą dokładność na poziomie Whisper z globalnym skrótem i zintegrowanym tłumieniem szumu. Bez Python, bez wirtualnych środowisk, bez rozwiązywania problemów ffmpeg. Jest to szczególnie przydatne, jeśli już używasz aplikacji do zmiany głosu lub pracy soundboard; funkcja transkrypcji whisper desktop to tylko kolejna karta w tym samym interfejsie.
Zacznij od modelu small niezależnie od wybranej ścieżki. Otrzymasz 80% drogi do jakości large-v3 za ułamek kosztu obliczeniowego. Możesz zawsze uaktualnić później, gdy wiesz, jaki poziom dokładności Twój przepływ pracy naprawdę wymaga.
Aby zapoznać się z opcjami cen i planów, zobacz voxbooster.com/#pricing.