Jak skonfigurować transkrypcję Whisper na Windows (Lokalnie + Bezpłatnie)

Transkrypcja Whisper na Windows daje Ci dokładną, offline, zamianę mowy na tekst, która działa w całości na Twoim własnym sprzęcie — bez subskrypcji, bez wysyłania do chmury, bez opłaty za minutę. Ten poradnik obejmuje wszystko od wymagań wstępnych do użytku produkcyjnego: instalacja Python pip, lżejszy port whisper.cpp, gotowe aplikacje GUI oraz co robić, gdy chcesz transkrypcję live bez środowiska Python.

TL;DR

OpenAI Whisper to darmowy model rozpoznawania mowy o otwartym kodzie źródłowym z pięcioma poziomami rozmiaru (tiny → large-v3)
Zainstaluj za pomocą pip install openai-whisper na Python 3.9–3.12; wymaga ffmpeg w PATH
whisper.cpp to lżejszy port C++ — bez Python, działa na CPU za pośrednictwem kwantyzacji GGML
GPU (CUDA) zmniejsza czas transkrypcji do zbliżonego do czasu rzeczywistego nawet na dużych modelach; CPU działa dobrze dla modelu small
Do transkrypcji live bez żadnej instalacji Python, VoxBooster pakuje lokalne STT na poziomie Whisper z globalnym skrótem
Typowe błędy: brakujący ffmpeg, zła zmienna środowiska Python, niezgodność wersji CUDA

Co to jest transkrypcja Whisper?

OpenAI Whisper to otwarty system rozpoznawania mowy (ASR) wytrenowany na 680 000 godzin wielojęzycznych nagrań. Wydany we wrześniu 2022 r. i stale ulepszhany, działa jako model lokalny — co oznacza, że Twoje pliki audio nigdy nie opuszczają Twój komputer. Obsługuje 99 języków, automatycznie dodaje znaki interpunkcyjne i osiąga współczynniki błędów słów poniżej 5% na czystym angielskim audio z modelem large-v3.

W przeciwieństwie do usług w chmurze (Otter.ai, Rev, warstwa transkrypcji Descript), Whisper na Windows nie ma kosztu za minutę i nie musisz martwić się polityką danych. Transkrypcja Whisper jest naprawdę bezpłatna po pobraniu wag modelu.

Wymagania wstępne przed instalacją

Zanim wybierzesz metodę instalacji, załóż te zależności:

Python 3.9–3.12. Oficjalny pakiet Whisper wymaga Python. Sprawdź, czy go masz:

py --version

Jeśli nie, pobierz najnowszy instalator 3.12 z python.org. Podczas instalacji zaznacz opcję „Add Python to PATH” — to jest ważne.

ffmpeg. Whisper używa ffmpeg do dekodowania plików audio i wideo. Bez niego otrzymasz FileNotFoundError lub pusty wynik na wszystkim innym niż surowy WAV. Najszybsza metoda instalacji na Windows 10/11:

winget install Gyan.FFmpeg

Następnie otwórz nowy terminal i sprawdź: ffmpeg -version.

GPU (opcjonalne, ale rekomendowane). Whisper działa na CPU, ale GPU z CUDA firmy NVIDIA robi ogromną różnicę. W przypadku modelu large, transkrypcja pliku 10-minutowego na nowoczesnym komputerze zajmuje 3–6 minut; na GPU klasy średniej (RTX 3060, 12 GB VRAM) zajmuje około 40 sekund. Więcej na temat rozmiarów modeli i wymagań VRAM w poniższej tabeli.

Rozmiary modelu Whisper: Który wybrać

Model	Parametry	VRAM (FP16)	Szybkość względna	Błąd słów ENG	Najlepiej do
tiny	39 M	~1 GB	~32× czas rzeczywisty	~5,7%	Szybkie szkice, sprzęt niskoklasowy
base	74 M	~1 GB	~16× czas rzeczywisty	~4,2%	Szybkie notatki, transmisja live
small	244 M	~2 GB	~6× czas rzeczywisty	~3,0%	Większość użytkowników — najlepszy stosunek
medium	769 M	~5 GB	~2× czas rzeczywisty	~2,2%	Profesjonalna transkrypcja
large-v3	1550 M	~10 GB	~1× czas rzeczywisty	~1,6%	Akcenty, wielojęzyczność, medycyna

„Współczynnik czasu rzeczywistego” (RTF) tutaj oznacza wnioskowanie GPU na NVIDIA A100. Na konsumenckim RTX 3080, pomnóż w przybliżeniu przez 3–4×. Na CPU, pomnóż ponownie przez 10–20×.

Dla większości użytkowników Windows: zacznij od small. Działa w przybliżeniu w czasie rzeczywistym na nowoczesnym CPU, lepiej obsługuje akcenty niż base i mieści się w 2 GB RAM/VRAM. Jeśli dokładność na gęstym słownictwie technicznym ma znaczenie (prawo, medycyna, przeglądy kodu), następnie przetestuj medium.

Metoda 1: instalacja pip (Oficjalny pakiet Python)

To kanoniczna instalacja openai whisper na Windows — prosta, jeśli czujesz się swobodnie z terminalem. Daje Ci największą elastyczność: pełny dostęp do API Python, wszystkie formaty wyjściowe (txt, srt, vtt, json, tsv) i łatwą integrację z innymi skryptami.

Krok 1 — Utwórz wirtualne środowisko (rekomendowane)

py -m venv whisper-env
whisper-env\Scripts\activate

To izoluje zależności Whisper od Twojego systemowego Python.

Krok 2 — Zainstaluj Whisper

pip install openai-whisper

To pobiera bibliotekę modelu i jej zależności (PyTorch, tiktoken, tqdm, more-itertools). Spodziewaj się pobrania 1–3 GB przy pierwszym uruchomieniu, w tym PyTorch.

Krok 3 — Zainstaluj PyTorch z CUDA (jeśli masz GPU NVIDIA)

Domyślny PyTorch z powyższego polecenia jest tylko dla CPU. Do przyspieszenia GPU:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Dopasuj sufiks cu121 do zainstalowanej wersji CUDA (nvidia-smi to pokazuje). Zobacz macierz instalacji PyTorch jeśli jesteś niepewny.

Krok 4 — Uruchom swoją pierwszą transkrypcję

whisper my_audio.mp3 --model small

Pierwsze uruchomienie pobiera wagi modelu (~244 MB dla small). Kolejne uruchomienia są natychmiastowe. Wyjście: plik .txt, .srt i .vtt obok Twojego audio.

Krok 5 — Przydatne flagi

# Wymusz angielski (pomiń automatyczną detencję języka, lekko szybciej)
whisper audio.mp3 --model small --language en

# Wyjście tylko czysty tekst
whisper audio.mp3 --model small --output_format txt

# Transkrybuj konkretny segment (sekundy)
whisper audio.mp3 --model small --clip_timestamps "30,90"

# Użyj urządzenia GPU jawnie
whisper audio.mp3 --model medium --device cuda

Metoda 2: whisper.cpp (Bez wymagania Python)

whisper.cpp to reimplementacja C/C++ silnika wnioskowania Whisper. Działa bez Python, CUDA lub PyTorch. Na Windows używa wag skwantyzowanych GGML — tego samego formatu używanego przez llama.cpp — i może przyspieszać przez OpenBLAS (CPU) lub DirectML (GPU AMD/Intel/NVIDIA bez CUDA).

Dlaczego go użyć zamiast pakietu Python?

Uruchamia się w mniej niż sekundę (bez inicjalizacji PyTorch)
Używa 30–50% mniej RAM na tym samym modelu
Dostarczany jako pojedynczy .exe — łatwiejszy do zabudowania w skrypty lub inne aplikacje
Dostępny tryb przesyłania dla transkrypcji prawie w czasie rzeczywistym

Kroki instalacji Windows

Wstępnie skompilowane binarne Windows są dostępne na stronie wydań whisper.cpp na GitHub. Pobierz whisper-bin-x64.zip, rozpakuj, następnie pobierz model:

# Za pomocą PowerShell — pobiera mały model GGML
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

Uruchom transkrypcję:

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

Uwaga: whisper.cpp wymaga wejścia WAV (16 kHz, mono, 16-bit PCM). Konwertuj najpierw za pomocą ffmpeg:

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

Metoda 3: Aplikacje GUI zbudowane na Whisper

Jeśli w ogóle nie chcesz terminala, kilka aplikacji GUI o otwartym kodzie źródłowym opakowuje Whisper do kliknij-i-transkrybuj na Windows:

Whisper Desktop — aplikacja .NET 6 Windows, która opakowuje whisper.cpp z interfejsem drag-and-drop. Obsługuje wybór modelu, język i przetwarzanie wsadowe. Nie wymaga Python; instalator dostępny na GitHub.

UI oparte na FasterWhisper — FasterWhisper to reimplementacja Python używająca CTranslate2, która działa 4× szybciej niż oryginał na CPU. Istnieje kilka opakowań GUI społeczności; szukaj „faster-whisper GUI Windows” na GitHub. Działają dobrze do transkrypcji wsadowych plików.

Subtitle Edit — popularny edytor napisów o otwartym kodzie źródłowym, który dodał integrację Whisper. Dobry do przepływów pracy dodawania napisów do wideo, gdzie chcesz wyjście SRT, które możesz ręcznie edytować.

Te aplikacje GUI dobrze pokrywają transkrypcję opartą na plikach. Luka, którą nie wypełniają: transkrypcja live w czasie rzeczywistym z skrótem, co prowadzi do następnej sekcji.

Metoda 4: VoxBooster (Bundle’owana, bez ustawiania Python)

Jeśli Twoim celem jest transkrypcja live — napisy podczas mówienia, dyktowanie do każdej aplikacji, napisy rozmowy — powyższe metody oparte na plikach nie są odpowiednie. Są zaprojektowane do przetwarzania ukończonego pliku audio, a nie ciągłego strumienia mikrofonu.

VoxBooster pakuje lokalną zamianę mowy na tekst na poziomie Whisper bezpośrednio w aplikacji. Bez środowiska Python, bez kreatora pobierania modelu, bez zależności ffmpeg. Instalujesz VoxBooster raz, a silnik transkrypcji jest gotowy w Dictation na pasku bocznym.

Praktyczne różnice w porównaniu z surową instalacją pip:

Globalny skrót — przytrzymaj Ctrl+Shift+D w dowolnej aplikacji i mów; tekst pojawi się przy Twoim kursorze
Zintegrowane tłumienie szumu — oczyszcza wejście mikrofonu zanim dotrze do modelu mowy, co znacznie poprawia dokładność w hałaśliwych pokojach
Bez terminala — wybór modelu i ustawienia języka są w GUI
Zabudowany z voice changer, soundboard i voice clone — jeśli już używasz VoxBooster do zmiany głosu na Discordzie lub OBS, funkcja dyktowania to tylko kolejna karta

Aby uzyskać głębsze spojrzenie na przepływ pracy dyktowania, zobacz poradnik dyktowania głosowego na Windows.

Wybór między metodami

	pip Whisper	whisper.cpp	Aplikacje GUI	VoxBooster
Python wymagany	Tak	Nie	Czasami	Nie
GPU wymagany	Nie (opcjonalnie)	Nie (opcjonalnie)	Nie (opcjonalnie)	Nie (opcjonalnie)
Live w czasie rzeczywistym	Nie	Częściowo	Nie	Tak
Globalny skrót	Nie	Nie	Nie	Tak
Transkrypcja wsadowa plików	Tak	Tak	Tak	Nie
Wyjście SRT/VTT	Tak	Tak	Tak	Nie
Złożoność instalacji	Średnia	Średnia	Niska	Niska

Wybierz pip whisper jeśli potrzebujesz wyjścia SRT/VTT do napisów wideo, lub chcesz skryptować transkrypcję wsadową w Python. Wybierz whisper.cpp jeśli chcesz przenośny binarny z mniejszym obciążeniem pamięci. Wybierz aplikację GUI do transkrypcji pliku drag-and-drop. Wybierz VoxBooster jeśli chcesz dyktowanie live bez instalacji Python.

Podstawowe wzorce użycia CLI

Po uruchomieniu pakietu pip, te wzorce obejmują 90% rzeczywistych przypadków użycia.

Transkrybuj nagranie spotkania do napisów SRT

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper może bezpośrednio czytać pliki wideo (wewnętrznie wywołuje ffmpeg). Wyjście: meeting.srt w tym samym folderze.

Transkrybuj folder plików audio

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

Uruchom w Command Prompt (nie PowerShell — składnia pętli for się różni). Każdy plik otrzymuje swoje własne wyjście .txt.

Wymusz tłumaczenie na angielski

whisper french_audio.mp3 --model small --task translate

--task translate wyświetla angielski niezależnie od języka wejścia. Przydatne do wielojęzycznych wywiadów.

Określ katalog wyjściowy

whisper audio.mp3 --model small --output_dir C:\Transcripts

Typowe błędy i rozwiązania

No module named 'whisper' Zainstalowałeś whisper w innym środowisku Python niż aktualnie aktywne. Uruchom py -0 aby wyświetlić wszystkie instalacje Python, aktywuj właściwe virtualenv, następnie zainstaluj ponownie. Możliwe też: zainstalowałeś za pomocą pip3, ale uruchamiasz za pomocą py.

FileNotFoundError: [WinError 2] ffmpeg ffmpeg nie jest w Twoim PATH. Zainstaluj przez winget install Gyan.FFmpeg, zamknij i ponownie otwórz terminal, następnie potwierdź za pomocą ffmpeg -version.

CUDA out of memory Uruchamiasz model zbyt duży dla VRAM Twojej karty graficznej. Spróbuj następny rozmiar w dół, lub dodaj --fp16 False aby wymusić FP32 (używa więcej VRAM, ale czasami naprawia problemy alokacji na niektórych buildach CUDA). Alternatywnie, uruchom na CPU za pomocą --device cpu.

RuntimeError: Expected all tensors to be on the same device Niezgodność wersji PyTorch CUDA. Zainstaluj ponownie PyTorch z poprawnym sufiksem CUDA dla Twojej wersji sterownika. Sprawdź swój sterownik za pomocą nvidia-smi i sprawdź krzyżowo na pytorch.org/get-started/locally.

Wyjście jest nieczytelne lub w złym języku Whisper automatycznie wykrywa język z pierwszych 30 sekund audio. Jeśli Twój plik ma ciszę lub szum na początku, detencja zawiedzie. Napraw: dodaj --language en (lub docelowy język) jawnie.

Transkrypcja jest powolna nawet z GPU Potwierdź, że Whisper rzeczywiście używa CUDA: dodaj --device cuda do Twojego polecenia. Jeśli widzisz FP16 is not supported on CPU; using FP32 instead w wyjściu, CUDA nie jest używane — sprawdź ponownie swoją instalację PyTorch.

Whisper vs. Inne opcje transkrypcji na Windows

Warto wiedzieć, z czym porównujesz się, zanim się zaangażujesz w konfigurację:

Wbudowana zamiana mowy na tekst Windows / dyktowanie (Win+H) — szybka i dobrze zintegrowana, ale dokładność pozostaje w tyle na akcentach, specjalistycznym słownictwie i angielszczyźnie spoza USA. Częściowa zależność chmury w trybie domyślnym. Bez wyjścia SRT.

Dragon NaturallySpeaking / Dragon Professional — historycznie punkt odniesienia dla dokładności, silna dla przepływów pracy dyktowania, ale droga ($300–$500), tylko Windows i powolna w dodawaniu słownictwa do nowych domeny. Przetwarzanie lokalne, co jest plusem.

Otter.ai, Rev, transkrypcja Descript — oparte na chmurze, subskrypcjonowane, naprawdę dobra dokładność, ale audio opuszcza Twoją maszynę. Nieżywe dla prywatnych spotkań, nagrań prawnych, lub czegokolwiek poufnego.

Azure Cognitive Services / Google Speech-to-Text — developer API, oparte na chmurze, płatność za minutę. Dokładne, ale wymaga kodu i połączenia internetowego. Nie jest lokalnym odpowiednikiem instalacji whisper i dokładność transkrypcji whisper jest konkurencyjna przy zerowych ciągłych kosztach.

Mocne strony Whisper w porównaniu ze wszystkimi powyższymi: bezpłatny, w pełni lokalny, otwarte wagi źródłowe, które możesz zweryfikować, mocne wsparcie wielojęzyczne i dokładność konkurencyjna z usługami płatnymi na czystym audio. Jego słabość: brak natywnego trybu przesyłania w czasie rzeczywistym w pakiecie Python i instalacja wymaga pewnego komfortu CLI.

Prywatność: Dlaczego Local ma znaczenie dla transkrypcji

Gdy uruchamiasz Whisper lokalnie na Windows, audio nigdy nie dotyka serwera zewnętrznego. To ma znaczenie bardziej niż większość ludzi zdaje sobie sprawę — i jest to jeden z największych praktycznych argumentów na rzecz transkrypcji Whisper zamiast płatnych alternatyw chmury:

Nagrania ze spotkań często zawierają poufne informacje biznesowe
Dyktowanie medyczne i prawne podlega przepisom prywatności (HIPAA, GDPR, itp.)
Wywiady dziennikarskie i rozmowy źródłowe nigdy nie powinny trafiać do API chmury
Osobiste notatki głosowe, wpisy dziennika, transkrypty sesji terapeutycznych — rzeczy, które wolałbyś nie mieć na czyimś serwerze

Usługi transkrypcji w chmurze mają polityki prywatności, ale „nie sprzedajemy Twoich danych” i „możemy używać anonimowego audio do ulepszania modeli” to różne stwierdzenia. Z lokalną instalacją whisper na Windows, odpowiedź na oba jest nieistotna — audio pozostaje na Twoim dysku.

FAQ

Czy OpenAI Whisper działa offline na Windows? Tak. Po pobraniu wag modelu, Whisper działa w 100% lokalnie — nie jest wymagane połączenie internetowe. Pobieranie początkowe wynosi od 75 MB (tiny) do 3,09 GB (large-v3). Po tym transkrypcja odbywa się w całości na Twoim CPU lub GPU bez żadnych danych opuszczających Twoją maszynę.

Jakiego GPU potrzebuję do transkrypcji Whisper na Windows? GPU jest opcjonalne, ale znacznie przyspiesza proces. W przypadku modelu small wystarczy 2 GB VRAM. Medium wymaga 5 GB, large-v3 wymaga 10 GB. Na samym CPU model bazowy transkrybuje w przybliżeniu 10–15× szybciej niż czas rzeczywisty na nowoczesnym i5/Ryzen 5, co oznacza, że jedna minuta audio zajmuje około 4–6 sekund.

Jaka jest różnica między rozmiarami modelu Whisper? Whisper dostępny jest w pięciu rozmiarach — tiny, base, small, medium i large (z wariantami large-v2 i large-v3). Większe modele są dokładniejsze, ale wolniejsze i cięższe. Dla większości użytkowników Windows, small daje najlepszy stosunek dokładności do szybkości: ~244 MB, dobra dokładność wielojęzyczna, działa na CPU w przybliżeniu w czasie rzeczywistym na nowoczesnym sprzęcie.

Czy mogę użyć Whisper do transkrypcji live w czasie rzeczywistym na Windows? Oryginalny pakiet Python Whisper jest oparty na plikach i nie jest przeznaczony do czasu rzeczywistego. whisper.cpp ma tryb przesyłania, ale konfiguracja jest złożona. Do naprawdę niskoopóźnieniowej transkrypcji live — napisów podczas mówienia, dyktowania, napisów podczas rozmowy — łatwiej jest użyć aplikacji bundle’owanej jak VoxBooster: dokładność na poziomie Whisper bez wymagania środowiska Python.

Jak dokładny jest OpenAI Whisper w porównaniu z Dragon NaturallySpeaking lub Dyktowaniem Windows? Na czystym audio, Whisper large-v3 osiąga współczynniki błędów słów poniżej 5% w większości języków, konkurencyjny z Dragon Professional i lepszy niż wbudowane dyktowanie Windows w przypadku specjalistycznego słownictwa, akcentów i treści wielojęzycznych. Dokładność spada w warunkach hałaśliwych, ale połączenie Whisper z tłumieniem szumu przywraca większość dokładności.

Co to jest whisper.cpp i dlaczego miałbym go użyć zamiast pakietu Python? whisper.cpp to port C/C++ modelu Whisper, który działa bez Python lub CUDA. Na Windows używa wag skwantyzowanych GGML i może wykorzystywać DirectML lub OpenBLAS do przyspieszenia. Uruchamia się szybciej, zużywa mniej RAM i jest łatwiejszy do zintegrowania w inne aplikacje niż pakiet Python.

Jak naprawić błąd „No module named whisper” na Windows? Zwykle oznacza to, że instalacja pip przeszła do innego środowiska Python niż to, z którego się uruchamia. Sprawdź za pomocą „py -0” aby wyświetlić zainstalowane wersje Python, aktywuj właściwe virtualenv, a następnie zainstaluj ponownie: „pip install openai-whisper”. Sprawdź również, czy masz ffmpeg w PATH — Whisper go potrzebuje do dekodowania plików audio.

Podsumowanie: Jaka instalacja transkrypcji Whisper jest dla Ciebie odpowiednia?

Jeśli potrzebujesz transkrypcji pliku wsadowego z wyjściem SRT/VTT — do napisów wideo, nagrań spotkań, notatek z podcastów — instalacja openai whisper na Windows oparta na pip to najnigówniejsza ścieżka. Dodaj obsługę CUDA dla Twojego GPU i otrzymasz przepustowość prawie w czasie rzeczywistym nawet na medium.

Jeśli chcesz mniejszy rozmiar pliku lub budujesz skrypt, który wywołuje whisper jako podproces, whisper.cpp z wagami GGML jest czystszą opcją dla lokalnej instalacji whisper na Windows — bez Python, bez CUDA, tylko binarny i plik modelu.

Jeśli chcesz lokalną integrację zamiany mowy na tekst Windows bez żadnej pracy terminalowej — konkretnie dyktowanie live do aplikacji — VoxBooster pakuje tę samą dokładność na poziomie Whisper z globalnym skrótem i zintegrowanym tłumieniem szumu. Bez Python, bez wirtualnych środowisk, bez rozwiązywania problemów ffmpeg. Jest to szczególnie przydatne, jeśli już używasz aplikacji do zmiany głosu lub pracy soundboard; funkcja transkrypcji whisper desktop to tylko kolejna karta w tym samym interfejsie.

Zacznij od modelu small niezależnie od wybranej ścieżki. Otrzymasz 80% drogi do jakości large-v3 za ułamek kosztu obliczeniowego. Możesz zawsze uaktualnić później, gdy wiesz, jaki poziom dokładności Twój przepływ pracy naprawdę wymaga.

Aby zapoznać się z opcjami cen i planów, zobacz voxbooster.com/#pricing.