Whisper-Transkription unter Windows einrichten (Lokal + Kostenlos)

Whisper-Transkription unter Windows bietet dir genaue, offline Spracherkennung, die vollständig auf deiner eigenen Hardware läuft — ohne Abo, ohne Cloud-Upload, ohne Pro-Minute-Gebühren. Diese Anleitung behandelt alles von Voraussetzungen bis zur Produktivnutzung: die Python-pip-Installation, die leichtere Portierung whisper.cpp, sofort einsatzbereite GUI-Apps und was du tun kannst, wenn du Live-Transkription ohne Python-Umgebung möchtest.

TL;DR

OpenAI Whisper ist ein kostenloses, Open-Source-Spracherkennungsmodell mit fünf Größenstufen (tiny → large-v3)
Installation via pip install openai-whisper auf Python 3.9–3.12; benötigt ffmpeg in PATH
whisper.cpp ist eine leichtere C++-Portierung — kein Python, läuft auf CPU via GGML-Quantisierung
GPU (CUDA) reduziert Transkriptionszeit auf nahezu Echtzeit auch bei großen Modellen; CPU funktioniert gut für das kleine Modell
Für Live-Transkription ohne Python-Setup bündelt VoxBooster Whisper-ähnliche lokale Spracherkennung mit globalem Hotkey
Häufige Fehler: fehlendes ffmpeg, falsche Python-Umgebung, CUDA-Versionsmismatch

Was ist Whisper-Transkription?

OpenAI Whisper ist ein Open-Source-System zur automatischen Spracherkennung (ASR), das auf 680.000 Stunden mehrsprachiger Audio trainiert wurde. Nach der Veröffentlichung im September 2022 und kontinuierlichen Verbesserungen seitdem läuft es als lokales Modell — das bedeutet, deine Audiodateien verlassen niemals deinen PC. Es verarbeitet 99 Sprachen, setzt automatisch Satzzeichen und erreicht Wortfehlerquoten unter 5 % bei sauberer englischer Audio mit dem large-v3-Modell.

Im Gegensatz zu Cloud-Diensten (Otter.ai, Rev, Descripts Transkriptionsebene) hat Whisper auf Windows keine Pro-Minute-Kosten und keine Datenschutzrichtlinien zu beachten. Whisper-Transkription ist wirklich kostenlos, sobald die Modellgewichte heruntergeladen sind.

Voraussetzungen vor der Installation

Bevor du dich für eine Installationsmethode entscheidest, kümmere dich um diese Abhängigkeiten:

Python 3.9–3.12. Das offizielle Whisper-Paket benötigt Python. Überprüfe, ob du es hast:

py --version

Wenn nicht, lade das neueste 3.12-Installationsprogramm von python.org herunter. Während der Installation aktiviere „Python zu PATH hinzufügen” — das ist wichtig.

ffmpeg. Whisper nutzt ffmpeg zur Dekodierung von Audio- und Videodateien. Ohne ffmpeg erhältst du FileNotFoundError oder leere Ausgabe bei allem, das kein reines WAV ist. Die schnellste Installationsmethode unter Windows 10/11:

winget install Gyan.FFmpeg

Öffne dann ein neues Terminal und verifiziere: ffmpeg -version.

Eine GPU (optional, aber empfohlen). Whisper läuft auf der CPU, aber eine CUDA-fähige NVIDIA-GPU macht einen großen Unterschied. Für das große Modell dauert die CPU-Transkription einer 10-Minuten-Datei 3–6 Minuten auf einem modernen Desktop; auf einer Mid-Range-GPU (RTX 3060, 12 GB VRAM) dauert es etwa 40 Sekunden. Weitere Informationen zu Modellgrößen und VRAM-Anforderungen in der Tabelle unten.

Whisper-Modellgrößen: Welche solltest du wählen?

Modell	Parameter	VRAM (FP16)	Relative Geschwindigkeit	English WER	Am besten für
tiny	39 M	~1 GB	~32× Echtzeit	~5,7%	Schnelle Entwürfe, Hardware mit niedriger Leistung
base	74 M	~1 GB	~16× Echtzeit	~4,2%	Schnelle Notizen, Live-Streaming
small	244 M	~2 GB	~6× Echtzeit	~3,0%	Meiste Nutzer — bestes Preis-Leistungs-Verhältnis
medium	769 M	~5 GB	~2× Echtzeit	~2,2%	Professionelle Transkription
large-v3	1550 M	~10 GB	~1× Echtzeit	~1,6%	Akzente, Mehrsprachigkeit, Medizin

„Real-time factor” (RTF) bedeutet hier GPU-Inferenz auf einer NVIDIA A100. Auf einer Consumer-RTX 3080 multipliziere ungefähr mit 3–4×. Auf CPU, multipliziere etwa 10–20× erneut.

Für die meisten Windows-Benutzer: starten mit small. Es läuft auf einer modernen CPU nahezu Echtzeit, verarbeitet Akzente besser als base und passt in 2 GB RAM/VRAM. Wenn Genauigkeit bei dichtem technischem Vokabular wichtig ist (Rechtswesen, Medizin, Code-Reviews), teste medium danach.

Methode 1: pip-Installation (Offizielles Python-Paket)

Dies ist die kanonische openai-whisper-windows-Installation — unkompliziert, wenn du dich mit einem Terminal wohlfühlst. Sie bietet dir maximale Flexibilität: vollen Python-API-Zugriff, alle Ausgabeformate (txt, srt, vtt, json, tsv) und einfache Integration mit anderen Skripten.

Schritt 1 — Erstelle eine virtuelle Umgebung (empfohlen)

py -m venv whisper-env
whisper-env\Scripts\activate

Dies isoliert Whispers Abhängigkeiten von deinem System-Python.

Schritt 2 — Installiere Whisper

pip install openai-whisper

Dies zieht die Modellbibliothek und ihre Abhängigkeiten (PyTorch, tiktoken, tqdm, more-itertools). Erwarte beim ersten Durchlauf 1–3 GB Downloads einschließlich PyTorch.

Schritt 3 — Installiere PyTorch mit CUDA (falls du eine NVIDIA-GPU hast)

Das Standard-PyTorch aus dem obigen Befehl ist nur für CPU. Für GPU-Beschleunigung:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

Wähle das cu121-Suffix passend zu deiner installierten CUDA-Version (nvidia-smi zeigt sie). Siehe die PyTorch-Installationsmatrix, wenn du unsicher bist.

Schritt 4 — Führe deine erste Transkription durch

whisper my_audio.mp3 --model small

Beim ersten Durchlauf werden die Modellgewichte heruntergeladen (~244 MB für small). Nachfolgende Durchläufe sind sofort. Ausgabe: eine .txt-, .srt- und .vtt-Datei neben deinem Audio.

Schritt 5 — Nützliche Flags

# Erzwinge Englisch (überspringe Spracherkennung, etwas schneller)
whisper audio.mp3 --model small --language en

# Nur einfacher Text
whisper audio.mp3 --model small --output_format txt

# Transkribiere ein bestimmtes Segment (Sekunden)
whisper audio.mp3 --model small --clip_timestamps "30,90"

# Nutze GPU-Gerät explizit
whisper audio.mp3 --model medium --device cuda

Methode 2: whisper.cpp (Kein Python erforderlich)

whisper.cpp ist eine C/C++-Reimplementierung des Whisper-Inferenzmotors. Sie läuft ohne Python, CUDA oder PyTorch. Auf Windows nutzt sie GGML-quantisierte Gewichte — das gleiche Format wie llama.cpp — und kann durch OpenBLAS (CPU) oder DirectML (AMD/Intel/NVIDIA-GPUs ohne CUDA) beschleunigt werden.

Warum solltest du es statt des Python-Pakets verwenden?

Startet in unter einer Sekunde (keine PyTorch-Initialisierung)
Nutzt 30–50 % weniger RAM auf dem gleichen Modell
Wird als einzige .exe ausgeliefert — einfacher in Skripte oder andere Apps einzubinden
Streaming-Modus verfügbar für nahezu Echtzeit-Transkription

Windows-Installationsschritte

Vorgefertigte Windows-Binärdateien sind auf der whisper.cpp-Releases-Seite auf GitHub verfügbar. Lade whisper-bin-x64.zip herunter, extrahiere es, und lade dann ein Modell herunter:

# Nutzen von PowerShell — lädt das kleine GGML-Modell herunter
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

Führe Transkription aus:

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

Hinweis: whisper.cpp erfordert WAV-Eingabe (16 kHz, mono, 16-Bit PCM). Konvertiere zuerst mit ffmpeg:

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

Methode 3: GUI-Apps basierend auf Whisper

Wenn du überhaupt kein Terminal möchtest, wrappen mehrere Open-Source-GUI-Apps Whisper für ein Klick-zum-Transkribieren-Erlebnis auf Windows:

Whisper Desktop — eine .NET-6-Windows-App, die whisper.cpp mit einer Drag-and-Drop-Schnittstelle einwickelt. Unterstützt Modellauswahl, Sprache und Batch-Verarbeitung. Benötigt kein Python; Installationsprogramm verfügbar auf GitHub.

FasterWhisper-basierte UIs — FasterWhisper ist eine Python-Reimplementierung mit CTranslate2, die 4× schneller als das Original auf der CPU läuft. Mehrere Community-GUI-Wrapper existieren; suche nach „faster-whisper GUI Windows” auf GitHub. Diese funktionieren gut für Batch-Datei-Transkription.

Subtitle Edit — ein beliebter Open-Source-Untertitel-Editor, der Whisper-Integration hinzugefügt hat. Gut für Video-Untertitelungs-Workflows, bei denen du SRT-Ausgabe möchtest, die du manuell anpassen kannst.

Diese GUI-Apps decken dateibasierte Transkription gut ab. Die Lücke, die sie nicht füllen: Live-Transkription in Echtzeit mit einem Hotkey, was zum nächsten Abschnitt führt.

Methode 4: VoxBooster (Gebündelt, Keine Python-Einrichtung)

Wenn dein Ziel Live-Transkription ist — Untertitel während du sprichst, Diktat in jede App, Anruf-Untertitelung — sind die dateibasierten Methoden oben nicht die richtige Wahl. Sie sind für die Verarbeitung einer abgeschlossenen Audiodatei ausgelegt, nicht für einen kontinuierlichen Mikrofonstrom.

VoxBooster bündelt Whisper-ähnliche lokale Spracherkennung direkt in der App. Keine Python-Umgebung, kein Modell-Download-Assistent, keine ffmpeg-Abhängigkeit. Du installierst VoxBooster einmal und die Transkriptions-Engine ist bereit unter Dictation in der Seitenleiste.

Praktische Unterschiede zur rohen pip-Installation:

Globaler Hotkey — halte Ctrl+Shift+D in jeder App und sprich; Text erscheint an deinem Cursor
Integrierte Lärmunterdrückung — bereinigt das Mikrofon-Eingangssignal, bevor es das Sprachmodell erreicht, was die Genauigkeit in lauten Räumen erheblich verbessert
Kein Terminal — Modellauswahl und Spracheinstellungen sind in einer GUI
Gebündelt mit Voice-Changer, Soundboard und Voice-Clone — wenn du VoxBooster bereits für Discord Voice-Changing oder OBS nutzt, ist die Diktier-Funktion nur ein weiterer Tab

Für einen tieferen Blick auf den Diktier-Arbeitsablauf, siehe den Anleitung zur Sprachdiktat unter Windows.

Wahl zwischen den Methoden

	pip Whisper	whisper.cpp	GUI-Apps	VoxBooster
Python erforderlich	Ja	Nein	Manchmal	Nein
GPU benötigt	Nein (optional)	Nein (optional)	Nein (optional)	Nein (optional)
Live-Echtzeit	Nein	Teilweise	Nein	Ja
Globaler Hotkey	Nein	Nein	Nein	Ja
Batch-Datei-Transkription	Ja	Ja	Ja	Nein
SRT/VTT-Ausgabe	Ja	Ja	Ja	Nein
Installationskomplexität	Mittel	Mittel	Niedrig	Niedrig

Wähle pip whisper, wenn du SRT/VTT-Ausgabe für Video-Untertitel brauchst, oder wenn du Batch-Transkription in Python skripten möchtest. Wähle whisper.cpp, wenn du eine tragbare Binärdatei mit niedrigerem Speicher-Overhead möchtest. Wähle eine GUI-App für Drag-and-Drop-Datei-Transkription. Wähle VoxBooster, wenn du Live-Diktat ohne Python-Installation möchtest.

Grundlegende CLI-Nutzungsmuster

Sobald das pip-Paket funktioniert, decken diese Muster 90 % der echten Anwendungsfälle ab.

Transkribiere eine Meeting-Aufzeichnung zu SRT-Untertiteln

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper kann Videodateien direkt lesen (es ruft intern ffmpeg auf). Ausgabe: meeting.srt im gleichen Ordner.

Transkribiere einen Ordner mit Audiodateien

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

Führe in der Eingabeaufforderung aus (nicht PowerShell — die for-Schleife-Syntax ist unterschiedlich). Jede Datei erhält ihre eigene .txt-Ausgabe.

Erzwinge Übersetzung zu Englisch

whisper french_audio.mp3 --model small --task translate

--task translate gibt Englisch aus, unabhängig von der Eingabesprache. Nützlich für mehrsprachige Interviews.

Gib Ausgabeverzeichnis an

whisper audio.mp3 --model small --output_dir C:\Transcripts

Häufige Fehler und Fixes

No module named 'whisper' Du hast whisper in einer anderen Python-Umgebung installiert als der Umgebung, die gerade aktiv ist. Führe py -0 aus, um alle Python-Installationen aufzulisten, aktiviere die richtige virtualenv, dann neu installieren. Auch möglich: Du hast mit pip3 installiert, aber führst mit py aus.

FileNotFoundError: [WinError 2] ffmpeg ffmpeg ist nicht in deinem PATH. Installiere via winget install Gyan.FFmpeg, schließe und öffne dein Terminal erneut, dann verifiziere mit ffmpeg -version.

CUDA out of memory Du führst ein Modell aus, das zu groß für den VRAM deiner GPU ist. Versuche die nächste Größe herunter, oder füge --fp16 False hinzu, um FP32 zu erzwingen (nutzt mehr VRAM, behebt aber manchmal Allokationsprobleme bei bestimmten CUDA-Builds). Alternativ laufe auf CPU mit --device cpu.

RuntimeError: Expected all tensors to be on the same device PyTorch-CUDA-Versionsmismatch. Installiere PyTorch mit dem korrekten CUDA-Suffix für deine Treiberversion neu. Überprüfe deinen Treiber mit nvidia-smi und kreuzverweis bei pytorch.org/get-started/locally.

Ausgabe ist verzerrt oder in der falschen Sprache Whisper erkennt die Sprache aus den ersten 30 Sekunden Audio automatisch. Wenn deine Datei Stille oder Rauschen am Anfang hat, schlägt die Erkennung fehl. Fix: Füge --language en (oder deine Zielsprache) explizit hinzu.

Transkription ist langsam, auch mit einer GPU Bestätige, dass Whisper wirklich CUDA nutzt: Füge --device cuda deinem Befehl hinzu. Wenn du in der Ausgabe FP16 is not supported on CPU; using FP32 instead siehst, wird CUDA nicht genutzt — überprüfe deine PyTorch-Installation erneut.

Whisper im Vergleich zu anderen Windows-Transkriptionsoptionen

Es lohnt sich zu wissen, was du vergleichst, bevor du dich auf eine Einrichtung festlegst:

Eingebaute Windows-Spracherkennung / Diktat (Win+H) — schnell und gut integriert, aber Genauigkeit hinkt bei Akzenten, technischem Vokabular und nicht-US-Englisch hinterher. Teilweise Cloud-Abhängigkeit im Standard-Modus. Keine SRT-Ausgabe.

Dragon NaturallySpeaking / Dragon Professional — historisch der Genauigkeits-Benchmark, stark für Diktier-Arbeitsabläufe, aber teuer (300–500 USD), nur Windows, und langsam beim Hinzufügen von Vokabular für neue Bereiche. Lokale Verarbeitung, was ein Plus ist.

Otter.ai, Rev, Descript-Transkription — Cloud-basiert, Abo-Preis, wirklich gute Genauigkeit, aber Audio verlässt dein Gerät. Nicht machbar für private Meetings, rechtliche Aufnahmen oder alles unter NDA.

Azure Cognitive Services / Google Speech-to-Text — Developer-APIs, Cloud-basiert, bezahlung pro Minute. Genau, aber benötigt Code und eine Internetverbindung. Nicht equivalent zu einer lokalen whisper-Installation, und whisper-Transkriptions-Genauigkeit ist konkurrenzfähig bei Null laufenden Kosten.

Whispers Stärken gegenüber allen oben: kostenlos, vollständig lokal, Open-Source-Gewichte, die du verifizieren kannst, starke mehrsprachige Unterstützung und Genauigkeit, die mit bezahlten Diensten auf sauberer Audio konkurrenzfähig ist. Seine Schwäche: kein nativer Echtzeit-Streaming-Modus im Python-Paket, und Setup erfordert etwas CLI-Komfort.

Datenschutz: Warum lokal bei der Transkription wichtig ist

Wenn du Whisper lokal auf Windows läufst, berührt Audio keinen externen Server. Das ist wichtiger als die meisten Leute denken — und es ist eines der stärksten praktischen Argumente für Whisper-Transkription über bezahlte Cloud-Alternativen:

Meeting-Aufzeichnungen enthalten oft vertrauliche Geschäftsinformationen
Medizinisches und rechtliches Diktat unterliegt Datenschutzbestimmungen (HIPAA, DSGVO, etc.)
Journalisten-Interviews und Quellen-Gespräche sollten niemals zu Cloud-APIs gehen
Persönliche Sprachnoten, Tagebucheinträge, Therapie-Session-Abschriften — Dinge, die du lieber nicht auf dem Server von jemand anderem hättest

Cloud-Transkriptionsdienste haben Datenschutzrichtlinien, aber „wir verkaufen deine Daten nicht” und „wir können anonymisierte Audio zur Modellverbesserung verwenden” sind unterschiedliche Aussagen. Mit einer lokalen whisper-Installation auf Windows ist die Antwort auf beide irrelevant — die Audio bleibt auf deiner Festplatte.

FAQ

Läuft OpenAI Whisper offline auf Windows? Ja. Sobald du die Modellgewichte heruntergeladen hast, läuft Whisper 100 % lokal — es ist keine Internetverbindung erforderlich. Der initiale Download reicht von 75 MB (tiny) bis 3,09 GB (large-v3). Danach findet die Transkription vollständig auf deiner CPU oder GPU statt, ohne dass Daten dein Gerät verlassen.

Welche GPU brauchst du für Whisper-Transkription auf Windows? Eine GPU ist optional, beschleunigt die Verarbeitung aber erheblich. Für das kleine Modell genügen 2 GB VRAM. Medium benötigt 5 GB, large-v3 benötigt 10 GB. Bei reiner CPU-Nutzung transkribiert das Basis-Modell auf einem modernen i5/Ryzen 5 etwa 10–15× schneller als Echtzeit, das heißt, eine Minute Audio braucht etwa 4–6 Sekunden.

Was ist der Unterschied zwischen Whisper-Modellgrößen? Whisper gibt es in fünf Größen — tiny, base, small, medium und large (mit large-v2 und large-v3 Varianten). Größere Modelle sind genauer, aber langsamer und speicherhungriger. Für die meisten Windows-Benutzer bietet small das beste Verhältnis zwischen Genauigkeit und Geschwindigkeit: ~244 MB, gute mehrsprachige Genauigkeit, läuft auf der CPU etwa in Echtzeit auf moderner Hardware.

Kann ich Whisper für Live-Transkription in Echtzeit auf Windows nutzen? Das ursprüngliche Python-Whisper-Paket ist dateibasiert und nicht für Echtzeit ausgelegt. whisper.cpp hat einen Streaming-Modus, aber die Einrichtung ist komplex. Für echte Low-Latency-Live-Transkription — Untertitel während du sprichst, Diktat, Anruf-Untertitelung — ist eine gebündelte App wie VoxBooster einfacher: Whisper-ähnliche Genauigkeit ohne Python-Umgebung erforderlich.

Wie genau ist OpenAI Whisper im Vergleich zu Dragon NaturallySpeaking oder Windows-Diktat? Bei sauberer Audioqualität erreicht Whisper large-v3 Wortfehlerquoten unter 5 % in den meisten Sprachen, vergleichbar mit Dragon Professional und besser als die Windows-Diktat-Funktion bei technischem Vokabular, Akzenten und mehrsprachigen Inhalten. Die Genauigkeit nimmt in lauter Umgebung ab, aber die Kombination von Whisper mit Lärmunterdrückung stellt die meiste davon wieder her.

Was ist whisper.cpp und warum sollte ich es statt des Python-Pakets verwenden? whisper.cpp ist eine C/C++-Portierung des Whisper-Modells, die ohne Python oder CUDA läuft. Auf Windows nutzt es GGML-quantisierte Gewichte und kann durch DirectML oder OpenBLAS beschleunigt werden. Es startet schneller, verwendet weniger RAM und lässt sich einfacher in andere Apps integrieren als das Python-Paket.

Wie behebe ich den Fehler „No module named whisper” auf Windows? Das bedeutet normalerweise, dass die pip-Installation in einer anderen Python-Umgebung stattgefunden hat als der Umgebung, die du gerade nutzt. Prüfe mit ‘py -0’, welche Pythons installiert sind, aktiviere die richtige virtualenv, und installiere neu: ‘pip install openai-whisper’. Stelle auch sicher, dass ffmpeg in PATH ist — Whisper benötigt es zur Dekodierung von Audiodateien.

Fazit: Welches Whisper-Transkriptions-Setup ist richtig für dich?

Wenn du Batch-Datei-Transkription mit SRT/VTT-Ausgabe brauchst — für Video-Untertitel, Meeting-Aufzeichnungen, Podcast-Show-Notizen — ist die pip-basierte openai-whisper-windows-Installation der flexibelste Weg. Füge CUDA-Unterstützung für deine GPU hinzu und du erhältst nahezu Echtzeit-Durchsatz auch auf medium.

Wenn du einen kleineren Speicher-Abdruck möchtest oder ein Skript erstellst, das whisper als Subprocess aufruft, ist whisper.cpp mit GGML-Gewichten die sauberere Option für eine whisper-lokale-Installation auf Windows — kein Python, kein CUDA, nur eine Binärdatei und eine Modelldatei.

Wenn du lokale Spracherkennung in Windows ohne Terminalarbeit möchtest — speziell Live-Diktat in Apps — bündelt VoxBooster die gleiche Whisper-ähnliche Genauigkeit mit einem globalen Hotkey und integrierter Lärmunterdrückung. Kein Python, keine virtuellen Umgebungen, kein ffmpeg-Troubleshooting. Es ist besonders nützlich, wenn du die App bereits für Voice-Changing oder Soundboard-Arbeit nutzt; die whisper-Desktop-Transkriptions-Funktion ist nur ein weiterer Tab in der gleichen Oberfläche.

Starten mit dem kleinen Modell, unabhängig davon, welchen Weg du nimmst. Es bringt dich 80 % zum large-v3-Quality auf einen Bruchteil der Rechenkosten. Du kannst später immer upgraden, sobald du weißt, welches Genauigkeitsniveau dein Arbeitsablauf wirklich benötigt.

Für Preisgestaltung und Planoptionen siehe voxbooster.com/#pricing.