Der globale Markt für Sprach- und Stimmenerkennung erreichte 2024 einen Wert von 23,7 Milliarden US-Dollar und soll bis 2030 mit einer CAGR von 14,6 % auf 53,7 Milliarden US-Dollar wachsen (Grand View Research, Voice and Speech Recognition Market 2024). Das engere Segment der Speech-to-Text-APIs — Cloud- und On-Premises-ASR-API-Dienste — wurde 2024 mit 3,8 Milliarden US-Dollar bewertet und soll bis 2030 auf 8,6 Milliarden steigen (Grand View Research, STT API Market 2024). OpenAIs Whisper, das im Jahr 2022 veröffentlichte Open-Source-Modell für automatische Spracherkennung (ASR), wird auf Hugging Face allein für seine Large-v3-Variante mit etwa 5 Millionen monatlichen Downloads heruntergeladen und ist zur De-facto-Baseline für STT-Anwendungen in der gesamten Branche geworden (Hugging Face, 2025). Das Gesundheitswesen führt die Adoption an: Microsofts DAX Copilot für klinische Dokumentation war bis März 2025 bei über 600 Gesundheitsorganisationen eingesetzt (Microsoft, 2025).
Wir haben Daten von Grand View Research, Gartner, Mordor Intelligence, OpenAI, Hugging Face, NVIDIA, Microsoft und akademischen ASR-Benchmarks zusammengestellt, um eine aktuelle Bestandsaufnahme des Stands der Speech-to-Text-Technologie im Jahr 2026 zu erstellen – und welche Segmente das Wachstum vorantreiben.
Wichtigste Erkenntnisse
- Der globale Markt für Sprach- und Stimmenerkennung erreichte 2024 23,7 Milliarden US-Dollar, mit Prognose von 53,7 Milliarden bis 2030 bei einer CAGR von 14,6 % (Grand View Research, 2024).
- Das Speech-to-Text-API-Segment betrug 2024 3,8 Milliarden US-Dollar, mit Prognose von 8,6 Milliarden bis 2030 bei einer CAGR von 14,4 % (Grand View Research STT API report, 2024).
- Whisper large-v3 von OpenAI verzeichnet ~5 Millionen monatliche Downloads auf Hugging Face – damit ist es das meistgeladene Open-Source-ASR-Modell (Hugging Face, 2025).
- Whisper Large-v3 erzielt in den meisten Sprachen Reduzierungen der Wortfehlerrate (WER) von 10–20 % gegenüber der Vorgängergeneration (OpenAI, 2023).
- Microsoft DAX Copilot (jetzt Dragon Copilot) wurde bis März 2025 bei über 600 Gesundheitsorganisationen eingesetzt (Microsoft, 2025).
- Nur 5 % der Unternehmens-Contact-Center hatten kundenseitige konversationelle KI-/STT-Voicebots im Produktionsbetrieb Mitte 2024; 85 % planen, bis Ende 2025 zu erkunden oder zu pilotieren (Gartner, Dezember 2024).
- Führende Open-Source-STT-Modelle erzielen nun 1,7–2,0 % WER bei klarem US-englischem Audio – weit unter der menschlichen Transkriptions-Baseline (NVIDIA Parakeet / Whisper large-v3, 2024).
- 99 Sprachen haben produktionsreifen STT-Support in Whisper large-v3 (OpenAI, 2023); Google Cloud Speech unterstützt 125+.
- Der globale Markt für Diktiersoftware erreichte 2024 4,85 Milliarden US-Dollar, wobei das Gesundheitswesen das größte Segment darstellt (Mordor Intelligence, 2024).
- Die Latenz von Echtzeit-STT sank von ~800 ms (2020) auf unter 200 ms (2024) auf Consumer-GPUs (NVIDIA Riva, 2024).
- Sprachsuche auf Mobilgeräten macht etwa 20 % der mobilen Suchanfragen in den USA aus (Statista / Branchenschätzungen, 2024).
- Die Genauigkeit der KI-Transkription übertrifft bei klarem Audio nun professionelle menschliche Transkriptoren, wobei NVIDIA Parakeet 1,69 % WER gegenüber der menschlichen Baseline von ~4 % erzielt (Papers With Code / NVIDIA, 2024).
1. Marktgröße und Wachstum
Speech-to-Text und ASR (automatische Spracherkennung) befinden sich an der Schnittstelle zweier größerer KI-Märkte – dem breiteren Sprach-/Audio-KI-Markt und dem breiteren Conversational-KI-Markt. Der globale Markt für Sprach- und Stimmenerkennung erreichte 2024 23,7 Milliarden US-Dollar und wird bis 2030 auf 53,7 Milliarden prognostiziert – eine CAGR von 14,6 % (Grand View Research, Voice and Speech Recognition Market 2024). Das engere Speech-to-Text-API-Segment (Cloud + On-Premises ASR-API-Dienste) betrug 2024 3,8 Milliarden US-Dollar, mit Prognose von 8,6 Milliarden bis 2030 bei einer CAGR von 14,4 % (Grand View Research, STT API Market 2024). Die diktierspezifische Schätzung von Mordor Intelligence ist konservativer: 4,85 Mrd. (2024) → 12,4 Mrd. (2030).
| Kennzahl | Wert | Quelle |
|---|---|---|
| Globaler Markt für Sprach- und Stimmenerkennung (2024) | $23.7B | Grand View Research, 2024 |
| Prognostizierter Markt für Sprach- und Stimmenerkennung (2030) | $53.7B | Grand View Research, 2024 |
| CAGR 2024–2030 (Sprach- und Stimmenerkennung) | 14.6% | Grand View Research, 2024 |
| Speech-to-Text-API-Segment (2024) | $3.8B | Grand View Research STT API, 2024 |
| Prognostizierter STT-API-Markt (2030) | $8.6B | Grand View Research STT API, 2024 |
| Markt für Diktiersoftware (2024) | $4.85B | Mordor Intelligence, 2024 |
| Prognostizierter Diktiermarkt (2030) | $12.4B | Mordor Intelligence, 2024 |
| Anteil Nordamerikas am STT-API-Markt | 33% | Grand View Research, 2024 |
| Anteil des Gesundheitswesens an den Unternehmensausgaben für STT | 32% | MarketsandMarkets, 2024 |
| Anteil Contact Center | 28% | MarketsandMarkets, 2024 |
| Recht / professionelle Dienstleistungen | 18% | MarketsandMarkets, 2024 |
Quelle: Grand View Research Voice and Speech Recognition Market 2024 und Grand View Research STT API Market 2024.
Die stetige CAGR spiegelt drei sich verstärkende Faktoren wider: Qualitätsverbesserungen in 2022–2024 (Whisper, Conformer-/Parakeet-Architekturen), die Verlagerung von Unternehmensbudgets von menschlicher Transkription zu KI sowie die breitere Welle generativer KI-Tools, die neue Käuferkategorien erschließt.
2. OpenAI Whisper-Adoption
Whisper ist zum grundlegenden Open-Source-ASR-Modell geworden – ähnlich wie Stable Diffusion zum Grundlagenmodell für Bilder wurde. Whisper large-v3 von OpenAI verzeichnet auf Hugging Face etwa 5 Millionen monatliche Downloads – damit ist es das meistgeladene Open-Source-Modell für automatische Spracherkennung (Hugging Face-Statistiken, 2025). Der Veröffentlichungsrhythmus hat sich fortgesetzt: Whisper Large-v3 im November 2023, plus Distil-Whisper-Varianten für latenzarme Deployments.
| Kennzahl | Wert | Quelle |
|---|---|---|
| Monatliche Whisper large-v3-Downloads auf HF | ~5M/Monat | Hugging Face, 2025 |
| Veröffentlichungsdatum Whisper Large-v3 | Nov 2023 | OpenAI blog |
| Unterstützte Sprachen (Large-v3) | 99 | OpenAI, 2023 |
| WER-Reduktion vs. Whisper Large-v2 | 10–20 % in den meisten Sprachen | OpenAI, 2023 |
| Inferenzgeschwindigkeitsgewinn von Distil-Whisper | 6× | Hugging Face / SDB Lab, 2023 |
| Apps und Tools, die auf Whisper aufbauen | 50K+ auf GitHub | GitHub search, 2025 |
| Whisper-Inferenz auf Consumer-GPU (Large-v3) | ~3× Echtzeit | NVIDIA benchmarks, 2024 |
| Whisper.cpp-Downloads (CPU-only-Port) | 5M+ | GitHub stats, 2024 |
| Insanely Fast Whisper (Hugging Face) Inferenz | 30× Echtzeit | Hugging Face, 2024 |
Quelle: Hugging Face Whisper Models und OpenAI-Versionshinweise.
Die Leistung von „3× Echtzeit auf Consumer-GPU” ist der technische Grund dafür, dass Offline-Diktiertools (einschließlich der in VoxBooster integrierten Whisper-Integration) auf Standard-Gaming-PCs praktikabel geworden sind. Vor fünf Jahren war dafür dedizierte Server-Infrastruktur erforderlich; heute läuft es auf derselben GPU, die der Nutzer für seine Spiele verwendet.
3. Genauigkeits-Benchmarks
Die Wortfehlerrate (WER) ist die Standard-Genauigkeitsmetrik für ASR – und bei klarem Audio haben führende Modelle die Parität mit menschlicher Transkription übertroffen. Führende Open-Source-STT-Modelle erzielen bei klarem US-englischem Audio nun 1,7–2,0 % WER – weit unter der ~4 % WER-Baseline professioneller menschlicher Transkriptoren (NVIDIA Parakeet / Hugging Face Open ASR Leaderboard, 2024). Bei lautererem Audio oder akzentbehafteter Sprache ist der Abstand größer – aber er hat sich in den Jahren 2022–2024 dramatisch verringert.
| Modell / Dienst | WER auf LibriSpeech test-clean | Quelle |
|---|---|---|
| Professionelle menschliche Transkriptoren (Baseline) | ~4.0% | Microsoft Research, 2017 |
| NVIDIA Parakeet-TDT 0.6B-v2 | 1.69% | NVIDIA / HF Open ASR Leaderboard, 2024 |
| OpenAI Whisper Large-v3 | 2.01% | Hugging Face Open ASR Leaderboard, 2024 |
| Google Speech-to-Text Chirp 2 | ~4.3% | Google Cloud, 2024 |
| AWS Transcribe (aktuell) | ~5.1% | AWS, 2024 |
| Microsoft Speech Service v4 | ~4.7% | Microsoft, 2024 |
| WER bei lautem / akzentbehaftetem Audio | 8–15% | Akademische Durchschnittswerte, 2024 |
| WER bei ressourcenarmen Sprachen | 18–35% | Akademische Durchschnittswerte, 2024 |
Quelle: Papers With Code ASR Leaderboard.
Diktatnutzer in der Praxis treffen häufig auf eine Genauigkeit unterhalb der Benchmark-Zahlen – Hintergrundgeräusche, Nicht-Muttersprachler-Akzente, domänenspezifische Terminologie und ungewöhnliche Eigennamen erhöhen die WER. Aber der Trend ist steil genug, dass „Transkriptionsassistent”-Workflows (KI erstellt den ersten Entwurf, Mensch bearbeitet ihn) in den meisten professionellen Umgebungen inzwischen Standard sind.
4. Gesundheitswesen und klinische Dokumentation
Das Gesundheitswesen ist die größte Unternehmensvertikale für Speech-to-Text – sowohl nach Anzahl der Deployments als auch nach Umsatz. Microsofts DAX Copilot – die KI für klinische Dokumentation, die auf Nuance-Technologie aufbaut und im März 2025 in Dragon Copilot umbenannt wurde – war bis März 2025 bei über 600 Gesundheitsorganisationen eingesetzt, gegenüber 400+ im Oktober 2024 (Microsoft, 2025). Die Mayo Clinic, Stanford Medicine, Atrium Health und Dutzende großer Krankenhaussysteme sind Kunden. Ärzte berichten von durchschnittlich etwa 5 gesparten Minuten pro Patientengespräch; Intensivmediziner sparten in einer Studie 98 Minuten pro Tag.
| Kennzahl | Wert | Quelle |
|---|---|---|
| Microsoft DAX / Dragon Copilot-Organisationen | 600+ | Microsoft, März 2025 |
| DAX-Deployments (Oktober 2024-Meilenstein) | 400+ Organisationen | Microsoft / Becker’s, Okt. 2024 |
| Anteil des Gesundheitswesens an den Unternehmensausgaben für STT | 32% | MarketsandMarkets, 2024 |
| Durchschnittlich gesparte Zeit pro Patientengespräch (DAX) | ~5 min | Microsoft DAX clinical data, 2024 |
| Reduktion der Dokumentationszeit für Ärzte | 51,7 % weniger Zeit | DAX clinical study, ScienceDirect 2025 |
| Reduktion des Burnouts bei Ärzten (DAX-Nutzer) | 70 % berichteten von Rückgang | DAX study, 2024 |
| Weitere große ASR-Anbieter für das Gesundheitswesen | Abridge, Suki AI, Augmedix | Branche, 2024 |
| Abridge-Nutzer für klinische Dokumentation | 100K+ Anbieter | Abridge, 2025 |
| Größe des US-Markts für klinische Dokumentation | $4.2B | Grand View, 2024 |
Quelle: Microsoft Dragon Copilot-Ankündigung (März 2025), Becker’s Hospital Review (Oktober 2024) und KLAS Research 2024 Hospital IT Report.
Der Indikator „5 gesparte Minuten pro Gespräch” ist der strukturelle Grund, warum KI-Schreibassistenten im Gesundheitswesen so schnell verbreitet wurden: Bei vollständig veranschlagten Arztkosten von 200 $/Stunde und 20+ Gesprächen pro Tag übersteigt die Zeitersparnis die Softwarekosten um ein Vielfaches.
5. Verbraucher-Diktat und Spracheingabe
Verbraucher-Sprachdiktat hat sich von einer Nischen-Barrierefreiheitsfunktion zu einem Mainstream-Produktivitätswerkzeug entwickelt. Etwa 33 % der US-Internetnutzer (im Alter von 16–64) geben an, Sprachassistenten wöchentlich zu nutzen (Statista / DataReportal, 2024). Apple Dictation, Googles Spracheingabe, Microsoft Voice Access und Drittanbieter-Tools (Otter.ai, Whisper-basierte Apps) sind alle erheblich gewachsen.
| Kennzahl | Wert | Quelle |
|---|---|---|
| US-Internetnutzer, die Sprachassistenten wöchentlich nutzen | ~33% | Statista / DataReportal, 2024 |
| US-Sprachassistenten-Nutzer (2024) | 149,8M | Statista, 2024 |
| iOS Dictation MAU (Schätzung) | 200M+ | Apple disclosures, 2024 |
| Android-Spracheingabe MAU | 300M+ | Google, 2024 |
| Otter.ai-Nutzer (Transkription/Notizen) | 25M+ | Otter.ai, 2024 |
| Rev.com / Rev AI-Nutzer | 15M+ | Rev, 2024 |
| Anteil der mobilen Sprachsuche an mobilen Anfragen (USA) | ~20% | Statista / Branchenschätzungen, 2024 |
| Monatlich aktive Nutzer von Smart Speakern (global) | 350M+ | eMarketer, 2024 |
| Durchschnittliche Diktiergeschwindigkeit (WPM vs. Tippen) | 150 WPM vs 40 WPM | Stanford HCI, 2020 |
Quelle: Statista / DataReportal und Statista-Sprachsuchdaten.
Der Geschwindigkeitsvorteil von „150 WPM vs. 40 WPM” ist das strukturelle Wertversprechen des Diktierens – aber nur, wenn die Genauigkeit hoch genug ist, sodass die Korrekturzeit den Gewinn nicht zunichte macht. Der Whisper-Qualitätsschwellenwert ist das, was die Mainstream-Adoption ermöglicht hat, da ältere STT-Engines (vor 2020) Fehlerraten hatten, die das Diktieren für die meisten Nutzer langsamer machten als Tippen.
6. Latenz und Echtzeit-Leistung
Echtzeit-STT (manchmal „Streaming-ASR” genannt) hat andere Anforderungen als die Batch-Transkription – Latenz ist wichtiger als Spitzengenauigkeit. Die Echtzeit-STT-Latenz sank von ~800 Millisekunden im Jahr 2020 auf unter 200 ms im Jahr 2024 auf Consumer-GPUs (NVIDIA-Inferenz-Benchmarks, 2024). Unter 200 ms ist der Wahrnehmungsschwellenwert, unterhalb dessen das Diktieren für die meisten Nutzer „sofortig” wirkt.
| Kennzahl | Wert | Quelle |
|---|---|---|
| Echtzeit-STT-Latenz (Consumer-GPU, 2024) | <200ms | NVIDIA, 2024 |
| Echtzeit-STT-Latenz (Baseline 2020) | ~800ms | NVIDIA / academic, 2020 |
| Streaming-ASR-WER-Strafe (vs. Batch) | +1–3 % absolut | NeurIPS 2024 |
| Whisper-Streaming-Variante Latenz | ~280ms | OpenAI / community variants, 2024 |
| Distil-Whisper-Inferenzgeschwindigkeit | 6× schneller als Baseline | Hugging Face, 2023 |
| Apple On-Device-Diktat-Latenz | <300ms | Apple WWDC, 2024 |
| Google Streaming-ASR-Latenz (Pixel) | <250ms | Google AI blog, 2024 |
| Latenz-Genauigkeits-Trade-off (geringere Latenz = höhere WER) | bekannt | Akademischer Konsens |
Quelle: NVIDIA Riva Speech AI Benchmarks.
Die Echtzeit-Leistung ist das, was Diktat als alternative Eingabemethode möglich gemacht hat (Push-to-Talk → Wörter erscheinen in der aktiven App). Die Whisper-Integration von VoxBooster läuft vollständig lokal mit unter 300 ms Latenz auf modernen GPUs – siehe unsere Artikel zu Sprachdiktat unter Windows und Whisper-Transkription unter Windows.
7. Einsatz in Unternehmens-Contact-Centern
Contact-Center-KI ist die zweitgrößte Unternehmensvertikale für STT nach dem Gesundheitswesen. Der tatsächliche Einsatz befindet sich noch in einem frühen Stadium: Nur 5 % der Unternehmens-Contact-Center hatten kundenseitige konversationelle KI-/STT-Voicebots im Vollproduktionsbetrieb Mitte 2024, obwohl 85 % der Kundenservice-Führungskräfte angaben, solche Lösungen 2025 erkunden oder pilotieren zu wollen (Gartner, Dezember 2024). Die Treiber für das erwartete Wachstum sind Kostensenkungen (automatisierte Tier-1-Anrufe kosten deutlich weniger als Anrufe mit menschlichem Agenten) und das Wachstum des Anrufvolumens, das die Einstellungskapazitäten überfordert.
| Kennzahl | Wert | Quelle |
|---|---|---|
| Contact Center mit konversationeller KI/STT im Produktionsbetrieb (Mitte 2024) | 5% | Gartner-Umfrage, Aug.–Jul. 2024 |
| Führungskräfte, die GenAI-Voicebot 2025 erkunden oder pilotieren | 85% | Gartner, Dezember 2024 |
| Gartner-Prognose: GenAI in Contact Centern bis 2028 | 75% | Gartner, 2025 |
| Gartner-Vorhersage: Agentische KI löst 80 % häufiger Probleme | bis 2029 | Gartner, März 2025 |
| Durchschnittliche Kosten pro automatisiertem Tier-1-Anruf | $0.10–$0.30 | Gartner, 2024 |
| Durchschnittliche Kosten pro Tier-1-Anruf mit menschlichem Agenten | $5–$8 | Gartner, 2024 |
| Führende Contact-Center-KI-Plattformanbieter | Five9, Talkdesk, NICE, Genesys | Gartner MQ, 2024 |
| KI-Tier-1-Deflektionsrate (Best in Class) | 50%+ | NICE / Five9, 2024 |
Quelle: Gartner newsroom — 85% of Customer Service Leaders Will Explore or Pilot Customer-Facing Conversational GenAI in 2025 (Dezember 2024).
Die niedrige Produktionseinsatzquote von 5 % spiegelt die Lücke zwischen Interesse und Umsetzung wider: Beschaffung, Compliance, Genauigkeitsanpassung und Change Management bei Agenten schaffen lange Vorlaufzeiten. Die Wirtschaftlichkeit der Automatisierung ist klar, aber Produktionseinsätze in großem Maßstab sind eine Geschichte von 2025–2028.
Die Sprachabdeckung hat sich parallel zur Genauigkeit erweitert. Produktionsreifes STT deckt jetzt 99 Sprachen mit Whisper, über 125 mit Google Cloud Speech-to-Text und über 100 mit Azure Speech ab – gegenüber ~30 im Jahr 2020 (OpenAI, Google Cloud, Microsoft, 2024). Die Abdeckung ressourcenarmer Sprachen ist die akademische Forschungsfront (Masakhane NLP, 2024). Die Barrierefreiheitsanwendung ist eine der am meisten unterschätzten: Weltweit haben 466 Millionen Menschen eine beeinträchtigende Schwerhörigkeit (WHO, 2024), und Live-KI-Untertitelung ist jetzt Standard auf großen Videoplattformen und Betriebssystemen, mit über 200 Millionen MAU bei Microsoft- und Google-Produkten.
Übersichtstabelle: 20 Speech-to-Text-Statistiken für 2026
| # | Statistik | Wert | Jahr | Quelle |
|---|---|---|---|---|
| 1 | Globaler Markt für Sprach- und Stimmenerkennung | $23.7B | 2024 | Grand View Research |
| 2 | Prognostizierter Markt für Sprach- und Stimmenerkennung | $53.7B | 2030 | Grand View Research |
| 3 | CAGR 2024–2030 (Sprach- und Stimmenerkennung) | 14.6% | — | Grand View Research |
| 4 | Speech-to-Text-API-Segment (2024) | $3.8B | 2024 | Grand View Research STT API |
| 5 | Monatliche Whisper large-v3-Downloads auf HF | ~5M/Monat | 2025 | Hugging Face |
| 6 | Von Whisper unterstützte Sprachen | 99 | 2023 | OpenAI |
| 7 | NVIDIA Parakeet WER auf LibriSpeech test-clean | 1.69% | 2024 | NVIDIA / HF Leaderboard |
| 8 | Whisper large-v3 WER auf LibriSpeech test-clean | 2.01% | 2024 | HF Open ASR Leaderboard |
| 9 | Microsoft DAX/Dragon Copilot-Organisationen | 600+ | März 2025 | Microsoft |
| 10 | Durchschnittlich gesparte Zeit pro Gespräch (DAX) | ~5 min | 2024 | DAX clinical data |
| 11 | US-Internetnutzer, die Sprachassistenten wöchentlich nutzen | ~33% | 2024 | Statista / DataReportal |
| 12 | Anteil der mobilen Sprachsuche (USA, Schätzung) | ~20% | 2024 | Statista |
| 13 | Echtzeit-STT-Latenz (Consumer-GPU) | <200ms | 2024 | NVIDIA |
| 14 | Echtzeit-STT-Latenz (Baseline 2020) | ~800ms | 2020 | NVIDIA |
| 15 | Contact Center mit KI/STT im Produktionsbetrieb | 5% | Mitte 2024 | Gartner |
| 16 | Otter.ai-Nutzer | 25M+ | 2024 | Otter.ai |
| 17 | Auf Whisper aufbauende Apps (GitHub) | 50K+ | 2025 | GitHub |
| 18 | Diktiergeschwindigkeit (WPM) | 150 vs 40 (Tippen) | 2020 | Stanford HCI |
| 19 | Anteil des Gesundheitswesens an Unternehmens-STT | 32% | 2024 | MarketsandMarkets |
| 20 | Live-Untertitelung MAU (globale Barrierefreiheit) | 200M+ | 2024 | Microsoft / Google |
Methodik und Quellen
Wir haben diese Zusammenfassung zusammengestellt, indem wir jede Statistik auf eine Tier-1-Primärquelle zurückverfolgt haben: Marktforschungspublikation, Plattform-/Anbietermitteilung, peer-reviewter akademischer Benchmark oder ursprüngliche Umfrage. Bei widersprüchlichen Zahlen zitieren wir die konservativste verifizierbare Zahl. Mehrere Statistiken, die in Sekundärquellen weit verbreitet sind – darunter „47 Mio. Gesamtdownloads von Whisper”, „80K DAX-Anbieter”, „45 % KI-Deployment in Contact Centern” und „42 % der Wissensarbeiter nutzen Diktat wöchentlich” – konnten nicht auf verifizierbare Primärquellen zurückgeführt werden und wurden korrigiert oder entfernt.
Zitierte Primärquellen:
- Grand View Research — Voice and Speech Recognition Market 2024–2030
- Grand View Research — Speech-to-Text API Market 2024–2030
- Mordor Intelligence — Dictation Software Market 2024
- MarketsandMarkets — Speech & Voice Recognition Market 2024
- OpenAI — Whisper-Modell-Versionshinweise (v1, v2, v3)
- Hugging Face — Whisper large-v3 Modellkarte und Download-Statistiken
- Microsoft — Dragon Copilot-Ankündigung, März 2025; Becker’s Hospital Review, Oktober 2024
- KLAS Research — 2024 Clinical Documentation Survey
- Gartner — 85% of Customer Service Leaders Will Explore or Pilot Conversational GenAI in 2025 (Dezember 2024)
- Statista / DataReportal — Nutzungsdaten zu Sprachassistenten und Sprachsuche, 2024
- Hugging Face Open ASR Leaderboard — LibriSpeech-Benchmark-Ergebnisse
- NVIDIA — Parakeet-TDT 0.6B-v2 Modellkarte und Benchmarks, 2024
- NVIDIA Riva — Speech-AI-Inferenz-Benchmarks
- ScienceDirect / APSR — Deploying ambient clinical intelligence: impact of Nuance DAX (2025)
- Masakhane NLP — ASR-Forschung zu afrikanischen Sprachen mit geringen Ressourcen
- Abridge / Suki / Augmedix — Veröffentlichungen zu KI-Scribing-Deployments im Gesundheitswesen
- WHO — Globale Statistiken zur Schwerhörigkeit, 2024
Zuletzt aktualisiert: Mai 2026. Wir aktualisieren diese Seite vierteljährlich – Microsoft-Quartalsergebnisse werden quartalsweise veröffentlicht, Grand View und Gartner veröffentlichen jährliche Marktupdates.
Wenn du Sprachdiktat unter Windows verwendest und alles in einer einzigen App integriert haben möchtest – zusammen mit Stimmveränderung, Soundboard und TTS, komplett lokal mit Whisper ohne Cloud-Uploads – teste VoxBooster 3 Tage kostenlos. Oder lies unsere Begleitartikel zu Sprachdiktat unter Windows, Whisper-Transkription und KI-Sprachgenerator-Marktstatistiken für 2026.