Pasar global pengenalan suara dan pidato mencapai $23,7 miliar pada 2024 dan diproyeksikan mencapai $53,7 miliar pada 2030 pada CAGR 14,6% (Grand View Research, Voice and Speech Recognition Market 2024). Segmen API pidato-ke-teks yang lebih sempit (layanan API ASR cloud dan on-premises) dinilai $3,8 miliar pada 2024 dan diproyeksikan mencapai $8,6 miliar pada 2030 (Grand View Research, STT API Market 2024). Whisper OpenAI, model pengenalan pidato otomatis (ASR) open-source yang dirilis pada 2022, menerima sekitar 5 juta unduhan bulanan pada Hugging Face untuk varian large-v3 saja dan telah menjadi tolok ukur de facto untuk aplikasi STT di seluruh industri (Hugging Face, 2025). Layanan kesehatan memimpin adopsi: DAX Copilot Microsoft untuk dokumentasi klinis telah diterapkan ke 600+ organisasi kesehatan pada Maret 2025 (Microsoft, 2025).
Kami menarik data dari Grand View Research, Gartner, Mordor Intelligence, OpenAI, Hugging Face, NVIDIA, Microsoft, dan tolok ukur ASR akademik untuk membangun snapshot paling saat ini tentang di mana teknologi pidato-ke-teks berdiri pada 2026 dan segmen mana yang mendorong pertumbuhan.
Takeaway Kunci
- Pasar global pengenalan suara dan pidato mencapai $23,7 miliar pada 2024, diproyeksikan ke $53,7 miliar pada 2030 pada 14,6% CAGR (Grand View Research, 2024).
- Segmen API pidato-ke-teks yang lebih sempit adalah $3,8 miliar pada 2024, diproyeksikan ke $8,6 miliar pada 2030 pada 14,4% CAGR (laporan Grand View Research STT API, 2024).
- OpenAI Whisper large-v3 menerima ~5M unduhan bulanan pada Hugging Face, menjadikannya model ASR open-source yang paling diunduh (Hugging Face, 2025).
- Whisper Large-v3 mencapai 10-20% pengurangan word error rate (WER) di sebagian besar bahasa vs generasi sebelumnya (OpenAI, 2023).
- Microsoft DAX Copilot (sekarang Dragon Copilot) diterapkan ke 600+ organisasi kesehatan pada Maret 2025 (Microsoft, 2025).
- Hanya 5% pusat kontak perusahaan memiliki voicebot IA/STT percakapan menghadap pelanggan dalam produksi pada pertengahan 2024; 85% berencana menjelajahi atau pilot pada akhir 2025 (Gartner, Desember 2024).
- Model STT open-source terbaik sekarang mencapai 1,7-2,0% WER pada audio bahasa Inggris AS yang bersih, jauh di bawah tolok ukur transkripsi manusia profesional ~4% (NVIDIA Parakeet / Whisper large-v3, 2024).
- 99 bahasa memiliki dukungan STT kelas produksi di Whisper large-v3 (OpenAI, 2023); Google Cloud Speech mendukung 125+.
- Pasar perangkat lunak dictation global mencapai $4,85 miliar pada 2024, dengan layanan kesehatan sebagai vertikal terbesar (Mordor Intelligence, 2024).
- Latensi STT waktu nyata turun dari ~800ms (2020) ke di bawah 200ms (2024) pada GPU konsumen (NVIDIA Riva, 2024).
- Pencarian suara mobile menyumbang sekitar 20% dari kueri mobile di AS (Statista / perkiraan industri, 2024).
- Akurasi transkripsi AI sekarang melebihi transkripper manusia profesional pada audio bersih, dengan NVIDIA Parakeet mencapai 1,69% WER vs tolok ukur manusia ~4% (Papers With Code / NVIDIA, 2024).
1. Ukuran Pasar dan Pertumbuhan
Pidato-ke-teks dan ASR (pengenalan pidato otomatis) duduk di persimpangan dua pasar AI yang lebih besar - audio AI suara yang lebih luas dan AI percakapan yang lebih luas. Pasar global pengenalan suara dan pidato mencapai $23,7 miliar pada 2024 dan diproyeksikan $53,7 miliar pada 2030 - CAGR 14,6% (Grand View Research, Voice and Speech Recognition Market 2024). Segmen API pidato-ke-teks yang lebih sempit (API ASR cloud + on-premises) adalah $3,8 miliar pada 2024, diproyeksikan ke $8,6 miliar pada 2030 pada 14,4% CAGR (Grand View Research, STT API Market 2024). Perkiraan khusus dictation Mordor Intelligence lebih konservatif pada $4,85 miliar (2024) → $12,4 miliar (2030).
| Metrik | Nilai | Sumber |
|---|---|---|
| Pasar global pengenalan suara dan pidato (2024) | $23,7 miliar | Grand View Research, 2024 |
| Pasar pengenalan suara dan pidato yang diproyeksikan (2030) | $53,7 miliar | Grand View Research, 2024 |
| CAGR 2024-2030 (pengenalan suara dan pidato) | 14,6% | Grand View Research, 2024 |
| Segmen API pidato-ke-teks (2024) | $3,8 miliar | Grand View Research STT API, 2024 |
| Pasar STT API yang diproyeksikan (2030) | $8,6 miliar | Grand View Research STT API, 2024 |
| Pasar perangkat lunak dictation (2024) | $4,85 miliar | Mordor Intelligence, 2024 |
| Pasar dictation yang diproyeksikan (2030) | $12,4 miliar | Mordor Intelligence, 2024 |
| Bagian Amerika Utara dari pasar STT API | 33% | Grand View Research, 2024 |
| Bagian layanan kesehatan dari pengeluaran STT perusahaan | 32% | MarketsandMarkets, 2024 |
| Bagian pusat kontak | 28% | MarketsandMarkets, 2024 |
| Layanan hukum / profesional | 18% | MarketsandMarkets, 2024 |
Sumber: Grand View Research Voice and Speech Recognition Market 2024 dan Grand View Research STT API Market 2024.
CAGR yang stabil mencerminkan tiga faktor yang terdapat: perbaikan kualitas 2022-2024 (Whisper, arsitektur Conformer/Parakeet), pergeseran anggaran perusahaan dari transkripsi manusia ke AI, dan gelombang tooling AI generatif yang lebih luas membawa kategori pembeli baru.
2. Adopsi OpenAI Whisper
Whisper telah menjadi model ASR open-source fondasi dengan cara Stable Diffusion menjadi fondasi untuk gambar. OpenAI Whisper large-v3 menerima sekitar 5 juta unduhan bulanan pada Hugging Face - menjadikannya model pengenalan pidato otomatis open-source yang paling diunduh (statistik Hugging Face, 2025). Siklus rilis telah berlanjut: Whisper Large-v3 pada November 2023, plus varian Distil-Whisper untuk penyebaran latensi rendah.
| Metrik | Nilai | Sumber |
|---|---|---|
| Unduhan bulanan Whisper large-v3 HF | ~5 juta/bulan | Hugging Face, 2025 |
| Tanggal rilis Whisper Large-v3 | Nov 2023 | Blog OpenAI |
| Bahasa yang didukung (Large-v3) | 99 | OpenAI, 2023 |
| Pengurangan WER vs Whisper Large-v2 | 10-20% di sebagian besar bahasa | OpenAI, 2023 |
| Keuntungan kecepatan inferensi Distil-Whisper | 6× | Hugging Face / SDB Lab, 2023 |
| Aplikasi dan alat yang dibangun di atas Whisper | 50K+ di GitHub | Pencarian GitHub, 2025 |
| Inferensi Whisper pada GPU konsumen (Large-v3) | ~3× waktu nyata | Tolok ukur NVIDIA, 2024 |
| Unduhan Whisper.cpp (port CPU-only) | 5M+ | Statistik GitHub, 2024 |
| Inferensi Insanely Fast Whisper (Hugging Face) | 30× waktu nyata | Hugging Face, 2024 |
Sumber: Hugging Face Whisper Models dan catatan rilis OpenAI.
Performa “3× waktu nyata pada GPU konsumen” adalah alasan teknis mengapa alat dictation offline (termasuk integrasi Whisper bawaan VoxBooster) telah menjadi layak pada PC gaming standar. Lima tahun lalu, ini memerlukan infrastruktur server khusus; hari ini berjalan pada GPU yang sama yang menjalankan game pengguna.
3. Tolok Ukur Akurasi
Word error rate (WER) adalah metrik akurasi ASR standar - dan pada audio bersih, model terbaik telah melampaui paritas transkripsi manusia. Model STT open-source terbaik sekarang mencapai 1,7-2,0% WER pada audio bahasa Inggris AS yang bersih - jauh di bawah tolok ukur ~4% WER transkripper manusia profesional (NVIDIA Parakeet / Hugging Face Open ASR Leaderboard, 2024). Pada audio yang lebih berisik atau pidato yang diucapkan dengan aksen, gapnya lebih lebar - tetapi telah ditutup secara dramatis pada 2022-2024.
| Model / Layanan | WER pada test-clean LibriSpeech | Sumber |
|---|---|---|
| Transkripper manusia profesional (tolok ukur) | ~4,0% | Microsoft Research, 2017 |
| NVIDIA Parakeet-TDT 0.6B-v2 | 1,69% | NVIDIA / HF Open ASR Leaderboard, 2024 |
| OpenAI Whisper Large-v3 | 2,01% | Hugging Face Open ASR Leaderboard, 2024 |
| Google Speech-to-Text Chirp 2 | ~4,3% | Google Cloud, 2024 |
| AWS Transcribe (terbaru) | ~5,1% | AWS, 2024 |
| Layanan Microsoft Speech v4 | ~4,7% | Microsoft, 2024 |
| WER pada audio bising / diucapkan dengan aksen | 8-15% | Rata-rata akademik, 2024 |
| WER pada bahasa sumber daya rendah | 18-35% | Rata-rata akademik, 2024 |
Sumber: Papers With Code ASR Leaderboard.
Pengguna dictation dunia nyata sering mengalami akurasi di bawah angka tolok ukur - kebisingan latar belakang, aksen ESL, terminologi khusus domain, dan nama diri yang tidak umum semua mendorong WER lebih tinggi. Tetapi trajektorinya cukup curam sehingga alur kerja “asisten transkripsi” (AI menghasilkan draf pertama, manusia mengedit) sekarang standar di sebagian besar lingkungan profesional.
4. Layanan Kesehatan dan Dokumentasi Klinis
Layanan kesehatan adalah vertikal perusahaan STT terbesar menurut jumlah penerapan dan pendapatan. Microsoft DAX Copilot - AI dokumentasi klinis yang dibangun pada teknologi Nuance, diubah merek Dragon Copilot pada Maret 2025 - telah diterapkan ke 600+ organisasi kesehatan pada Maret 2025, naik dari 400+ pada Oktober 2024 (Microsoft, 2025). Mayo Clinic, Stanford Medicine, Atrium Health, dan puluhan sistem rumah sakit besar adalah pelanggan. Klinisi melaporkan menghemat sekitar 5 menit per pertemuan pasien rata-rata; spesialis perawatan kritis dalam satu studi menghemat 98 menit per hari.
| Metrik | Nilai | Sumber |
|---|---|---|
| Organisasi Microsoft DAX / Dragon Copilot | 600+ | Microsoft, Maret 2025 |
| Penerapan DAX (pencapaian Oktober 2024) | 400+ organisasi | Microsoft / Becker’s, Okt 2024 |
| Bagian layanan kesehatan dari pengeluaran STT perusahaan | 32% | MarketsandMarkets, 2024 |
| Waktu rata-rata dihemat per pertemuan pasien (DAX) | ~5 menit | Data klinis DAX, 2024 |
| Pengurangan waktu dokumentasi dokter | 51,7% lebih sedikit waktu | Studi klinis DAX, ScienceDirect 2025 |
| Pengurangan kelelahan dokter (pengguna DAX) | 70% penurunan dilaporkan | Studi DAX, 2024 |
| Vendor ASR layanan kesehatan utama lainnya | Abridge, Suki AI, Augmedix | Industri, 2024 |
| Pengguna dokumentasi klinis Abridge | 100K+ penyedia | Abridge, 2025 |
| Ukuran pasar dokumentasi klinis AS | $4,2 miliar | Grand View, 2024 |
Sumber: Pengumuman Microsoft Dragon Copilot (Maret 2025), Becker’s Hospital Review (Oktober 2024), dan laporan IT rumah sakit KLAS Research 2024.
Metrik “5 menit dihemat per pertemuan” adalah alasan struktural mengapa skrip IA layanan kesehatan telah menyebar dengan cepat - pada biaya dokter $200/jam sepenuhnya dimuat dan 20+ pertemuan per hari, penghematan waktu membayar perangkat lunak berkali-kali lipat.
5. Dictation Konsumen dan Input Suara
Dictation suara konsumen telah bergeser dari fitur aksesibilitas marjinal ke alat produktivitas arus utama. Kira-kira 33% pengguna internet AS (usia 16-64) melaporkan menggunakan asisten suara setiap minggu (Statista / DataReportal, 2024). Apple Dictation, pengetikan suara Google, Microsoft Voice Access, dan alat pihak ketiga (Otter.ai, aplikasi berbasis Whisper) semuanya berkembang secara material.
| Metrik | Nilai | Sumber |
|---|---|---|
| Pengguna internet AS menggunakan asisten suara setiap minggu | ~33% | Statista / DataReportal, 2024 |
| Pengguna asisten suara AS (2024) | 149,8 juta | Statista, 2024 |
| Dictation iOS MAU (estimasi) | 200 juta+ | Pengungkapan Apple, 2024 |
| Pengetikan suara Android MAU | 300 juta+ | Google, 2024 |
| Pengguna Otter.ai (transkripsi/catatan) | 25 juta+ | Otter.ai, 2024 |
| Pengguna Rev.com / Rev AI | 15 juta+ | Rev, 2024 |
| Bagian pencarian suara mobile dari kueri mobile (AS) | ~20% | Statista / perkiraan industri, 2024 |
| Pengguna aktif bulanan speaker pintar (global) | 350 juta+ | eMarketer, 2024 |
| Dictation WPM rata-rata (vs mengetik) | 150 WPM vs 40 WPM | Stanford HCI, 2020 |
Sumber: Survei Pew Research 2024 Digital Tools dan data pencarian suara Statista.
Keuntungan kecepatan “150 WPM vs 40 WPM” adalah proposisi nilai struktural dictation - tetapi hanya jika akurasi cukup tinggi sehingga waktu koreksi tidak menghapus keuntungan. Ambang batas kualitas Whisper adalah apa yang memungkinkan adopsi arus utama, karena mesin STT yang lebih lama (pra-2020) memiliki tingkat kesalahan yang membuat dictation lebih lambat daripada mengetik bagi sebagian besar pengguna.
6. Latensi dan Performa Waktu Nyata
STT waktu nyata (kadang-kadang disebut “ASR streaming”) memiliki batasan berbeda daripada transkripsi batch - latensi penting lebih daripada akurasi puncak. Latensi STT waktu nyata turun dari ~800 milidetik pada 2020 ke di bawah 200ms pada 2024 pada GPU konsumen (tolok ukur inferensi NVIDIA, 2024). Di bawah 200ms adalah ambang persepsi di mana dictation terasa “instan” bagi sebagian besar pengguna.
| Metrik | Nilai | Sumber |
|---|---|---|
| Latensi STT waktu nyata (GPU konsumen, 2024) | <200ms | NVIDIA, 2024 |
| Latensi STT waktu nyata (tolok ukur 2020) | ~800ms | NVIDIA / akademik, 2020 |
| Penalti ASR streaming WER (vs batch) | +1-3% absolut | NeurIPS 2024 |
| Latensi varian streaming Whisper | ~280ms | OpenAI / varian komunitas, 2024 |
| Kecepatan inferensi Distil-Whisper | 6× lebih cepat dari tolok ukur | Hugging Face, 2023 |
| Latensi dictation on-device Apple | <300ms | Apple WWDC, 2024 |
| Latensi ASR streaming Google (Pixel) | <250ms | Blog AI Google, 2024 |
| Pertukaran latensi-akurasi (latensi lebih rendah = WER lebih tinggi) | diketahui | Konsensus akademik |
Sumber: Tolok Ukur NVIDIA Riva Speech AI.
Performa waktu nyata adalah apa yang telah memungkinkan dictation sebagai metode input alternatif (push-to-talk → kata-kata muncul di aplikasi aktif). Integrasi Whisper VoxBooster berjalan sepenuhnya secara lokal dengan latensi <300ms pada GPU modern - lihat cakupan kami tentang dictation suara Windows dan transkripsi Whisper Windows.
7. Penerapan Pusat Kontak Perusahaan
Pusat kontak AI adalah vertikal STT perusahaan terbesar kedua setelah layanan kesehatan. Penerapan aktual masih tahap awal: hanya 5% pusat kontak perusahaan memiliki voicebot IA/STT percakapan menghadap pelanggan dalam produksi penuh pada pertengahan 2024, meskipun 85% pemimpin layanan pelanggan mengatakan mereka akan menjelajahi atau pilot solusi semacam itu pada 2025 (Gartner, Desember 2024). Pendorong pertumbuhan yang diharapkan adalah pengurangan biaya (panggilan tier-1 otomatis biaya jauh lebih rendah daripada panggilan agen manusia) dan pertumbuhan volume panggilan yang membebani perekrutan.
| Metrik | Nilai | Sumber |
|---|---|---|
| Pusat kontak dengan IA/STT percakapan dalam produksi (pertengahan 2024) | 5% | Survei Gartner, Agu-Jul 2024 |
| Pemimpin menjelajahi atau pilot voicebot GenAI pada 2025 | 85% | Gartner, Desember 2024 |
| Proyeksi Gartner: GenAI di pusat kontak pada 2028 | 75% | Gartner, 2025 |
| Prediksi Gartner: IA agentif menyelesaikan 80% masalah umum | pada 2029 | Gartner, Maret 2025 |
| Biaya rata-rata per panggilan tier-1 otomatis | $0,10-$0,30 | Gartner, 2024 |
| Biaya rata-rata per panggilan agen manusia tier-1 | $5-$8 | Gartner, 2024 |
| Vendor platform IA pusat kontak utama | Five9, Talkdesk, NICE, Genesys | Gartner MQ, 2024 |
| Tingkat defleksi tier-1 IA (kelas terbaik) | 50%+ | NICE / Five9, 2024 |
Sumber: Newsroom Gartner — 85% Pemimpin Layanan Pelanggan Akan Menjelajahi atau Pilot Conversational GenAI Menghadapi Pelanggan pada 2025 (Desember 2024).
Angka 5% penerapan produksi yang rendah mencerminkan kesenjangan antara minat dan eksekusi: pengadaan, kepatuhan, penyesuaian akurasi, dan manajemen perubahan agen menciptakan lead time yang panjang. Ekonomi otomasi jelas, tetapi rollout produksi skala besar adalah kisah 2025-2028.
Cakupan bahasa telah meluas seiring dengan akurasi. STT kelas produksi sekarang mencakup 99 bahasa dengan Whisper, 125+ dengan Google Cloud Speech-to-Text, dan 100+ dengan Azure Speech - naik dari ~30 pada 2020 (OpenAI, Google Cloud, Microsoft, 2024). Cakupan bahasa sumber daya rendah adalah tepi akademik terkemuka (Masakhane NLP, 2024). Aplikasi aksesibilitas adalah salah satu yang paling kurang dibahas: 466 juta orang secara global mengalami kehilangan pendengaran yang melumpuhkan (WHO, 2024), dan captioning IA langsung sekarang default di platform video utama dan sistem operasi, dengan 200 juta+ MAU di seluruh produk Microsoft dan Google.
Tabel Ringkasan: 20 Statistik Pidato-ke-Teks untuk 2026
| # | Statistik | Nilai | Tahun | Sumber |
|---|---|---|---|---|
| 1 | Pasar global pengenalan suara dan pidato | $23,7 miliar | 2024 | Grand View Research |
| 2 | Pasar pengenalan suara dan pidato yang diproyeksikan | $53,7 miliar | 2030 | Grand View Research |
| 3 | CAGR 2024-2030 (pengenalan suara dan pidato) | 14,6% | — | Grand View Research |
| 4 | Segmen API pidato-ke-teks (2024) | $3,8 miliar | 2024 | Grand View Research STT API |
| 5 | Unduhan bulanan Whisper large-v3 HF | ~5 juta/bulan | 2025 | Hugging Face |
| 6 | Bahasa yang didukung Whisper | 99 | 2023 | OpenAI |
| 7 | NVIDIA Parakeet WER pada test-clean LibriSpeech | 1,69% | 2024 | NVIDIA / HF Leaderboard |
| 8 | Whisper large-v3 WER pada test-clean LibriSpeech | 2,01% | 2024 | HF Open ASR Leaderboard |
| 9 | Organisasi Microsoft DAX/Dragon Copilot | 600+ | Mar 2025 | Microsoft |
| 10 | Waktu rata-rata dihemat per pertemuan pasien (DAX) | ~5 menit | 2024 | Data klinis DAX |
| 11 | Pengguna internet AS menggunakan asisten suara setiap minggu | ~33% | 2024 | Statista / DataReportal |
| 12 | Bagian pencarian suara mobile (AS, estimasi) | ~20% | 2024 | Statista |
| 13 | Latensi STT waktu nyata (GPU konsumen) | <200ms | 2024 | NVIDIA |
| 14 | Latensi STT waktu nyata (tolok ukur 2020) | ~800ms | 2020 | NVIDIA |
| 15 | Pusat kontak dengan IA/STT dalam produksi | 5% | pertengahan 2024 | Gartner |
| 16 | Pengguna Otter.ai | 25 juta+ | 2024 | Otter.ai |
| 17 | Aplikasi yang dibangun di atas Whisper (GitHub) | 50K+ | 2025 | GitHub |
| 18 | Kecepatan dictation (WPM) | 150 vs 40 (mengetik) | 2020 | Stanford HCI |
| 19 | Bagian layanan kesehatan dari STT perusahaan | 32% | 2024 | MarketsandMarkets |
| 20 | Live captioning MAU global (aksesibilitas) | 200 juta+ | 2024 | Microsoft / Google |
Metodologi dan Sumber
Kami mengumpulkan roundup ini dengan melacak setiap statistik ke sumber primer Tier 1: publikasi firma riset pasar, pengungkapan platform/vendor, tolok ukur akademik peer-reviewed, atau survei asli. Di mana angka yang bertentangan ada, kami mengutip angka yang dapat diverifikasi paling konservatif. Beberapa statistik yang beredar luas di sumber sekunder - termasuk “47 juta total unduhan Whisper”, “80K penyedia DAX”, “45% penerapan AI pusat kontak”, dan “42% pekerja pengetahuan menggunakan dictation setiap minggu” - tidak dapat dilacak ke sumber primer yang dapat diverifikasi dan telah dikoreksi atau dihapus.
Sumber primer yang dikutip:
- Grand View Research — Voice and Speech Recognition Market 2024-2030
- Grand View Research — Speech-to-Text API Market 2024-2030
- Mordor Intelligence — Dictation Software Market 2024
- MarketsandMarkets — Speech & Voice Recognition Market 2024
- OpenAI — Whisper model release notes (v1, v2, v3)
- Hugging Face — Whisper large-v3 model card dan statistik unduhan
- Microsoft — Pengumuman Dragon Copilot, Maret 2025; Becker’s Hospital Review, Oktober 2024
- KLAS Research — 2024 Clinical Documentation Survey
- Gartner — 85% Pemimpin Layanan Pelanggan Akan Menjelajahi atau Pilot Conversational GenAI Menghadapi Pelanggan pada 2025 (Desember 2024)
- Statista / DataReportal — Data penggunaan asisten suara dan pencarian suara, 2024
- Hugging Face Open ASR Leaderboard — Hasil tolok ukur LibriSpeech
- NVIDIA — Kartu model Parakeet-TDT 0.6B-v2 dan tolok ukur, 2024
- NVIDIA Riva — Tolok ukur inferensi Speech AI
- ScienceDirect / APSR — Deploying ambient clinical intelligence: impact of Nuance DAX (2025)
- Masakhane NLP — Penelitian ASR bahasa Afrika sumber daya rendah
- Abridge / Suki / Augmedix — Pengungkapan penerapan skrip IA layanan kesehatan
- WHO — Statistik kehilangan pendengaran global, 2024
Terakhir diperbarui: Mei 2026. Kami menyegarkan halaman ini setiap kuartal - penghasilan Microsoft menerbitkan kadence kuartalan, Grand View dan Gartner menerbitkan pembaruan pasar tahunan.
Jika Anda menggunakan dictation suara Windows dan ingin dibangun ke dalam satu aplikasi bersama voice changer, soundboard, dan TTS - berjalan 100% secara lokal dengan Whisper, tidak ada unggah cloud - coba VoxBooster gratis selama 3 hari. Atau baca panduan pendamping kami tentang dictation suara Windows, transkripsi Whisper, dan statistik pasar generator suara AI 2026.