بلغ حجم السوق العالمي للتعرف الصوتي وعلى الكلام 23.7 مليار دولار في عام 2024، ومن المتوقع أن ينمو إلى 53.7 مليار دولار بحلول عام 2030 بمعدل نمو سنوي مركب 14.6% (Grand View Research، Voice and Speech Recognition Market 2024). أما القطاع الأضيق لواجهات برمجة تطبيقات تحويل الكلام إلى نص — خدمات ASR API السحابية والمحلية — فقد بلغت قيمته 3.8 مليار دولار في عام 2024، ومن المتوقع أن يصل إلى 8.6 مليار دولار بحلول عام 2030 (Grand View Research، STT API Market 2024). أما Whisper من OpenAI — نموذج التعرف التلقائي على الكلام (ASR) مفتوح المصدر الصادر عام 2022 — فيحقق نحو 5 ملايين تنزيل شهري على Hugging Face لمتغير large-v3 وحده، وبات المعيار الأساسي لتطبيقات STT في جميع أنحاء الصناعة (Hugging Face، 2025). تتصدر الرعاية الصحية قائمة التبني: نشر Microsoft DAX Copilot للتوثيق السريري لدى أكثر من 600 منظمة رعاية صحية بحلول مارس 2025 (Microsoft، 2025).
جمعنا البيانات من Grand View Research وGartner وMordor Intelligence وOpenAI وHugging Face وNVIDIA وMicrosoft ومعايير ASR الأكاديمية لبناء أحدث صورة لواقع تقنية تحويل الكلام إلى نص في عام 2026 — وتحديد القطاعات التي تقود النمو.
أبرز النتائج
- بلغ السوق العالمي للتعرف الصوتي وعلى الكلام 23.7 مليار دولار في 2024، مع توقعات بالوصول إلى 53.7 مليار دولار بحلول 2030 بمعدل نمو سنوي مركب 14.6% (Grand View Research، 2024).
- بلغ قطاع واجهة برمجة تطبيقات STT الأضيق 3.8 مليار دولار في 2024، مع توقعات بالوصول إلى 8.6 مليار دولار بحلول 2030 بمعدل نمو سنوي مركب 14.4% (Grand View Research STT API report، 2024).
- يحقق OpenAI Whisper large-v3 نحو 5 ملايين تنزيل شهري على Hugging Face — أكثر نموذج ASR مفتوح المصدر تنزيلًا (Hugging Face، 2025).
- يحقق Whisper Large-v3 تخفيضات في معدل خطأ الكلمات (WER) بنسبة 10–20% في معظم اللغات مقارنةً بالجيل السابق (OpenAI، 2023).
- نشر Microsoft DAX Copilot (المعروف الآن بـ Dragon Copilot) في أكثر من 600 منظمة رعاية صحية بحلول مارس 2025 (Microsoft، 2025).
- لم تكن سوى 5% من مراكز الاتصال المؤسسية تمتلك روبوتات صوتية للمحادثة بالذكاء الاصطناعي/STT في بيئات الإنتاج اعتبارًا من منتصف عام 2024؛ و85% تخطط للاستكشاف أو إطلاق تجارب تجريبية بحلول نهاية عام 2025 (Gartner، ديسمبر 2024).
- تحقق نماذج STT مفتوحة المصدر الرائدة الآن WER بين 1.7 و2.0% على الصوت الإنجليزي الأمريكي النظيف، وهو أقل بكثير من خط الأساس للنسخ البشري المحترف (NVIDIA Parakeet / Whisper large-v3، 2024).
- 99 لغة لديها دعم STT بمستوى الإنتاج في Whisper large-v3 (OpenAI، 2023)؛ تدعم Google Cloud Speech أكثر من 125 لغة.
- بلغ السوق العالمي لبرامج الإملاء 4.85 مليار دولار في 2024، إذ تعد الرعاية الصحية أكبر قطاع (Mordor Intelligence، 2024).
- انخفض زمن استجابة STT في الوقت الفعلي من ~800 ميلي ثانية (2020) إلى أقل من 200 ميلي ثانية (2024) على وحدات معالجة الرسومات الاستهلاكية (NVIDIA Riva، 2024).
- يمثل البحث الصوتي عبر الجوال نحو 20% من الاستعلامات المحمولة في الولايات المتحدة (Statista / تقديرات الصناعة، 2024).
- تتجاوز دقة النسخ بالذكاء الاصطناعي الآن المحررين البشريين المحترفين على الصوت النظيف، إذ يحقق NVIDIA Parakeet نسبة WER تبلغ 1.69% مقابل خط الأساس البشري البالغ ~4% (Papers With Code / NVIDIA، 2024).
1. حجم السوق والنمو
يقع تحويل الكلام إلى نص والتعرف التلقائي على الكلام (ASR) عند تقاطع سوقين أكبر للذكاء الاصطناعي — الذكاء الاصطناعي الصوتي والسمعي الأوسع، والذكاء الاصطناعي الحواري الأوسع. بلغ السوق العالمي للتعرف الصوتي وعلى الكلام 23.7 مليار دولار في 2024، ومن المتوقع أن يبلغ 53.7 مليار دولار بحلول 2030 — معدل نمو سنوي مركب 14.6% (Grand View Research، Voice and Speech Recognition Market 2024). أما قطاع واجهة برمجة تطبيقات STT الأضيق (خدمات ASR API السحابية والمحلية) فقد بلغ 3.8 مليار دولار في 2024، ومن المتوقع أن يصل إلى 8.6 مليار دولار بحلول 2030 بمعدل نمو سنوي مركب 14.4% (Grand View Research، STT API Market 2024). تقدير Mordor Intelligence الخاص بالإملاء أكثر تحفظًا: 4.85 مليار دولار (2024) → 12.4 مليار دولار (2030).
| المقياس | القيمة | المصدر |
|---|---|---|
| السوق العالمي للتعرف الصوتي وعلى الكلام (2024) | $23.7B | Grand View Research, 2024 |
| السوق المتوقع للتعرف الصوتي وعلى الكلام (2030) | $53.7B | Grand View Research, 2024 |
| معدل النمو السنوي المركب 2024–2030 (التعرف الصوتي) | 14.6% | Grand View Research, 2024 |
| قطاع واجهة برمجة تطبيقات STT (2024) | $3.8B | Grand View Research STT API, 2024 |
| السوق المتوقع لواجهة برمجة تطبيقات STT (2030) | $8.6B | Grand View Research STT API, 2024 |
| سوق برامج الإملاء (2024) | $4.85B | Mordor Intelligence, 2024 |
| سوق الإملاء المتوقع (2030) | $12.4B | Mordor Intelligence, 2024 |
| حصة أمريكا الشمالية من سوق واجهة برمجة تطبيقات STT | 33% | Grand View Research, 2024 |
| حصة الرعاية الصحية من إنفاق STT المؤسسي | 32% | MarketsandMarkets, 2024 |
| حصة مراكز الاتصال | 28% | MarketsandMarkets, 2024 |
| الخدمات القانونية / المهنية | 18% | MarketsandMarkets, 2024 |
المصدر: Grand View Research Voice and Speech Recognition Market 2024 وGrand View Research STT API Market 2024.
يعكس معدل النمو السنوي المركب المستقر ثلاثة عوامل متضاعفة: تحسينات الجودة في 2022–2024 (Whisper، معماريات Conformer/Parakeet)، وتحول ميزانيات الشركات من النسخ البشري إلى الذكاء الاصطناعي، وموجة أدوات الذكاء الاصطناعي التوليدي الأوسع التي تجلب فئات مشترين جديدة.
2. تبني OpenAI Whisper
أصبح Whisper نموذج ASR مفتوح المصدر الأساسي بالطريقة ذاتها التي أصبح بها Stable Diffusion أساسيًا للصور. يحقق OpenAI Whisper large-v3 نحو 5 ملايين تنزيل شهري على Hugging Face — مما يجعله النموذج الأكثر تنزيلًا للتعرف التلقائي على الكلام مفتوح المصدر (إحصائيات Hugging Face، 2025). استمر إصدار نسخ جديدة: Whisper Large-v3 في نوفمبر 2023، إضافةً إلى متغيرات Distil-Whisper للنشر منخفض الكمون.
| المقياس | القيمة | المصدر |
|---|---|---|
| تنزيلات Whisper large-v3 الشهرية على HF | ~5M/شهر | Hugging Face, 2025 |
| تاريخ إصدار Whisper Large-v3 | Nov 2023 | OpenAI blog |
| اللغات المدعومة (Large-v3) | 99 | OpenAI, 2023 |
| تخفيض WER مقارنةً بـ Whisper Large-v2 | 10–20% في معظم اللغات | OpenAI, 2023 |
| مكسب سرعة الاستدلال في Distil-Whisper | 6× | Hugging Face / SDB Lab, 2023 |
| التطبيقات والأدوات المبنية على Whisper | 50K+ على GitHub | GitHub search, 2025 |
| استدلال Whisper على وحدة معالجة رسومات استهلاكية (Large-v3) | ~3× الوقت الفعلي | NVIDIA benchmarks, 2024 |
| تنزيلات Whisper.cpp (منفذ CPU فقط) | 5M+ | GitHub stats, 2024 |
| استدلال Insanely Fast Whisper (Hugging Face) | 30× الوقت الفعلي | Hugging Face, 2024 |
المصدر: Hugging Face Whisper Models وملاحظات إصدار OpenAI.
أداء “3× الوقت الفعلي على وحدة معالجة رسومات استهلاكية” هو السبب التقني الذي جعل أدوات الإملاء غير المتصلة بالإنترنت (بما فيها تكامل Whisper المدمج في VoxBooster) قابلةً للتطبيق على أجهزة الحوسبة للألعاب القياسية. قبل خمس سنوات كان هذا يتطلب بنية تحتية خادمة مخصصة؛ اليوم يعمل على وحدة معالجة الرسومات ذاتها التي تشغّل ألعاب المستخدم.
3. معايير الدقة
معدل خطأ الكلمات (WER) هو مقياس الدقة القياسي لـ ASR — وعلى الصوت النظيف، تجاوزت النماذج الرائدة مستوى مساواة النسخ البشري. تحقق نماذج STT مفتوحة المصدر الرائدة الآن WER بين 1.7 و2.0% على الصوت الإنجليزي الأمريكي النظيف — وهو أقل بكثير من خط الأساس البالغ ~4% WER للمحررين البشريين المحترفين (NVIDIA Parakeet / Hugging Face Open ASR Leaderboard، 2024). على الصوت الأكثر ضوضاءً أو الكلام بلكنات، تكون الفجوة أكبر — لكنها تضيقت بشكل درامي في 2022–2024.
| النموذج / الخدمة | WER على LibriSpeech test-clean | المصدر |
|---|---|---|
| المحررون البشريون المحترفون (خط الأساس) | ~4.0% | Microsoft Research, 2017 |
| NVIDIA Parakeet-TDT 0.6B-v2 | 1.69% | NVIDIA / HF Open ASR Leaderboard, 2024 |
| OpenAI Whisper Large-v3 | 2.01% | Hugging Face Open ASR Leaderboard, 2024 |
| Google Speech-to-Text Chirp 2 | ~4.3% | Google Cloud, 2024 |
| AWS Transcribe (أحدث إصدار) | ~5.1% | AWS, 2024 |
| Microsoft Speech Service v4 | ~4.7% | Microsoft, 2024 |
| WER على الصوت الضوضائي / ذي اللكنة | 8–15% | Academic averages, 2024 |
| WER على اللغات منخفضة الموارد | 18–35% | Academic averages, 2024 |
المصدر: Papers With Code ASR Leaderboard.
كثيرًا ما يواجه مستخدمو الإملاء في الواقع دقةً أدنى من الأرقام المعيارية — ضجيج الخلفية واللكنات والمصطلحات الخاصة بالمجال والأسماء العلم غير الشائعة كلها ترفع WER. لكن المسار شديد الانحدار لدرجة أن سير العمل “بمساعدة النسخ” (الذكاء الاصطناعي يولد المسودة الأولى، الإنسان يحررها) أصبح الآن معيارًا في معظم البيئات المهنية.
4. الرعاية الصحية والتوثيق السريري
تعد الرعاية الصحية أكبر قطاع مؤسسي لتحويل الكلام إلى نص من حيث عدد النشر والإيرادات. يعمل Microsoft DAX Copilot — ذكاء اصطناعي للتوثيق السريري مبني على تقنية Nuance، أُعيد تسميته Dragon Copilot في مارس 2025 — لدى أكثر من 600 منظمة رعاية صحية بحلول مارس 2025، بزيادة عن أكثر من 400 في أكتوبر 2024 (Microsoft، 2025). Mayo Clinic وStanford Medicine وAtrium Health وعشرات أنظمة المستشفيات الكبيرة عملاء للخدمة. يُفيد الأطباء بتوفير نحو 5 دقائق لكل لقاء مريض في المتوسط؛ وفي إحدى الدراسات، وفّر متخصصو الرعاية الحرجة 98 دقيقة يوميًا.
| المقياس | القيمة | المصدر |
|---|---|---|
| منظمات Microsoft DAX / Dragon Copilot | 600+ | Microsoft, March 2025 |
| نشر DAX (إنجاز أكتوبر 2024) | 400+ منظمة | Microsoft / Becker’s, Oct 2024 |
| حصة الرعاية الصحية من إنفاق STT المؤسسي | 32% | MarketsandMarkets, 2024 |
| متوسط الوقت الموفَّر لكل لقاء مريض (DAX) | ~5 min | Microsoft DAX clinical data, 2024 |
| تخفيض وقت توثيق الأطباء | 51.7% أقل وقتًا | DAX clinical study, ScienceDirect 2025 |
| تخفيض الاحتراق الوظيفي لدى الأطباء (مستخدمو DAX) | 70% يُبلّغون بانخفاض | DAX study, 2024 |
| موردو ASR الصحيون الرئيسيون الآخرون | Abridge, Suki AI, Augmedix | Industry, 2024 |
| مستخدمو التوثيق السريري في Abridge | 100K+ مزود | Abridge, 2025 |
| حجم سوق التوثيق السريري في الولايات المتحدة | $4.2B | Grand View, 2024 |
المصدر: إعلان Microsoft Dragon Copilot (مارس 2025)، وBecker’s Hospital Review (أكتوبر 2024)، وتقرير تقنية المعلومات المستشفوية لـ KLAS Research 2024.
مقياس “5 دقائق موفَّرة لكل لقاء” هو السبب الهيكلي لانتشار الكتّاب الآليين بالذكاء الاصطناعي في الرعاية الصحية بسرعة كبيرة — عند تكلفة طبيب بالغة $200/ساعة وأكثر من 20 لقاءً يوميًا، تكون وفورات الوقت كافية لتسديد تكلفة البرنامج مرات عديدة.
5. الإملاء الاستهلاكي والإدخال الصوتي
تطور الإملاء الصوتي الاستهلاكي من ميزة وصول هامشية إلى أداة إنتاجية سائدة. يُفيد نحو 33% من مستخدمي الإنترنت الأمريكيين (الفئة العمرية 16–64 سنة) باستخدامهم المساعدات الصوتية أسبوعيًا (Statista / DataReportal، 2024). نمت Apple Dictation وكتابة الصوت من Google وMicrosoft Voice Access والأدوات من جهات خارجية (Otter.ai، تطبيقات مبنية على Whisper) جميعها بشكل ملموس.
| المقياس | القيمة | المصدر |
|---|---|---|
| مستخدمو الإنترنت الأمريكيون الذين يستخدمون المساعدات الصوتية أسبوعيًا | ~33% | Statista / DataReportal, 2024 |
| مستخدمو المساعد الصوتي في الولايات المتحدة (2024) | 149.8M | Statista, 2024 |
| MAU لـ iOS Dictation (تقدير) | 200M+ | Apple disclosures, 2024 |
| MAU لكتابة الصوت على Android | 300M+ | Google, 2024 |
| مستخدمو Otter.ai (نسخ/ملاحظات) | 25M+ | Otter.ai, 2024 |
| مستخدمو Rev.com / Rev AI | 15M+ | Rev, 2024 |
| حصة البحث الصوتي المحمول من الاستعلامات المحمولة (الولايات المتحدة) | ~20% | Statista / تقديرات الصناعة, 2024 |
| المستخدمون النشطون شهريًا للمكبرات الذكية (عالميًا) | 350M+ | eMarketer, 2024 |
| متوسط سرعة الإملاء (كلمة/دقيقة) مقارنةً بالكتابة | 150 WPM vs 40 WPM | Stanford HCI, 2020 |
المصدر: بيانات Statista / DataReportal حول استخدام المساعدات الصوتية، 2024.
ميزة السرعة “150 كلمة/دقيقة مقابل 40 كلمة/دقيقة” هي القيمة الهيكلية للإملاء — لكن فقط إذا كانت الدقة عالية بما يكفي بحيث لا يُلغي وقت التصحيح المكسب. كان العتبة النوعية لـ Whisper هي ما أتاح التبني الجماعي، إذ كانت محركات STT القديمة (ما قبل 2020) تعاني معدلات خطأ تجعل الإملاء أبطأ من الكتابة لمعظم المستخدمين.
6. الكمون والأداء في الوقت الفعلي
يخضع STT في الوقت الفعلي (المعروف أحيانًا بـ “ASR الإجرائي”) لقيود مختلفة عن النسخ الدفعي — الكمون أهم من الدقة القصوى. انخفض كمون STT في الوقت الفعلي من ~800 ميلي ثانية في 2020 إلى أقل من 200 ميلي ثانية في 2024 على وحدات معالجة الرسومات الاستهلاكية (معايير استدلال NVIDIA، 2024). أقل من 200 ميلي ثانية هو العتبة الإدراكية التي يشعر دونها معظم المستخدمين بأن الإملاء “فوري”.
| المقياس | القيمة | المصدر |
|---|---|---|
| كمون STT الوقت الفعلي (وحدة معالجة رسومات استهلاكية، 2024) | <200ms | NVIDIA, 2024 |
| كمون STT الوقت الفعلي (خط الأساس 2020) | ~800ms | NVIDIA / academic, 2020 |
| عقوبة WER لـ ASR الإجرائي (مقارنةً بالدفعي) | +1–3% مطلق | NeurIPS 2024 |
| كمون متغير Whisper الإجرائي | ~280ms | OpenAI / community variants, 2024 |
| سرعة استدلال Distil-Whisper | 6× أسرع من خط الأساس | Hugging Face, 2023 |
| كمون إملاء Apple على الجهاز | <300ms | Apple WWDC, 2024 |
| كمون ASR الإجرائي من Google (Pixel) | <250ms | Google AI blog, 2024 |
| المقايضة بين الكمون والدقة (كمون أقل = WER أعلى) | معروف | Academic consensus |
المصدر: NVIDIA Riva Speech AI Benchmarks.
الأداء في الوقت الفعلي هو ما جعل الإملاء طريقةً بديلة للإدخال (اضغط للحديث ← تظهر الكلمات في التطبيق النشط). يعمل تكامل Whisper في VoxBooster بالكامل محليًا بكمون أقل من 300 ميلي ثانية على وحدات معالجة الرسومات الحديثة — راجع تغطيتنا حول الإملاء الصوتي في Windows ونسخ Whisper على Windows.
7. نشر الذكاء الاصطناعي في مراكز الاتصال المؤسسية
يعد الذكاء الاصطناعي في مراكز الاتصال ثاني أكبر قطاع مؤسسي لـ STT بعد الرعاية الصحية. لا يزال النشر الفعلي في مراحله المبكرة: لم تكن سوى 5% من مراكز الاتصال المؤسسية تمتلك روبوتات صوتية للمحادثة بالذكاء الاصطناعي/STT في بيئات إنتاج كاملة اعتبارًا من منتصف عام 2024، غير أن 85% من قادة خدمة العملاء أفادوا بأنهم سيستكشفون هذه الحلول أو يطلقون تجارب تجريبية لها في عام 2025 (Gartner، ديسمبر 2024). المحركات المتوقعة للنمو هي تخفيض التكاليف (تكلف المكالمات التلقائية أقل بكثير من مكالمات الوكلاء البشريين) ونمو حجم المكالمات الذي يُضغط على عمليات التوظيف.
| المقياس | القيمة | المصدر |
|---|---|---|
| مراكز الاتصال ذات الذكاء الاصطناعي الحواري/STT في الإنتاج (منتصف 2024) | 5% | Gartner survey, Aug–Jul 2024 |
| القادة الذين يستكشفون أو يطلقون تجارب GenAI للصوت في 2025 | 85% | Gartner, December 2024 |
| توقعات Gartner: GenAI في مراكز الاتصال بحلول 2028 | 75% | Gartner, 2025 |
| توقعات Gartner: الذكاء الاصطناعي الوكيل يحل 80% من المشكلات الشائعة | بحلول 2029 | Gartner, March 2025 |
| متوسط تكلفة المكالمة التلقائية من المستوى الأول | $0.10–$0.30 | Gartner, 2024 |
| متوسط تكلفة مكالمة المستوى الأول مع وكيل بشري | $5–$8 | Gartner, 2024 |
| كبار موردي منصات الذكاء الاصطناعي لمراكز الاتصال | Five9, Talkdesk, NICE, Genesys | Gartner MQ, 2024 |
| معدل تحويل مكالمات المستوى الأول بالذكاء الاصطناعي (الأفضل في الفئة) | 50%+ | NICE / Five9, 2024 |
المصدر: Gartner newsroom — 85% of Customer Service Leaders Will Explore or Pilot Customer-Facing Conversational GenAI in 2025 (December 2024).
يعكس انخفاض نسبة النشر الإنتاجي إلى 5% الفجوة بين الاهتمام والتنفيذ: المشتريات والامتثال وضبط الدقة وإدارة التغيير بين الوكلاء تخلق آجال تسليم طويلة. اقتصاديات الأتمتة واضحة، لكن عمليات النشر الإنتاجي على نطاق واسع قصة 2025–2028.
اتسعت تغطية اللغات جنبًا إلى جنب مع الدقة. يغطي STT بمستوى الإنتاج الآن 99 لغة مع Whisper، وأكثر من 125 مع Google Cloud Speech-to-Text، وأكثر من 100 مع Azure Speech — ارتفاعًا من ~30 في 2020 (OpenAI، Google Cloud، Microsoft، 2024). تغطية اللغات منخفضة الموارد هي الحافة الأكاديمية المتقدمة (Masakhane NLP، 2024). يُعدّ تطبيق إمكانية الوصول من أكثر الاستخدامات الأقل نقاشًا: يعاني 466 مليون شخص حول العالم من فقدان السمع المُعيق (WHO، 2024)، والترجمة المترجَمة المباشرة بالذكاء الاصطناعي أصبحت الآن افتراضية في منصات الفيديو الكبرى وأنظمة التشغيل، مع أكثر من 200 مليون MAU عبر منتجات Microsoft وGoogle.
جدول ملخص: 20 إحصائية لتحويل الكلام إلى نص لعام 2026
| # | الإحصائية | القيمة | السنة | المصدر |
|---|---|---|---|---|
| 1 | السوق العالمي للتعرف الصوتي وعلى الكلام | $23.7B | 2024 | Grand View Research |
| 2 | السوق المتوقع للتعرف الصوتي وعلى الكلام | $53.7B | 2030 | Grand View Research |
| 3 | معدل النمو السنوي المركب 2024–2030 (التعرف الصوتي) | 14.6% | — | Grand View Research |
| 4 | قطاع واجهة برمجة تطبيقات STT (2024) | $3.8B | 2024 | Grand View Research STT API |
| 5 | تنزيلات Whisper large-v3 الشهرية على HF | ~5M/شهر | 2025 | Hugging Face |
| 6 | اللغات المدعومة في Whisper | 99 | 2023 | OpenAI |
| 7 | WER لـ NVIDIA Parakeet على LibriSpeech test-clean | 1.69% | 2024 | NVIDIA / HF Leaderboard |
| 8 | WER لـ Whisper large-v3 على LibriSpeech test-clean | 2.01% | 2024 | HF Open ASR Leaderboard |
| 9 | منظمات Microsoft DAX/Dragon Copilot | 600+ | Mar 2025 | Microsoft |
| 10 | متوسط الوقت الموفَّر لكل لقاء مريض (DAX) | ~5 min | 2024 | DAX clinical data |
| 11 | مستخدمو الإنترنت الأمريكيون الذين يستخدمون المساعدات الصوتية أسبوعيًا | ~33% | 2024 | Statista / DataReportal |
| 12 | حصة البحث الصوتي المحمول (الولايات المتحدة، تقدير) | ~20% | 2024 | Statista |
| 13 | كمون STT الوقت الفعلي (وحدة معالجة رسومات استهلاكية) | <200ms | 2024 | NVIDIA |
| 14 | كمون STT الوقت الفعلي (خط الأساس 2020) | ~800ms | 2020 | NVIDIA |
| 15 | مراكز الاتصال ذات الذكاء الاصطناعي/STT في الإنتاج | 5% | منتصف 2024 | Gartner |
| 16 | مستخدمو Otter.ai | 25M+ | 2024 | Otter.ai |
| 17 | تطبيقات مبنية على Whisper (GitHub) | 50K+ | 2025 | GitHub |
| 18 | سرعة الإملاء (كلمة/دقيقة) | 150 vs 40 (كتابة) | 2020 | Stanford HCI |
| 19 | حصة الرعاية الصحية من STT المؤسسي | 32% | 2024 | MarketsandMarkets |
| 20 | MAU الترجمة المترجَمة المباشرة (إمكانية الوصول العالمية) | 200M+ | 2024 | Microsoft / Google |
المنهجية والمصادر
جمعنا هذا الملخص بتتبع كل إحصائية إلى مصدر أولي من المستوى الأول: نشر شركة أبحاث السوق، أو إفصاح المنصة/المورد، أو معيار أكاديمي خضع للمراجعة من الأقران، أو مسح أصلي. حيث توجد أرقام متعارضة، نستشهد بالرقم الأكثر تحفظًا القابل للتحقق. عدد من الإحصائيات المتداولة على نطاق واسع في المصادر الثانوية — بما فيها “47 مليون تنزيل إجمالي لـ Whisper”، و”80 ألف مزود DAX”، و”45% نشر ذكاء اصطناعي في مراكز الاتصال”، و”42% من العمال المعرفيين يستخدمون الإملاء” — لم يُتمكَّن من تتبعها إلى مصادر أولية قابلة للتحقق، وقد تم تصحيحها أو حذفها.
المصادر الأولية المستشهد بها:
- Grand View Research — Voice and Speech Recognition Market 2024–2030
- Grand View Research — Speech-to-Text API Market 2024–2030
- Mordor Intelligence — Dictation Software Market 2024
- MarketsandMarkets — Speech & Voice Recognition Market 2024
- OpenAI — Whisper model release notes (v1, v2, v3)
- Hugging Face — Whisper large-v3 model card and download statistics
- Microsoft — Dragon Copilot announcement, March 2025; Becker’s Hospital Review, October 2024
- KLAS Research — 2024 Clinical Documentation Survey
- Gartner — 85% of Customer Service Leaders Will Explore or Pilot Conversational GenAI in 2025 (December 2024)
- Statista / DataReportal — بيانات استخدام المساعدات الصوتية والبحث الصوتي، 2024
- Hugging Face Open ASR Leaderboard — نتائج معيار LibriSpeech
- NVIDIA — Parakeet-TDT 0.6B-v2 model card and benchmarks, 2024
- NVIDIA Riva — Speech AI inference benchmarks
- ScienceDirect / APSR — Deploying ambient clinical intelligence: impact of Nuance DAX (2025)
- Masakhane NLP — أبحاث ASR للغات الأفريقية منخفضة الموارد
- Abridge / Suki / Augmedix — إفصاحات نشر الكاتب الذكي الطبي بالذكاء الاصطناعي
- WHO — إحصائيات فقدان السمع العالمية، 2024
آخر تحديث: مايو 2026. نحدّث هذه الصفحة كل ربع سنة — تصدر تقارير أرباح Microsoft بوتيرة ربع سنوية، وتنشر Grand View وGartner تحديثات السوق السنوية.
إذا كنت تستخدم الإملاء الصوتي على Windows وتريده مدمجًا في تطبيق واحد إلى جانب تغيير الصوت والسبورة الصوتية وتحويل النص إلى كلام — يعمل بالكامل محليًا مع Whisper بدون تحميلات سحابية — جرّب VoxBooster مجانًا لمدة 3 أيام. أو اقرأ أدلتنا المرافقة حول الإملاء الصوتي في Windows ونسخ Whisper وإحصائيات سوق مولد الصوت بالذكاء الاصطناعي لعام 2026.