بلغ حجم السوق العالمي للتعرف الصوتي وعلى الكلام 23.7 مليار دولار في عام 2024، ومن المتوقع أن ينمو إلى 53.7 مليار دولار بحلول عام 2030 بمعدل نمو سنوي مركب 14.6% (Grand View Research، Voice and Speech Recognition Market 2024). أما القطاع الأضيق لواجهات برمجة تطبيقات تحويل الكلام إلى نص — خدمات ASR API السحابية والمحلية — فقد بلغت قيمته 3.8 مليار دولار في عام 2024، ومن المتوقع أن يصل إلى 8.6 مليار دولار بحلول عام 2030 (Grand View Research، STT API Market 2024). أما Whisper من OpenAI — نموذج التعرف التلقائي على الكلام (ASR) مفتوح المصدر الصادر عام 2022 — فيحقق نحو 5 ملايين تنزيل شهري على Hugging Face لمتغير large-v3 وحده، وبات المعيار الأساسي لتطبيقات STT في جميع أنحاء الصناعة (Hugging Face، 2025). تتصدر الرعاية الصحية قائمة التبني: نشر Microsoft DAX Copilot للتوثيق السريري لدى أكثر من 600 منظمة رعاية صحية بحلول مارس 2025 (Microsoft، 2025).

جمعنا البيانات من Grand View Research وGartner وMordor Intelligence وOpenAI وHugging Face وNVIDIA وMicrosoft ومعايير ASR الأكاديمية لبناء أحدث صورة لواقع تقنية تحويل الكلام إلى نص في عام 2026 — وتحديد القطاعات التي تقود النمو.

أبرز النتائج

بلغ السوق العالمي للتعرف الصوتي وعلى الكلام 23.7 مليار دولار في 2024، مع توقعات بالوصول إلى 53.7 مليار دولار بحلول 2030 بمعدل نمو سنوي مركب 14.6% (Grand View Research، 2024).
بلغ قطاع واجهة برمجة تطبيقات STT الأضيق 3.8 مليار دولار في 2024، مع توقعات بالوصول إلى 8.6 مليار دولار بحلول 2030 بمعدل نمو سنوي مركب 14.4% (Grand View Research STT API report، 2024).
يحقق OpenAI Whisper large-v3 نحو 5 ملايين تنزيل شهري على Hugging Face — أكثر نموذج ASR مفتوح المصدر تنزيلًا (Hugging Face، 2025).
يحقق Whisper Large-v3 تخفيضات في معدل خطأ الكلمات (WER) بنسبة 10–20% في معظم اللغات مقارنةً بالجيل السابق (OpenAI، 2023).
نشر Microsoft DAX Copilot (المعروف الآن بـ Dragon Copilot) في أكثر من 600 منظمة رعاية صحية بحلول مارس 2025 (Microsoft، 2025).
لم تكن سوى 5% من مراكز الاتصال المؤسسية تمتلك روبوتات صوتية للمحادثة بالذكاء الاصطناعي/STT في بيئات الإنتاج اعتبارًا من منتصف عام 2024؛ و85% تخطط للاستكشاف أو إطلاق تجارب تجريبية بحلول نهاية عام 2025 (Gartner، ديسمبر 2024).
تحقق نماذج STT مفتوحة المصدر الرائدة الآن WER بين 1.7 و2.0% على الصوت الإنجليزي الأمريكي النظيف، وهو أقل بكثير من خط الأساس للنسخ البشري المحترف (NVIDIA Parakeet / Whisper large-v3، 2024).
99 لغة لديها دعم STT بمستوى الإنتاج في Whisper large-v3 (OpenAI، 2023)؛ تدعم Google Cloud Speech أكثر من 125 لغة.
بلغ السوق العالمي لبرامج الإملاء 4.85 مليار دولار في 2024، إذ تعد الرعاية الصحية أكبر قطاع (Mordor Intelligence، 2024).
انخفض زمن استجابة STT في الوقت الفعلي من ~800 ميلي ثانية (2020) إلى أقل من 200 ميلي ثانية (2024) على وحدات معالجة الرسومات الاستهلاكية (NVIDIA Riva، 2024).
يمثل البحث الصوتي عبر الجوال نحو 20% من الاستعلامات المحمولة في الولايات المتحدة (Statista / تقديرات الصناعة، 2024).
تتجاوز دقة النسخ بالذكاء الاصطناعي الآن المحررين البشريين المحترفين على الصوت النظيف، إذ يحقق NVIDIA Parakeet نسبة WER تبلغ 1.69% مقابل خط الأساس البشري البالغ ~4% (Papers With Code / NVIDIA، 2024).

1. حجم السوق والنمو

يقع تحويل الكلام إلى نص والتعرف التلقائي على الكلام (ASR) عند تقاطع سوقين أكبر للذكاء الاصطناعي — الذكاء الاصطناعي الصوتي والسمعي الأوسع، والذكاء الاصطناعي الحواري الأوسع. بلغ السوق العالمي للتعرف الصوتي وعلى الكلام 23.7 مليار دولار في 2024، ومن المتوقع أن يبلغ 53.7 مليار دولار بحلول 2030 — معدل نمو سنوي مركب 14.6% (Grand View Research، Voice and Speech Recognition Market 2024). أما قطاع واجهة برمجة تطبيقات STT الأضيق (خدمات ASR API السحابية والمحلية) فقد بلغ 3.8 مليار دولار في 2024، ومن المتوقع أن يصل إلى 8.6 مليار دولار بحلول 2030 بمعدل نمو سنوي مركب 14.4% (Grand View Research، STT API Market 2024). تقدير Mordor Intelligence الخاص بالإملاء أكثر تحفظًا: 4.85 مليار دولار (2024) → 12.4 مليار دولار (2030).

المقياس	القيمة	المصدر
السوق العالمي للتعرف الصوتي وعلى الكلام (2024)	$23.7B	Grand View Research, 2024
السوق المتوقع للتعرف الصوتي وعلى الكلام (2030)	$53.7B	Grand View Research, 2024
معدل النمو السنوي المركب 2024–2030 (التعرف الصوتي)	14.6%	Grand View Research, 2024
قطاع واجهة برمجة تطبيقات STT (2024)	$3.8B	Grand View Research STT API, 2024
السوق المتوقع لواجهة برمجة تطبيقات STT (2030)	$8.6B	Grand View Research STT API, 2024
سوق برامج الإملاء (2024)	$4.85B	Mordor Intelligence, 2024
سوق الإملاء المتوقع (2030)	$12.4B	Mordor Intelligence, 2024
حصة أمريكا الشمالية من سوق واجهة برمجة تطبيقات STT	33%	Grand View Research, 2024
حصة الرعاية الصحية من إنفاق STT المؤسسي	32%	MarketsandMarkets, 2024
حصة مراكز الاتصال	28%	MarketsandMarkets, 2024
الخدمات القانونية / المهنية	18%	MarketsandMarkets, 2024

المصدر: Grand View Research Voice and Speech Recognition Market 2024 وGrand View Research STT API Market 2024.

يعكس معدل النمو السنوي المركب المستقر ثلاثة عوامل متضاعفة: تحسينات الجودة في 2022–2024 (Whisper، معماريات Conformer/Parakeet)، وتحول ميزانيات الشركات من النسخ البشري إلى الذكاء الاصطناعي، وموجة أدوات الذكاء الاصطناعي التوليدي الأوسع التي تجلب فئات مشترين جديدة.

2. تبني OpenAI Whisper

أصبح Whisper نموذج ASR مفتوح المصدر الأساسي بالطريقة ذاتها التي أصبح بها Stable Diffusion أساسيًا للصور. يحقق OpenAI Whisper large-v3 نحو 5 ملايين تنزيل شهري على Hugging Face — مما يجعله النموذج الأكثر تنزيلًا للتعرف التلقائي على الكلام مفتوح المصدر (إحصائيات Hugging Face، 2025). استمر إصدار نسخ جديدة: Whisper Large-v3 في نوفمبر 2023، إضافةً إلى متغيرات Distil-Whisper للنشر منخفض الكمون.

المقياس	القيمة	المصدر
تنزيلات Whisper large-v3 الشهرية على HF	~5M/شهر	Hugging Face, 2025
تاريخ إصدار Whisper Large-v3	Nov 2023	OpenAI blog
اللغات المدعومة (Large-v3)	99	OpenAI, 2023
تخفيض WER مقارنةً بـ Whisper Large-v2	10–20% في معظم اللغات	OpenAI, 2023
مكسب سرعة الاستدلال في Distil-Whisper	6×	Hugging Face / SDB Lab, 2023
التطبيقات والأدوات المبنية على Whisper	50K+ على GitHub	GitHub search, 2025
استدلال Whisper على وحدة معالجة رسومات استهلاكية (Large-v3)	~3× الوقت الفعلي	NVIDIA benchmarks, 2024
تنزيلات Whisper.cpp (منفذ CPU فقط)	5M+	GitHub stats, 2024
استدلال Insanely Fast Whisper (Hugging Face)	30× الوقت الفعلي	Hugging Face, 2024

المصدر: Hugging Face Whisper Models وملاحظات إصدار OpenAI.

أداء “3× الوقت الفعلي على وحدة معالجة رسومات استهلاكية” هو السبب التقني الذي جعل أدوات الإملاء غير المتصلة بالإنترنت (بما فيها تكامل Whisper المدمج في VoxBooster) قابلةً للتطبيق على أجهزة الحوسبة للألعاب القياسية. قبل خمس سنوات كان هذا يتطلب بنية تحتية خادمة مخصصة؛ اليوم يعمل على وحدة معالجة الرسومات ذاتها التي تشغّل ألعاب المستخدم.

3. معايير الدقة

معدل خطأ الكلمات (WER) هو مقياس الدقة القياسي لـ ASR — وعلى الصوت النظيف، تجاوزت النماذج الرائدة مستوى مساواة النسخ البشري. تحقق نماذج STT مفتوحة المصدر الرائدة الآن WER بين 1.7 و2.0% على الصوت الإنجليزي الأمريكي النظيف — وهو أقل بكثير من خط الأساس البالغ ~4% WER للمحررين البشريين المحترفين (NVIDIA Parakeet / Hugging Face Open ASR Leaderboard، 2024). على الصوت الأكثر ضوضاءً أو الكلام بلكنات، تكون الفجوة أكبر — لكنها تضيقت بشكل درامي في 2022–2024.

النموذج / الخدمة	WER على LibriSpeech test-clean	المصدر
المحررون البشريون المحترفون (خط الأساس)	~4.0%	Microsoft Research, 2017
NVIDIA Parakeet-TDT 0.6B-v2	1.69%	NVIDIA / HF Open ASR Leaderboard, 2024
OpenAI Whisper Large-v3	2.01%	Hugging Face Open ASR Leaderboard, 2024
Google Speech-to-Text Chirp 2	~4.3%	Google Cloud, 2024
AWS Transcribe (أحدث إصدار)	~5.1%	AWS, 2024
Microsoft Speech Service v4	~4.7%	Microsoft, 2024
WER على الصوت الضوضائي / ذي اللكنة	8–15%	Academic averages, 2024
WER على اللغات منخفضة الموارد	18–35%	Academic averages, 2024

المصدر: Papers With Code ASR Leaderboard.

كثيرًا ما يواجه مستخدمو الإملاء في الواقع دقةً أدنى من الأرقام المعيارية — ضجيج الخلفية واللكنات والمصطلحات الخاصة بالمجال والأسماء العلم غير الشائعة كلها ترفع WER. لكن المسار شديد الانحدار لدرجة أن سير العمل “بمساعدة النسخ” (الذكاء الاصطناعي يولد المسودة الأولى، الإنسان يحررها) أصبح الآن معيارًا في معظم البيئات المهنية.

4. الرعاية الصحية والتوثيق السريري

تعد الرعاية الصحية أكبر قطاع مؤسسي لتحويل الكلام إلى نص من حيث عدد النشر والإيرادات. يعمل Microsoft DAX Copilot — ذكاء اصطناعي للتوثيق السريري مبني على تقنية Nuance، أُعيد تسميته Dragon Copilot في مارس 2025 — لدى أكثر من 600 منظمة رعاية صحية بحلول مارس 2025، بزيادة عن أكثر من 400 في أكتوبر 2024 (Microsoft، 2025). Mayo Clinic وStanford Medicine وAtrium Health وعشرات أنظمة المستشفيات الكبيرة عملاء للخدمة. يُفيد الأطباء بتوفير نحو 5 دقائق لكل لقاء مريض في المتوسط؛ وفي إحدى الدراسات، وفّر متخصصو الرعاية الحرجة 98 دقيقة يوميًا.

المقياس	القيمة	المصدر
منظمات Microsoft DAX / Dragon Copilot	600+	Microsoft, March 2025
نشر DAX (إنجاز أكتوبر 2024)	400+ منظمة	Microsoft / Becker’s, Oct 2024
حصة الرعاية الصحية من إنفاق STT المؤسسي	32%	MarketsandMarkets, 2024
متوسط الوقت الموفَّر لكل لقاء مريض (DAX)	~5 min	Microsoft DAX clinical data, 2024
تخفيض وقت توثيق الأطباء	51.7% أقل وقتًا	DAX clinical study, ScienceDirect 2025
تخفيض الاحتراق الوظيفي لدى الأطباء (مستخدمو DAX)	70% يُبلّغون بانخفاض	DAX study, 2024
موردو ASR الصحيون الرئيسيون الآخرون	Abridge, Suki AI, Augmedix	Industry, 2024
مستخدمو التوثيق السريري في Abridge	100K+ مزود	Abridge, 2025
حجم سوق التوثيق السريري في الولايات المتحدة	$4.2B	Grand View, 2024

المصدر: إعلان Microsoft Dragon Copilot (مارس 2025)، وBecker’s Hospital Review (أكتوبر 2024)، وتقرير تقنية المعلومات المستشفوية لـ KLAS Research 2024.

مقياس “5 دقائق موفَّرة لكل لقاء” هو السبب الهيكلي لانتشار الكتّاب الآليين بالذكاء الاصطناعي في الرعاية الصحية بسرعة كبيرة — عند تكلفة طبيب بالغة $200/ساعة وأكثر من 20 لقاءً يوميًا، تكون وفورات الوقت كافية لتسديد تكلفة البرنامج مرات عديدة.

5. الإملاء الاستهلاكي والإدخال الصوتي

تطور الإملاء الصوتي الاستهلاكي من ميزة وصول هامشية إلى أداة إنتاجية سائدة. يُفيد نحو 33% من مستخدمي الإنترنت الأمريكيين (الفئة العمرية 16–64 سنة) باستخدامهم المساعدات الصوتية أسبوعيًا (Statista / DataReportal، 2024). نمت Apple Dictation وكتابة الصوت من Google وMicrosoft Voice Access والأدوات من جهات خارجية (Otter.ai، تطبيقات مبنية على Whisper) جميعها بشكل ملموس.

المقياس	القيمة	المصدر
مستخدمو الإنترنت الأمريكيون الذين يستخدمون المساعدات الصوتية أسبوعيًا	~33%	Statista / DataReportal, 2024
مستخدمو المساعد الصوتي في الولايات المتحدة (2024)	149.8M	Statista, 2024
MAU لـ iOS Dictation (تقدير)	200M+	Apple disclosures, 2024
MAU لكتابة الصوت على Android	300M+	Google, 2024
مستخدمو Otter.ai (نسخ/ملاحظات)	25M+	Otter.ai, 2024
مستخدمو Rev.com / Rev AI	15M+	Rev, 2024
حصة البحث الصوتي المحمول من الاستعلامات المحمولة (الولايات المتحدة)	~20%	Statista / تقديرات الصناعة, 2024
المستخدمون النشطون شهريًا للمكبرات الذكية (عالميًا)	350M+	eMarketer, 2024
متوسط سرعة الإملاء (كلمة/دقيقة) مقارنةً بالكتابة	150 WPM vs 40 WPM	Stanford HCI, 2020

المصدر: بيانات Statista / DataReportal حول استخدام المساعدات الصوتية، 2024.

ميزة السرعة “150 كلمة/دقيقة مقابل 40 كلمة/دقيقة” هي القيمة الهيكلية للإملاء — لكن فقط إذا كانت الدقة عالية بما يكفي بحيث لا يُلغي وقت التصحيح المكسب. كان العتبة النوعية لـ Whisper هي ما أتاح التبني الجماعي، إذ كانت محركات STT القديمة (ما قبل 2020) تعاني معدلات خطأ تجعل الإملاء أبطأ من الكتابة لمعظم المستخدمين.

6. الكمون والأداء في الوقت الفعلي

يخضع STT في الوقت الفعلي (المعروف أحيانًا بـ “ASR الإجرائي”) لقيود مختلفة عن النسخ الدفعي — الكمون أهم من الدقة القصوى. انخفض كمون STT في الوقت الفعلي من ~800 ميلي ثانية في 2020 إلى أقل من 200 ميلي ثانية في 2024 على وحدات معالجة الرسومات الاستهلاكية (معايير استدلال NVIDIA، 2024). أقل من 200 ميلي ثانية هو العتبة الإدراكية التي يشعر دونها معظم المستخدمين بأن الإملاء “فوري”.

المقياس	القيمة	المصدر
كمون STT الوقت الفعلي (وحدة معالجة رسومات استهلاكية، 2024)	<200ms	NVIDIA, 2024
كمون STT الوقت الفعلي (خط الأساس 2020)	~800ms	NVIDIA / academic, 2020
عقوبة WER لـ ASR الإجرائي (مقارنةً بالدفعي)	+1–3% مطلق	NeurIPS 2024
كمون متغير Whisper الإجرائي	~280ms	OpenAI / community variants, 2024
سرعة استدلال Distil-Whisper	6× أسرع من خط الأساس	Hugging Face, 2023
كمون إملاء Apple على الجهاز	<300ms	Apple WWDC, 2024
كمون ASR الإجرائي من Google (Pixel)	<250ms	Google AI blog, 2024
المقايضة بين الكمون والدقة (كمون أقل = WER أعلى)	معروف	Academic consensus

المصدر: NVIDIA Riva Speech AI Benchmarks.

الأداء في الوقت الفعلي هو ما جعل الإملاء طريقةً بديلة للإدخال (اضغط للحديث ← تظهر الكلمات في التطبيق النشط). يعمل تكامل Whisper في VoxBooster بالكامل محليًا بكمون أقل من 300 ميلي ثانية على وحدات معالجة الرسومات الحديثة — راجع تغطيتنا حول الإملاء الصوتي في Windows ونسخ Whisper على Windows.

7. نشر الذكاء الاصطناعي في مراكز الاتصال المؤسسية

يعد الذكاء الاصطناعي في مراكز الاتصال ثاني أكبر قطاع مؤسسي لـ STT بعد الرعاية الصحية. لا يزال النشر الفعلي في مراحله المبكرة: لم تكن سوى 5% من مراكز الاتصال المؤسسية تمتلك روبوتات صوتية للمحادثة بالذكاء الاصطناعي/STT في بيئات إنتاج كاملة اعتبارًا من منتصف عام 2024، غير أن 85% من قادة خدمة العملاء أفادوا بأنهم سيستكشفون هذه الحلول أو يطلقون تجارب تجريبية لها في عام 2025 (Gartner، ديسمبر 2024). المحركات المتوقعة للنمو هي تخفيض التكاليف (تكلف المكالمات التلقائية أقل بكثير من مكالمات الوكلاء البشريين) ونمو حجم المكالمات الذي يُضغط على عمليات التوظيف.

المقياس	القيمة	المصدر
مراكز الاتصال ذات الذكاء الاصطناعي الحواري/STT في الإنتاج (منتصف 2024)	5%	Gartner survey, Aug–Jul 2024
القادة الذين يستكشفون أو يطلقون تجارب GenAI للصوت في 2025	85%	Gartner, December 2024
توقعات Gartner: GenAI في مراكز الاتصال بحلول 2028	75%	Gartner, 2025
توقعات Gartner: الذكاء الاصطناعي الوكيل يحل 80% من المشكلات الشائعة	بحلول 2029	Gartner, March 2025
متوسط تكلفة المكالمة التلقائية من المستوى الأول	$0.10–$0.30	Gartner, 2024
متوسط تكلفة مكالمة المستوى الأول مع وكيل بشري	$5–$8	Gartner, 2024
كبار موردي منصات الذكاء الاصطناعي لمراكز الاتصال	Five9, Talkdesk, NICE, Genesys	Gartner MQ, 2024
معدل تحويل مكالمات المستوى الأول بالذكاء الاصطناعي (الأفضل في الفئة)	50%+	NICE / Five9, 2024

المصدر: Gartner newsroom — 85% of Customer Service Leaders Will Explore or Pilot Customer-Facing Conversational GenAI in 2025 (December 2024).

يعكس انخفاض نسبة النشر الإنتاجي إلى 5% الفجوة بين الاهتمام والتنفيذ: المشتريات والامتثال وضبط الدقة وإدارة التغيير بين الوكلاء تخلق آجال تسليم طويلة. اقتصاديات الأتمتة واضحة، لكن عمليات النشر الإنتاجي على نطاق واسع قصة 2025–2028.

اتسعت تغطية اللغات جنبًا إلى جنب مع الدقة. يغطي STT بمستوى الإنتاج الآن 99 لغة مع Whisper، وأكثر من 125 مع Google Cloud Speech-to-Text، وأكثر من 100 مع Azure Speech — ارتفاعًا من ~30 في 2020 (OpenAI، Google Cloud، Microsoft، 2024). تغطية اللغات منخفضة الموارد هي الحافة الأكاديمية المتقدمة (Masakhane NLP، 2024). يُعدّ تطبيق إمكانية الوصول من أكثر الاستخدامات الأقل نقاشًا: يعاني 466 مليون شخص حول العالم من فقدان السمع المُعيق (WHO، 2024)، والترجمة المترجَمة المباشرة بالذكاء الاصطناعي أصبحت الآن افتراضية في منصات الفيديو الكبرى وأنظمة التشغيل، مع أكثر من 200 مليون MAU عبر منتجات Microsoft وGoogle.

جدول ملخص: 20 إحصائية لتحويل الكلام إلى نص لعام 2026

#	الإحصائية	القيمة	السنة	المصدر
1	السوق العالمي للتعرف الصوتي وعلى الكلام	$23.7B	2024	Grand View Research
2	السوق المتوقع للتعرف الصوتي وعلى الكلام	$53.7B	2030	Grand View Research
3	معدل النمو السنوي المركب 2024–2030 (التعرف الصوتي)	14.6%	—	Grand View Research
4	قطاع واجهة برمجة تطبيقات STT (2024)	$3.8B	2024	Grand View Research STT API
5	تنزيلات Whisper large-v3 الشهرية على HF	~5M/شهر	2025	Hugging Face
6	اللغات المدعومة في Whisper	99	2023	OpenAI
7	WER لـ NVIDIA Parakeet على LibriSpeech test-clean	1.69%	2024	NVIDIA / HF Leaderboard
8	WER لـ Whisper large-v3 على LibriSpeech test-clean	2.01%	2024	HF Open ASR Leaderboard
9	منظمات Microsoft DAX/Dragon Copilot	600+	Mar 2025	Microsoft
10	متوسط الوقت الموفَّر لكل لقاء مريض (DAX)	~5 min	2024	DAX clinical data
11	مستخدمو الإنترنت الأمريكيون الذين يستخدمون المساعدات الصوتية أسبوعيًا	~33%	2024	Statista / DataReportal
12	حصة البحث الصوتي المحمول (الولايات المتحدة، تقدير)	~20%	2024	Statista
13	كمون STT الوقت الفعلي (وحدة معالجة رسومات استهلاكية)	<200ms	2024	NVIDIA
14	كمون STT الوقت الفعلي (خط الأساس 2020)	~800ms	2020	NVIDIA
15	مراكز الاتصال ذات الذكاء الاصطناعي/STT في الإنتاج	5%	منتصف 2024	Gartner
16	مستخدمو Otter.ai	25M+	2024	Otter.ai
17	تطبيقات مبنية على Whisper (GitHub)	50K+	2025	GitHub
18	سرعة الإملاء (كلمة/دقيقة)	150 vs 40 (كتابة)	2020	Stanford HCI
19	حصة الرعاية الصحية من STT المؤسسي	32%	2024	MarketsandMarkets
20	MAU الترجمة المترجَمة المباشرة (إمكانية الوصول العالمية)	200M+	2024	Microsoft / Google

المنهجية والمصادر

جمعنا هذا الملخص بتتبع كل إحصائية إلى مصدر أولي من المستوى الأول: نشر شركة أبحاث السوق، أو إفصاح المنصة/المورد، أو معيار أكاديمي خضع للمراجعة من الأقران، أو مسح أصلي. حيث توجد أرقام متعارضة، نستشهد بالرقم الأكثر تحفظًا القابل للتحقق. عدد من الإحصائيات المتداولة على نطاق واسع في المصادر الثانوية — بما فيها “47 مليون تنزيل إجمالي لـ Whisper”، و”80 ألف مزود DAX”، و”45% نشر ذكاء اصطناعي في مراكز الاتصال”، و”42% من العمال المعرفيين يستخدمون الإملاء” — لم يُتمكَّن من تتبعها إلى مصادر أولية قابلة للتحقق، وقد تم تصحيحها أو حذفها.

المصادر الأولية المستشهد بها:

Grand View Research — Voice and Speech Recognition Market 2024–2030
Grand View Research — Speech-to-Text API Market 2024–2030
Mordor Intelligence — Dictation Software Market 2024
MarketsandMarkets — Speech & Voice Recognition Market 2024
OpenAI — Whisper model release notes (v1, v2, v3)
Hugging Face — Whisper large-v3 model card and download statistics
Microsoft — Dragon Copilot announcement, March 2025; Becker’s Hospital Review, October 2024
KLAS Research — 2024 Clinical Documentation Survey
Gartner — 85% of Customer Service Leaders Will Explore or Pilot Conversational GenAI in 2025 (December 2024)
Statista / DataReportal — بيانات استخدام المساعدات الصوتية والبحث الصوتي، 2024
Hugging Face Open ASR Leaderboard — نتائج معيار LibriSpeech
NVIDIA — Parakeet-TDT 0.6B-v2 model card and benchmarks, 2024
NVIDIA Riva — Speech AI inference benchmarks
ScienceDirect / APSR — Deploying ambient clinical intelligence: impact of Nuance DAX (2025)
Masakhane NLP — أبحاث ASR للغات الأفريقية منخفضة الموارد
Abridge / Suki / Augmedix — إفصاحات نشر الكاتب الذكي الطبي بالذكاء الاصطناعي
WHO — إحصائيات فقدان السمع العالمية، 2024

آخر تحديث: مايو 2026. نحدّث هذه الصفحة كل ربع سنة — تصدر تقارير أرباح Microsoft بوتيرة ربع سنوية، وتنشر Grand View وGartner تحديثات السوق السنوية.

إذا كنت تستخدم الإملاء الصوتي على Windows وتريده مدمجًا في تطبيق واحد إلى جانب تغيير الصوت والسبورة الصوتية وتحويل النص إلى كلام — يعمل بالكامل محليًا مع Whisper بدون تحميلات سحابية — جرّب VoxBooster مجانًا لمدة 3 أيام. أو اقرأ أدلتنا المرافقة حول الإملاء الصوتي في Windows ونسخ Whisper وإحصائيات سوق مولد الصوت بالذكاء الاصطناعي لعام 2026.

إحصائيات تحويل الكلام إلى نص 2026: أكثر من 45 نقطة بيانات موثقة حول حجم السوق واعتماد Whisper والدقة والاستخدام المؤسسي