Whisper AI للنسخ الصوتي: دليل شامل لأداة تحويل الكلام إلى نص من OpenAI

كل شيء عن Whisper AI: كيفية عمله، أحجام النماذج، مقاييس الدقة، الاستخدام الفوري، إعداد Python، API، الأدوات التابعة، والتكامل مع سطح المكتب.

Whisper AI هو نموذج تحويل كلام إلى نص الذي غيّر التوقعات حول ما يمكن أن تفعله النسخ المفتوحة المصدر المجانية. أطلقته OpenAI في سبتمبر 2022، وطابق أو تفوق على الخدمات التجارية على مجموعة واسعة من اللغات والظروف الصوتية - ثم جعلت OpenAI كل شيء مفتوح المصدر. اليوم، whisper ai أنتج نظام بيئي كامل من الأدوات والمنافذ والتكاملات التي تؤثر على كل شيء من إنتاج البودكاست إلى النسخ الفوري للاستدعاءات الحية في الألعاب.

يغطي هذا الدليل النظام البيئي الكامل لـ Whisper: العمارة وراءها، كل حجم نموذج والمقايضات الخاصة به، جميع الطرق للقيام بتشغيله فعليًا (Python CLI، API OpenAI، الأدوات القائمة على المتصفح، وتطبيقات سطح المكتب الأصلية)، ما هو ممكن مع النسخ الفوري الآن، وكيف تدفع المشاريع الخارجية مثل faster-whisper و WhisperX و Buzz النموذج أبعد. سواء كنت تريد نسخ ملف صوتي، أو بناء خط أنابيب الترجمة المباشرة، أو إضافة إملاء صوتي إلى إعداد الألعاب الخاص بك، فهذا هو المرجع الكامل.

ملخص

  • Whisper AI هو نموذج تعرّف كلام مفتوح المصدر مجاني من OpenAI مدرب على 680,000 ساعة من الصوت متعدد اللغات عبر 99 لغة
  • خمسة أحجام نموذج من tiny (39 مليون معامل) إلى large-v3 (1.55 مليار معامل) - الأكبر أكثر دقة لكن يحتاج إلى حوسبة أكثر
  • معدلات خطأ كلماتية من 2-4% على الصوت الإنجليزي النظيف مع النموذج الكبير، تنافسي مع الخدمات السحابية المدفوعة
  • قم بتشغيله عبر Python CLI، API OpenAI المدارة ($0.006/دقيقة)، متصفح على whisper.ggerganov.com، أو تطبيقات سطح المكتب مثل Buzz و VoxBooster
  • النسخ الفوري ممكن لكنه يتطلب منافذ محسّنة مثل faster-whisper أو whisper.cpp - الحزمة القياسية من Python مخصصة للمعالجة الدفعية فقط
  • المشاريع الخارجية (faster-whisper، WhisperX، Buzz) تضيف تمييز المتحدث، الطوابع الزمنية على مستوى الكلمة، واستدلال أسرع بشكل كبير

ما هو Whisper AI ولماذا يهم؟

Whisper من OpenAI هو نموذج تسلسل-إلى-تسلسل للتعرف الآلي على الكلام (ASR) نُشر في سبتمبر 2022 مع ورقة بحثية على arXiv ومستودع GitHub مفتوح تماما. تم تدريب النموذج على 680,000 ساعة من الصوت المقترنة بنسخ تم التحقق منها من قبل الإنسان - تم جمع البيانات من الإنترنت العام وتغطي 99 لغة، وهذا ما يعطي Whisper قوته غير العادية عبر اللهجات والعاميات.

قبل Whisper، كان التعرف على الكلام الدقيق ومفتوح المصدر يتطلب إما تدريبًا مخصصًا بنطاق ضيق أو معالجة ما بعد الإنتاج الهامة. كان الخيار المجاني السائد هو Mozilla DeepSpeech، الذي عمل بشكل معقول للغة الإنجليزية لكنه كان يكافح مع أي شيء خارج ظروف الاستوديو النظيف. قدمت الخدمات التجارية (Google و Amazon و Microsoft) أداء أفضل لكنها تفرضت رسومًا لكل دقيقة وأرسلت صوتك إلى خوادمهم.

غيّر Whisper كلا القيدين في نفس الوقت. أسلوب التدريب الخاص به - التعلم الضعيف الإشراف على الصوت الحقيقي المتنوع بدلاً من بيانات الاستوديو المختارة بعناية - يعني أنه تعميم أفضل بكثير على الكلام بلهجة والضوضاء الخلفية والمفردات التقنية والتبديل بين اللغات. وبما أن OpenAI أطلقت أوزان النموذج تحت رخصة MIT، يمكن لأي شخص تشغيله بدون إرسال الصوت في أي مكان.

كان التأثير العملي فوريًا. في غضون أسابيع من الإصدار، نقل المطورون إلى C++، نشره في المتصفحات، دمجه في أدوات تحرير الفيديو، وبنى مجموعات بث فوري. هذا النظام البيئي هو ما يجعل Whisper جديرًا بالفهم العميق.


العمارة وراء Whisper AI

Whisper هو محول الترميز فك التشفير - نفس عائلة العمارة التي تكمن وراء GPT و BERT ومعظم نماذج اللغات الحديثة، مطبقة على الصوت.

خط أنابيب الإدخال. يتم تحويل الصوت الخام أولاً إلى طيف Mel اللوغاريتمي: تمثيل ثنائي الأبعاد لمحتوى التردد عبر الوقت، مع التردد على محور واحد والوقت على الآخر والكثافة مشفرة بالسطوع. يتم حساب هذا الطيف بنافذة 25 مللي ثانية بخطوة 10 مللي ثانية، مما ينتج 80 صندوق تردد. يتم تقسيم الطيف بعد ذلك إلى أجزاء مدتها 30 ثانية (وحدة المعالجة الأساسية لـ Whisper) وتمريرها إلى المشفر.

المشفر. تعالج مكدس من كتل المحول الطيف وتنتج تمثيلاً غنيًا سياقيًا لمحتوى الصوت. يستخدم Whisper طبقات الانقلاب الملتوية في البداية لتقليل طول التسلسل قبل طبقات الانتباه، مما يجعل الحساب قابل التتبع.

فك التشفير. فك تشفير الانحدار الذاتي - في الأساس نموذج لغة يتم تكييفه مع مخرجات المشفر - ينتج الرموز واحدة تلو الأخرى. هنا تعيش الرموز الخاصة من Whisper: <|startoftranscript|>، رموز اللغة مثل <|en|> أو <|es|>، ورموز المهمة مثل <|transcribe|> أو <|translate|>. من خلال تكييف فك التشفير برمز اللغة وعلامة المهمة، تحصل على إما نسخ باللغة المصدر أو ترجمة مباشرة إلى الإنجليزية - بدون نموذج ترجمة منفصل.

لماذا تهم العمارة للمستخدمين. قيد الحصة المدتها 30 ثانية هو السبب الجذري لطبيعة Whisper المخصصة للمعالجة الدفعية في شكلها الأساسي. النموذج لا يقوم ببث الصوت؛ إنه يعالج نافذة بطول ثابت. تحيط التنفيذات الفوري بهذا بالحفاظ على مخزن مؤقت متدحرج، وتشغيل الاستدلال على أجزاء متداخلة، والغراء الإخراج - مما يضيف تعقيد وكمون ولكنه قابل للتطبيق تماما مع الأدوات الصحيحة.

تأتي القدرة متعددة اللغات من توزيع بيانات التدريب. الإنجليزية تهيمن على حوالي 65% من ساعات التدريب، لكن Whisper شهد أمثلة كافية من اللغات الإسبانية والفرنسية والألمانية والبرتغالية والإيطالية والهولندية واليابانية والصينية وعشرات اللغات الأخرى للتعميم بشكل جيد. نفس مجموعة أوزان النموذج تتعامل مع جميع اللغات - لا تحتاج إلى نماذج منفصلة لكل لغة.


أحجام نموذج Whisper: المقايضات بين الدقة والسرعة

يشحن Whisper خمسة مستويات حجم أساسية. أطلقت OpenAI أيضًا متغيرات .en التي تقتصر على اللغة الإنجليزية للنماذج الأصغر، وهي أسرع وأكثر دقة قليلاً على المحتوى الإنجليزي فقط لأنها تتخطى العلى الإضافية المتعددة اللغات.

النموذجالمعاملاتذاكرة الوصول العشوائي المطلوبةالسرعة النسبيةWER (الإنجليزية)أفضل حالة استخدام
tiny39 مليون~1 GB~32× الوقت الفعلي~13%معاينات سريعة، أجهزة الطرف السفلي جدًا
base74 مليون~1 GB~16× الوقت الفعلي~9%وظائف الدفعات السريعة، تطبيقات مضمنة
small244 مليون~2 GB~6× الوقت الفعلي~5.5%أفضل توازن CPU، معظم الاستخدام على سطح المكتب
medium769 مليون~5 GB~2× الوقت الفعلي~4%جودة الإنتاج بدون GPU كبير
large-v21.55 مليار~10 GB~1× الوقت الفعلي~3%متطلبات دقة عالية، خادم GPU
large-v31.55 مليار~10 GB~1× الوقت الفعلي~2.5%أفضل دقة متاحة، متعدد اللغات

“الوقت الفعلي” هنا يعني أن النموذج يعالج الصوت بنفس معدل تسجيله. نموذج بـ 6× الوقت الفعلي ينسخ دقيقة واحدة من الصوت في حوالي 10 ثوان. تفترض السرعات وحدة معالجة رسومات NVIDIA متوسطة المدى (RTX 3060 أو ما يعادلها). على CPU، قسم جميع السرعات على حوالي 6-10 اعتمادًا على المعالج الخاص بك.

التوجيهات العملية حسب السيناريو:

للعب الإملاء أو الترجمات المباشرة حيث يهم الكمون، نموذج small هو السقف العملي على معظم أجهزة الألعاب - يعمل بسرعة كافية للنتائج القريبة من الوقت الفعلي دون الحاجة إلى GPU محطة عمل. لنسخ دفعي لملفات البودكاست أو تسجيلات الاجتماعات، medium أو large-v3 يعطي نتائج ملحوظة بشكل أفضل على المتحدثين بلهجة والمصطلحات التقنية. إذا كنت تشغل خط أنابيب نسخ على خادم سحابي مع GPU A10G، فإن large-v3 هو دائمًا الخيار الصحيح.

تستحق متغيرات .en (tiny.en، base.en، small.en، medium.en) الاستخدام عندما تكون متأكدًا من أن صوتك باللغة الإنجليزية فقط. إنها تتخطى خطوة كشف اللغة والمسار فك التشفير متعدد اللغات، مما يقلل حوالي 10-20% من وقت الاستدلال ويكسب دفعة دقة صغيرة على محتوى اللغة الإنجليزية.


معدل خطأ الكلمة: ما مدى دقة Whisper AI فعلاً؟

معدل خطأ الكلمة (WER) يقيس نسبة الكلمات التي يخطئ فيها النموذج بالنسبة للنسخة الحقيقية. يتم حسابها بـ (substitutions + deletions + insertions) / total_words × 100.

قارنت الورقة الأصلية من OpenAI Whisper large ضد عدة مجموعات اختبار ASR القياسية:

  • LibriSpeech test-clean: 2.7% WER (كلام مقروء من الكتب الصوتية - ظروف سهلة)
  • LibriSpeech test-other: 5.2% WER (ظروف صوتية أصعب)
  • TED-LIUM test: 4.2% WER (محاضرات، أنماط الكلام الطبيعية)
  • CommonVoice 9.0 (English): 7.4% WER (متجمع، تنوع اللهجات الواسع)
  • CHiME-6: 35% WER (صعب جدًا - ضوضاء حفلة الكوكتيل البعيدة)

للسياق: الخدمات التجارية مثل Google Cloud Speech-to-Text تحقق نتائج مماثلة على الصوت النظيف لكنها تميل إلى تفوق Whisper المفتوح على ظروف صاخبة جدًا لأن لديها نماذج ضوضاء ملكية. تضاءل الفجوة مع large-v3، خاصة عندما يتم دمج Whisper مع مرحلة منفصلة لقمع الضوضاء.

أين يكافح Whisper:

  • الكلام القصير. نموذج الحصة المدتها 30 ثانية يهلوس أحيانًا النص عند إعطائه صوتًا قصيرًا جدًا أو صامتًا. هذه مشكلة معروفة والسبب في أن التنفيذات الفوري توسيع الصمت بعناية.
  • الصوت صاخب جدًا. أقل من حوالي -10 dB SNR، يتسلق WER بشكل حاد. دمج Whisper مع قمع الضوضاء (إما على مستوى النظام أو معالجة مسبقة على غرار RNNoise) يستعيد معظم الدقة.
  • المتحدثون بلهجة ثقيلة في اللغات منخفضة الموارد. تم تدريب Whisper على صوت الإنترنت، مما ينحاز نحو كلام البث والجودة في اللغات الغنية بالموارد.
  • المفردات الخاصة بالمجال. مصطلحات طبية وقانونية وتقنية التي تظهر نادرًا في بيانات التدريب يتم استبدالها بكلمات مشابهة صوتيًا وشائعة. ضبط دقيق يحل هذا.

جميع الطرق للقيام بتشغيل Whisper AI

1. Python CLI (الحزمة الرسمية)

الطريق الأكثر مباشرة. تحتاج Python 3.9-3.12 و ffmpeg مثبتة:

pip install openai-whisper
whisper audio.mp3 --model small --language en

يقوم التشغيل الأول بتنزيل أوزان النموذج إلى ~/.cache/whisper/. تستخدم الأشواط اللاحقة الأوزان المخزنة مؤقتًا. تشمل صيغ الإخراج النص العادي (.txt)، وترجمة SubRip (.srt)، و WebVTT (.vtt)، وملف JSON بطوابع زمنية على مستوى الكلمة إذا مررت --word_timestamps True.

يمكنك أيضًا استخدام Whisper في كود Python:

import whisper

model = whisper.load_model("small")
result = model.transcribe("audio.mp3", language="en")
print(result["text"])

قاموس result يحتوي على النسخة الكاملة واللغة المكتشفة وبيانات التوقيت لكل جزء. هذا يجعل المعالجة اللاحقة واضحة: الفلترة حسب الثقة، الانقسام حسب التوقف، أو المحاذاة مع طوابع زمنية الفيديو.

2. Whisper API من OpenAI

تستضيف OpenAI Whisper كنقطة نهاية مدارة ضمن API الخاصة بهم. بدون تثبيت محلي، بدون GPU مطلوب - تقوم بـ POST لملف صوتي وتتقبل نسخة:

curl https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F model="whisper-1" \
  -F file="@audio.mp3"

التسعير هو $0.006 لكل دقيقة من الصوت (اعتبارًا من 2026). تعمل API على large-v2 على بنية OpenAI، لذا تحصل على دقة عالية دون إدارة أي حوسبة. الحد العملي هو 25 ميجابايت لكل ملف؛ بالنسبة للصوت الأطول، تحتاج إلى تقسيمه أولاً.

تدعم API أيضًا الترجمة إلى الإنجليزية من أي من اللغات المدعومة الـ 99:

curl https://api.openai.com/v1/audio/translations \
  -F model="whisper-1" \
  -F file="@spanish_audio.mp3"

هذه أسرع طريقة للبدء إذا كان لديك احتياجات نسخ عرضية ولا تريد إعداد بيئة محلية.

3. Whisper Web (المتصفح)

Whisper Web يعمل whisper.cpp مترجم إلى WebAssembly، تماما في المتصفح. يتم تنزيل أوزان النموذج إلى ذاكرة تخزين مؤقت المتصفح عند الاستخدام الأول؛ لا يتم إرسال الصوت إلى خادم. إنها خيار الصفر التثبيت - يعمل على أي جهاز مع متصفح حديث وعلى الأقل 4 GB من RAM المتاح.

الاستدلال في المتصفح أبطأ من التنفيذ الأصلي (حوالي عقوبة 3-4× مقارنة بـ whisper.cpp المحلي)، لكن للاستخدام العرضي أو على الآلات التي لا يمكنك تثبيت البرنامج فيها، إنها مفيدة حقًا.

4. تطبيقات GUI سطح المكتب

عدة تطبيقات سطح المكتب تلف Whisper بواجهة رسومية، مما يزيل الحاجة للمس طرف أنابيب:

  • Buzz - عبر الأنظمة الأساسية (Windows/Mac/Linux)، واجهة السحب والإفلات، يدعم جميع أحجام نموذج Whisper، مخرجات SRT/VTT/TXT. مجاني ومفتوح المصدر (GitHub).
  • MacWhisper - تطبيق macOS مصقول مع معالجة دفعية وتحسين Apple Silicon (طبقة مدفوعة لبعض الميزات).
  • Whisper Transcriber - واجهة Windows، واجهة بسيطة، جيدة للوظائف المفردة.

لمستخدمي Windows الذين يريدون Whisper المتكامل في مجموعة أدوات صوتية أكبر بدلاً من تطبيق النسخ القائم بذاته، VoxBooster يجمع كلام-إلى-نص بجودة Whisper محليًا مباشرة في التطبيق. ميزة الإملاء تتفعل مع مفتاح عام، وتنسخ كلامك في الوقت الفعلي، وتكتب النتيجة في أي نافذة نشطة - بدون بيئة Python، بدون طرف منفصل، بدون إدارة نموذج يدوية.


النسخ الفوري: ما هو ممكن فعلاً

هذا هو السؤال الذي يأتي معظمًا، والإجابة دقيقة: نسخ Whisper الفوري ممكن، لكنه يتطلب أكثر من الحزمة الأساسية من Python.

تعالج حزمة openai-whisper ملفات الصوت. إنها غير قادرة على البث من الصندوق. تمنحها ملف، تعيد لك نسخة. للصوت الحي، تحتاج إلى أحد هذه النهج:

النهج 1: المخزن المؤقت المتدحرج مع تداخل الأجزاء. سجل الصوت بأجزاء (عادة 5-30 ثانية)، قم بتشغيل Whisper على كل جزء، والصق النتائج. التحدي هو التعامل مع الكلمات التي تقع على حدود الأجزاء - تداخل الأجزاء بـ 1-2 ثانية وإزالة الازدواجيات من الإخراج يحل معظم هذا. هذا قابل للعمل لكنه يضيف كمون مرئي.

النهج 2: whisper.cpp وضع البث. منفذ C++ يتضمن مثال بث يعالج الصوت من الميكروفون في الوقت القريب من الفعلي. مع نموذج small على CPU حديث، هذا يحقق كمون 1-3 ثانية - جيد بما يكفي للترجمات المباشرة. الإعداد يتطلب تجميع whisper.cpp، وهو أكثر تعقيدًا من تثبيت pip.

النهج 3: faster-whisper مع التقسيم. faster-whisper (مغطاة بالتفصيل أدناه) سريعة بما يكفي بحيث تصبح حلقة التقسيم قابلة للتطبيق حتى على CPU. عدة تنفيذات فوري في المجتمع تستخدم faster-whisper كنظام backend للاستدلال.

النهج 4: التطبيقات المخصصة. هنا حيث تضيف أدوات مثل VoxBooster قيمة حقيقية - فهي تتعامل مع كل تعقيد البث داخليًا. يحافظ التطبيق على مخزن مؤقت للصوت، ويكتشف بداية/نهاية الكلام باستخدام كاشف نشاط الصوت، ويشغل استدلال Whisper على الكلام المكتمل، وحقن النتيجة كضربات لوحة مفاتيح في التطبيق النشط. بالنسبة للاعبين، هذا يعني أنه يمكنك إملاء رسائل الدردشة أو استدعاءات العنصر أو الإحداثيات بدون alt-tab أو لمس لوحة مفاتيح. الكمون عادة 1-3 ثوان من نهاية الكلام إلى ظهور النص على الشاشة، وهو عملي لمعظم سيناريوهات الألعاب والبث.

الملخص الصريح: الحزمة القياسية من Python مخصصة للمعالجة الدفعية فقط. نسخ Whisper الفوري مع دقة جودة Whisper قابل للتحقيق مع الأدوات الصحيحة، لكنه يضيف تعقيد. إذا كان الفوري هو حالة الاستخدام الأساسية الخاصة بك، ابدأ بتطبيق يتعامل مع الأنابيب بدلاً من بناء من الصفر.


أدوات خارجية مبنية على Whisper

نما النظام البيئي حول Whisper في عدة حالات وتجاوز الأصلي في أبعاد محددة.

faster-whisper

faster-whisper هو إعادة تنفيذ Whisper باستخدام CTranslate2، محرك استدلال محسّن للغاية لنماذج المحول. الفرق في الأداء كبير:

التنفيذنموذج small، RTX 3060نموذج large-v2، RTX 3060
openai-whisper~12× الوقت الفعلي~1× الوقت الفعلي
faster-whisper~35× الوقت الفعلي~4× الوقت الفعلي

على CPU، faster-whisper يفوق أيضًا الأصلي بشكل كبير لأن CTranslate2 يستخدم كمي INT8 افتراضيًا، مما يقلل متطلبات عرض النطاق الترددي للذاكرة. لمعظم خطوط أنابيب النسخ الإنتاج، faster-whisper هو نظام backend الاستدلال المفضل.

الاستخدام مشابه للأصلي:

from faster_whisper import WhisperModel

model = WhisperModel("small", device="cpu", compute_type="int8")
segments, info = model.transcribe("audio.mp3", beam_size=5)

for segment in segments:
    print(f"[{segment.start:.2f}s] {segment.text}")

WhisperX

WhisperX توسع Whisper مع قدرتين حرجتين ينقصهما النموذج الأساسي: طوابع زمنية على مستوى الكلمة وتمييز المتحدث.

يوفر Whisper الأساسي طوابع زمنية لكل جزء (عادة عبارة أو جملة). يقوم WhisperX بخطوة محاذاة قسرية بعد النسخ باستخدام wav2vec2، مما ينتج طوابع زمنية دقيقة إلى الكلمة الفردية. هذا ضروري لإنشاء الترجمات والرسوم المتحركة لترجمة على غرار الكاريوكي، وأي سير عمل حيث تحتاج إلى معرفة بالضبط متى تم نطق كل كلمة.

تمييز المتحدث يحدد من يتحدث في كل نقطة في الصوت - “المتحدث 1 قال X، رد المتحدث 2 Y.” يدمج WhisperX pyannote.audio لتمييز. مدمجة، تحصل على مخرجات مثل:

[00:00:02.1 → 00:00:05.8] (المتحدث 1) الثعلب البني السريع قفز فوق الكلب الكسول.
[00:00:06.2 → 00:00:09.4] (المتحدث 2) هذا لغو - إنه يستخدم كل حرف.

لنسخ البودكاست وملاحظات الاجتماعات مع عدة مشاركين، هذا الإخراج مفيد بشكل كبير أكثر من النص غير المميز. انظر دليلنا على نسخ البودكاست مع أصوات متعددة لسير عمل عملي باستخدام هذا النوع من الأدوات.

whisper.cpp

whisper.cpp هو منفذ C/C++ من مكدس استدلال Whisper باستخدام أوزان مكممة GGML. الفوائس الرئيسية على الأصل من Python هي: بدون اعتماد Python، تأثير ذاكرة أقل بكثير عبر التكمية، ووضع البث المذكور سابقًا. على Apple Silicon، يستخدم معالج Metal GPU. على Windows، يدعم CUDA و OpenBLAS و DirectML.

المقايضة هي تعقيد الإعداد - تحتاج إلى التجميع من المصدر على Windows، مما يتطلب أدوات بناء Visual Studio. انظر دليلنا على إعداد Whisper على Windows للتعليمات خطوة بخطوة التجميع.


اللغات المدعومة وميزة الترجمة

Whisper يدعم النسخ في 99 لغة. القائمة الكاملة تغطي اللغات الرئيسية العالمية بالإضافة إلى العديد من اللغات الإقليمية والأقلية. يرتبط الأداء بقوة بحجم بيانات التدريب - اللغات التي تظهر كثيرًا على الإنترنت الناطقة باللغة الإنجليزية لها دقة أفضل من اللغات ذات الوجود الويب المحدود.

مستويات اللغات حسب الدقة (WER تقريبي، large-v3):

المستوىاللغاتنطاق WER النموذجي
ممتازالإنجليزية والإسبانية والفرنسية والألمانية والإيطالية والبرتغالية والهولندية2-5%
جيد جدًااليابانية والصينية والكورية والروسية والعربية والبولندية والتركية5-10%
جيدالسويدية والنرويجية والدانماركية والتشيكية والرومانية والأوكرانية8-15%
معقولالعديد من اللغات الأوروبية الأخرى والإندونيسية والتايلاندية والفيتنامية12-25%
متغيراللغات منخفضة الموارد والعاميات النادرة20-50%+

كشف اللغة. افتراضيًا، Whisper يكتشف اللغة تلقائيًا من أول 30 ثانية من الصوت. يمكنك تجاوز هذا مع --language XX في CLI أو language="xx" في Python. إذا كان صوتك لغة معروفة، حدده دائمًا - الكشف عادة صحيح لكنه خاطئ أحيانًا على المقاطع القصيرة أو الكلام المتبادل بين اللغات.

الترجمة إلى الإنجليزية. يمكن لـ Whisper الترجمة من أي لغة مدعومة مباشرة إلى الإنجليزية في ممر واحد - لا خطوة نسخ وسيطة، بلا نموذج ترجمة منفصل. هذا يعمل لأن فك التشفير يتم تدريبه على أزواج متعدد اللغات → إنجليزية وكذلك أزواج نفس اللغة. الجودة معقولة للكلام غير الرسمي لكن لن تطابق ترجمة آلية عصبية مخصصة للوثائق الرسمية. علم التعليم --task translate CLI تفعل هذا الوضع.

إخراج الطابع الزمني. كل تشغيل Whisper ينتج طوابع زمنية لكل جزء. مرر --word_timestamps True على CLI (أو في كود Python) للحصول على دقة على مستوى الكلمة. تستخدم صيغ إخراج SRT و VTT هذه الطوابع الزمنية لإنتاج ملفات ترجمة جاهزة للاستيراد في أدوات تحرير الفيديو.


حالات الاستخدام: أين يناسب Whisper AI

الترجمات والترجمات المغلقة

مخرجات SRT/VTT من Whisper تنسقط مباشرة في Premiere Pro و DaVinci Resolve و Final Cut أو أي منصة ترجمة. لمنشئي YouTube، سير العمل هو: تصدير صوتك من التحرير، قم بتشغيل Whisper، حمل SRT جنبا إلى جنب مع الفيديو. الدقة عالية بما يكفي بحيث لا تحتاج إلا تصحيحات طفيفة لمعظم الكلام الإنجليزي.

للمحتوى متعدد اللغات، يمكن لوضع ترجمة Whisper إنتاج مسار ترجمة إنجليزية من صوت غير إنجليزي بدون خطوة ترجمة منفصلة.

نسخ الاجتماعات

نسخ دفعي للاجتماعات المسجلة هو أحد أقوى حالات استخدام Whisper. مع WhisperX يوفر تمييز المتحدث، تحصل على نسخة قابلة للبحث مع نسب المتحدث. زوج مع خطوة تلخيص (GPT-4، Claude، إلخ) وتحصل على ملاحظات الاجتماع الآلية. معظم أدوات نسخ الاجتماعات في 2026 - Otter.ai و Fireflies و Fathom - تستخدم إما Whisper أو نماذجهم الملكية التي تقارن معها.

نسخ البودكاست

يستفيد نسخ البودكاست من نفس قدرة تمييز المتحدث. يُنتج بودكاست بمضيفين معالج من خلال WhisperX + تمييز نسخة نظيفة وموسومة بالمتحدث جاهزة لمنشور مدونة أو ملاحظات البرنامج. للخطوات التقنية ومثال سير عمل عملي، انظر دليل نسخ صوت البودكاست المتعدد.

الإملاء والعبارات الصرخة في الألعاب

هذه حالة استخدام مخصصة خصيصًا لنوع تكامل Whisper الفوري الذي VoxBooster توفره. في الألعاب حيث الكتابة ممكنة (MMOs، ألعاب الاستراتيجية، ألعاب البقاء)، يزيل الإملاء الصوتي الحاجة إلى توقف الحركة للكتابة. قول ما تريد التواصل، ويظهر في الدردشة.

أكثر إثارة للألعاب التنافسية هو نظام الاستدعاء: اضبط hotkey، امسكه بينما تقول عبارة ذات صلة بالحي (“عدو في الممر السفلي”، “التنين في 30”)، والنص المنسوخ ينبثق كرسالة دردشة أو استجابة محفوظة برمجيًا. الكمون منخفض بما يكفي (1-3 ثوان) بحيث يظل عمليًا في الألعاب سريعة الوتيرة. بالنسبة للبثاث، دمج هذا مع مغير صوت VoxBooster و قمع الضوضاء يعني أداة واحدة تتعامل مع معالجة الصوت والنسخ والمجلة الصوتية - بدون مفاوضة عدة تطبيقات وسط البث.

للمزيد انظر دليلنا على إملاء صوت Windows و دليل إعداد Whisper الخاص بـ Windows.

إمكانية الوصول

الترجمات المباشرة للمستخدمين الصم هي أحد أعلى التطبيقات قيمة من Whisper الفوري. مدمجة مع تنفيذ البث، يمكن لـ Whisper إنتاج ترجمات معقولة من أي مصدر صوتي - فيديو YouTube يعمل على الشاشة، مكالمة هاتفية عبر مكبر الصوت، أو محادثة وجهًا لوجه التقطها ميكروفون سطح المكتب. عند 2-5% WER على الكلام النظيف، إنها دقيقة بما يكفي لتكون مفيدة حقًا بدلاً من محبطة.

البحث المحتوى والأرشفة

يستخدم الباحثون والصحفيون والأرشيفيون Whisper لنسخ مجموعات كبيرة من الصوت والفيديو التي ستكون غير قابلة للوصول بدون ذلك للبحث أو التحليل. لأن Whisper تعمل محليًا ومجانية، تقاس التكاليف فقط بالحوسبة - وظيفة دفعة على GPU A100 يمكنها معالجة مئات ساعات من الصوت خلال الليل.


Whisper API: متى تستخدم نقطة النهاية المدارة

نقطة نهاية Whisper من OpenAI API تزيل جميع الاهتمامات بالبنية التحتية. لا يوجد نموذج للتنزيل، بدون GPU للتكوين، بدون بيئة Python للحفاظ عليها. ترسل ملف صوتي (أقصى 25 MB، حتى حوالي 4 ساعات من الصوت المضغوط)، وتحصل على نسخة. تعمل نقطة النهاية على large-v2 وعادة ما تستجيب في بضع ثواني.

متى يتم استخدامه:

  • احتياجات النسخ العرضية أو غير المنتظمة حيث لا تكون تكاليف الإعداد تستحق الأمر
  • التطبيقات التي لا يمكنها حزم 1.5 GB من أوزان النموذج (تطبيقات الجوال، أدوات الويب الخفيفة الوزن)
  • عندما تحتاج إلى أقصى دقة بدون إدارة البنية التحتية
  • النماذج الأولية السريعة قبل الالتزام بمكدس استضافة ذاتية

متى تتجنبه:

  • محتوى الصوت الحساس الذي لا ينبغي أن يترك البنية التحتية الخاصة بك
  • أحمال عمل عالية الحجم حيث $0.006/دقيقة تضيف بسرعة
  • متطلبات الفوري (API ليست قادرة على البث - إنها متزامنة وترجع عند الانتهاء)
  • البيئات المعزولة أو بدون اتصال

لمعظم المطورين الذين يبنون منتج، فإن قرار العمارة هو: النموذج الأولي مع API، الهجرة إلى faster-whisper استضافة ذاتية عندما تبرر متطلبات الحجم أو الكمون.


ضبط Whisper الدقيق للمفردات الخاصة بالمجال

من خارج الصندوق، Whisper يتعامل مع الكلام العام بشكل جيد. أين يكافح هو المفردات الخاصة بالمجال - مصطلحات طبية وألفاظ قانونية وأسماء منتجات واختصارات أو المصطلحات الداخلية لمنظمة محددة. يعالج الضبط الدقيق هذا بمتابعة التدريب على مجموعة بيانات صغيرة من الصوت داخل المجال مقترن بنسخ دقيقة.

ما تحتاج إليه للضبط الدقيق:

  • 10-100 ساعة من الصوت داخل المجال مع نسخ دقيقة (المزيد أفضل، لكن 10 ساعات يمكنها بالفعل مساعدة بشكل كبير)
  • GPU مع 16 GB VRAM على الأقل لضبط دقيق لنموذج small أو medium (large يحتاج 40+ GB)
  • مكتبة Hugging Face transformers وموديل Whisper من Hub

العملية بالتفصيل:

  1. نسق بيانات الصوت/النسخ المقترنة في كائن Hugging Face Dataset
  2. حمل نموذج Whisper باستخدام WhisperForConditionalGeneration و WhisperProcessor
  3. قم بتشغيل تدريب Seq2Seq قياسي مع خسارة CTC/cross-entropy على بيانات المجال الخاصة بك
  4. قيم على مجموعة اختبار محجوزة بمقياس WER
  5. قم بتصدير واستخدم الأوزان المضبوطة دقيقة بدلاً من نموذج الأساس

نشرت Hugging Face نصوص ضبط دقيق مفصلة لـ Whisper التي تتعامل مع معظم الأشياء المملة. الضبط الدقيق هو سير عمل متقدم يدفع بشكل كبير للتطبيقات المتخصصة - إذا كنت تبني أداة نسخ للإملاء الطبي أو الإيداعات القانونية، فإن تحسين الدقة على مفردات المجال كبير.

لمعظم المستخدمين، الضبط الدقيق ليس ضروريًا. استخدام نموذج large-v3 مع موجه مخصص بالمجال (معامل initial_prompt في Python API يقبل سلسلة تنحاز فك التشفير نحو المفردات المتوقعة) يعطي دفعة دقة مفيدة للمحتوى التقني بدون أي تدريب.


اختيار إعداد Whisper الصحيح لاحتياجاتك

الحالةالأسلوب الموصى به
نسخ بضع ملفات صوتية، بدون برمجةتطبيق سطح المكتب Buzz أو Whisper Web
خط أنابيب نسخ دفعيPython + faster-whisper، نموذج medium أو large-v3
أقصى دقة، أي لغةOpenAI API (whisper-1) أو large-v3 محلي مع GPU
إملاء فوري على Windows (ألعاب/بث)VoxBooster مع تكامل Whisper المدمج
نسخ الاجتماعات متعدد المتحدثينخط أنابيب WhisperX + تمييز
ترجمات محتوى الفيديوPython CLI أو Buzz، إخراج SRT، طوابع زمنية على الكلمة
مفردات خاصة بالمجال (طبية، قانونية)Whisper ضبط دقيق عبر Hugging Face
تطبيق الجوال أو الويبOpenAI API أو Whisper Web (WASM)
بدون إمكانية الوصول إلى الإنترنتwhisper.cpp (محلي، بدون نداءات الشبكة)
المطورون يبنون منتجابدأ مع OpenAI API، هاجر إلى faster-whisper على النطاق

كيف يدمج VoxBooster Whisper

VoxBooster هو تطبيق سطح مكتب Windows مبني لاعبي الألعاب والبثاثين ومنشئي المحتوى يتضمن النسخ على أساس Whisper كواحدة من ميزاته الأساسية جنبًا إلى جنب مع تغيير الصوت الفوري وكلون الصوت AI (RVC) وسبورة صوت مع مفاتيح عام.

ميزة النسخ مصممة حول الإملاء الفوري بدلاً من معالجة الملفات الدفعية. تقوم بتعيين مفتاح push-to-talk في إعدادات VoxBooster، امسكه بينما تتحدث، والنص المنسوخ يتم حقنه في أي تطبيق له التركيز - صندوق دردشة اللعبة أو رسالة Discord أو محرر مستند. يعمل هذا لأن VoxBooster يحافظ على نموذج Whisper محلي ويشغل الاستدلال على الكلام المكتمل (الذي يكتشفه كاشف نشاط الصوت)، ثم يستخدم Windows APIs للوصول إلى كتابة النتيجة.

بالنسبة للبثاثين، فإن الجمع بين قمع الضوضاء قبل إدخال Whisper يحسن بشكل كبير الدقة في بيئات صاخبة - صوت الميك الذي يصل إلى Whisper تم تنظيفه بالفعل، وهو أكبر عامل واحد في الحصول على نسخ دقيقة خارج ظروف الاستوديو.

لمنشئي المحتوى المهتمين بكيفية عمل تكنولوجيا الصوت AI بشكل أوسع، وأي شخص يبني أو يدرب نماذج صوتية مخصصة، التقاطع مع Whisper طبيعي: يمكن لـ Whisper إنشاء نسخ تدريب من تسجيلات الصوت تلقائيًا، مما يزيل أحد الخطوات اليدوية في بناء مجموعة بيانات صوتية. قم بتنزيل VoxBooster لتجربة النسخ المدمج جنبًا إلى جنب مع ميزاته الأخرى.


الخلاصة

يمثل Whisper AI تغييرًا حقيقيًا في ما يمكن أن تفعله تعرّف الكلام مفتوح المصدر. مزيج حجم التدريب (680,000 ساعة) وبساطة العمارة (محول تسلسل-إلى-تسلسل قياسي) والترخيص مفتوح حقًا قد أنتج نموذج يتنافس مع الخدمات التجارية المدفوعة أثناء تشغيل بالكامل على أجهزتك الخاصة.

النظام البيئي الذي نما حول هذا - faster-whisper للأداء، WhisperX لتمييز المتحدث والمحاذاة على مستوى الكلمة، whisper.cpp لنشر محلي خفيف الوزن، Buzz لغلاف واجهة رسومية، وتطبيقات سطح مكتب مخصصة مثل VoxBooster لحالات الاستخدام الفوري - يعني أنه مهما كانت متطلباتك المحددة، توجد أداة جاهزة تناسب.

إذا كنت تبدأ من الصفر: للنسخ الدفعي، ثبت faster-whisper واستخدم نموذج small أو medium. للاستخدام العرضي بدون أي إعداد، API OpenAI هو أسرع مسار. للإملاء الفوري على Windows كجزء من مجموعة أدوات صوتية أوسع، VoxBooster يتعامل مع التعقيد حتى تتمكن من التركيز على الإنشاء أو اللعب أو البث بدلاً من تصحيح بيئات Python.

ستواصل العمارة والأدوات التحسن - large-v3 ليست الكلمة الأخيرة، والمجتمع الذي يساهم في faster-whisper و WhisperX و whisper.cpp أظهر سجل ثابت من دفع التكنولوجيا للأمام. Whisper AI جدير بالتعلم جيدًا، لأنه سيكون جزءًا من البنية التحتية الكلام-إلى-نص لفترة طويلة.


الأسئلة المتكررة

ما هو Whisper AI؟

Whisper AI هو نموذج تعرّف كلام آلي مفتوح المصدر أطلقته OpenAI في سبتمبر 2022. مدرب على 680,000 ساعة من الصوت متعدد اللغات، يدعم 99 لغة، وينتج نصًا مترقومًا، ويحقق دقة قريبة من الإنسان على الصوت النظيف - بدون اشتراك أو تكلفة لكل دقيقة عند التشغيل محليًا.

هل Whisper AI مجاني الاستخدام؟

أوزان نموذج Whisper والكود المصدري مفتوح تماما تحت رخصة MIT، لذا تشغيله محليًا مجاني. تقدم OpenAI أيضًا Whisper كنقطة نهاية API مدارة ($0.006 لكل دقيقة اعتبارًا من 2026)، وهي أسهل طريقة لاستخدامه بدون تثبيت Python أو إدارة برامج تشغيل GPU.

ما مدى دقة Whisper AI مقارنة بأدوات تحويل كلام إلى نص أخرى؟

على الصوت الإنجليزي النظيف، يحقق Whisper large-v3 معدلات خطأ كلماتية من 2-4%، مقارنة بالخدمات المدفوعة مثل Google Speech-to-Text أو Amazon Transcribe. على الكلام بلهجة والصوت متعدد اللغات، غالبًا ما يفوق البدائل المغلقة لأن لديه مجموعة بيانات تدريبية متنوعة حقًا بسعة 680K ساعة.

هل يمكن لـ Whisper AI القيام بالنسخ الفوري؟

الحزمة الأصلية من Python مخصصة للمعالجة الدفعية فقط. يتطلب النسخ الفوري تنفيذ البث مثل whisper.cpp في وضع البث، أو faster-whisper مع حلقة تقسيم، أو تطبيق مخصص مثل VoxBooster الذي يلف استدلال Whisper في خط أنابيب صوتي منخفض الكمون مع محفز مفتاح عام.

ما اللغات التي يدعمها Whisper؟

Whisper يدعم 99 لغة. الأداء الأعلى للغات الإنجليزية والإسبانية والفرنسية والألمانية والبرتغالية والإيطالية والهولندية واليابانية. للغات محدودة الموارد معدلات الخطأ في الكلمات أعلى، لكنها غالبًا ما تكون أفضل من البدائل المدربة فقط على بيانات الاستوديو النظيفة.

ما الفرق بين أحجام نموذج Whisper المختلفة؟

يأتي Whisper في خمسة أحجام: tiny (39 مليون معامل)، base (74 مليون)، small (244 مليون)، medium (769 مليون)، و large (1.55 مليار، مع متغيرات v2 و v3). النماذج الأكبر أكثر دقة لكنها تحتاج إلى ذاكرة وصول عشوائي أكثر ووقت حوسبة. نموذج small هو الحل الوسط العملي لمعظم المستخدمين - دقة جيدة، يعمل بتقريب الوقت الفعلي على CPU حديث، يناسب 2 GB RAM.

كيف يمكنني استخدام Whisper AI بدون تثبيت Python؟

ثلاث خيارات سهلة: (1) Whisper Web يعمل في أي متصفح حديث على whisper.ggerganov.com - بدون تثبيت على الإطلاق؛ (2) Buzz هو تطبيق سطح مكتب بواجهة رسومية لـ Windows/Mac/Linux يلف Whisper بواجهة سحب وإفلات؛ (3) VoxBooster على Windows يتضمن النسخ المحلي بجودة Whisper مباشرة في التطبيق، يمكن الوصول إليه بضغطة مفتاح واحد، بدون بيئة Python.

جرّب VoxBooster — 3 أيام مجاناً.

استنساخ الصوت الفوري، لوحة الأصوات والمؤثرات — أينما تتحدث.

  • بدون بطاقة
  • ~30ms تأخير
  • Discord · Teams · OBS
جرّب 3 أيام مجاناً