توفر Whisper transcription على Windows تحويل نص دقيق من الكلام يعمل بالكامل على أجهزتك الخاصة — بدون اشتراك، بدون تحميل سحابي، بدون رسم لكل دقيقة. يغطي هذا الدليل كل شيء من المتطلبات الأساسية إلى الاستخدام الإنتاجي: تثبيت Python pip ، منفذ whisper.cpp الأخف، تطبيقات واجهة رسومية جاهزة، وماذا تفعل عندما تريد تحويل النص من الكلام في الوقت الفعلي بدون بيئة Python.
ملخص سريع (TL;DR)
- OpenAI Whisper هو نموذج التعرف على الكلام مفتوح المصدر والمجاني مع خمس مستويات حجم (tiny → large-v3)
- قم بالتثبيت عبر
pip install openai-whisperعلى Python 3.9–3.12؛ يحتاج ffmpeg على PATH whisper.cppهو منفذ C++ أخف — بدون Python، يعمل على المعالج المركزي عبر كمية GGML- وحدة معالجة الرسومات (CUDA) تقلل وقت تحويل النص من الكلام إلى قريب من الوقت الفعلي حتى على النماذج الكبيرة؛ المعالج المركزي يعمل بشكل جيد للنموذج الصغير
- للحصول على تحويل نص حي من الكلام بدون أي إعداد Python، يجمع VoxBooster تحويل نص محلي بدرجة Whisper مع مفتاح تشغيل عام
- الأخطاء الشائعة: ffmpeg مفقود، بيئة Python خاطئة، عدم تطابق إصدار CUDA
ما هو تحويل النص من الكلام Whisper؟
OpenAI Whisper هو نظام تعرف على الكلام التلقائي (ASR) مفتوح المصدر تم تدريبه على 680،000 ساعة من الصوت متعدد اللغات. تم إطلاقه في سبتمبر 2022 وتحسينه بشكل مستمر منذ ذلك الحين، يعمل كنموذج محلي — مما يعني أن ملفات الصوت الخاصة بك لن تترك جهاز الكمبيوتر الخاص بك. يتعامل مع 99 لغة، ويضع علامات ترقيم تلقائيًا، ويحقق معدلات خطأ الكلمات أقل من 5% على الصوت الإنجليزي النظيف مع نموذج large-v3.
على عكس الخدمات السحابية (Otter.ai وRev وطبقة نسخ Descript)، لا يحتوي Whisper على Windows على تكلفة لكل دقيقة وليس عليك القلق بشأن سياسة البيانات. تحويل النص من الكلام عبر Whisper مجاني حقًا بمجرد تنزيل أوزان النموذج.
المتطلبات قبل التثبيت
قبل اختيار طريقة تثبيت، تحقق من هذه التبعيات:
Python 3.9–3.12. تتطلب حزمة Whisper الرسمية Python. تحقق مما إذا كان لديك:
py --version
إذا لم يكن الأمر كذلك، قم بتنزيل أحدث برنامج تثبيت 3.12 من python.org. أثناء التثبيت، حدد “إضافة Python إلى PATH” — هذا مهم.
ffmpeg. يستخدم Whisper ffmpeg لفك تشفير ملفات الصوت والفيديو. بدونه، ستحصل على FileNotFoundError أو خرج فارغ على أي شيء ليس WAV خام. أسرع طريقة تثبيت على Windows 10/11:
winget install Gyan.FFmpeg
ثم افتح محطة طرفية جديدة وتحقق: ffmpeg -version.
وحدة معالجة رسومات (اختيارية لكن موصى بها). يعمل Whisper على المعالج المركزي، لكن وحدة معالجة رسومات CUDA ذات كفاءة NVIDIA تُحدث فرقًا كبيرًا. بالنسبة للنموذج الكبير، يستغرق نسخ ملف مدته 10 دقائق على جهاز سطح مكتب حديث 3-6 دقائق؛ على وحدة معالجة رسومات متوسطة (RTX 3060 بـ 12 جيجابايت VRAM) يستغرق حوالي 40 ثانية. المزيد حول أحجام النماذج ومتطلبات VRAM في الجدول أدناه.
أحجام نماذج Whisper: أيها تختار
| النموذج | المعاملات | VRAM (FP16) | السرعة النسبية | WER الإنجليزية | الأفضل لـ |
|---|---|---|---|---|---|
| tiny | 39 ميلت | ~1 جيجابايت | ~32× الوقت الفعلي | ~5.7% | مسودات سريعة، أجهزة منخفضة النهاية |
| base | 74 ميلت | ~1 جيجابايت | ~16× الوقت الفعلي | ~4.2% | ملاحظات سريعة، البث المباشر |
| small | 244 ميلت | ~2 جيجابايت | ~6× الوقت الفعلي | ~3.0% | معظم المستخدمين — أفضل قيمة |
| medium | 769 ميلت | ~5 جيجابايت | ~2× الوقت الفعلي | ~2.2% | نسخ احترافي |
| large-v3 | 1550 ميلت | ~10 جيجابايت | ~1× الوقت الفعلي | ~1.6% | التشديدات، متعدد اللغات، طبي |
“عامل الوقت الفعلي” (RTF) هنا يعني استدلال وحدة معالجة الرسومات على NVIDIA A100. على وحدة معالجة رسومات المستهلك RTX 3080، اضرب تقريبًا بـ 3-4×. على المعالج المركزي، اضرب بـ 10-20× مرة أخرى.
لمعظم مستخدمي Windows: ابدأ بـ small. يعمل بسرعة قريبة من الوقت الفعلي على المعالج المركزي الحديث، يتعامل مع التشديدات بشكل أفضل من base، ويناسب 2 جيجابايت من RAM/VRAM. إذا كانت الدقة على المفردات التقنية الكثيفة مهمة (قانوني، طبي، مراجعات الأكواد)، اختبر medium التالي.
الطريقة 1: pip Install (حزمة Python الرسمية)
هذا هو تثبيت openai whisper windows الموصى به — مباشر إذا كنت مرتاحًا لمحطة طرفية. يوفر لك أقصى مرونة: وصول كامل إلى API Python، جميع تنسيقات الإخراج (txt و srt و vtt و json و tsv)، والتكامل السهل مع السكريبتات الأخرى.
الخطوة 1 — إنشاء بيئة افتراضية (موصى بها)
py -m venv whisper-env
whisper-env\Scripts\activate
يبقي هذا تبعيات Whisper معزولة عن Python الخاص بك.
الخطوة 2 — تثبيت Whisper
pip install openai-whisper
هذا يسحب مكتبة النموذج والتبعيات الخاصة به (PyTorch و tiktoken و tqdm و more-itertools). توقع تنزيلات 1-3 جيجابايت على التشغيل الأول بما في ذلك PyTorch.
الخطوة 3 — تثبيت PyTorch مع CUDA (إذا كان لديك وحدة معالجة رسومات NVIDIA)
PyTorch الافتراضي من الأمر أعلاه مقتصر على المعالج المركزي فقط. لتسريع وحدة معالجة الرسومات:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
طابق بادئة cu121 لإصدار CUDA المثبت (nvidia-smi يظهره). انظر مصفوفة تثبيت PyTorch إذا كنت غير متأكد.
الخطوة 4 — تشغيل أول نسخ لك
whisper my_audio.mp3 --model small
يقوم التشغيل الأول بتنزيل أوزان النموذج (~244 ميجابايت لـ small). عمليات التشغيل اللاحقة فورية. الإخراج: ملف .txt و .srt و .vtt بجانب صوتك.
الخطوة 5 — أعلام مفيدة
# فرض الإنجليزية (تخطي الكشف عن اللغة، أسرع قليلاً)
whisper audio.mp3 --model small --language en
# الإخراج فقط نص عادي
whisper audio.mp3 --model small --output_format txt
# نسخ قطعة محددة (ثوان)
whisper audio.mp3 --model small --clip_timestamps "30,90"
# استخدام جهاز وحدة معالجة الرسومات بوضوح
whisper audio.mp3 --model medium --device cuda
الطريقة 2: whisper.cpp (بدون Python مطلوب)
whisper.cpp هو إعادة تطبيق C/C++ من محرك استدلال Whisper. يعمل بدون Python أو CUDA أو PyTorch. على Windows، يستخدم أوزان GGML المكمّمة — نفس الصيغة المستخدمة بـ llama.cpp — ويمكنه التسريع عبر OpenBLAS (المعالج المركزي) أو DirectML (وحدات معالجة الرسومات AMD/Intel/NVIDIA بدون CUDA).
لماذا تستخدمه بدلاً من حزمة Python؟
- يبدأ في أقل من ثانية (بدون تهيئة PyTorch)
- يستخدم 30-50% أقل RAM على نفس النموذج
- يأتي كملف
.exeواحد — أسهل للدمج في السكريبتات أو التطبيقات الأخرى - وضع البث متاح لتحويل النص من الكلام قريب من الوقت الفعلي
خطوات التثبيت على Windows
الملفات الثنائية المُحسنة مسبقًا لـ Windows متاحة من صفحة إصدارات whisper.cpp على GitHub. قم بتنزيل whisper-bin-x64.zip، استخرجه، ثم قم بتنزيل نموذج:
# استخدام PowerShell — تنزيل نموذج GGML الصغير
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"
تشغيل النسخ:
.\main.exe -m models\ggml-small.bin -f audio.wav -otxt
ملاحظة: whisper.cpp يتطلب إدخال WAV (16 كيلوهرتز، أحادي، 16-بت PCM). تحويل مع ffmpeg أولاً:
ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav
الطريقة 3: تطبيقات واجهة رسومية مدمجة في Whisper
إذا كنت لا تريد محطة طرفية على الإطلاق، عدة تطبيقات واجهة رسومية مفتوحة المصدر تغلف Whisper للتجربة انقر للنسخ على Windows:
Whisper Desktop — تطبيق Windows .NET 6 يغلف whisper.cpp بواجهة السحب والإفلات. يدعم اختيار النموذج واللغة ومعالجة الدفعات. لا يتطلب Python؛ برنامج التثبيت متاح على GitHub.
واجهات مستخدم مستندة إلى FasterWhisper — FasterWhisper هو إعادة تطبيق Python باستخدام CTranslate2 التي تعمل 4× أسرع من الأصل على المعالج المركزي. توجد عدة مغلفات واجهة رسومية مجتمعية؛ ابحث عن “faster-whisper GUI Windows” على GitHub. تعمل هذه بشكل جيد لنسخ ملفات الدفعة.
Subtitle Edit — محرر ترجمة مفتوح المصدر شهير أضاف تكامل Whisper. جيد لسير عمل الفيديو حيث تريد إخراج SRT يمكنك تعديله يدويًا.
تغطي تطبيقات الواجهة الرسومية هذه نسخ الملفات بشكل جيد. الفجوة التي لا تملأها: تحويل النص من الكلام الحي في الوقت الفعلي مع مفتاح تشغيل، مما يقودنا إلى القسم التالي.
الطريقة 4: VoxBooster (مجمعة، لا يتطلب إعداد Python)
إذا كان هدفك تحويل النص من الكلام الحي — الترجمات أثناء حديثك، الإملاء في أي تطبيق، كتابة الكلام المترجمة للمكالمة — فإن الطرق القائمة على الملفات أعلاه ليست مناسبة. تم تصميمها لمعالجة ملف صوتي مكتمل، وليس تدفق ميكروفون مستمر.
VoxBooster يجمع التعرف على الكلام المحلي بدرجة Whisper مباشرة في التطبيق. لا بيئة Python، لا معالج تنزيل نموذج، لا تبعية ffmpeg. تقوم بتثبيت VoxBooster مرة واحدة وحركة النسخ تكون جاهزة ضمن الإملاء في الشريط الجانبي.
الفروقات العملية مقابل تثبيت pip الخام:
- مفتاح تشغيل عام — اضغط
Ctrl+Shift+Dفي أي تطبيق وتحدث؛ يظهر النص في المؤشر الخاص بك - قمع ضوضاء متكامل — ينظف إدخال الميكروفون قبل وصوله إلى نموذج الكلام، مما يحسن الدقة بشكل ملموس في الغرف الصاخبة
- بدون محطة طرفية — اختيار النموذج وإعدادات اللغة في واجهة رسومية
- مجمعة مع تغيير الصوت والصندوق الصوتي واستنساخ الصوت — إذا كنت تستخدم VoxBooster بالفعل لـ تغيير صوت Discord أو OBS، فإن ميزة الإملاء هي مجرد علامة تبويب أخرى
للحصول على نظرة أعمق على سير عمل الإملاء، راجع دليل الإملاء الصوتي على Windows.
الاختيار بين الطرق
| pip Whisper | whisper.cpp | تطبيقات واجهة رسومية | VoxBooster | |
|---|---|---|---|---|
| Python مطلوب | نعم | لا | أحيانًا | لا |
| وحدة معالجة الرسومات المطلوبة | لا (اختيارية) | لا (اختيارية) | لا (اختيارية) | لا (اختيارية) |
| الحي في الوقت الفعلي | لا | جزئي | لا | نعم |
| مفتاح التشغيل العام | لا | لا | لا | نعم |
| نسخ ملفات الدفعة | نعم | نعم | نعم | لا |
| إخراج SRT/VTT | نعم | نعم | نعم | لا |
| تعقيد التثبيت | متوسط | متوسط | منخفض | منخفض |
اختر pip whisper إذا كنت تحتاج إلى إخراج SRT/VTT لترجمات الفيديو أو تريد نسخ دفعة السكريبت في Python. اختر whisper.cpp إذا كنت تريد ملف ثنائي محمول مع استهلاك ذاكرة أقل. اختر تطبيق واجهة رسومية للنسخ السحب والإفلات لملفات. اختر VoxBooster إذا كنت تريد إملاء حي بدون تثبيت Python.
أنماط استخدام CLI الأساسية
بمجرد حصولك على حزمة pip تعمل، تغطي هذه الأنماط 90% من حالات الاستخدام الفعلي.
نسخ تسجيل الاجتماع إلى ترجمات SRT
whisper meeting.mp4 --model medium --language en --output_format srt
يمكن لـ Whisper قراءة ملفات الفيديو مباشرة (يستدعي ffmpeg داخليًا). الإخراج: meeting.srt في نفس المجلد.
نسخ مجلد من ملفات الصوت
for %f in (*.mp3) do whisper "%f" --model small --output_format txt
قم بالتشغيل في موجه الأوامر (وليس PowerShell — يختلف بناء جملة حلقة for). كل ملف يحصل على إخراجه الخاص .txt.
فرض الترجمة إلى الإنجليزية
whisper french_audio.mp3 --model small --task translate
--task translate ينتج الإنجليزية بغض النظر عن لغة الإدخال. مفيد للمقابلات متعددة اللغات.
حدد مجلد الإخراج
whisper audio.mp3 --model small --output_dir C:\Transcripts
الأخطاء الشائعة والإصلاحات
No module named 'whisper'
قمت بتثبيت whisper في بيئة Python مختلفة عن البيئة النشطة حاليًا. قم بتشغيل py -0 لقائمة جميع تثبيتات Python، قم بتفعيل virtualenv الصحيح، ثم أعد التثبيت. أيضًا ممكن: قمت بالتثبيت مع pip3 لكنك تعمل مع py.
FileNotFoundError: [WinError 2] ffmpeg
ffmpeg ليس على PATH الخاص بك. قم بالتثبيت عبر winget install Gyan.FFmpeg، أغلق وأعد فتح المحطة الطرفية، ثم تحقق باستخدام ffmpeg -version.
CUDA out of memory
تقوم بتشغيل نموذج كبير جدًا لـ VRAM في وحدة معالجة الرسومات. جرّب الحجم التالي لأسفل، أو أضف --fp16 False لفرض FP32 (يستخدم المزيد من VRAM لكنه يصلح أحيانًا مشاكل التخصيص على بعض بناءات CUDA). بدلاً من ذلك، قم بالتشغيل على المعالج المركزي مع --device cpu.
RuntimeError: Expected all tensors to be on the same device
عدم تطابق إصدار PyTorch CUDA. أعد تثبيت PyTorch مع بادئة CUDA الصحيحة لإصدار السائق. تحقق من السائق مع nvidia-smi والمرجع المتقاطع في pytorch.org/get-started/locally.
الإخراج مشوه أو باللغة الخاطئة
Whisper يكتشف اللغة تلقائيًا من أول 30 ثانية من الصوت. إذا كان الملف الخاص بك يحتوي على صمت أو ضوضاء في البداية، يفشل الكشف. الإصلاح: أضف --language en (أو لغتك المستهدفة) بوضوح.
النسخ بطيء حتى مع وحدة معالجة الرسومات
تأكد من أن Whisper تستخدم فعلاً CUDA: أضف --device cuda إلى الأمر الخاص بك. إذا رأيت FP16 is not supported on CPU; using FP32 instead في الإخراج، لا يتم استخدام CUDA — أعد التحقق من تثبيت PyTorch.
Whisper مقابل خيارات Windows نسخ أخرى
من المفيد أن تعرف ما تقارن به قبل الالتزام بإعداد:
التعرف على الكلام المدمج في Windows / الإملاء (Win+H) — سريع وقابل للتكامل جيدًا، لكن الدقة تتأخر على التشديدات والمفردات التقنية والإنجليزية غير الأمريكية. اعتماد سحابي جزئي في الوضع الافتراضي. لا إخراج SRT.
Dragon NaturallySpeaking / Dragon Professional — تاريخيًا معيار الدقة، قوي لسير عمل الإملاء، لكن باهظ الثمن ($300–$500)، Windows فقط، وبطيء في إضافة مفردات لمجالات جديدة. المعالجة المحلية، وهي إيجابية.
Otter.ai و Rev و نسخ Descript — سحابية، مع سعر الاشتراك، دقة جيدة حقًا، لكن الصوت يترك جهازك. غير قابل للحياة للاجتماعات الخاصة أو التسجيلات القانونية أو أي شيء تحت NDA.
Azure Cognitive Services / Google Speech-to-Text — واجهات برمجية للمطورين، سحابية، الدفع لكل دقيقة. دقيقة، لكنها تتطلب أكوادًا واتصالاً بالإنترنت. وليس معادل تثبيت whisper محلي، ودقة نسخ Whisper تنافسية بتكلفة صفر جارية.
نقاط قوة Whisper مقابل كل ما سبق: مجاني، محلي تماماً، أوزان مفتوحة المصدر يمكنك التحقق منها، دعم متعدد اللغات قوي، ودقة تنافسية مع الخدمات المدفوعة على الصوت النظيف. ضعفه: لا وضع بث في الوقت الفعلي في حزمة Python، والإعداد يتطلب بعض الراحة مع CLI.
الخصوصية: لماذا المحلي مهم للنسخ
عندما تقوم بتشغيل Whisper محليًا على Windows، لا يلمس الصوت خادمًا خارجيًا. هذا مهم أكثر مما يدرك معظم الناس — وهو أحد أكبر الحجج العملية لتحويل النص من الكلام عبر Whisper على البدائل السحابية المدفوعة:
- تسجيلات الاجتماع غالبًا تحتوي على معلومات تجارية سرية
- يخضع الإملاء الطبي والقانوني إلى أنظمة الخصوصية (HIPAA وGDPR وغيرها)
- يجب أن تذهب مقابلات الصحفيين وحوارات المصادر أبدًا إلى واجهات برمجية سحابية
- ملاحظات صوتية شخصية وإدخالات يومية ونسخ جلسة العلاج — أشياء تفضل عدم وجودها على خادم شخص آخر
تحتوي خدمات النسخ السحابية على سياسات الخصوصية، لكن “نحن لا نبيع بيانات” و “قد نستخدم صوتًا مجهول الهوية لتحسين النماذج” هي بيانات مختلفة. مع تثبيت whisper محلي على Windows، الإجابة على كليهما غير ذات صلة — الصوت يبقى على القرص الخاص بك.
الأسئلة المتكررة
هل يعمل OpenAI Whisper دون اتصال بالإنترنت على Windows؟ نعم. بمجرد تنزيل أوزان النموذج، يعمل Whisper بنسبة 100% محليًا — لا يتطلب اتصالاً بالإنترنت. يتراوح التنزيل الأولي بين 75 ميجابايت (tiny) و3.09 جيجابايت (large-v3). بعد ذلك، يتم تحويل النص من الكلام بالكامل على معالج الرسومات أو المعالج المركزي بدون نقل أي بيانات خارج جهازك.
ما وحدة معالجة الرسومات التي أحتاجها لتحويل النص من الكلام عبر Whisper على Windows؟ وحدة معالجة الرسومات اختيارية لكنها تسرع الأمور كثيرًا. بالنسبة للنموذج الصغير، 2 جيجابايت VRAM كافية. الحجم المتوسط يحتاج 5 جيجابايت، large-v3 يحتاج 10 جيجابايت. على المعالج المركزي فقط، يقوم النموذج الأساسي بتحويل النص من الكلام تقريبًا بسرعة 10-15 مرة من السرعة الطبيعية على معالج i5/Ryzen 5 حديث، مما يعني أن دقيقة واحدة من الصوت تأخذ حوالي 4-6 ثوان.
ما الفرق بين أحجام نماذج Whisper؟ يأتي Whisper في خمسة أحجام — tiny و base و small و medium و large (مع متغيرات large-v2 و large-v3). النماذج الأكبر أكثر دقة لكنها أبطأ وأثقل. لمعظم مستخدمي Windows، يوفر small أفضل نسبة دقة إلى سرعة: حوالي 244 ميجابايت، دقة متعددة اللغات جيدة، يعمل على المعالج المركزي بسرعة تقريبًا طبيعية على الأجهزة الحديثة.
هل يمكنني استخدام Whisper لتحويل النص من الكلام الحي في الوقت الفعلي على Windows؟ حزمة Whisper الأصلية Python تعتمد على الملفات وليست مصممة للعمل في الوقت الفعلي. يحتوي whisper.cpp على وضع البث، لكن الإعداد معقد. بالنسبة لتحويل النص من الكلام الحي منخفض الكمون حقًا — الترجمات أثناء حديثك، الإملاء، كتابة الكلام المترجمة للمكالمات — تطبيق مجمع مثل VoxBooster أسهل: دقة على مستوى Whisper بدون بيئة Python مطلوبة.
ما مدى دقة OpenAI Whisper مقارنة بـ Dragon NaturallySpeaking أو Windows Dictation؟ على الصوت النظيف، يُسجل Whisper large-v3 معدلات خطأ الكلمات أقل من 5% عبر معظم اللغات، مما ينافس Dragon Professional ويفوق الإملاء المدمج في Windows على المفردات التقنية والتشديدات والمحتوى متعدد اللغات. تنخفض الدقة في الأماكن الصاخبة، لكن دمج Whisper مع قمع الضوضاء يستعيد معظمها.
ما هو whisper.cpp ولماذا قد أستخدمه بدلاً من حزمة Python؟ whisper.cpp هو منفذ C/C++ لنموذج Whisper يعمل بدون Python أو CUDA. على Windows، يستخدم أوزان GGML المكمّمة ويمكنه الاستفادة من DirectML أو OpenBLAS للتسريع. يبدأ بشكل أسرع، ويستخدم ذاكرة أقل، وأسهل للتكامل في التطبيقات الأخرى من حزمة Python.
كيف أصلح خطأ ‘لا توجد وحدة نمطية باسم whisper’ على Windows؟ هذا عادة يعني أن تثبيت pip ذهب إلى بيئة Python مختلفة عن البيئة التي تعمل بها. تحقق باستخدام ‘py -0’ لقائمة Python المثبتة، قم بتفعيل virtualenv الصحيح، ثم أعد التثبيت: ‘pip install openai-whisper’. تأكد أيضًا من وجود ffmpeg على PATH — يحتاجه Whisper لفك تشفير ملفات الصوت.
الخلاصة: أي إعداد نسخ Whisper مناسب لك؟
إذا كنت تحتاج إلى نسخ ملفات دفعة مع إخراج SRT/VTT — لترجمات الفيديو وتسجيلات الاجتماع وملاحظات عرض البودكاست — فإن تثبيت openai whisper windows القائم على pip هو مسار أكثر مرونة. أضف دعم CUDA لـ GPU الخاص بك وتحصل على نسخ قريب من الوقت الفعلي حتى على medium.
إذا كنت تريد موقدًا أصغر أو تقوم ببناء سكريبت يستدعي whisper كعملية جزئية، فإن whisper.cpp مع أوزان GGML هو خيار أنظف لتثبيت whisper محلي على Windows — بدون Python أو CUDA، فقط ملف ثنائي وملف نموذج.
إذا كنت تريد تكامل كلام محلي على Windows بدون أي عمل محطة طرفية — تحديدًا الإملاء الحي في التطبيقات — VoxBooster يجمع نفس دقة Whisper مع مفتاح تشغيل عام وقمع ضوضاء متكامل. لا Python أو بيئات افتراضية أو استكشاف أخطاء ffmpeg. إنه مفيد بشكل خاص إذا كنت تستخدم التطبيق بالفعل لتغيير الصوت أو عمل الصندوق الصوتي؛ فإن ميزة نسخ الكلام الحي هي مجرد علامة تبويب أخرى في نفس الواجهة.
ابدأ بـ small model بغض النظر عن المسار الذي تختاره. يوصلك 80% من الطريق إلى جودة large-v3 بجزء صغير من تكلفة الحوسبة. يمكنك دائمًا الترقية لاحقًا بمجرد معرفة مستوى الدقة الذي يتطلبه سير العمل الفعلي.
لأسعار وخيارات الخطة، انظر voxbooster.com/#pricing.