Whisper AI Transkripsiyonu: OpenAI'ın Konuşmadan Metne Dönüştürme Teknolojisine Tam Rehber

Whisper AI hakkında her şey: nasıl çalışır, model boyutları, doğruluk karşılaştırmaları, gerçek zamanlı kullanım, Python kurulumu, API, üçüncü taraf araçları ve masaüstü entegrasyonu.

Whisper AI, ücretsiz, açık kaynaklı transkripsiyonun neler yapabileceğine ilişkin beklentileri değiştiren konuşmadan metne dönüştürme modelidir. OpenAI tarafından Eylül 2022’de yayımlanan bu model, geniş bir dil ve akustik koşul yelpazesinde ticari hizmetlerle eşleşti veya bunları aştı ve ardından OpenAI tüm şeyi açık kaynaklı hale getirdi. Günümüzde whisper ai, podcast üretimine kadar gerçek zamanlı oyun sesine kadar her şeye dokunan araçlar, portlar ve entegrasyonların bütün bir ekosistemini yaratmıştır.

Bu rehber, Whisper ekosisteminin tamamını kapsar: arkasındaki mimari, her model boyutu ve bunun değiş-tokuşları, bunu gerçekten çalıştırmanın tüm yolları (Python CLI, OpenAI API, tarayıcı tabanlı araçlar ve yerel masaüstü uygulamalar), gerçek zamanlı transkripsiyonla şu anda neler mümkün ve faster-whisper, WhisperX ve Buzz gibi üçüncü taraf projelerinin modeli nasıl ileri taşıdığı. İster bir ses dosyasını transkripsiyonlamak, ister canlı altyazı boru hattı oluşturmak, ister ses dikte özelliğini oyun kurulumunuza eklemek isteyerek başlayın, bu tam referanstır.

TL;DR

  • Whisper AI, 99 dilde 680.000 saatlik çok dilli ses üzerinde eğitilmiş OpenAI’nın açık kaynaklı, ücretsiz konuşma tanıma modelidir
  • Tiny (39 M param) ile large-v3’e kadar (1,55 B param) beş model boyutu - büyük olanı daha doğru ancak daha fazla hesaplama gücü gerektirir
  • Temiz İngilizce ses üzerinde büyük modelle %2-4 kelime hata oranı, ücretli bulut hizmetleriyle rekabet gücünde
  • Python CLI, OpenAI’nin yönetilen API’si (0,006 $/dakika), whisper.ggerganov.com’daki bir tarayıcı veya Buzz ve VoxBooster gibi masaüstü uygulamaları aracılığıyla çalıştırın
  • Gerçek zamanlı transkripsiyon mümkündür ancak faster-whisper veya whisper.cpp gibi optimize edilmiş portlar gerektirir - stok Python paketi yalnızca toplu işlem içindir
  • Üçüncü taraf projeler (faster-whisper, WhisperX, Buzz) hoparlör diarizasyonu, kelime seviyesinde zaman damgaları ve dramatik olarak daha hızlı çıkarım ekler

Whisper AI Nedir ve Neden Önemlidir?

OpenAI’ın Whisper, Eylül 2022’de yayımlanan, eşlik eden bir ArXiv araştırma makalesi ve tamamen açık bir GitHub deposu olan bir sıra-sıra otomatik konuşma tanıma (ASR) modelidir. Model, 680.000 saatlik ses ile insan tarafından doğrulanmış transkript çiftleri üzerinde eğitilmiştir - veriler genel internetten toplanmış ve 99 dile yayılmıştır, bu da Whisper’a aksan ve lehçeler arasında alışılmış sağlamlığını verir.

Whisper’dan önce, doğru açık kaynaklı konuşma tanıma, dar alana özel eğitim veya önemli işlem sonrası gerekçelendirme gerektiriyordu. Baskın ücretsiz seçenek Mozilla DeepSpeech idi, İngilizce için makul şekilde çalıştı ancak temiz stüdyo koşulları dışında herhangi bir şeyde zorlandı. Ticari hizmetler (Google, Amazon, Microsoft) daha iyi performans gösterdi ancak dakika başına ücret aldı ve sesinizi sunucularına gönderdi.

Whisper bu kısıtlamaların her ikisini birden değiştirdi. Eğitim metodolojisi - temiz stüdyo verisi yerine çeşitli gerçek dünya ses üzerinde zayıf denetim öğrenmesi - çok daha iyi aksan, arka gürültü, teknik kelime dağarcığı ve diller arasında kod değiştirme genelleştirilmiş anlamına geldi. Ve OpenAI model ağırlıklarını MIT lisansı altında serbest bıraktığından, herhangi biri sesi dışarı göndermeden bunu çalıştırabilir.

Pratik etki hemen olmuştur. Yayını takip eden haftalar içinde, geliştiriciler bunu C++‘a taşımış, tarayıcılara dağıtmış, video düzenleme araçlarına entegre etmişler ve gerçek zamanlı akış sarmalayıcıları oluşturmuşlardır. Whisper’ı derinlemesine anlamayı değer kılan bu ekosistemdir.


Whisper AI Mimarisinin Arkası

Whisper, bir kodlayıcı-çözücü dönüştürücü - GPT, BERT ve çoğu modern dil modelinin altında yatan aynı mimari ailesi, sese uygulanır.

Giriş boru hattı. Ham ses, ilk önce bir log-Mel spektrogramına dönüştürülür: zaman içinde frekans içeriğinin 2D temsiş, bir eksen üzerinde frekans, diğerinde zaman ve yoğunluk parlaklık olarak kodlanır. Bu spektrogram, 25 ms penceresinin 10 ms adımında hesaplanır, 80 frekans kovasını üretir. Spektrogram daha sonra 30 saniyelik parçalara bölünür (Whisper için temel işlem birimi) ve kodlayıcıya geçirilir.

Kodlayıcı. Transformatör blokları yığını spektrogramı işler ve ses içeriğinin zengin bağlamsal temsilini üretir. Whisper, hesaplamayı yönetilebilir hale getirmek için dikkat katmanlarından önce sıkıştırılmış evrişim katmanları kullanır.

Çözücü. Özdeş bir çözücü - esasen kodlayıcı çıkışına koşullandırılmış bir dil modeli - belirteçleri birer birer üretir. Burası Whisper’ın özel belirteçlerinin yaşadığı yerdir: <|startoftranscript|>, <|en|> veya <|es|> gibi dil belirteçleri ve <|transcribe|> veya <|translate|> gibi görev belirteçleri. Çözücüyü bir dil belirteci ve görev belirteci ile koşullandırarak, kaynak dilde transkripsiyon veya doğrudan İngilizce’ye çeviri elde edersiniz - ayrı çeviri modeline gerek yoktur.

Kullanıcılar için mimari neden önemlidir. 30 saniyelik yığın kısıtlaması, temel biçimde Whisper’ın yalnızca toplu işlem doğasının kök nedenidir. Model sesi akışla aktarmaz; sabit uzunlukta bir pencereyi işler. Gerçek zamanlı uygulamalar, bir yuvarlanan arabellek koruyarak, üst üste binen yığınlar üzerinde çıkarım çalıştırarak ve çıkışı dikiş yaparak bunu etrafında çalışırlar - karmaşıklık ve gecikmeli ekler ancak doğru araçlarla tamamen yapılabilir.

Çok dilli yeteneği eğitim veri dağılımından gelir. İngilizce kabaca eğitim saatlerinin %65’ini hakim tutsa da, Whisper İspanyolca, Fransızca, Almanca, Portekizce, İtalyanca, Felemenkçe, Japonya, Çince ve daha düzinelerce başka dilin yeterli örneklerini gördü. Aynı model ağırlıkları seti tüm dilleri yönetir - dil başına ayrı modeller gerekmez.


Whisper Model Boyutları: Doğruluk ve Hız Dengeleri

Whisper beş temel boyut seviyesi ile gelir. OpenAI ayrıca daha küçük modellerin İngilizce yalnızca .en varyantlarını yayımlamıştır, çok dilli ek yükü atladıkları için İngilizce yalnızca içerikte daha hızlı ve biraz daha doğrudur.

ModelParametrelerGerekli VRAMGöreli HızWER (İngilizce)En İyi Kullanım Durumu
tiny39 M~1 GB~32× gerçek zamanlı~13%Hızlı önizlemeler, çok düşük uç donanım
base74 M~1 GB~16× gerçek zamanlı~9%Hızlı toplu işler, gömülü uygulamalar
small244 M~2 GB~6× gerçek zamanlı~5.5%En iyi CPU dengesi, çoğu masaüstü kullanım
medium769 M~5 GB~2× gerçek zamanlı~4%Büyük bir GPU olmadan üretim kalitesi
large-v21.55 B~10 GB~1× gerçek zamanlı~3%Yüksek doğruluk gereksinimleri, GPU sunucusu
large-v31.55 B~10 GB~1× gerçek zamanlı~2.5%En iyi mevcut doğruluk, çok dilli

“Gerçek zamanlı” burada model sesi kaydedilen hızda işlediği anlamına gelir. 6× gerçek zamanlı bir model bir dakika sesi yaklaşık 10 saniyede transkripte eder. Hızlar orta sınıf bir NVIDIA GPU’yu (RTX 3060 veya eşdeğer) varsayar. CPU üzerinde tüm hızları işlemcinize bağlı olarak kabaca 6-10’a bölün.

Senaryo bazında pratik rehberlik:

Gecikmenin önemli olduğu oyun dikte veya canlı altyazılar için, küçük model çoğu oyun bilgisayarında pratik tavanıdır - bir iş istasyonu GPU’su gerektirmeden neredeyse gerçek zamanlı sonuçlar için yeterince hızlı çalışır. Podcast’leri veya toplantı kayıtlarını toplu transkripsiyonu için, orta veya large-v3 aksan konuşmacıları ve teknik terimler üzerinde dikkate değer şekilde daha iyi sonuçlar verir. Bir A10G GPU’lu bulut sunucusunda bir transkripsiyon boru hattı çalıştırıyorsanız, large-v3 her zaman doğru seçimdir.

.en varyantları (tiny.en, base.en, small.en, medium.en) sesinizin yalnızca İngilizce olduğundan emin olduğunuzda kullanmaya değer. Dil algılama adımını ve çok dilli kod çözme yolunu atlarlar, çıkarım zamanının yaklaşık %10-20’sini kesip İngilizce içerikte küçük bir doğruluk kazancı elde ederler.


Kelime Hata Oranı: Whisper AI Gerçekten Ne Kadar Doğru?

Kelime hata oranı (WER), modelin zemin gerçeğine transkript göre yanlış yaptığı kelimelerin yüzdesini ölçer. (ikameler + silmeler + eklemeler) / toplam_kelimeler × 100 olarak hesaplanır.

OpenAI’ın orijinal makalesi Whisper large’ı birkaç standart ASR test seti karşı değerlendirmiştir:

  • LibriSpeech test-clean: %2,7 WER (sesli kitaplardan okunan konuşma - kolay koşullar)
  • LibriSpeech test-other: %5,2 WER (daha zor akustik koşullar)
  • TED-LIUM test: %4,2 WER (dersler, doğal konuşma desenleri)
  • CommonVoice 9.0 (İngilizce): %7,4 WER (kitlesel, geniş aksan çeşitliliği)
  • CHiME-6: %35 WER (son derece zorlayıcı - uzak mikrofon koktel partisi gürültüsü)

Bağlam için: Google Cloud Speech-to-Text gibi ticari hizmetler temiz ses üzerinde benzer şekilde puan alır ancak çok gürültülü koşullarda açık Whisper’ı aştığında proprietary gürültü modelleri vardır. Boşluk large-v3 ile daralmıştır, özellikle Whisper’ın ayrı bir gürültü bastırma aşamasıyla birleştirilmesi durumunda.

Whisper’ın mücadele ettiği yerler:

  • Kısa sözlü ifadeler. 30 saniyelik yığın modeli bazen çok kısa veya sessiz sese verildiğinde metni ezberleme yapar. Bu bilinen bir konudur ve akış uygulamalarının sessizliği dikkatli bir şekilde yastıklaması nedendir.
  • Son derece gürültülü ses. -10 dB SNR’nin altında, WER keskin şekilde tırmanır. Whisper’ı gürültü bastırma (sistem seviyesi veya RNNoise tarzı ön işlem) ile birleştirmek çoğu doğruluğu geri kazanır.
  • Düşük kaynaklı dillerde ağır aksan konuşmacıları. Whisper internet ses üzerinde eğitilmiştir, bu da yüksek kaynaklı dillerde yayın kalitesi konuşmasına doğru çarpık.
  • Alana özel kelime dağarcığı. Tıbbi, yasal ve teknik terimler eğitim verilerinde nadir görülür, fonetik olarak benzer ortak kelimelerle ikame edilir. İnce ayar bunu çözer.

Whisper AI’yı Çalıştırmanın Tüm Yolları

1. Python CLI (Resmi Paket)

En doğrudan rota. Python 3.9-3.12 ve ffmpeg yüklü gereklidir:

pip install openai-whisper
whisper audio.mp3 --model small --language en

İlk çalışma model ağırlıklarını ~/.cache/whisper/ öğesine indirir. Sonraki çalışmalar önbelleğe alınmış ağırlıkları kullanır. Çıktı biçimleri düz metin (.txt), SubRip altyazıları (.srt), WebVTT (.vtt) ve --word_timestamps True geçerseniz kelime seviyesinde zaman damgalı bir JSON dosyasını içerir.

Ayrıca Whisper’ı Python kodunda kullanabilirsiniz:

import whisper

model = whisper.load_model("small")
result = model.transcribe("audio.mp3", language="en")
print(result["text"])

result sözlüğü tam transkript, algılanan dil ve bölüm başına zamanlama verilerini içerir. Bu bunu post-işlem için basitleştirir: güvene göre filtre, duraklamaya göre böl veya video zaman damgalarıyla hizala.

2. OpenAI Whisper API

OpenAI, Whisper’ı kendi API’si altında yönetilen bir uç noktası olarak barındırır. Yerel kurulum, GPU yok - bir ses dosyası gönderir ve transkript alırsınız:

curl https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F model="whisper-1" \
  -F file="@audio.mp3"

Fiyatlandırma, 2026 itibariyle saat başına 0,006 ABD dolarıdır. API OpenAI’nin altyapısında large-v2’yi çalıştırırken, herhangi bir hesaplama yönetmeden yüksek doğruluk elde edersiniz. Pratik limit dosya başına 25 MB’tır; daha uzun ses için öncelikle bölmeniz gerekir.

API ayrıca desteklenen 99 dilden herhangi birinden İngilizce’ye çeviriyi destekler:

curl https://api.openai.com/v1/audio/translations \
  -F model="whisper-1" \
  -F file="@spanish_audio.mp3"

Bu, aralıklı transkripsiyon ihtiyaçlarınız varsa ve yerel bir ortam kurmak istemiyorsanız başlamanın en hızlı yoludur.

3. Whisper Web (Tarayıcı)

Whisper Web, whisper.cpp WebAssembly’ye derlenmiş şekilde tarayıcıda çalışır. Model ağırlıkları ilk kullanımda tarayıcı önbelleğinize indirilir; hiçbir zaman bir sunucuya ses gönderilmez. Bu sıfır kurulum seçeneğidir - modern bir tarayıcı ve en az 4 GB RAM kullanılabilir olan herhangi bir cihazda çalışır.

Tarayıcı çıkarımı, yerel yürütmeden daha yavaştır (whisper.cpp yerel ile karşılaştırıldığında kabaca 3-4× ceza), ancak aralıklı kullanım için veya yazılım yükleyemediğiniz makinelerde gerçekten kullanışlıdır.

4. Masaüstü GUI Uygulamaları

Birkaç masaüstü uygulaması Whisper’ı bir grafik arayüzüyle sarmalanırlar, bir terminale dokunma ihtiyacını ortadan kaldırır:

  • Buzz - platformlar arası (Windows/Mac/Linux), sürükle ve bırak arayüzü, tüm Whisper model boyutlarını destekler, SRT/VTT/TXT çıktıları. Açık kaynak (GitHub).
  • MacWhisper - parlak macOS uygulaması, toplu işlem ve Apple Silicon optimizasyonu (bazı özellikler için ücretli seviye).
  • Whisper Transcriber - Windows odaklı GUI, basit arayüz, tek seferlik transkripsiyon işleri için iyi.

Windows kullanıcıları için Whisper’ı tek başına bir transkripsiyon uygulaması yerine daha geniş bir ses araç seti içine entegre etmek isteyen, VoxBooster Whisper seviyesinde yerel konuşmadan metne dönüştürmeyi doğrudan uygulamaya paketler. Dikte özelliği global bir tuş kısayoluna sahip etkinleşir, konuşmanızı gerçek zamanlı olarak transkripsiyonlar ve sonucu aktif olan herhangi bir pencereye yazı girer - Python ortamı yok, ayrı terminal yok, manuel model yönetimi yok.


Gerçek Zamanlı Transkripsiyon: Gerçekten Neler Mümkündür

Bu en sık sorulan sorundur ve cevap nüanslıdır: gerçek zamanlı Whisper transkripsiyonu mümkündür, ancak standart Python paketinin ötesinde daha fazla gerekir.

Stok openai-whisper paketi ses dosyalarını işler. Kutudan çıkıyor şekliyle akış yeteneğine sahip değildir. Ona bir dosya verirsiniz, bir transkript döndürür. Canlı ses için, bunlardan birini gerekir:

Yaklaşım 1: Parçalama ile yuvarlanan arabellek. Ses, segmentlerde (tipik olarak 5-30 saniye) kaydedin, her segmenti Whisper’da çalıştırın ve sonuçları birleştirin. Zorluk, segment sınırlarına düşen sözcükleri yönetmektir - 1-2 saniye ile üst üste binme parçaları ve çıktı çoğaltma çoğunu çözer. Bu yapılabilir ancak görünür gecikmeli ekler.

Yaklaşım 2: whisper.cpp akış modu. C++ portu, bir mikrofondan neredeyse gerçek zamanlı olarak sesi işleyen bir akış örneğini içerir. Modern bir CPU’da küçük model ile bunu 1-3 saniyelik gecikme elde eder - canlı altyazılar için yeterince iyi. Kurulum, whisper.cpp’nin derlenmesini gerektirir, bu pip install’den daha yer alır.

Yaklaşım 3: faster-whisper yığınlama ile. faster-whisper (aşağıda ayrıntıda ele alınmıştır) yeterince hızlıdır ki bir parçalama döngüsü CPU’da da yapılabilir hale gelir. Topluluk içindeki çeşitli gerçek zamanlı uygulamalar faster-whisper’ı çıkarım arka ucu olarak kullanır.

Yaklaşım 4: Amaçlı uygulamalar. Burası VoxBooster gibi araçlar gerçek değer ekler - akış karmaşıklığını iç kısmında yönetirler. Uygulama bir ses arabelleği korur, ses başlangıç/bitişi bir sesli aktivite dedektörü kullanarak algılar, tamamlanan sözlü ifadelerde Whisper çıkarımı çalıştırır ve sonucu etkin uygulamaya tuş vuruşları olarak enjekte eder. Oyuncular için, bu sohbet mesajlarını, madde çağrılarını veya koordinatları alt-sekme veya tuşa dokunmadan dikte edebilmeleri anlamına gelir. Gecikmesi tipik olarak konuşmanın sonu ile ekranda görünen metin arasında 1-3 saniyedir, bu da çoğu oyun ve akış senaryoları için pratiktir.

Dürüst özet: stok Python paketi yalnızca toplu işlemdir. Whisper kalitesinde gerçek zamanlı transkripsiyon doğru araçlarla başarılabilir, ancak karmaşıklık ekler. Gerçek zamanlı birincil kullanım durumunuzsa, sıfırdan oluşturmak yerine sizin için tesisat yöneten bir uygulamayla başlayın.


Whisper Üzerinde Oluşturulmuş Üçüncü Taraf Araçları

Whisper’ın etrafında büyümüş ekosistem, belirli boyutlarda orijinal aşmıştır.

faster-whisper

faster-whisper, CTranslate2 kullanarak Whisper’ın, transformatör modelleri için oldukça optimize edilmiş bir çıkarım altyapısı’nın yeniden uygulanmasıdır. Performans farkı önemlidir:

Uygulamaküçük model, RTX 3060large-v2 modeli, RTX 3060
openai-whisper~12× gerçek zamanlı~1× gerçek zamanlı
faster-whisper~35× gerçek zamanlı~4× gerçek zamanlı

CPU’da, faster-whisper da orijinal’den önemli şekilde daha iyi performans gösterir çünkü CTranslate2 varsayılan olarak INT8 nicelemesini kullanır, bellek bant genişliği gereksinimlerini azaltır. Çoğu üretim transkripsiyon boru hattı için, faster-whisper tercih edilen çıkarım arka ucudur.

Kullanım orijinaline benzer:

from faster_whisper import WhisperModel

model = WhisperModel("small", device="cpu", compute_type="int8")
segments, info = model.transcribe("audio.mp3", beam_size=5)

for segment in segments:
    print(f"[{segment.start:.2f}s] {segment.text}")

WhisperX

WhisperX, temel modelin sahip olmadığı iki kritik yeteneğe Whisper’ı genişletir: kelime seviyesinde zaman damgaları ve hoparlör diarizasyonu.

Temel Whisper, bölüm başına zaman damgaları sağlar (tipik olarak bir ifade veya cümle). WhisperX wav2vec2’yi kullanarak zorunlu bir hizalama adımını çalıştırır, tek kelimeye doğru zaman damgaları üretir. Bu altyazı üretimi, karaoke tarzı resim yazısı animasyonu ve her sözcüğün tam ne zaman konuşulduğunu bilmeniz gereken herhangi bir iş akışı için gereklidir.

Hoparlör diarizasyonu ses içinde her noktada kimin konuştuğunu tanımlar - “Hoparlör 1 X dedi, Hoparlör 2 yanıt verdi Y.” WhisperX pyannote.audio diarizasyonu için tümleşir. Birleşim, bunun gibi çıkış alırsınız:

[00:00:02.1 → 00:00:05.8] (Hoparlör 1) Çevik kahverengi tilki tembel köpeğin üstünden atladı.
[00:00:06.2 → 00:00:09.4] (Hoparlör 2) Bu bir pandistiktir - her harfi kullanır.

Birden çok katılımcı ile podcast transkripsiyonu ve toplantı notları için bu çıktı, farksız metinden önemli ölçüde daha faydalıdır. Pratik iş akışları için bkz. birden çok sesle podcast transkripsiyonu bu tür araçları kullanarak.

whisper.cpp

whisper.cpp, GGML nicelenmiş ağırlıklar kullanarak Whisper çıkarım yığının bir C/C++ portu’dür. Python orijinaline göre temel avantajları şunlardır: Python bağımlılığı yok, nicelemesi aracılığıyla dramatik olarak daha düşük bellek ayakkabısı ve daha önceki bahsedilen akış modu. Apple Silicon’da, Metal GPU arka ucunu kullanır. Windows’ta CUDA, OpenBLAS ve DirectML’yi destekler.

Değiş-tokuş kurulum karmaşıklığı - Windows’ta kaynaktan derlenmeniz gerekir, Visual Studio derleme araçlarını gerektirir. Adım adım derleme talimatları için bkz. Windows’ta Whisper kurulumu.


Desteklenen Diller ve Çeviri Özelliği

Whisper 99 dilde transkripsiyon destekler. Tam liste, büyük dünya dillerini artı pek çok bölgesel ve azınlık dilini kapsar. Performans, eğitim veri hacmiyle güçlü şekilde bağıntılıdır - İngilizce konuşan internette sık görünen diller, sınırlı web varlığı olan dillerden daha iyi doğruluğa sahip.

Doğruluğa göre dil seviyeleri (yaklaşık WER, large-v3):

KatmanDillerTipik WER Aralığı
Mükemmelİngilizce, İspanyolca, Fransızca, Almanca, İtalyanca, Portekizce, Felemenkçe%2-5
Çok iyiJaponca, Çince, Korece, Rusça, Arapça, Lehçe, Türkçe%5-10
İyiİsveçce, Norveçce, Danimarkaca, Çekçe, Rumence, Ukraynaca%8-15
İyiPek çok başka Avrupa dili, Endonezya, Tay, Vietnamca%12-25
DeğişkenDüşük kaynaklı diller, nadir lehçeler%20-50+

Dil algılama. Varsayılan olarak, Whisper ilk 30 saniyelik ses’ten dili otomatik olarak algılar. Bunu CLI’de --language XX veya Python’da language="xx" ile geçersiz kılabilirsiniz. Sesinizin bilinen bir dil ise, her zaman belirtiniz - algılama genellikle doğrudur ancak kısa klipte veya kod değiştirilmiş konuşmada bazen yanlıştır.

İngilizce’ye çeviri. Whisper, ayrı transkripsiyon adımı veya ayrı çeviri modeli olmaksızın tek bir geçişte desteklenen herhangi bir dilden doğrudan İngilizce’ye çevirebilir. Bu, çözücünün çok dilli → İngilizce çiftleri ve aynı dil çiftleri üzerinde eğitildiğinden çalışır. Kalite, resmi olmayan konuşma için makul olup ancak resmi belgeler için özel sinir makinesine çeviri eşleşmeyecektir. CLI bayrağında --task translate bunu etkinleştirir.

Zaman damgası çıktısı. Her Whisper çalışması bölüm başına zaman damgaları üretir. Kelime seviyesinde parçalılık elde etmek için CLI’de (veya Python kodunda) --word_timestamps True geçirin. SRT ve VTT çıktı biçimleri, altyazı olarak hazır video düzenleme araçlarına aktarılmak için bu zaman damgalarını kullanır.


Kullanım Durumları: Whisper AI’ın Uyduğu Yerler

Altyazılar ve Kapalı Altyazılar

Whisper’ın SRT/VTT çıktısı doğrudan Premiere Pro, DaVinci Resolve, Final Cut veya herhangi bir altyazı platformuna düşer. YouTube yaratıcılar için iş akışı: sesinizi düzenleme’den dışa aktar, Whisper’ı çalıştır, videonun yanında SRT’yi yükle. Doğruluk, çoğu İngilizce konuşma için yalnızca küçük düzeltmeler gerekecek kadar yüksektir.

Çok dilli içerik için, Whisper’ın çeviri modu ayrı bir çeviri adımı olmaksızın İngilizce altyazı izi üretebilir.

Toplantı Transkripsiyonu

Kaydedilmiş toplantıların toplu transkripsiyonu, Whisper’ın en güçlü kullanım durumlarından birisidir. WhisperX hoparlör diarizasyonu sağlayarak, hoparlör atribüsyonu olan aranabilir bir transkript alırsınız. Bir özetleme adımı (GPT-4, Claude, vb.) ile eşleştirin ve otomatik toplantı notlarınız var. 2026’daki çoğu toplantı transkripsiyon aracı - Otter.ai, Fireflies, Fathom - Whisper veya kendi proprietary modellerini kullanır, buna karşı değer koyar.

Podcast Transkripsiyonu

Podcast transkripsiyonu aynı diarizasyon yeteneğinden yararlanır. WhisperX + diarizasyondan işlenen iki ev sahibi podcast, bir blog yazısı veya göster notları için hazır hoparlör atribüsyonu ile temiz bir transkript üretir. Teknik adımlar ve pratik iş akışı örneği için bkz. podcast çok sesle transkripsiyon rehberi.

Oyun Dikte ve Çağrısı Sistemleri

Bu, VoxBooster sağlayan gerçek zamanlı Whisper entegrasyonu türü için yapılan bir kullanım durumudur. Yazı imkân olan oyunlarda (MMO’lar, strateji oyunları, hayatta kalma oyunları), ses dikte yazı ihtiyacını tuş hareketi sona erdirir. Ne söylemek istediğini söyle ve sohbette görüntülenir.

Rekabetçi oyun için daha ilginç olan çağrısı sistemidir: bir tuş kısayolu yapılandırın, ona oyun için alakalı bir ifade söylerken tutun (“düşman bot ligi,” “30’da ejderha”) ve transkript metni bir sohbet mesajı veya makro tetikli yanıt olarak patlar. Gecikme yeterince düşüktür (1-3 saniye) hızlı oyunlarda pratik kalır. Akışçılar için bunu VoxBooster’ın ses değiştirici ve gürültü bastırma ile birleştirmek, bir araç ses işleme, transkripsiyon ve soundboard’ı işlediği anlamına gelir - akış sırasında birden çok uygulamayı çok oynatmaz.

Daha derin bir bakış için Windows’ta ses metne iş akışını ayarlamak üzere bkz. Windows için ses dikte rehberi ve Windows özgü Whisper kurulum öğreticisi.

Erişilebilirlik

İşitme engelli kullanıcılar için canlı altyazı kaplama, gerçek zamanlı Whisper’nın en yüksek değer uygulamalarından birisidir. Akış uygulamasıyla birleştirildiğinde, Whisper herhangi bir ses kaynağından makul şekilde doğru altyazılar üretebilir - ekranda oynatılan bir YouTube videosu, speakerle bir telefon araması veya masaüstü mikrofon ile alınan yüz yüze konuşma. Temiz konuşmada %2-5 WER’de, hayal kırıklığından ziyade gerçekten faydalı olabilecek kadar doğrudur.

İçerik Araştırması ve Arşivleme

Araştırmacılar, gazeteciler ve arşivci Whisper’ı, başka türlü arama veya analiz için erişilemez olacak büyük ses ve video koleksiyonlarını transkripsiyonlamak için kullanırlar. Whisper yerel olarak çalıştığı ve ücretsiz olduğundan, maliyet yalnızca hesaplama ile ölçeklendir - bir A100 GPU’daki toplu iş, gecede yüzlerce saat sesi işleyebilir.


Whisper API: Yönetilen Uç Noktayı Kullanma Zamanı

OpenAI API’sinin Whisper uç noktası tüm altyapı kaygılarını kaldırır. Model indirilecek yok, GPU yapılandıracak yok, Python ortamı bakımı yapacak yok. Bir ses dosyası gönder (maks 25 MB, yaklaşık 4 saat sıkıştırılmış ses) ve transkript geri alırsınız. Uç nokta large-v2’yi çalıştırır ve tipik olarak birkaç saniye içinde yanıt verir.

Kullanma zamanı:

  • Kurulum ek yükü wortthwhile olmayan aralıklı veya düzensiz transkripsiyon ihtiyaçları
  • 1,5 GB model ağırlıkları bulamayan uygulamalar (mobil uygulamalar, hafif web araçları)
  • Herhangi bir altyapı yönetimi olmaksızın maksimum doğruluk gerektiğinde
  • Kendi kendine barındırılan yığına bağlamadan hızlı prototip oluşturma

Bundan kaçınma zamanı:

  • Altyapınızdan ayrılmaması gereken hassas ses içeriği
  • $0,006/dakika katlandığı yüksek hacimli iş yükleri
  • Gerçek zamanlı gereksinimler (API akış değil - senkron ve tamamlandığında döner)
  • Hava boşluğu veya çevrimdışı ortamlar

Çoğu ürün inşa eden geliştirici için, mimari karar şu şekildedir: API ile prototipi yapın, hacim veya gecikme gereksinimleri wortthwhile yapıldığında kendi kendine barındırılan faster-whisper’a geçiş yapın.


Alana Özel Kelime Dağarcığı için Whisper’ı İnce Ayar Yapma

Kutudan çıkıyor şekliyle, Whisper genel konuşmayı iyi yönetir. Mücadele ettiği yer alana özel kelime dağarcığı’dır - tıbbi terimler, yasal terminoloji, ürün adları, kısaltmalar veya belirli bir kuruluşun iç argonsu. İnce ayar bunu, doğru transkript ile eşleştirilmiş küçük veri seti için eğitim devam ettirerek ele alır.

İnce ayar için gerekenleri:

  • 10-100 saatlik, doğru transkript ile alana özel ses (daha fazla daha iyi, ancak 10 saat zaten önemli şekilde yardım edebilir)
  • Küçük veya orta modelini ince ayarlaması için en az 16 GB VRAM’li bir GPU (büyük 40+ GB gerektirir)
  • Hugging Face’ın transformers kütüphanesi ve Hub’dan Whisper modeli

Süreç ana hatlarında:

  1. Verinizi Hugging Face Dataset nesnesi ile eşleştirilmiş ses/transkript dosyaları olarak biçimlendirin
  2. WhisperForConditionalGeneration ve WhisperProcessor kullanarak Whisper modelini yükleyin
  3. Alana özel verileriniz üzerinde CTC/çapraz entropisi kaybı ile standart Seq2Seq eğitimini çalıştırın
  4. WER metriği ile tutulan bir test seti üzerinde değerlendirin
  5. İnce ayarlı ağırlıkları dışa aktarın ve temel modelin yerine kullanın

Hugging Face ayrıntılı ince ayar senaryo çoğu ortak işi yönetmek için Whisper yayımlamıştır. İnce ayar, uzmanlaşmış uygulamalar için önemli ödeme yapan gelişmiş iş akışı’dır - tıbbi diktasyon veya yasal savcılıklar için transkripsiyon aracı inşa etmişseniz, alana özel kelime dağarcığı doğruluk iyileştirmesi önemlidir.

Çoğu kullanıcı için ince ayar gerekli değildir. Large-v3 modelini alana özel bir bildirimle kullanma (Python API’deki initial_prompt parametresi, çözücüyü beklenen kelime dağarcığına doğru yönelik bir dize kabul eder), teknik içerik için herhangi bir eğitim olmaksızın anlamlı doğruluk artışı sağlar.


İhtiyaçlarınız için Doğru Whisper Kurulumunu Seçme

DurumÖnerilen Yaklaşım
Birkaç ses dosyasını transkripsiyonlamak, kodlama yokBuzz masaüstü uygulaması veya Whisper Web
Toplu transkripsiyon boru hattıPython + faster-whisper, orta veya large-v3 modeli
Maksimum doğruluk, herhangi bir dilOpenAI API (whisper-1) veya GPU ile yerel large-v3
Windows’da gerçek zamanlı dikte (oyun/akış)Yerleşik Whisper entegrasyonu ile VoxBooster
Çok hoparlör toplantı transkripsiyonuWhisperX + diarizasyon boru hattı
Video içeriği için altyazılarPython CLI veya Buzz, SRT çıktısı, kelime zaman damgaları
Alana özel kelime dağarcığı (tıbbi, yasal)Hugging Face aracılığıyla ince ayarlanmış Whisper
Mobil veya web uygulamasıOpenAI API veya Whisper Web (WASM)
İnternet erişimi yokwhisper.cpp (yerel, ağ araması yok)
Ürün inşa eden geliştiricilerOpenAI API ile başla, ölçekte faster-whisper’a geç

VoxBooster Whisper’ı Nasıl Entegre Eder

VoxBooster, oyuncular, akışçılar ve içerik oluşturucu için oluşturulmuş Windows masaüstü uygulamasıdır ve Whisper tabanlı transkripsiyonu, gerçek zamanlı sesini değiştirme, AI ses klonlama (RVC) ve genel tuş kısayolları olan bir soundboard’la beraber temel özelliklerinden birisi olarak içerir.

Transkripsiyon özelliği, toplu dosya işleme yerine gerçek zamanlı dikte etrafında tasarlanmıştır. VoxBooster’ın ayarlarında bir bas-konuş tuş kısayolunu atayın, konuşurken tutun ve transkript metni odağı olan ne olursa olsun enjekte edilir - bir oyun sohbet kutusu, Discord mesajı, bir belge editörü. Bu VoxBooster’ın yerel bir Whisper modelini koruduğu ve tamamlanan sözlü ifadeler üzerinde çıkarımı çalıştırdığı (ses aktivite algılama aracılığıyla algılanır) ve ardından sonucu yazı girmek için Windows erişilebilirlik API’leri kullandığı için çalışır.

Akışçılar için, Whisper girdisinden önce çalışan gürültü bastırma birleştirmek, gürültülü ortamlarda doğruluğu dramatik olarak iyileştirir - Whisper’a ulaşan mikrofon ses temizlenir, bu, stüdyo koşulları dışında doğru transkripsiyon almanın tek en büyük faktörüdür.

İçerik oluşturucu AI ses teknolojisinin daha geniş şekilde nasıl çalışmasıyla ilgilenenler ve özel ses modelleri oluşturan ya da eğiten herkes için, Whisper’la kesişme doğaldır: Whisper, bir ses kayıtlarından eğitim transkriptlerini otomatik olarak oluşturabilir, bir ses veri seti oluştururken manuel adımlardan birini kaldırır. Yerleşik transkripsiyon ve diğer özelliklerini denemek için VoxBooster’ı indirin.


Sonuç

Whisper AI, açık kaynaklı konuşma tanımanın neler yapabileceğine gerçek bir adım değişimini temsil eder. Eğitim ölçeği (680.000 saat), mimari basitlik (standart kodlayıcı-çözücü transformatör) ve gerçekten açık lisanslama kombinasyonu, ücretli ticari hizmetlerle rekabet edebilecek bir model yarattı ve tamamen kendi donanımınızda çalıştırıyor.

Etrafında büyümüş ekosistem - performans için faster-whisper, hoparlör diarizasyonu ve kelime seviyesinde hizalama için WhisperX, hafif yerel dağıtım için whisper.cpp, GUI sarmalayıcısı için Buzz ve gerçek zamanlı kullanım durumları için VoxBooster gibi amaçlı masaüstü uygulamaları - her spesifik gereksinime uygun hazır araç olduğu anlamına gelir.

Sıfırdan başlıyor sanız: toplu transkripsiyon için, faster-whisper yükleyin ve küçük veya orta modeli kullanın. Herhangi bir kurulumsuz aralıklı kullanım için OpenAI API’si en hızlı yoldur. Windows’ta gerçek zamanlı dikte geniş ses araç seti bölümü olarak, VoxBooster karmaşıklığı yönetir, bu nedenle Python ortamlarında hata ayıklama yerine oluşturma, oyun veya akışa odaklanabilirsiniz.

Mimari ve araçların gelişmesi devam edecek - large-v3 son söz değildir ve faster-whisper, WhisperX ve whisper.cpp’ye katkıda bulunan topluluk, teknoloji ilerletme konusunda tutarlı bir başarı kaydı göstermiştir. Whisper AI öğrenmeye değer, çünkü bu ses metin altyapısının uzun bir zaman parçası olacak.


Sık Sorulan Sorular

Whisper AI nedir?

Whisper AI, OpenAI tarafından Eylül 2022’de yayımlanan açık kaynaklı otomatik konuşma tanıma modelidir. 680.000 saat çok dilli ses üzerinde eğitilmiş, 99 dili destekler, noktalı metinler üretir ve yerel olarak çalıştırıldığında hiç abonelik veya dakika başına ücret ödenmeden temiz ses üzerinde insan seviyesine yakın doğruluk elde eder.

Whisper AI kullanmak ücretsiz midir?

Whisper model ağırlıkları ve kaynak kodu MIT lisansı altında tam açık kaynaklıdır, bu nedenle yerel olarak çalıştırmak ücretsizdir. OpenAI ayrıca Whisper’ı yönetilen bir API uç noktası olarak sunmaktadır (2026 itibariyle dakikada 0,006 ABD doları), bu da Python kurmadan veya GPU sürücülerini yönetmeden kullanmanın en kolay yoludur.

Whisper AI, diğer konuşmadan metne dönüştürme araçlarına kıyasla ne kadar doğrudur?

Temiz İngilizce ses üzerinde Whisper large-v3, Google Speech-to-Text veya Amazon Transcribe gibi ücretli hizmetlere benzer şekilde %2-4 kelime hata oranı elde eder. Aksan ve çok dilli ses üzerinde, çeşitli 680.000 saatlik eğitim veri seti nedeniyle kapalı kaynaklı alternatiflerden genellikle daha iyi performans gösterir.

Whisper AI gerçek zamanlı transkripsiyon yapabilir mi?

Orijinal Python paketi yalnızca toplu işlemdir. Gerçek zamanlı transkripsiyon, whisper.cpp akış modunda, faster-whisper’da bir parçalama döngüsü ile veya Whisper çıkarımını düşük gecikmeli bir ses boru hattında saran VoxBooster gibi amaçlı bir uygulamada gerçek zamanlı uygulamalar gerektirir.

Whisper hangi dilleri destekler?

Whisper 99 dili destekler. En yüksek performans İngilizce, İspanyolca, Fransızca, Almanca, Portekizce, İtalyanca, Felemenkçe ve Japonca’da elde edilir. Düşük kaynaklı diller için kelime hata oranları daha yüksek ancak yine de yalnızca temiz stüdyo verisiyle eğitilmiş alternatiflerden genellikle daha iyi.

Whisper model boyutları arasındaki fark nedir?

Whisper beş boyutla gelir: tiny (39 M param), base (74 M), small (244 M), medium (769 M) ve large (1,55 B, v2 ve v3 varyantları). Daha büyük modeller daha doğru ancak daha fazla VRAM ve hesaplama süresi gerektirir. Küçük model çoğu kullanıcı için pratik iyileştirme noktasıdır - iyi doğruluk, modern bir CPU’da kabaca gerçek zamanlı çalışır, 2 GB RAM’e uyar.

Python kurmadan Whisper AI’yı nasıl kullanırım?

Üç kolay seçenek: (1) Whisper Web whisper.ggerganov.com adresinde herhangi bir modern tarayıcıda çalışır - hiç kurulum yok; (2) Buzz, Windows/Mac/Linux için sürükle ve bırak arayüzüyle Whisper’ı sarmalayan bir GUI masaüstü uygulamasıdır; (3) Windows üzerinde VoxBooster, Whisper seviyesinde yerel transkripsiyonu doğrudan uygulamaya paketler, tek bir tuş kısayoluna erişilebilir, Python ortamı gerekmez.

VoxBooster'ı dene — 3 günlük ücretsiz deneme.

Gerçek zamanlı ses klonlama, ses tahtası ve efektler — zaten konuştuğun her yerde.

  • Kart gerekmez
  • ~30ms gecikme
  • Discord · Teams · OBS
3 gün ücretsiz dene