VoxBooster’ın hazır ses kütüphanesi çoğu durumda çözüm üretiyor. Ama hiçbir hazır sesin yaklaşamadığı belirli bir senaryo var: kendi sesinizi — kendi tınınızı, kendi aksanınızı, kendi kimliğinizi — gerçek zamanlı çalıştırmak veya anlatım, seslendirme ve içerik üretiminde kullanmak istediğinizde.
Özel model eğitimi bunun için var. Ve göründüğünün aksine süreç, OBS’yi ilk kez yapılandırmaktan daha basit.
Kendi sesinizin modelini ne zaman eğitmek değer
Kayda geçmeden önce, gerçek kullanım durumlarını anlamak önemli:
Video kaydeden içerik üreticisi: script yazarsınız, sesiniz iyi olmasa da günün herhangi bir saatinde klonunuzla anlatım oluşturursunuz, ayrıntılı mikrofon kurulumuna gerek kalmaz.
Dublör veya seslendirmeci: kendi tınınızı korursunuz ama üzerine kişilik efektleri uygulayabilirsiniz — daha kalın, daha imposteli, daha dramatik — kimliğinizi kaybetmeden.
Çok dil: Türkçe konuşuyorsunuz. Klonunuz kendi tınınızla İngilizce konuşuyor. Tonlama sizin olacak (model prozodiniizi taşır) ama sonuç genel TTS’den çok daha doğal.
Seçici anonimlik: aramalarda gerçek sesinizi açıklamadan görünmek istiyorsunuz ama tutarlılık istiyorsunuz — her seferinde aynı alternatif ses. Özel klon, rastgele preset’ten bunu daha iyi çözer.
Adım 1: referans kayıt
Herkesin küçümsediği adım bu. Modelin kalitesi doğrudan referans sesin kalitesine bağlıdır.
Süre: sürekli konuşmanın 3 ila 5 dakikası. Daha fazlası sonucu pek iyileştirmiyor; 3 dakikadan azı bozuluyor.
Ne söylemeli: doğal konuşun. Bir metni sesli okuyun — bir haber, kısa bir hikaye, bir şeyin tanımı. Modelin tonlama değişimine, doğal duraklamalara, Türkçenin farklı seslerine ihtiyacı var. Aynı cümleyi tekrarlayıp durmayın.
Ortam: mümkün olduğunca sessiz. Klima kapalı. Pencere kapalı. Mikrofon ağzınıza 10–15 cm mesafede. Dinamiğiniz varsa onu kullanın. Yalnızca kondensatörünüz varsa sokak daha sessizken gece kaydedin.
Kaçının: öksürme, sert kahkaha, sürekli arka plan gürültüsü, çok alçak veya bağırarak konuşma. Model normal konuşma sesinde eğitilmiştir — aşırılıklar kaliteyi düşürür.
Adım 2: eğitim sihirbazı
VoxBooster içinde Ses Klonu → Sesim → Yeni model oluştur sekmesine girin.
- Kaydedilen sesi içe aktarın. Sihirbaz WAV ve MP3 kabul eder. WAV 44.1kHz 16-bit idealdir; MP3 320kbps de çalışır. Ağır sıkıştırmadan kaçının.
- Önizlemeyi onaylayın. VoxBooster eğitmeden önce otomatik gürültü temizliği yapar — işlenmiş sesi dinler ve kabul edilebilir olduğunu onaylarsınız.
- Modeli adlandırın. Bu ad daha sonra ses listenizde görünecek.
- Eğit’e tıklayın. Süreç makinenizde yerel olarak başlar.
Adım 3: yerel eğitim
Eğitim GPU’nuzda (CUDA ile NVIDIA, ROCm ile AMD) veya ayrık kartınız yoksa CPU’da çalışır.
NVIDIA GPU ile (RTX 3060 veya üstü): 5 dakika ses için 10 ila 15 dakika.
Daha eski GPU veya CPU ile: 20 ila 40 dakika. Arka planda çalıştırabilirsiniz — VoxBooster odakta kalmak zorunda değil, yalnızca bellekte.
Eğitim sırasında aynı PC’de ağır video render etmekten veya zorlu oyun çalıştırmaktan kaçının. Bozulmaz — ama süreyi uzatır ve GPU belleği yetersiz kalırsa modelde artefakt oluşabilir.
Bittiğinde VoxBooster bildirim gönderir ve model klon listenizde otomatik olarak görünür.
Adım 4: modeli kullanma
Listeden özel modeli seçin, Gerçek Zamanlıyı etkinleştirin, konuşun. Bu kadar basit.
Klon prozodiniizi taşır — duraklamalarınızı, vurgunuzu, ritminizi. Heyecanlı konuşursanız, klon heyecanlı çıkar. Yavaş ve ciddi konuşursanız, yavaş ve ciddi çıkar. Fonetik içerik sizin; tını model.
İpucu: canlı stream’de kullanmadan önce kısa bir aramada modeli test edin. Klonlanmış kendi sesinizi ilk kez duyduğunuzda tuhaf hisseder — neredeyse doğru ama bazı farklılıklarla. Normal. Karşı taraftakiler genellikle normal sesiniz olduğunu düşünür.
Modeli iyileştirme
İlk eğitimin sonucu tatmin edici değilse:
- Daha temiz sesle yeniden kaydedin (daha fazla sessizlik, daha iyi mikrofon konumu)
- 3 dakika kullandıysanız 5 dakikaya artırın
- Kayıtta konuşma türünü daha fazla çeşitlendirin — sorular, ünlemler, daha hızlı ve daha yavaş konuşma
Birden fazla model eğitip karşılaştırabilirsiniz. VoxBooster hepsini yerel olarak saklar — hiçbir sunucuya yüklenmez. Diskinizde model dosyaları, genellikle 80 ila 150 MB arasında.
Nihai sonuç
Uygun kurulum ve temiz kayıtla, özel model gerçek zamanlı kullanımda en ikna edici olandır. Sizin sesiniz — model tınınızı gerçekten tanıyor, genel bir preset’e yaklaşmaya çalışmıyor. Düzenli olarak videoda veya stream’de görünen içerik üreticisi ve herkes için, bunu çalıştırmak için harcanan 2 saatlik ilk çabaya değer.