Biblioteka gotowych głosów VoxBoostera rozwiązuje sprawę dla większości przypadków. Ale jest jeden konkretny scenariusz, gdzie żaden gotowy głos nie daje rady: gdy chcesz swój własny głos — z twoim tembrem, twoim akcentem, twoją tożsamością — działający w czasie rzeczywistym lub używany do narracji, dubbingu i contentu.
Do tego właśnie istnieje trening customowego modelu. I w przeciwieństwie do tego co się wydaje, proces jest prostszy niż konfigurowanie OBS po raz pierwszy.
Kiedy warto trenować model własnego głosu
Zanim zaczniesz nagrywać, warto zrozumieć realne przypadki użycia:
Twórca contentu nagrywający filmy: piszesz scenariusz, generujesz narrację swoim clonem o każdej porze dnia bez potrzeby posiadania dobrego głosu, bez rozbudowanego setupu mikrofonu do narracji.
Dubber lub lektor: zachowujesz swój tembr, ale możesz stosować efekty osobowości na wierzchu — głębszy, bardziej impostowany, bardziej dramatyczny — bez tracenia swojej tożsamości.
Multi-język: mówisz po polsku. Twój clone mówi po angielsku z twoim tembrem. Intonacja będzie twoja (model niesie twoją prozodię), ale efekt jest znacznie bardziej naturalny niż generyczny TTS.
Selektywna anonimowość: chcesz pojawiać się na callach bez ujawniania prawdziwego głosu, ale chcesz konsekwencji — zawsze ten sam alternatywny głos, za każdym razem. Custom clone rozwiązuje to lepiej niż losowy preset.
Krok 1: nagranie referencyjne
To etap, który większość ludzi bagatelizuje. Jakość modelu bezpośrednio zależy od jakości audio referencyjnego.
Czas trwania: 3 do 5 minut ciągłej mowy. Więcej niż to nie poprawia znacznie wyniku; mniej niż 3 minuty degraduje.
Co mówić: mów naturalnie. Czytaj tekst na głos — wiadomość, krótką historię, opis czegoś. Model potrzebuje zróżnicowania intonacji, naturalnych pauz, różnych dźwięków języka polskiego. Nie powtarzaj tego samego zdania.
Środowisko: jak najcichsze. Klimatyzacja wyłączona. Okno zamknięte. Mikrofon 10–15 cm od ust. Jeśli masz dynamiczny, użyj go. Jeśli masz tylko pojemnościowy, nagraj w nocy gdy ulica jest spokojniejsza.
Unikaj: kaszlu, gwałtownego śmiechu, stałego szumu tła, mówienia zbyt cicho lub krzyczenia. Model jest trenowany na normalnej konwersacyjnej mowie — ekstrema degradują jakość.
Krok 2: wizard trenowania
W VoxBoosterze, wejdź do zakładki Clone głosu → Mój głos → Utwórz nowy model.
- Zaimportuj nagrane audio. Wizard akceptuje WAV i MP3. Idealny jest WAV 44.1kHz 16-bit; MP3 320kbps też działa. Unikaj mocnej kompresji.
- Potwierdź podgląd. VoxBooster robi automatyczne czyszczenie szumu przed trenowaniem — słyszysz przetworzone audio i potwierdzasz czy jest do przyjęcia.
- Nazwij model. Ta nazwa pojawi się później na twojej liście głosów.
- Kliknij Trenuj. Proces zaczyna się lokalnie na twojej maszynie.
Krok 3: lokalny trening
Trening działa na twojej GPU (NVIDIA z CUDA, AMD z ROCm) lub na CPU jeśli nie masz dedykowanej karty.
Z GPU NVIDIA (RTX 3060 lub wyższy): 10 do 15 minut dla 5 minut audio.
Ze starszą GPU lub CPU: 20 do 40 minut. Możesz zostawić działający w tle — VoxBooster nie musi być w focusie, tylko w pamięci.
Podczas trenowania, unikaj renderowania ciężkiego wideo lub uruchamiania wymagającej gry na tym samym PC. Nie chodzi o to że się popsuje — ale wydłuży czas i może wygenerować artefakt w modelu jeśli GPU skończy pamięć.
Gdy skończy, VoxBooster powiadamia, a model automatycznie pojawia się na liście twoich clonów.
Krok 4: używanie modelu
Wybierz custom model z listy, włącz Real-time, mów. Tyle.
Clone załaduje twoją prozodię — twoje pauzy, twój akcent, twój rytm. Jeśli mówisz z animacją, clone wychodzi z animacją. Jeśli mówisz wolno i poważnie, wychodzi wolno i poważnie. Fonetyczna treść jest twoja; tembr to model.
Wskazówka: przetestuj model na krótkim callu przed użyciem na live streamie. Pierwszy raz gdy słyszysz swój sklonowany głos jest dziwny — brzmi prawie jak ty, ale z jakąś różnicą. To normalne. Ktoś po drugiej stronie zazwyczaj myśli że to twój normalny głos.
Udoskonalanie modelu
Jeśli wynik pierwszego treningu nie satysfakcjonuje:
- Nagraj ponownie z czystszym audio (więcej ciszy, lepsza pozycja mikrofonu)
- Zwiększ do 5 minut jeśli używałeś 3
- Zróżnicuj bardziej rodzaj mowy w nagraniu — dodaj pytania, wykrzyknienia, szybszą i wolniejszą mowę
Możesz trenować wiele modeli i porównywać. VoxBooster przechowuje wszystkie lokalnie — nie wychodzą na żaden serwer. To pliki modelu na twoim dysku, zazwyczaj między 80 a 150 MB każdy.
Finalny wynik
Z przyzwoitym setupem i czystym nagraniem, custom model to ten, który najbardziej przekonuje w realnym użyciu. To twój głos — model zna twój tembr na serio, nie próbuje przybliżać się do generycznego presetu. Dla twórcy contentu i każdego, kto regularnie pojawia się w filmie lub na streamie, 2 godziny początkowego wysiłku żeby to uruchomić są warte każdej minuty.