Biblioteka gotowych głosów VoxBoostera rozwiązuje sprawę dla większości przypadków. Ale jest jeden konkretny scenariusz, gdzie żaden gotowy głos nie daje rady: gdy chcesz swój własny głos — z twoim tembrem, twoim akcentem, twoją tożsamością — działający w czasie rzeczywistym lub używany do narracji, dubbingu i contentu.

Do tego właśnie istnieje trening customowego modelu. I w przeciwieństwie do tego co się wydaje, proces jest prostszy niż konfigurowanie OBS po raz pierwszy.

Kiedy warto trenować model własnego głosu

Zanim zaczniesz nagrywać, warto zrozumieć realne przypadki użycia:

Twórca contentu nagrywający filmy: piszesz scenariusz, generujesz narrację swoim clonem o każdej porze dnia bez potrzeby posiadania dobrego głosu, bez rozbudowanego setupu mikrofonu do narracji.

Dubber lub lektor: zachowujesz swój tembr, ale możesz stosować efekty osobowości na wierzchu — głębszy, bardziej impostowany, bardziej dramatyczny — bez tracenia swojej tożsamości.

Multi-język: mówisz po polsku. Twój clone mówi po angielsku z twoim tembrem. Intonacja będzie twoja (model niesie twoją prozodię), ale efekt jest znacznie bardziej naturalny niż generyczny TTS.

Selektywna anonimowość: chcesz pojawiać się na callach bez ujawniania prawdziwego głosu, ale chcesz konsekwencji — zawsze ten sam alternatywny głos, za każdym razem. Custom clone rozwiązuje to lepiej niż losowy preset.

Krok 1: nagranie referencyjne

To etap, który większość ludzi bagatelizuje. Jakość modelu bezpośrednio zależy od jakości audio referencyjnego.

Czas trwania: 3 do 5 minut ciągłej mowy. Więcej niż to nie poprawia znacznie wyniku; mniej niż 3 minuty degraduje.

Co mówić: mów naturalnie. Czytaj tekst na głos — wiadomość, krótką historię, opis czegoś. Model potrzebuje zróżnicowania intonacji, naturalnych pauz, różnych dźwięków języka polskiego. Nie powtarzaj tego samego zdania.

Środowisko: jak najcichsze. Klimatyzacja wyłączona. Okno zamknięte. Mikrofon 10–15 cm od ust. Jeśli masz dynamiczny, użyj go. Jeśli masz tylko pojemnościowy, nagraj w nocy gdy ulica jest spokojniejsza.

Unikaj: kaszlu, gwałtownego śmiechu, stałego szumu tła, mówienia zbyt cicho lub krzyczenia. Model jest trenowany na normalnej konwersacyjnej mowie — ekstrema degradują jakość.

Krok 2: wizard trenowania

W VoxBoosterze, wejdź do zakładki Clone głosu → Mój głos → Utwórz nowy model.

Zaimportuj nagrane audio. Wizard akceptuje WAV i MP3. Idealny jest WAV 44.1kHz 16-bit; MP3 320kbps też działa. Unikaj mocnej kompresji.
Potwierdź podgląd. VoxBooster robi automatyczne czyszczenie szumu przed trenowaniem — słyszysz przetworzone audio i potwierdzasz czy jest do przyjęcia.
Nazwij model. Ta nazwa pojawi się później na twojej liście głosów.
Kliknij Trenuj. Proces zaczyna się lokalnie na twojej maszynie.

Krok 3: lokalny trening

Trening działa na twojej GPU (NVIDIA z CUDA, AMD z ROCm) lub na CPU jeśli nie masz dedykowanej karty.

Z GPU NVIDIA (RTX 3060 lub wyższy): 10 do 15 minut dla 5 minut audio.

Ze starszą GPU lub CPU: 20 do 40 minut. Możesz zostawić działający w tle — VoxBooster nie musi być w focusie, tylko w pamięci.

Podczas trenowania, unikaj renderowania ciężkiego wideo lub uruchamiania wymagającej gry na tym samym PC. Nie chodzi o to że się popsuje — ale wydłuży czas i może wygenerować artefakt w modelu jeśli GPU skończy pamięć.

Gdy skończy, VoxBooster powiadamia, a model automatycznie pojawia się na liście twoich clonów.

Krok 4: używanie modelu

Wybierz custom model z listy, włącz Real-time, mów. Tyle.

Clone załaduje twoją prozodię — twoje pauzy, twój akcent, twój rytm. Jeśli mówisz z animacją, clone wychodzi z animacją. Jeśli mówisz wolno i poważnie, wychodzi wolno i poważnie. Fonetyczna treść jest twoja; tembr to model.

Wskazówka: przetestuj model na krótkim callu przed użyciem na live streamie. Pierwszy raz gdy słyszysz swój sklonowany głos jest dziwny — brzmi prawie jak ty, ale z jakąś różnicą. To normalne. Ktoś po drugiej stronie zazwyczaj myśli że to twój normalny głos.

Udoskonalanie modelu

Jeśli wynik pierwszego treningu nie satysfakcjonuje:

Nagraj ponownie z czystszym audio (więcej ciszy, lepsza pozycja mikrofonu)
Zwiększ do 5 minut jeśli używałeś 3
Zróżnicuj bardziej rodzaj mowy w nagraniu — dodaj pytania, wykrzyknienia, szybszą i wolniejszą mowę

Możesz trenować wiele modeli i porównywać. VoxBooster przechowuje wszystkie lokalnie — nie wychodzą na żaden serwer. To pliki modelu na twoim dysku, zazwyczaj między 80 a 150 MB każdy.

Finalny wynik

Z przyzwoitym setupem i czystym nagraniem, custom model to ten, który najbardziej przekonuje w realnym użyciu. To twój głos — model zna twój tembr na serio, nie próbuje przybliżać się do generycznego presetu. Dla twórcy contentu i każdego, kto regularnie pojawia się w filmie lub na streamie, 2 godziny początkowego wysiłku żeby to uruchomić są warte każdej minuty.

Jak wytrenować własny model głosu w VoxBoosterze (krok po kroku)