Die fertige Stimmenbibliothek von VoxBooster löst in den meisten Fällen das Problem. Aber es gibt ein spezifisches Szenario, bei dem keine fertige Stimme nahekommt: wenn du deine eigene Stimme willst — mit deiner Klangfarbe, deinem Akzent, deiner Identität — die in Echtzeit läuft oder für Narration, Synchronisation und Content genutzt wird.

Dafür gibt es das Custom-Modell-Training. Und im Gegensatz zu dem, was es klingt: Der Prozess ist einfacher als OBS zum ersten Mal zu konfigurieren.

Wann sich das Training eines eigenen Modells lohnt

Bevor du mit Aufnahmen anfängst, lohnt es sich, die echten Anwendungsfälle zu verstehen:

Content-Creator, der Videos aufnimmt: Du schreibst das Skript, erzeugst die Narration mit deinem Clone zu jeder Tageszeit, ohne gute Stimme zu haben, ohne aufwändiges Mic-Setup für Narration.

Synchronsprecher oder Sprecher: Behält deine Klangfarbe, kann aber darüber Persönlichkeitseffekte anwenden — tiefer, gesetzter, dramatischer — ohne deine Identität zu verlieren.

Mehrsprachig: Du sprichst Deutsch. Dein Clone spricht Englisch mit deiner Klangfarbe. Die Intonation ist deine (das Modell trägt deine Prosodie), aber das Ergebnis ist viel natürlicher als generisches TTS.

Selektive Anonymität: Du willst in Calls erscheinen, ohne deine echte Stimme zu verraten, möchtest aber Konsistenz — immer dieselbe alternative Stimme, jedes Mal. Custom-Clone löst das besser als ein zufälliges Preset.

Schritt 1: Referenz-Aufnahme

Das ist der Schritt, den die meisten unterschätzen. Die Qualität des Modells hängt direkt von der Audio-Qualität der Referenz ab.

Dauer: 3 bis 5 Minuten kontinuierliches Sprechen. Mehr verbessert das Ergebnis nicht wesentlich; weniger als 3 Minuten verschlechtert es.

Was sprechen: Sprich natürlich. Lies einen Text laut vor — eine Nachricht, eine kurze Geschichte, eine Beschreibung von etwas. Das Modell braucht Intonations-Variation, natürliche Pausen, verschiedene Sprachlaute. Wiederhole nicht dieselbe Phrase.

Umgebung: So still wie möglich. Klimaanlage ausgeschaltet. Fenster geschlossen. Mikrofon ca. 10–15 cm vom Mund entfernt. Wenn du ein Dynamisches hast, nutze es. Wenn nur ein Kondensator vorhanden ist, nimm nachts auf, wenn die Straße ruhiger ist.

Vermeide: Husten, abruptes Lachen, konstante Hintergrundgeräusche, sehr leises oder lautes Sprechen. Das Modell wird auf normales Gesprächssprechen trainiert — Extreme verschlechtern die Qualität.

Schritt 2: Der Trainings-Wizard

Öffne in VoxBooster den Tab Voice Clone → Meine Stimme → Neues Modell erstellen.

Importiere das aufgenommene Audio. Der Wizard akzeptiert WAV und MP3. WAV 44,1 kHz 16-bit ist ideal; MP3 320 kbps funktioniert auch. Vermeide starke Kompression.
Bestätige die Vorschau. VoxBooster macht automatisch eine Rauschbereinigung vor dem Training — du hörst das verarbeitete Audio und bestätigst, ob es akzeptabel ist.
Benenne das Modell. Dieser Name erscheint danach in deiner Stimmenliste.
Klicke auf Trainieren. Der Prozess beginnt lokal auf deiner Maschine.

Schritt 3: Lokales Training

Das Training läuft auf deiner GPU (NVIDIA mit CUDA, AMD mit ROCm) oder auf der CPU, wenn du keine dedizierte Grafikkarte hast.

Mit NVIDIA GPU (RTX 3060 oder besser): 10 bis 15 Minuten für 5 Minuten Audio.

Mit älterer GPU oder CPU: 20 bis 40 Minuten. Du kannst es im Hintergrund laufen lassen — VoxBooster muss nicht im Fokus bleiben, nur im Speicher.

Während des Trainings vermeide schweres Video-Rendering oder ressourcenintensive Spiele auf demselben PC. Nicht weil es kaputtgeht — aber es verlängert die Zeit und kann Artefakte im Modell erzeugen, wenn der GPU-Speicher zu knapp wird.

Wenn es fertig ist, benachrichtigt VoxBooster dich und das Modell erscheint automatisch in deiner Clone-Liste.

Schritt 4: Das Modell verwenden

Wähle das Custom-Modell in der Liste, aktiviere Real-time, sprich. So einfach.

Der Clone trägt deine Prosodie — deine Pausen, deine Betonung, deinen Rhythmus. Wenn du animiert sprichst, klingt der Clone animiert. Wenn du langsam und ernst sprichst, klingt er langsam und ernst. Der phonetische Inhalt ist deiner; die Klangfarbe ist das Modell.

Tipp: Teste das Modell in einem kurzen Call, bevor du es im Live-Stream nutzt. Das erste Mal, wenn du deine eigene geklonte Stimme hörst, ist seltsam — sie klingt fast richtig, aber mit irgendeinem Unterschied. Das ist normal. Die andere Seite findet in der Regel, dass es deine normale Stimme ist.

Das Modell verfeinern

Wenn das Ergebnis des ersten Trainings nicht zufriedenstellt:

Nimm mit saubererem Audio neu auf (mehr Stille, bessere Mic-Position)
Erhöhe auf 5 Minuten, wenn du 3 verwendet hast
Variiere mehr den Sprachtyp in der Aufnahme — füge Fragen, Ausrufe, schnelleres und langsameres Sprechen ein

Du kannst mehrere Modelle trainieren und vergleichen. VoxBooster speichert sie alle lokal — sie gehen auf keinen Server. Es sind Modelldateien auf deiner Festplatte, in der Regel zwischen 80 und 150 MB jede.

Endergebnis

Mit einem ordentlichen Setup und sauberer Aufnahme ist das Custom-Modell das, was im Echtzeit-Einsatz am überzeugendsten ist. Es ist deine Stimme — das Modell kennt deine Klangfarbe wirklich, versucht nicht, ein generisches Preset anzunähern. Für Content-Creator und jeden, der regelmäßig in Video oder Stream erscheint, sind die anfänglichen 2 Stunden Aufwand es wert, das zum Laufen zu bringen.

Eigenes Stimm-Modell in VoxBooster trainieren (Schritt für Schritt)