La bibliothèque vocale pré-construite de VoxBooster gère la plupart des cas d’utilisation. Mais il y a un scénario spécifique où aucune voix pré-construite ne s’en rapproche : lorsque vous voulez votre propre voix - votre timbre, votre accent, votre identité - fonctionnant en temps réel ou étant utilisé pour la narration, le doublage et le contenu.

C’est à cela que sert l’entraînement de modèle personnalisé. Et contrairement à ce que cela semble, le processus est plus simple que de configurer OBS pour la première fois.

Quand l’entraînement de votre propre modèle vocal en vaut la peine

Avant de commencer à enregistrer, il vaut la peine de comprendre les vrais cas d’utilisation :

Créateur de contenu qui enregistre des vidéos : vous écrivez le scénario, générez la narration avec votre clone n’importe quelle heure du jour sans que votre voix soit activée, sans une configuration de microphone élaborée pour la narration.

Doubleur ou comédien vocal : vous gardez votre propre timbre mais pouvez appliquer des effets de personnalité par-dessus - plus profond, plus projeté, plus dramatique - sans perdre votre identité.

Multilingue : vous parlez anglais. Votre clone parle français avec votre timbre. L’intonation sera la vôtre (le modèle porte votre prosodie), mais le résultat est beaucoup plus naturel que la TTS générique.

Anonymat sélectif : vous voulez apparaître dans des appels sans révéler votre vrai voix, mais voulez de la cohérence - toujours la même voix alternative, chaque fois. Le clone personnalisé le gère mieux qu’un préset aléatoire.

Étape 1 : Enregistrement de référence

C’est l’étape que la plupart des gens sous-estiment. La qualité du modèle dépend directement de la qualité de l’audio de référence.

Durée : 3 à 5 minutes de discours continu. Plus que cela n’améliore pas beaucoup les résultats ; moins de 3 minutes les dégrade.

Quoi dire : parlez naturellement. Lisez un texte à haute voix - un article d’actualité, une courte histoire, une description de quelque chose. Le modèle a besoin de variation d’intonation, de pauses naturelles, de sons différents de la langue. Ne répétez pas juste la même phrase.

Environnement : aussi silencieux que possible. AC éteint. Fenêtre fermée. Microphone à environ 4-6 pouces de votre bouche. Si vous avez un microphone dynamique, utilisez-le. Si vous n’avez qu’un condensateur, enregistrez la nuit quand la rue est plus calme.

À éviter : la toux, le rire soudain, le bruit de fond constant, parler trop doucement ou crier. Le modèle est entraîné sur la parole de conversation normale - les extrêmes dégradent la qualité.

Étape 2 : L’assistant d’entraînement

À l’intérieur de VoxBooster, allez au Voice Clone → My Voice → Create new model onglet.

Importez votre audio enregistré. L’assistant accepte WAV et MP3. WAV 44,1 kHz 16 bits est idéal ; MP3 320 kbps fonctionne aussi. Évitez la compression lourde.
Confirmez l’aperçu. VoxBooster effectue un nettoyage automatique du bruit avant l’entraînement - vous écoutez l’audio traité et confirmez qu’il est acceptable.
Nommez le modèle. Ce nom apparaîtra dans votre liste vocale par la suite.
Cliquez sur Entraîner. Le processus commence localement sur votre machine.

Étape 3 : Entraînement local

L’entraînement s’exécute sur votre GPU (NVIDIA avec CUDA, AMD avec ROCm) ou sur CPU si vous n’avez pas de carte graphique dédiée.

Avec GPU NVIDIA (RTX 3060 ou mieux) : 10 à 15 minutes pour 5 minutes d’audio.

Avec GPU plus ancien ou CPU : 20 à 40 minutes. Vous pouvez laisser tourner en arrière-plan - VoxBooster n’a pas besoin d’être au focus, juste en mémoire.

Pendant l’entraînement, évitez de rendre une vidéo lourde ou d’exécuter des jeux exigeants sur le même PC. Ça ne cassera rien - mais cela prolongera le temps et peut produire des artefacts dans le modèle si le GPU manque de mémoire.

Quand il finit, VoxBooster envoie une notification et le modèle apparaît automatiquement dans votre liste de clones.

Étape 4 : Utiliser le modèle

Sélectionnez le modèle personnalisé dans la liste, activez Real-time, parlez. Aussi simple que ça.

Le clone portera votre prosodie - vos pauses, votre emphase, votre rythme. Si vous parlez avec énergie, le clone sort avec énergie. Si vous parlez lentement et sérieusement, il sort lentement et sérieusement. Le contenu phonétique est le vôtre ; le timbre est le modèle.

Conseil : testez le modèle sur un appel court avant de l’utiliser en direct. La première fois que vous entendez votre propre voix clonée est étrange - elle semble presque correcte mais avec une différence. C’est normal. La personne de l’autre côté pense généralement que c’est votre voix normale.

Affinage du modèle

Si le premier résultat d’entraînement ne vous a pas satisfait :

Ré-enregistrez avec un audio plus propre (plus de silence, meilleure position du microphone)
Augmentez à 5 minutes si vous en utilisiez 3
Variez davantage le type de discours dans l’enregistrement - incluez des questions, des exclamations, une parole plus rapide et plus lente

Vous pouvez entraîner plusieurs modèles et comparer. VoxBooster les stocke tous localement - ils ne s’envoient pas sur aucun serveur. Ce sont des fichiers modèles sur votre lecteur, généralement entre 80 et 150 MB chacun.

Le résultat final

Avec une configuration décente et un enregistrement propre, le modèle personnalisé est ce qui convainc le plus lors de l’utilisation en temps réel. C’est votre voix - le modèle connaît vraiment votre timbre, ce n’est pas une tentative d’approximation d’un préset générique. Pour les créateurs de contenu et quiconque apparaît régulièrement en vidéo ou en direct, l’effort initial de 2 heures pour mettre cela en place en vaut la peine.

Comment entraîner votre propre modèle vocal dans VoxBooster (étape par étape)