Como treinar seu próprio modelo de voz no VoxBooster (passo a passo)

Treinar voz IA no VoxBooster: 3-5 min de gravação limpa, treinamento local na GPU em 10-20 min, modelo pronto pra uso real-time. Veja o processo completo.

A biblioteca de vozes prontas do VoxBooster resolve pra maioria dos casos. Mas tem um cenário específico onde nenhuma voz pronta chega perto: quando você quer a sua própria voz — com o seu timbre, o seu sotaque, a sua identidade — rodando em tempo real ou sendo usada em narração, dublagem e conteúdo.

É pra isso que existe o treinamento de modelo custom. E ao contrário do que parece, o processo é mais simples do que configurar OBS pela primeira vez.

Quando vale treinar um modelo da sua própria voz

Antes de partir pra gravação, vale entender os casos de uso reais:

Criador de conteúdo que grava vídeos: você escreve o roteiro, gera a narração com seu clone em qualquer hora do dia sem precisar estar com a voz boa, sem setup de microfone elaborado pra narração.

Dublador ou locutor: mantém o seu timbre mas pode aplicar efeitos de personalidade em cima — mais grave, mais impostada, mais dramática — sem perder a sua identidade.

Multi-idioma: você fala português. Seu clone fala inglês com o seu timbre. A entonação vai ser a sua (o modelo carrega sua prosódia), mas o resultado é muito mais natural do que TTS genérico.

Anonimato seletivo: você quer aparecer em calls sem revelar sua voz real, mas quer consistência — sempre a mesma voz alternativa, toda vez. Clone custom resolve isso melhor do que preset aleatório.

Passo 1: gravação de referência

Essa é a etapa que mais gente subestima. A qualidade do modelo depende diretamente da qualidade do áudio de referência.

Duração: 3 a 5 minutos de fala contínua. Mais que isso não melhora muito o resultado; menos que 3 minutos degrada.

O que falar: fale naturalmente. Leia um texto em voz alta — uma notícia, uma história curta, descrição de algo. O modelo precisa de variação de entonação, pausas naturais, diferentes sons do português. Não fica repetindo a mesma frase.

Ambiente: o mais silencioso possível. Ar-condicionado desligado. Janela fechada. Microfone a uns 10–15 cm da boca. Se você tem dinâmico, use ele. Se só tem condensador, faz à noite quando a rua tá mais quieta.

Evita: tosse, risos bruscos, barulho de fundo constante, falar muito baixo ou gritar. O modelo é treinado em fala conversacional normal — extremos degradam a qualidade.

Passo 2: o wizard de treinamento

Dentro do VoxBooster, entra na aba Clone de Voz → Minha Voz → Criar novo modelo.

  1. Importa o áudio gravado. O wizard aceita WAV e MP3. WAV 44.1kHz 16-bit é o ideal; MP3 320kbps também funciona. Evita compressão pesada.
  2. Confirma o preview. O VoxBooster faz uma limpeza automática de ruído antes de treinar — você ouvi o áudio processado e confirma se tá aceitável.
  3. Nomeia o modelo. Esse nome vai aparecer na sua lista de vozes depois.
  4. Clica em Treinar. O processo começa localmente na sua máquina.

Passo 3: treinamento local

O treinamento roda na sua GPU (NVIDIA com CUDA, AMD com ROCm) ou na CPU se você não tem placa dedicada.

Com GPU NVIDIA (RTX 3060 ou superior): 10 a 15 minutos pra 5 minutos de áudio.

Com GPU mais antiga ou CPU: 20 a 40 minutos. Dá pra deixar rodando em background — o VoxBooster não precisa ficar em foco, só em memória.

Durante o treinamento, evita renderizar vídeo pesado ou rodar jogo exigente no mesmo PC. Não é que vai quebrar — mas vai alongar o tempo e pode gerar artefato no modelo se a GPU ficar com memória insuficiente.

Quando terminar, o VoxBooster notifica e o modelo aparece automaticamente na sua lista de clones.

Passo 4: usando o modelo

Seleciona o modelo custom na lista, ativa Real-time, fala. Simples assim.

O clone vai carregar sua prosódia — suas pausas, sua ênfase, seu ritmo. Se você falar animado, o clone sai animado. Se falar devagar e sério, sai devagar e sério. O conteúdo fonético é o seu; o timbre é o modelo.

Dica: teste o modelo numa call curta antes de usar em stream ao vivo. A primeira vez que você ouve sua própria voz clonada é estranha — soa quase certo mas com alguma diferença. É normal. Quem tá do outro lado geralmente acha que é a sua voz normal.

Refinando o modelo

Se o resultado do primeiro treino não satisfez:

  • Regrava com áudio mais limpo (mais silêncio, melhor posição de mic)
  • Aumenta pra 5 minutos se você tinha usado 3
  • Varia mais o tipo de fala na gravação — inclui perguntas, exclamações, fala mais rápida e mais lenta

Você pode treinar múltiplos modelos e comparar. O VoxBooster guarda todos localmente — eles não sobem pra servidor nenhum. São arquivos de modelo no seu disco, geralmente entre 80 e 150 MB cada.

Resultado final

Com setup decente e gravação limpa, o modelo custom é o que mais convence em uso real-time. É a sua voz — o modelo conhece seu timbre de verdade, não tá tentando aproximar de um preset genérico. Pra criador de conteúdo e qualquer pessoa que aparece regularmente em vídeo ou stream, vale as 2 horas de esforço inicial pra ter isso funcionando.

Experimente o VoxBooster — 3 dias grátis.

Clone de voz em tempo real, soundboard e efeitos — onde você já fala.

  • Sem cartão
  • ~30ms de latência
  • Discord · Teams · OBS
Experimentar 3 dias grátis