O mercado de VTubers no Brasil cresceu absurdamente nos últimos dois anos. E junto com o boom veio uma pergunta que aparece em todo fórum de streaming: “como eu faço aquela voz de anime girl sem soar falso?”
A resposta curta é que pitch shift puro não chega lá. A resposta longa é que com clone neural + alguns ajustes você chega bem perto do que você ouve nos animes dublados em japonês — aquela voz aguda, um pouco hiperexpressiva, com articulação rápida. Esse post explica como montar esse setup do zero.
Por que pitch shift sozinho falha
Quando você pega uma voz masculina e só sobe o pitch em 8-10 semitones, o resultado é reconhecível como “voz processada” imediatamente. Isso acontece porque os formantes — as ressonâncias do trato vocal que identificam vogais e consoantes — continuam no lugar original enquanto a frequência fundamental sobe.
Você ouve uma voz aguda com “corpo de homem”. É o chiado de Chipmunks sem a graça.
Clone neural resolve isso porque re-sintetiza a voz inteira — fundamental e formantes — no timbre da voz-alvo. O modelo não está filtrando sua voz, está reconstruindo ela como se outra pessoa tivesse dito as mesmas palavras.
Escolhendo a voz base
No VoxBooster, a aba de vozes tem filtros por categoria. Pra anime girl, você quer procurar por:
- “Anime (Aguda)” — voz japonesa-influenced, articulação rápida, pitch alto
- “Personagem Animado” — menos anime-específico, mas mais flexível pra conteúdo em português
- “Garota Expressiva” — variante com dinâmica emocional mais marcada, boa pra reações
Testa cada uma falando numa frase longa com vírgulas. A qualidade do clone aparece nas transições de entonação — onde a voz sobe e desce naturalmente. Se parecer robótica nas transições, essa não é a voz certa.
Setup passo a passo
1. Instala o VoxBooster e abre a aba “Clone de Voz”.
2. Escolhe a voz da categoria acima. Não tente treinar sua própria voz feminina aguda logo de cara — as vozes pré-treinadas são mais estáveis pra esse uso.
3. Ativa “Real-time” e abre o monitor de áudio pra ouvir o resultado antes de ir ao vivo.
4. Ajusta o pitch fino: mesmo com clone neural, um leve boost de +1 a +2 semitones pode ajustar a voz pra ficarem mais próxima do que você imaginava. Não exagera — o clone já colocou a voz no registro certo, o ajuste é só afinar.
5. EQ leve pós-clone: no VoxBooster tem um EQ básico integrado. Um pequeno boost em torno de 3 kHz a 5 kHz adiciona brilho e presença — aquela qualidade “cristalina” de anime. Corta um pouco abaixo de 150 Hz pra reduzir o grave residual do seu microfone original.
6. Latência esperada: em hardware médio (Ryzen 5 + GPU entry level) o clone roda com ~480ms. Pra stream com OBS isso é ótimo — você configura o delay de áudio no OBS pra sincronizar com a captura de tela. Pra Discord em tempo real, usa o modo low-latency (~250ms, qualidade levemente menor).
Técnica vocal: o que você faz ainda importa
O clone neural traduz o que você fala — mas a expressividade ainda vem de você. Voz de anime girl não é só aguda; ela tem características específicas:
- Articulação exagerada nas vogais — as vogais são mais abertas e sustentadas
- Ênfase emocional frequente — subidas de pitch no final de frases de surpresa/alegria
- Velocidade variável — fala rápida em excitação, lenta em momentos “sérios” do personagem
Se você falar de forma monótona e sem expressão, o clone vai soar monótono e sem expressão — só que em voz de anime girl. A performance vocal ainda é sua responsabilidade.
Integrando no stream
No OBS, o microfone sai pelo VoxBooster (que aparece como dispositivo de entrada no sistema). Você não precisa configurar VB-CABLE nem criar dispositivo virtual — o VoxBooster já se integra diretamente como dispositivo de entrada no Windows.
Configura no OBS:
- Fonte de Áudio → Dispositivo: VoxBooster Input
- Filtros → Noise Gate (threshold -40 dB) pra cortar ruído de fundo nos silêncios
- Monitora o nível: objetivo é pico em torno de -12 dB
Faz um teste de gravação de 2 minutos antes de ir ao vivo. Ouve no fone. Se soou estranho na gravação, vai soar estranho pro público.
Um aviso sobre consistência
O maior erro de VTubers iniciantes é trocar de voz a cada stream. Escolhe UMA voz, usa ela sempre, e o público associa àquele personagem. Consistência constrói identidade de marca muito mais rápido do que ficar testando.
Com o favorito salvo no VoxBooster, um clique já carrega o preset completo — voz, EQ, pitch ajustado. Próximo stream, mesma voz, sem reconfigurar nada.