Как обучить собственную модель голоса в VoxBooster (пошаговый гайд)

Обучение голосовой ИИ-модели в VoxBooster: 3–5 минут чистой записи, локальное обучение на GPU за 10–20 минут, модель готова для использования в реальном времени. Полный процесс.

Библиотека готовых голосов VoxBooster решает большинство задач. Но есть конкретный сценарий, где ни один готовый голос не приближается к нужному: когда хочешь свой собственный голос — с твоим тембром, твоим акцентом, твоей идентичностью — работающий в реальном времени или используемый в озвучке, дубляже и контенте.

Для этого существует обучение кастомной модели. И вопреки тому, как это звучит, процесс проще, чем первоначальная настройка OBS.

Когда стоит обучить модель своего собственного голоса

Прежде чем переходить к записи, стоит понять реальные сценарии использования:

Создатель контента, записывающий видео: пишешь сценарий, генерируешь озвучку своим клоном в любое время дня без необходимости иметь хороший голос, без сложного сетапа микрофона для нарратива.

Дублёр или диктор: сохраняешь свой тембр, но можешь применять поверх него эффекты характера — более низкий, более поставленный, более драматичный — не теряя своей идентичности.

Мультиязычность: ты говоришь по-русски. Твой клон говорит по-английски с твоим тембром. Интонация будет твоей (модель переносит твою просодию), но результат намного натуральнее, чем обобщённый TTS.

Избирательная анонимность: хочешь появляться в коллах, не раскрывая настоящего голоса, но хочешь консистентности — каждый раз один и тот же альтернативный голос. Кастомный клон решает это лучше, чем случайный пресет.

Шаг 1: референсная запись

Это этап, который большинство недооценивает. Качество модели напрямую зависит от качества референсного аудио.

Продолжительность: 3–5 минут непрерывной речи. Больше не улучшает результат существенно; меньше 3 минут ухудшает.

Что говорить: говори естественно. Читай текст вслух — новость, короткую историю, описание чего-то. Модели нужна вариация интонации, естественные паузы, разные звуки языка. Не повторяй одно и то же предложение.

Среда: максимально тихая. Кондиционер выключен. Окно закрыто. Микрофон в 10–15 см от рта. Если есть динамик — используй его. Если только конденсатор — пиши ночью, когда улица тише.

Избегай: кашля, резкого смеха, постоянного фонового шума, очень тихой речи или крика. Модель обучается на нормальной разговорной речи — крайности снижают качество.

Шаг 2: мастер обучения

Внутри VoxBooster перейди на вкладку Клон голоса → Мой голос → Создать новую модель.

  1. Импортируешь записанное аудио. Визард принимает WAV и MP3. Оптимально WAV 44.1 кГц 16-бит; MP3 320 кбит/с тоже работает. Избегай тяжёлой компрессии.
  2. Подтверждаешь превью. VoxBooster делает автоматическое шумоподавление перед обучением — слушаешь обработанное аудио и подтверждаешь, что оно приемлемо.
  3. Называешь модель. Это имя будет отображаться в твоём списке голосов потом.
  4. Нажимаешь «Обучить». Процесс начинается локально на твоей машине.

Шаг 3: локальное обучение

Обучение выполняется на твоей GPU (NVIDIA с CUDA, AMD с ROCm) или на CPU, если нет выделенной видеокарты.

С GPU NVIDIA (RTX 3060 или лучше): 10–15 минут для 5 минут аудио.

Со старой GPU или CPU: 20–40 минут. Можно оставить работать в фоне — VoxBooster не нужно быть в фокусе, только в памяти.

Во время обучения избегай тяжёлого рендеринга видео или запуска требовательных игр на том же PC. Не то что сломается — просто время увеличится, и может появиться артефакт в модели, если GPU не хватит памяти.

После завершения VoxBooster уведомит, и модель автоматически появится в списке клонов.

Шаг 4: использование модели

Выбираешь кастомную модель в списке, активируешь «Реальное время», говоришь. Всё просто.

Клон будет переносить твою просодию — твои паузы, твои акценты, твой ритм. Если говоришь оживлённо — клон выйдет оживлённым. Если медленно и серьёзно — выйдет медленно и серьёзно. Фонетическое содержание твоё; тембр — модели.

Совет: тестируй модель в коротком звонке перед использованием в прямом стриме. Первый раз, когда слышишь свой клонированный голос — странно, звучит почти правильно, но с какой-то разницей. Это нормально. Тот, кто слушает с другой стороны, как правило, считает это твоим обычным голосом.

Совершенствование модели

Если результат первого обучения не устроил:

  • Перезапиши с более чистым аудио (больше тишины, лучшее положение микрофона)
  • Увеличь до 5 минут, если использовал 3
  • Добавь больше вариативности в речь — включи вопросы, восклицания, быструю и медленную речь

Можно обучить несколько моделей и сравнивать. VoxBooster хранит все локально — они не отправляются ни на какой сервер. Это файлы модели на твоём диске, обычно от 80 до 150 МБ каждый.

Итоговый результат

При хорошем сетапе и чистой записи кастомная модель — это то, что убеждает в реальном использовании больше всего. Это твой голос — модель знает твой тембр по-настоящему, а не пытается приблизить его к обобщённому пресету. Для создателей контента и любого, кто регулярно появляется в видео или стримах, стоит тех 2 часов первоначальных усилий, чтобы настроить это всё.

Попробуй VoxBooster — 3 дня бесплатно.

Клонирование голоса в реальном времени, саундборд и эффекты — везде, где ты говоришь.

  • Без карты
  • ~30 мс задержки
  • Discord · Teams · OBS
Попробовать 3 дня бесплатно