Библиотека готовых голосов VoxBooster решает большинство задач. Но есть конкретный сценарий, где ни один готовый голос не приближается к нужному: когда хочешь свой собственный голос — с твоим тембром, твоим акцентом, твоей идентичностью — работающий в реальном времени или используемый в озвучке, дубляже и контенте.
Для этого существует обучение кастомной модели. И вопреки тому, как это звучит, процесс проще, чем первоначальная настройка OBS.
Когда стоит обучить модель своего собственного голоса
Прежде чем переходить к записи, стоит понять реальные сценарии использования:
Создатель контента, записывающий видео: пишешь сценарий, генерируешь озвучку своим клоном в любое время дня без необходимости иметь хороший голос, без сложного сетапа микрофона для нарратива.
Дублёр или диктор: сохраняешь свой тембр, но можешь применять поверх него эффекты характера — более низкий, более поставленный, более драматичный — не теряя своей идентичности.
Мультиязычность: ты говоришь по-русски. Твой клон говорит по-английски с твоим тембром. Интонация будет твоей (модель переносит твою просодию), но результат намного натуральнее, чем обобщённый TTS.
Избирательная анонимность: хочешь появляться в коллах, не раскрывая настоящего голоса, но хочешь консистентности — каждый раз один и тот же альтернативный голос. Кастомный клон решает это лучше, чем случайный пресет.
Шаг 1: референсная запись
Это этап, который большинство недооценивает. Качество модели напрямую зависит от качества референсного аудио.
Продолжительность: 3–5 минут непрерывной речи. Больше не улучшает результат существенно; меньше 3 минут ухудшает.
Что говорить: говори естественно. Читай текст вслух — новость, короткую историю, описание чего-то. Модели нужна вариация интонации, естественные паузы, разные звуки языка. Не повторяй одно и то же предложение.
Среда: максимально тихая. Кондиционер выключен. Окно закрыто. Микрофон в 10–15 см от рта. Если есть динамик — используй его. Если только конденсатор — пиши ночью, когда улица тише.
Избегай: кашля, резкого смеха, постоянного фонового шума, очень тихой речи или крика. Модель обучается на нормальной разговорной речи — крайности снижают качество.
Шаг 2: мастер обучения
Внутри VoxBooster перейди на вкладку Клон голоса → Мой голос → Создать новую модель.
- Импортируешь записанное аудио. Визард принимает WAV и MP3. Оптимально WAV 44.1 кГц 16-бит; MP3 320 кбит/с тоже работает. Избегай тяжёлой компрессии.
- Подтверждаешь превью. VoxBooster делает автоматическое шумоподавление перед обучением — слушаешь обработанное аудио и подтверждаешь, что оно приемлемо.
- Называешь модель. Это имя будет отображаться в твоём списке голосов потом.
- Нажимаешь «Обучить». Процесс начинается локально на твоей машине.
Шаг 3: локальное обучение
Обучение выполняется на твоей GPU (NVIDIA с CUDA, AMD с ROCm) или на CPU, если нет выделенной видеокарты.
С GPU NVIDIA (RTX 3060 или лучше): 10–15 минут для 5 минут аудио.
Со старой GPU или CPU: 20–40 минут. Можно оставить работать в фоне — VoxBooster не нужно быть в фокусе, только в памяти.
Во время обучения избегай тяжёлого рендеринга видео или запуска требовательных игр на том же PC. Не то что сломается — просто время увеличится, и может появиться артефакт в модели, если GPU не хватит памяти.
После завершения VoxBooster уведомит, и модель автоматически появится в списке клонов.
Шаг 4: использование модели
Выбираешь кастомную модель в списке, активируешь «Реальное время», говоришь. Всё просто.
Клон будет переносить твою просодию — твои паузы, твои акценты, твой ритм. Если говоришь оживлённо — клон выйдет оживлённым. Если медленно и серьёзно — выйдет медленно и серьёзно. Фонетическое содержание твоё; тембр — модели.
Совет: тестируй модель в коротком звонке перед использованием в прямом стриме. Первый раз, когда слышишь свой клонированный голос — странно, звучит почти правильно, но с какой-то разницей. Это нормально. Тот, кто слушает с другой стороны, как правило, считает это твоим обычным голосом.
Совершенствование модели
Если результат первого обучения не устроил:
- Перезапиши с более чистым аудио (больше тишины, лучшее положение микрофона)
- Увеличь до 5 минут, если использовал 3
- Добавь больше вариативности в речь — включи вопросы, восклицания, быструю и медленную речь
Можно обучить несколько моделей и сравнивать. VoxBooster хранит все локально — они не отправляются ни на какой сервер. Это файлы модели на твоём диске, обычно от 80 до 150 МБ каждый.
Итоговый результат
При хорошем сетапе и чистой записи кастомная модель — это то, что убеждает в реальном использовании больше всего. Это твой голос — модель знает твой тембр по-настоящему, а не пытается приблизить его к обобщённому пресету. Для создателей контента и любого, кто регулярно появляется в видео или стримах, стоит тех 2 часов первоначальных усилий, чтобы настроить это всё.