Генератор голоса ИИ для обратной связи устройств IoT

Голосовой ИИ для IoT — одна из самых тихих революций в подключённом железе. Когда ваш умный замок говорит «Добро пожаловать домой, входная дверь разблокирована», когда складской погрузчик объявляет «Пешеходная зона — снизьте скорость», когда больничный тележка с лекарствами зачитывает название препарата перед его выдачей — этот звук больше не является предварительно записанным клипом нанятого диктора. Он генерируется движком голосового ИИ, работающим локально на процессоре устройства или транслируемым из облачного TTS-API за миллисекунды. Это руководство охватывает, как построить такой пайплайн: выбор между встроенными движками eSpeak NG и CMU Festival и облачным синтезом, управление энергетическими бюджетами, поддержка нескольких языков в прошивке и понимание того, что Yale, Schlage и August реально предоставляют разработчикам для пользовательских голосовых подсказок.

TL;DR

Голос обратной связи устройств IoT — статусные оповещения, предупреждения безопасности, персонализированные подтверждения — всё чаще генерируется TTS на ИИ, а не предзаписанным аудио.
eSpeak NG умещается на голых микроконтроллерах (размер менее 2 МБ); CMU Festival подходит для Linux-устройств уровня шлюза с 30–80 МБ свободной ОЗУ.
Yale Assure 2 и Schlage Encode Plus поставляют фиксированные голосовые наборы через OTA; фирменное аудио требует коммерческих OEM-программ.
Предварительный рендеринг голосовых клипов в 8 кГц моно PCM и кэширование в SPI-флеше — наиболее энергоэффективный подход.
Многоязычная прошивка практична: сгенерируйте набор WAV на каждую локаль, храните в индексированных разделах флеша, переключайте через регистр конфигурации.
Для производственных голосовых ассетов генераторы голоса ИИ на рабочей станции производят аудио значительно лучшего качества, чем синтез на устройстве — генерируйте офлайн, разворачивайте как WAV.

Что Реально Означает «Голосовой ИИ для IoT»

Голосовой ИИ для IoT относится к любой системе, в которой подключённое устройство говорит с пользователем через синтезированную или предварительно синтезированную речь, запускаемую событиями устройства, а не нажатием кнопки «Воспроизвести» человеком. Этот термин охватывает широкий спектр реализаций:

Умный замок (Yale, Schlage, August), объявляющий «Дверь разблокирована» или «Неверный код — осталось три попытки»
Массив промышленных датчиков, объявляющий состояния тревоги по температуре или давлению на шумном производственном участке
Хаб умного дома, подтверждающий команды, объявляющий оповещения о прибытии или зачитывающий напоминания календаря
Система складского подбора, объявляющая расположение ячеек и подтверждающая сканирования без необходимости смотреть на экран
Медицинское устройство, зачитывающее подтверждения дозировки, ID пациентов или условия тревоги для снижения риска ошибок считывания

В каждом случае фундаментальная инженерная задача одна: преобразовать текстовую строку (или шаблон с подстановкой переменных) в разборчивый звук, воспроизвести его через динамик и сделать это надёжно при минимальных затратах энергии.

Как голосовой ИИ интегрируется с широкими структурами команд умного дома, смотрите в нашем руководстве по генераторам голоса ИИ для команд умного дома.

Встроенный TTS против Облачного TTS: Ключевой Компромисс

Первое архитектурное решение для любой системы голосовой обратной связи IoT — где происходит синтез. Есть три реалистичных варианта:

Вариант 1: Встроенный TTS на Устройстве (eSpeak NG, Flite)

Устройство выполняет движок синтеза локально. Без сети, без облачной зависимости, латентность менее 100 мс от события до звука.

eSpeak NG — доминирующий выбор для ограниченных встроенных систем. Открытый исходный код (GPL/LGPL), поддержка более 100 языков, бинарник компилируется до менее 2 МБ — достаточно мало для микроконтроллеров с внешним SPI-флешем. Качество синтеза роботизированное по современным меркам (на основе формант, не нейронное), но для контента типа оповещений («Предупреждение: температура превышает предел») разборчивость важнее естественности.

CMU Flite (Festival Lite) — меньший родственник полного движка CMU Festival. Ориентирован на встроенный Linux (не голые MCU) и производит чуть более естественный вывод, чем eSpeak NG, ценой большего размера (как правило, 2–5 МБ скомпилированного). Хорошо работает на Raspberry Pi, BeagleBone или промышленных шлюзах на встроенном Linux.

CMU Festival — полная среда синтеза: богатая, гибкая, программируемая, но требующая 30–80 МБ ОЗУ и полного пространства пользователя Linux. Подходит для IoT-хабов уровня шлюза, но не для датчиков на основе MCU.

Вариант 2: Предварительно Отрендеренный Облачный TTS (Сгенерировать раз, развернуть везде)

Используйте облачный генератор голоса ИИ для создания высококачественных WAV-файлов во время разработки. Встройте их в прошивку или загружайте из флеша во время выполнения. Устройство никогда не вызывает никакой API; синтез произошёл один раз на рабочей станции разработчика.

Это рекомендуемый подход для большинства коммерческих IoT-продуктов с фиксированными наборами подсказок. Качество — производственного уровня. Стоимость во время выполнения — ноль. Влияние на батарею — минимальное.

Вариант 3: Облачный TTS в Реальном Времени

Устройство отправляет текстовую строку в облачный TTS-API и получает аудио обратно потоком. Имеет смысл только для высокодинамичного контента — персонализированных имён, значений живых данных («Текущая температура: 23,1 градуса»), или контента, меняющегося быстрее, чем вы успеваете предварительно отрендерить.

Недостатки: требует активного сетевого соединения, добавляет 200–800 мс латентности, потребляет значительную энергию на запрос и вводит облачную зависимость для критически важного пути обратной связи. Подходит для некритичного часто обновляемого контента; избегайте для тревог или подтверждений контроля доступа.

eSpeak NG в Деталях: Приемлемое Качество от Форматного Движка

eSpeak NG есть в большинстве менеджеров пакетов Linux (apt install espeak-ng) и имеет тулчейны кросс-компиляции для ARM Cortex-M и RISC-V. Для прошивки IoT практический подход:

Кросс-компилировать eSpeak NG для целевой архитектуры (ARM, MIPS, RISC-V) с помощью его CMake-системы сборки.
Выбрать только нужные файлы языковых данных — каждый язык добавляет 40–150 КБ. Включать все 100+ языков нереалистично; выбирайте ровно те локали, в которых продаётся ваш продукт.
Генерировать WAV во время сборки для фиксированных подсказок, и использовать библиотеку только для фраз с подстановкой переменных во время выполнения (напр., «Товар [X] — Количество: [N]»).
Настраивать параметры голоса: eSpeak NG поддерживает --speed (слов в минуту, по умолчанию 175, попробуйте 140–155 для IoT-разборчивости), --pitch (0–99, по умолчанию 50) и --amplitude (0–200). Для контента типа тревоги чуть более медленная речь с повышенной амплитудой улучшает разборчивость в шумной среде.

Пример вызова для генерации предварительно отрендеренного клипа оповещения:

espeak-ng --voice=ru --speed=145 --amplitude=150 \
  --file-path=alerts/ "Предупреждение: критический уровень заряда батареи" \
  -w battery_critical.wav

Выходной WAV по умолчанию имеет 22050 Гц моно. Для встроенного развёртывания ресемплируйте до 16 кГц или 8 кГц с помощью ffmpeg -ar 16000, чтобы уменьшить объём хранилища.

Реалистичная оценка качества: eSpeak NG разборчив и функционален. Слушать его на протяжении длительного контента неприятно. Для 3-словной тревожной подсказки он справляется. Для 20-словного приветствия на премиальном умном замке лучше использовать предварительно отрендеренный нейронный TTS.

CMU Festival: Когда У Вас Есть Linux-шлюз

Если ваша IoT-архитектура включает шлюзовое устройство (Raspberry Pi, NVIDIA Jetson nano, промышленный ПК на встроенном Linux), CMU Festival — значительный шаг вперёд в качестве голоса. Он использует архитектуру синтеза с выбором единиц, конкатенируя реальные записанные голосовые сегменты — результат более естественный, чем форматный синтез.

Установка на Debian/Ubuntu:

sudo apt install festival festvox-us-slt-hts
festival --tts <<< "Дверь успешно разблокирована"

Сравнение Festival vs. eSpeak NG:

Параметр	eSpeak NG	CMU Festival
Минимальная ОЗУ	~512 КБ (голый MCU)	~30 МБ (процесс Linux)
Размер бинарника	~1,5–2 МБ	~10 МБ + голосовые модели
Качество голоса	Форманты, роботизированный, но чёткий	Выбор единиц, более естественный
Языки	100+ встроенных	Акцент на английском; ограниченный мультиязычный
Платформа	Голый MCU, встроенный Linux	Только встроенный Linux
Лицензия	GPL/LGPL	Открытый код в стиле BSD
CPU при синтезе	~5–15 мВт на Cortex-M4	~0,5–1,5 Вт на ARM Cortex-A
Латентность	20–80 мс	80–300 мс
Лучший для	Датчики, замки, носимые	Шлюзы, хабы, киоски

Yale, Schlage и August: Что Реально Предоставляет Экосистема Умных Замков

Умные замки — одни из самых заметных устройств IoT с голосовой обратной связью — неправильная звуковая подсказка во время события доступа — это одновременно проблема безопасности и UX. Понимать, что раскрывает каждая крупная платформа, важно прежде чем предполагать, что можно «просто загрузить WAV».

Yale Assure 2 Series

Замки Yale Assure 2 работают на собственном стеке прошивки Yale. Голосовые подсказки — «Доступ разрешён», «Неверный код», «Дверь не закрыта» — скомпилированы в образ прошивки и обновляются через механизм OTA Yale через приложение Yale Access. Конечные пользователи и сторонние интеграторы не могут загружать пользовательские WAV-файлы напрямую на устройство.

Для коммерческих и гостиничных OEM-развёртываний коммерческая программа Yale позволяет создавать индивидуальные сборки прошивки с брендированными голосовыми ассетами. Голосовые клипы должны быть предоставлены как моно WAV-файлы 8 кГц или 16 кГц, проверены аудиокомандой Yale и скомпилированы в индивидуальный образ прошивки.

Для интеграций умного дома через Matter или Z-Wave голосовая обратная связь Yale Assure 2 обрабатывается не самим замком, а хабом (SmartThings, Home Assistant, Apple Home) — который использует собственный TTS платформы для голосовых уведомлений.

Schlage Encode Plus

Schlage Encode Plus — это дедболт с встроенным Wi-Fi и динамиком. Как и Yale Assure 2, его набор голосов зафиксирован в прошивке. Фразы («Код доступа принят», «Неверный код доступа», «Разряжена батарея») являются частью прошивки Schlage и не могут быть заменены конечными пользователями.

Schlage не публикует API настройки аудио для потребительской линейки. Коммерческие интеграторы, использующие серии NDE или LE от Schlage (коммерческие цилиндрические и накладные замки), имеют больше гибкости через Allegion Engage (коммерческую экосистему Schlage).

August Smart Locks

Замки August (приобретены Yale/ASSA ABLOY) выбрали другой архитектурный подход: само железо замка в основном молчит. Голосовая обратная связь — «Входная дверь разблокирована», «Кто-то у двери» — генерируется приложением August на сопряжённом смартфоне с использованием TTS платформы iOS или Android.

Это означает, что настройка голосовых подсказок August на самом деле проще: вы настраиваете текст уведомлений приложения, а платформа (iOS VoiceOver / Android TTS) синтезирует речь.

Энергоэффективное Аудио: Инженерия Бюджета Питания

Для устройств IoT с батарейным питанием голосовая обратная связь — значительное энергопотребление. Типичный маленький усилитель динамика потребляет 20–200 мВт во время воспроизведения — на порядки больше, чем спящий микроконтроллер на 10–100 мкВт. Каждая произнесённая подсказка укорачивает срок службы батареи.

Практические техники оптимизации энергии:

1. Предварительный рендеринг на низких частотах дискретизации. Монофонический клип 8 кГц в PCM 16 бит использует 16 КБ/сек флеша. 3-секундный «Дверь разблокирована» — 48 КБ при 8 кГц против 192 КБ при 32 кГц.

2. Управление рельсом питания аудиокодека. Многие встроенные кодеки (MAX98357A, TAS2770, CS4344) имеют пин отключения. Удерживайте его низким во время тишины; поднимайте только за 5–10 мс до начала воспроизведения. Это устраняет холостое потребление усилителя (обычно 2–15 мВт) в течение 99%+ срока службы устройства.

3. Использование сжатия ADPCM при нехватке флеша. IMA-ADPCM даёт компрессию 4:1 по сравнению с PCM при незначительной потере качества для речи. Большинство встроенных аудиобиблиотек (ESP-ADF, Arduino AudioTools, libsndfile) нативно поддерживают декодирование IMA-ADPCM.

4. Избегайте нейронного TTS на устройстве для батарейных узлов. Запуск нейронной модели синтеза на MCU нереалистичен сегодня — затраты на инференс и требования к ОЗУ запредельны. Самые квантизированные нейронные голосовые модели требуют 50–200 МБ ОЗУ и нескольких секунд CPU.

5. Пакетируйте любые облачные TTS-вызовы. Если вы используете облачный синтез для переменных подсказок, пакетируйте генерацию в запланированное окно обслуживания (ночью, во время цикла зарядки), а не запускайте вызов API на каждое событие.

Примерное сравнение подходов к доставке аудио и затрат энергии на событие:

Подход	Энергия на событие (клип 3 с)	Зависимости
PCM 8 кГц предрендер из флеша	~1–5 мДж	Нет (офлайн)
ADPCM 16 кГц предрендер из флеша	~2–6 мДж	Нет (офлайн)
eSpeak NG синтез на устройстве	~10–30 мДж	Нет (офлайн)
CMU Festival на Linux-шлюзе	~50–200 мДж	Linux-стек
Облачный TTS + WiFi-радио	~100–500 мДж	Сеть, доступность API

Многоязычная Прошивка: Практическая Интернационализация для IoT

Устройства IoT поставляются глобально. Умный замок, продаваемый в Бразилии, должен говорить «Acesso concedido». Складское предупреждение безопасности в Германии должно говорить «Warnung: Gefahrenzone». Управление этим в прошивке требует структурированного подхода.

Паттерн таблицы аудио с индексированием по локали

Самая чистая архитектура для многоязычной IoT-прошивки — таблица аудио с индексом по локали:

Определите полный набор подсказок как плоский список символьных ID: PROMPT_DOOR_UNLOCKED, PROMPT_WRONG_CODE, PROMPT_BATTERY_LOW и т. д.
Сгенерируйте один набор WAV на локаль с помощью вашего TTS-пайплайна. Называйте файлы единообразно: ru/door_unlocked.wav, en/door_unlocked.wav, de/tuer_entsperrt.wav.
Храните наборы локалей в отдельных разделах флеша. Размер раздела фиксирован; в буферы ОЗУ загружается только активная локаль.
Читайте активную локаль из регистра конфигурации, устанавливаемого при провизионировании (NFC-метка, запись конфигурации BLE, запись флеша на производстве). Для смены локали перекомпиляция прошивки не нужна.
Откатывайтесь на английский при отсутствии локале-специфичного файла (защитное программирование для частичных переводов).

При этой архитектуре добавление нового языка — это контентная операция, а не инженерная: сгенерируйте набор WAV, прошейте, готово.

Языковые пакеты eSpeak NG для IoT

eSpeak NG включает файлы языковых данных для 100+ поддерживаемых языков. При кросс-компиляции включайте только каталоги языковых данных для нужных локалей:

Английский (en): ~150 КБ
Испанский (es): ~120 КБ
Португальский (pt): ~130 КБ
Немецкий (de): ~110 КБ
Русский (ru): ~140 КБ
Арабский (ar): ~180 КБ (включает двунаправленную обработку текста)
Японский (ja): ~200 КБ (требует таблиц конвертации кана)

Итого для продукта на 10 языков: ~1,4 МБ языковых данных — хорошо вписывается в бюджет SPI-флеша.

Для производственного качества голоса, превосходящего то, что eSpeak NG может производить на устройстве, генерация клипов с нейронным ИИ-голосовым движком на рабочей станции — а затем их развёртывание как предварительно отрендеренных WAV — является практическим путём апгрейда. О том, как ИИ-генерация голоса работает в производственных пайплайнах, читайте в нашем посте генератор голоса ИИ для объясняющих видео.

Промышленный IoT: Голосовая Обратная Связь в Суровых Условиях

Промышленный IoT предъявляет требования, которые в потребительских умных домах практически не встречаются: крайне высокий уровень фонового шума (производственные участки 85–95 дБ SPL), электроника в условиях ЭМИ, требования к отказоустойчивому поведению и многолетние развёртывания без технического обслуживания.

Для складских, производственных и логистических развёртываний проектирование голосовой обратной связи должно учитывать:

Выбор динамика: Стандартные динамики 8 Ом на 0,5 Вт недостаточны в среде 90 дБ. Промышленные пьезоэлектрические излучатели (более высокий SPL на ватт, нет движущихся частей) или погодозащищённые PA-динамики с усилением 5–20 Вт — стандарт. Ваши WAV-файлы должны быть смастерированы под конкретный динамик.

Разборчивость в шуме: Предварительно подчеркните диапазон 2–4 кГц в ваших WAV-файлах — это диапазон, к которому человеческий слух наиболее чувствителен и где живёт разборчивость речи. Мягкий буст +3–5 дБ выше 2 кГц ничего не стоит в постпродакшне и значительно улучшает понимание в шумном цеху.

Эскалация тревоги: Промышленная голосовая обратная связь часто эскалирует: сначала мягкий сигнал, затем голосовое оповещение, затем более громкое повторение. Проектируйте таблицу аудио с уровнями эскалации: PROMPT_ZONE_ENTRY_GENTLE, PROMPT_ZONE_ENTRY_WARNING, PROMPT_ZONE_ENTRY_ALARM.

Отказоустойчивое поведение: При сбое аудиосистемы устройство не должно молча пропустить предупреждение безопасности. Проектируйте прошивку с откатом на простой PWM-тон зуммера при неудаче воспроизведения WAV. Никогда не делайте голос единственным каналом оповещения безопасности.

Схожие инженерные компромиссы в логистических системах подбора товаров — см. генератор голоса ИИ для складского подбора и упаковки.

От Прототипа до Продакшна: Построение Пайплайна Голосовых Ассетов

При переходе от единственного прототипа к производственной прошивке управление голосовыми ассетами становится реальной проблемой рабочего процесса. Продукт на 10 языков с 50 подсказками — это 500 WAV-файлов.

Практический производственный пайплайн:

Ведите мастер CSV подсказок со столбцами: prompt_id, text_ru, text_en, text_es, … для каждой локали. Это ваш единственный источник истины.
Напишите скрипт генерации, читающий CSV и вызывающий ваш TTS-движок для каждой ячейки, выводящий в {locale}/{prompt_id}.wav. Запускайте его из CI при каждом коммите CSV.
Автоматически проверяйте вывод: убедитесь, что каждый сгенерированный WAV не пуст, не превышает максимальной длительности и воспроизводится без повреждений.
Версионируйте аудиоассеты вместе с прошивкой. Используйте семантическое версионирование: audio-assets-v2.3.1.
OTA-обновления аудио без изменений прошивки. Храните наборы WAV в отдельном OTA-разделе от бинарника прошивки.

О профессиональных рабочих процессах клонирования голоса для производства исходного аудио таких пайплайнов — читайте в руководстве по клонированию голоса для производства озвучки.

Выбор Правильного Качества Голоса ИИ для Вашего Случая

Не каждой IoT-подсказке нужно одинаковое качество голоса. Избыточное качество аудио расходует место в флеше и время разработки.

Тип подсказки	Необходимое качество	Рекомендуемый подход
Аварийные сигналы и предупреждения	Разборчивость > естественность	eSpeak NG или предрендер 8 кГц
Подтверждения контроля доступа	Функциональная разборчивость	eSpeak NG или предрендер 8 кГц
Считывание статуса (значения данных)	Функциональная разборчивость	eSpeak NG с подстановкой переменных
Приветственные сообщения	Качество бренда	Нейронный TTS, предрендер 16–24 кГц
UX премиум-продукта	Высокая точность	Нейронный TTS с пользовательским голосом, 24 кГц
Персонализированные сообщения	Динамика + высокое качество	Облачный TTS, кэшируется на пользователя

Часто Задаваемые Вопросы

Что такое голосовой ИИ для IoT и как он работает в устройствах?

Голосовой ИИ для IoT — это слой синтеза речи, встроенный в устройство Интернета вещей или подключённый к нему. Когда срабатывает событие датчика — открывается замок, превышается порог температуры, приходит посылка — система преобразует текст в звуковой сигнал и воспроизводит его через динамик. Синтез может выполняться локально на микроконтроллере или передаваться в облачный TTS-API в зависимости от энергетического бюджета и требований к латентности.

Какой встроенный TTS-движок лучше для маломощного IoT — eSpeak NG или CMU Festival?

eSpeak NG выигрывает на ограниченном железе: размер менее 2 МБ, работает на ARM Cortex-M4, потребление значительно менее 10 мВт. CMU Festival богаче по звуку, но требует Linux с 30–80 МБ ОЗУ — реально на Raspberry Pi или промышленном шлюзе, но не на голом MCU. Для умных замков и датчиков с бюджетом батарейки-таблетки eSpeak NG или предрендеренный WAV-набор — самый практичный выбор.

Поддерживают ли умные замки Yale, Schlage и August пользовательские голосовые подсказки?

Yale Assure 2 и Schlage Encode Plus используют фиксированные голосовые наборы прошивки через OTA — конечные пользователи не могут загружать произвольные WAV. Замки August делегируют аудиоуведомления смартфону, где голосом управляет TTS-платформа. Кастомные OEM-интеграции могут запросить брендированные пакеты через коммерческие программы Yale и Schlage.

Как сделать голосовые подсказки IoT энергоэффективными?

Предварительно отрендерите все голосовые клипы в формате 8 кГц моно PCM и храните в SPI-флеше. Включайте аудиокодек только во время воспроизведения, отключайте питание сразу после окончания клипа и держите клипы короче 3 секунд. Если нужен облачный TTS — генерируйте и кэшируйте аудио пакетами, чтобы устройство не обращалось к сети в энергочувствительные моменты.

Могут ли голосовые подсказки устройств IoT поддерживать несколько языков?

Да. Самый практичный подход — индексированная по локали таблица аудио: сгенерируйте набор WAV на локаль, храните в отдельном разделе флеша и загружайте активную локаль при загрузке из регистра конфигурации или NFC-метки. Смена языка не требует обновления прошивки.

Какой аудиоформат должны использовать голосовые файлы прошивки IoT?

Моно WAV PCM 8 кГц или 16 кГц на 16 бит — стандарт для встроенного аудио. 8 кГц обеспечивает телефонную разборчивость и уместит больше клипов в небольшой флеш. 16 кГц улучшает естественность ИИ-синтеза. Избегайте MP3 или AAC на голых MCU — PCM или IMA-ADPCM гораздо проще стримить из флеша.

Практичен ли облачный TTS для голосовой обратной связи в промышленном IoT?

Облачный TTS оправдан для часто меняющегося контента — персонализированных сообщений, живых данных — где предрендеринг непрактичен. Для промышленного оборудования с фиксированным набором подсказок предрендеренные WAV локально надёжнее: нет зависимости от сети, латентность менее 100 мс, нет стоимости API за воспроизведение.

Заключение

Проблема генератора голоса IoT для устройств — это фундаментально матрица компромиссов: качество голоса, энергетический бюджет, размер флеша, сетевая зависимость и сложность разработки тянут в разные стороны. Для большинства IoT-продуктов выигрышный ответ гибридный: используйте высококачественный генератор голоса ИИ на рабочей станции для создания WAV-файлов, затем разверните эти предрендеренные ассеты в прошивке — получая качество нейронного TTS без вычислительной стоимости на устройстве.

eSpeak NG и CMU Festival остаются актуальными для динамических подсказок с подстановкой переменных. Для фиксированных наборов подсказок — которые покрывают большинство случаев умных замков, промышленных датчиков и устройств умного дома — предрендеренный нейронный TTS просто лучше и не стоит ничего дополнительно в рантайме.

Для продуктовых команд, создающих IoT-устройства с требованиями к фирменному голосу, ИИ-голосовой движок VoxBooster на Windows позволяет клонировать и доработать конкретный голос, затем сгенерировать всю библиотеку подсказок за одну сессию. Начните с бесплатного пробного периода VoxBooster, чтобы протестировать генерацию голоса для вашего конкретного случая.

Связанные руководства этой серии: руководство по голосовому ИИ для объявлений этажей лифта охватывает аудио PA-объявлений с аналогичными требованиями к формату WAV, а руководство по клонированию голоса для производства озвучки подробно рассматривает рабочий процесс создания исходного голоса.