VoxBooster의 사전 준비된 목소리 라이브러리는 대부분의 경우를 해결한다. 하지만 어떤 사전 준비된 목소리도 가깝게 가지 못하는 특정 시나리오가 있다: 자신의 목소리 — 네 음색, 네 억양, 네 정체성 — 를 실시간으로 실행하거나 내레이션, 더빙, 콘텐츠에서 사용하고 싶을 때.

바로 이것이 커스텀 모델 훈련이 있는 이유다. 그리고 보이는 것과 달리, 그 과정은 OBS를 처음 설정하는 것보다 더 간단하다.

자신의 목소리 모델을 훈련할 가치가 있는 경우

녹음으로 넘어가기 전에, 실제 사용 사례를 이해하는 것이 가치 있다:

영상을 녹음하는 콘텐츠 크리에이터: 스크립트를 작성하고, 목소리 상태 좋지 않아도 언제든지 클론으로 내레이션을 생성하고, 정교한 마이크 설정 없이도 된다.

더빙 배우나 성우: 자신의 음색을 유지하면서 개성 효과를 적용할 수 있다 — 더 낮고, 더 연기된, 더 드라마틱하게 — 정체성을 잃지 않고.

멀티 언어: 한국어를 한다. 클론이 영어를 네 음색으로 말한다. 억양은 네 것이 될 것이고(모델이 프로소디를 전달), 결과는 일반 TTS보다 훨씬 자연스럽다.

선택적 익명성: 일관성을 원하면서 통화에서 실제 목소리를 드러내지 않으려 한다 — 항상 같은 대안 목소리, 매번. 커스텀 클론이 임의 프리셋보다 이것을 더 잘 해결한다.

1단계: 참조 녹음

이것이 대부분의 사람들이 과소평가하는 단계다. 모델 품질은 참조 오디오 품질에 직접 달려 있다.

시간: 3~5분의 지속적인 발화. 그 이상은 결과를 크게 향상시키지 않고; 3분 미만은 저하된다.

무엇을 말하나: 자연스럽게 말해라. 텍스트를 소리 내어 읽어라 — 뉴스, 짧은 이야기, 뭔가의 설명. 모델에게 억양의 변화, 자연스러운 포즈, 한국어의 다른 소리가 필요하다. 같은 문장을 반복하지 마라.

환경: 최대한 조용하게. 에어컨 끄기. 창문 닫기. 마이크는 입에서 10~15cm 거리. 다이나믹이 있으면 그걸 사용해. 콘덴서만 있다면 밤에 거리가 조용할 때 녹음해.

피해야 할 것: 기침, 갑작스러운 웃음, 지속적인 배경 소음, 너무 조용하거나 소리지르며 말하기. 모델은 일반 대화 발화로 훈련된다 — 극단값은 품질을 저하시킨다.

2단계: 훈련 위저드

VoxBooster에서 보이스 클론 → 내 목소리 → 새 모델 만들기 탭으로 들어가.

녹음된 오디오 가져오기. 위저드가 WAV와 MP3를 받는다. WAV 44.1kHz 16비트가 이상적이다; MP3 320kbps도 작동한다. 심한 압축을 피해라.
미리보기 확인. VoxBooster가 훈련 전에 자동 노이즈 감소를 한다 — 처리된 오디오를 듣고 수용 가능한지 확인한다.
모델 이름 짓기. 이 이름이 나중에 목소리 목록에 나타난다.
훈련 클릭. 프로세스가 기기에서 로컬로 시작된다.

3단계: 로컬 훈련

훈련이 GPU(NVIDIA CUDA, AMD ROCm) 또는 전용 GPU가 없다면 CPU에서 실행된다.

NVIDIA GPU (RTX 3060 이상): 5분 오디오에 10~15분.

구형 GPU 또는 CPU: 20~40분. 백그라운드로 돌릴 수 있다 — VoxBooster가 포커스에 있을 필요 없이 메모리에만 있으면 된다.

훈련 중에 무거운 렌더링이나 요구하는 게임을 같은 PC에서 실행하지 마라. 망가지지는 않지만 — 시간이 더 걸리고 GPU 메모리가 부족해지면 모델에 아티팩트가 생길 수 있다.

끝나면 VoxBooster가 알림을 보내고 모델이 클론 목록에 자동으로 나타난다.

4단계: 모델 사용하기

목록에서 커스텀 모델을 선택하고, 실시간 활성화하고, 말해. 그게 전부다.

클론이 네 프로소디를 전달한다 — 포즈, 강조, 리듬. 활발하게 말하면, 클론이 활발하게 나온다. 천천히 진지하게 말하면, 그렇게 나온다. 음소 내용은 네 것이고; 음색은 모델이다.

팁: 라이브 스트리밍에 사용하기 전에 짧은 통화에서 모델을 테스트해봐. 처음 클론된 자신의 목소리를 듣는 것은 이상하다 — 거의 맞는 것 같지만 약간 다르게 들린다. 정상이다. 다른 쪽은 보통 네 평소 목소리라고 생각한다.

모델 개선하기

첫 번째 훈련 결과가 만족스럽지 않다면:

더 깨끗한 오디오로 다시 녹음 (더 많은 침묵, 더 좋은 마이크 위치)
3분을 썼다면 5분으로 늘려라
녹음의 발화 유형을 더 다양하게 해라 — 질문, 감탄사, 빠른 발화와 느린 발화

여러 모델을 훈련하고 비교할 수 있다. VoxBooster가 모두 로컬에 저장한다 — 서버로 아무것도 올라가지 않는다. 모델 파일은 네 디스크에 있고, 보통 각 80~150 MB다.

최종 결과

좋은 설정과 깨끗한 녹음으로, 커스텀 모델이 실시간 사용에서 가장 설득력 있는 것이다. 네 목소리다 — 모델이 실제로 네 음색을 알고 있고, 일반 프리셋에 근접하려 하는 게 아니다. 정기적으로 영상이나 스트림에 나오는 크리에이터와 누구든지에게, 이것이 작동하도록 하기 위한 초기 2시간의 노력이 가치 있다.

VoxBooster에서 나만의 음성 모델 훈련하기 (단계별 완전 가이드)