Cách huấn luyện mô hình giọng nói của riêng bạn trong VoxBooster (Từng bước)

Huấn luyện mô hình giọng nói AI tùy chỉnh trong VoxBooster: 3-5 phút ghi âm sạch, huấn luyện GPU cục bộ trong 10-20 phút, mô hình sẵn sàng để sử dụng thời gian thực. Quy trình đầy đủ được giải thích.

Thư viện giọng nói được xây dựng trước của VoxBooster xử lý hầu hết các trường hợp sử dụng. Nhưng có một kịch bản cụ thể nơi không có giọng nói được xây dựng trước gần: khi bạn muốn giọng nói của riêng bạn - timbre của bạn, giọng của bạn, bản sắc của bạn - chạy real-time hoặc được sử dụng cho lời kịch, lồng tiếng và nội dung.

Đó là những gì đào tạo mô hình tùy chỉnh tồn tại cho. Và không giống như nó nghe có vẻ, quá trình này đơn giản hơn cấu hình OBS lần đầu tiên.

Khi Đào tạo Model Giọng Nói Của Riêng Bạn Có Giá Trị

Trước khi bạn bắt đầu ghi âm, cần hiểu các trường hợp sử dụng thực tế:

Người tạo nội dung ghi video: bạn viết kịch bản, tạo lời kịch với bản sao của bạn bất kỳ lúc nào trong ngày mà không cần giọng nói của bạn bật, không cần thiết lập micro phức tạp để lời kịch.

Người lồng tiếng hoặc diễn viên giọng nói: bạn giữ timbre của riêng bạn nhưng có thể áp dụng các hiệu ứng tính cách trên cùng - sâu hơn, được dự báo nhiều hơn, kịch tính hơn - mà không mất bản sắc của bạn.

Đa ngôn ngữ: bạn nói tiếng Anh. Bản sao của bạn nói tiếng Pháp với timbre của bạn. Giọng điệu sẽ là của bạn (mô hình mang theo prosody của bạn), nhưng kết quả tự nhiên hơn nhiều so với TTS chung.

Ẩn danh chọn lọc: bạn muốn xuất hiện trong các cuộc gọi mà không tiết lộ giọng nói thực sự của bạn, nhưng muốn tính nhất quán - luôn có giọng nói thay thế tương tự, mỗi lần. Bản sao tùy chỉnh xử lý điều này tốt hơn so với một preset ngẫu nhiên.

Bước 1: Ghi Âm Tham Khảo

Đây là bước mà hầu hết mọi người đánh giá thấp. Chất lượng của mô hình phụ thuộc trực tiếp vào chất lượng của âm thanh tham khảo.

Thời lượng: 3 đến 5 phút lời nói liên tục. Hơn điều đó không cải thiện kết quả nhiều; ít hơn 3 phút làm xấu đi.

Phải nói gì: nói một cách tự nhiên. Đọc lớn - bài báo, câu chuyện ngắn, mô tả thứ gì đó. Mô hình cần biến thể âm, tạm dừng tự nhiên, âm thanh khác nhau của ngôn ngữ. Đừng chỉ lặp lại cùng một câu.

Môi trường: càng yên tĩnh càng tốt. AC tắt. Cửa sổ đóng. Mic khoảng 4-6 inch từ miệng bạn. Nếu bạn có mic động, hãy sử dụng nó. Nếu bạn chỉ có một bộ lọc, hãy ghi vào ban đêm khi con đường yên tĩnh hơn.

Tránh: ho, cười đột ngột, tiếng ồn nền liên tục, nói quá nhẹ hoặc hét. Mô hình được huấn luyện trên lời nói hội thoại bình thường - cực độ làm xấu đi chất lượng.

Bước 2: Trình Hướng Dẫn Đào Tạo

Bên trong VoxBooster, chuyển đến Voice Clone → My Voice → Create new model tab.

  1. Nhập âm thanh được ghi của bạn. Trình hướng dẫn chấp nhận WAV và MP3. WAV 44,1 kHz 16-bit là lý tưởng; MP3 320kbps cũng hoạt động. Tránh nén nặng.
  2. Xác nhận bản xem trước. VoxBooster thực hiện làm sạch tự động nhiễu trước khi huấn luyện - bạn nghe âm thanh xử lý và xác nhận rằng nó chấp nhận được.
  3. Đặt tên mô hình. Tên này sẽ xuất hiện trong danh sách giọng nói của bạn sau này.
  4. Nhấp Train. Quá trình bắt đầu cục bộ trên máy của bạn.

Bước 3: Đào Tạo Cục Bộ

Đào tạo chạy trên GPU của bạn (NVIDIA với CUDA, AMD với ROCm) hoặc CPU nếu bạn không có card đồ họa chuyên dụng.

Với GPU NVIDIA (RTX 3060 hoặc tốt hơn): 10 đến 15 phút cho 5 phút âm thanh.

Với GPU cũ hơn hoặc CPU: 20 đến 40 phút. Bạn có thể để nó chạy trong nền - VoxBooster không cần tập trung, chỉ ở bộ nhớ.

Trong quá trình đào tạo, tránh hiển thị video nặng hoặc chạy các trò chơi đòi hỏi trên cùng một PC. Nó sẽ không phá vỡ bất cứ điều gì - nhưng nó sẽ mở rộng thời gian và có thể tạo ra hiện tượng trong mô hình nếu GPU hết bộ nhớ.

Khi nó hoàn thành, VoxBooster gửi thông báo và mô hình xuất hiện tự động trong danh sách bản sao của bạn.

Bước 4: Sử Dụng Mô Hình

Chọn mô hình tùy chỉnh từ danh sách, bật Real-time, nói. Đơn giản như vậy.

Bản sao sẽ mang theo prosody của bạn - tạm dừng của bạn, nhấn mạnh của bạn, nhịp điệu của bạn. Nếu bạn nói với năng lượng, bản sao ra với năng lượng. Nếu bạn nói chậm và nghiêm túc, nó ra chậm và nghiêm túc. Nội dung âm vị là của bạn; timbre là mô hình.

Mẹo: kiểm tra mô hình trên một cuộc gọi ngắn trước khi sử dụng nó trực tiếp. Lần đầu tiên bạn nghe giọng nói sao chép của riêng bạn rất lạ - nó nghe gần như đúng nhưng có sự khác biệt. Đó là bình thường. Người ở đầu kia thường nghĩ đó là giọng nói thông thường của bạn.

Tinh Chỉnh Mô Hình

Nếu kết quả đào tạo đầu tiên không làm bạn hài lòng:

  • Ghi lại với âm thanh sạch hơn (nhiều im lặng hơn, vị trí mic tốt hơn)
  • Tăng lên 5 phút nếu bạn đã sử dụng 3
  • Thay đổi loại lời nói trong bản ghi nhiều hơn - bao gồm câu hỏi, sự sôi nổi, lời nói nhanh hơn và chậm hơn

Bạn có thể đào tạo nhiều mô hình và so sánh. VoxBooster lưu trữ chúng cục bộ - chúng không tải lên bất kỳ máy chủ nào. Chúng là các tệp mô hình trên ổ đĩa của bạn, thường từ 80 đến 150 MB mỗi tệp.

Kết Quả Cuối Cùng

Với một thiết lập đều đặn và ghi âm sạch, mô hình tùy chỉnh là thứ thuyết phục nhất trong việc sử dụng thời gian thực. Đó là giọng nói của bạn - mô hình thực sự biết timbre của bạn, nó không cố gắng xấp xỉ một preset chung. Đối với những người tạo nội dung và bất kỳ ai xuất hiện thường xuyên trong video hoặc trên stream, nỗ lực ban đầu 2 giờ để làm cho điều này hoạt động là đáng giá.

Dùng thử VoxBooster — 3 ngày dùng thử miễn phí.

Nhân bản giọng thời gian thực, soundboard và hiệu ứng — ở mọi nơi bạn đã nói chuyện.

  • Không cần thẻ tín dụng
  • ~30ms độ trễ
  • Discord · Teams · OBS
Dùng thử miễn phí 3 ngày