Công cụ sửa đổi giọng nói sâu: Làm cho giọng nói của bạn sâu hơn trực tiếp

Công cụ sửa đổi giọng nói sâu cho phép bạn làm cho giọng nói của bạn sâu hơn theo thời gian thực, biến đầu vào microphone hàng ngày của bạn thành một tones nặng hơn và có cộng hưởng hơn để chơi game, trò chơi vai trò, công việc ký tự, cuộc gọi và quyền riêng tư. Hướng dẫn này giải thích chính xác cách hoạt động của hiệu ứng, cách giữ cho nó nghe tự nhiên thay vì quá xử lý, và cách xây dựng một cấu hình giọng nói sâu có thể sử dụng được trong VoxBooster và định tuyến nó đến bất kỳ ứng dụng nào trên Windows.

Tóm tắt

Công cụ sửa đổi giọng nói sâu giảm cả cao độ và formants từ microphone trực tiếp của bạn để làm cho giọng nói của bạn sâu hơn
Giảm chỉ cao độ nghe như một robot; bạn phải di chuyển formants cùng một lúc để có kết quả tự nhiên
Một tăng EQ tần số thấp nhỏ thêm cộng hưởng ngực và cơ thể mà không có thay đổi cao độ cực đoan
Cài đặt tinh tế đánh bại những cái cực đoan; đi quá xa tạo artefact dưới nước đục
Công cụ sửa đổi giọng nói sâu thay đổi giọng nói của bạn; chuyển đổi giọng nói AI thay thế nó bằng một giọng nói được đào tạo khác
VoxBooster chạy mọi thứ tại chỗ mà không có driver kernel, không có định tuyến đám mây và có bản dùng thử đầy đủ ba ngày

Công cụ sửa đổi giọng nói sâu là gì?

Công cụ sửa đổi giọng nói sâu là phần mềm chặn tín hiệu microphone của bạn và định hình lại nó theo thời gian thực để giọng nói của bạn phát ra sâu hơn và đầy đủ hơn so với tone tự nhiên của bạn. Nó giảm cao độ cơ bản, thay đổi cộng hưởng formants xuống để mô phỏng một đường thanh âm lớn hơn, và thường thêm cơ thể tần số thấp cho cộng hưởng ngực. Đầu ra được xử lý sau đó đạt đến bất kỳ ứng dụng nào trên PC của bạn như thể nó là một microphone bình thường.

Từ “công cụ sửa đổi” quan trọng ở đây. Không giống như một trình tạo giọng nói sâu text-to-speech đọc các từ được gõ to, công cụ sửa đổi giọng nói sâu hoạt động trên giọng nói trực tiếp của bạn khi bạn nói. Và không giống như chuyển đổi giọng nói AI đầy đủ, nó giữ nguyên danh tính của bạn — bạn vẫn nghe như bạn, chỉ sâu hơn.

Công cụ sửa đổi giọng nói sâu hoạt động như thế nào?

Để hiểu tại sao một số hiệu ứng giọng nói sâu có vẻ thuyết phục và những hiệu ứng khác có vẻ giả tạo, bạn cần biết rằng giọng nói của bạn mang hai lớp thông tin riêng biệt về cách nó sâu.

Tần số cơ bản, thường được viết là F0, là cao độ cơ sở của bạn — tỷ lệ dao động của các dây thanh âm. Các giọng nói nam điển hình ngồi xung quanh 85 đến 155 Hz, và giọng nữ xung quanh 165 đến 255 Hz. Khi bạn giảm F0, cao độ được cảm nhận sẽ giảm. Đây là phần hầu hết mọi người nghĩ khi họ nói “làm cho giọng nói của tôi sâu hơn.”

Formants là những đỉnh cộng hưởng được tạo ra bởi kích thước và hình dạng của đường thanh âm, cột không khí chạy từ thanh quản đến môi bạn. Một đường thanh âm dài hơn, rộng hơn tạo ra những formants thấp hơn. Đây là lý do tại sao hai người hát chính xác cùng một ghi chú vẫn có thể nghe hoàn toàn khác nhau — đường thanh âm của họ được định hình khác nhau. Để có cái nhìn tổng quát kỹ thuật đầy đủ, bài viết Wikipedia về formants giải thích âm thanh chi tiết, và phạm vi giọng nói bài viết bao gồm cách cao độ ánh xạ đến các loại giọng nói.

Một công cụ sửa đổi giọng nói sâu chỉ giảm F0 tạo ra một giọng nói thấp hơn nhưng không nhất quán về mặt âm thanh. Cao độ nói “người lớn”, nhưng formants không bị chạm vào vẫn nói “đường thanh âm nhỏ”. Tai của người nghe bạn bắt được sự mâu thuẫn ngay lập tức, và sự không phù hợp này là những gì tạo ra tiếng robot cổ điển, xử lý âm thanh. Sửa chữa, mà chúng ta sẽ quay lại suốt hướng dẫn này, là giảm cao độ và formants với nhau.

Giảm cao độ và formants với nhau cho một giọng nói sâu tự nhiên

Đây là quy tắc đơn lẻ quan trọng nhất để sử dụng tốt một công cụ sửa đổi giọng nói sâu: giảm cao độ và formants cùng một lúc.

Khi bạn nghe một giọng nói sâu thực sự trong cuộc sống thực, bộ não của bạn chạy phân tích âm thanh nhanh chóng, tự động. Nó đọc khoảng cách formant và suy ra một đường thanh âm lớn, đọc cơ sở thấp và suy ra kích thước vật lý, và khi hai cái đồng ý, giọng nói nghe có vẻ hợp lý. Một công cụ sửa đổi giọng nói sâu di chuyển cả hai lớp xuống theo cách phối hợp sao chép sự thỏa thuận đó. Đầu ra cảm thấy như đến từ một ngực lớn hơn và một cổ họng dài hơn, không phải từ một thanh trượt được kéo quá xa.

Sự thay đổi formant là những gì hầu hết những người mới bắt đầu bỏ lỡ. Độ sâu chỉ cao độ là lý do số một để hiệu ứng giọng nói sâu nghe giống như một robot dưới nước. Khi bạn thêm một điều khiển formant và kéo nó xuống cùng với cao độ, ký tự của giọng nói thay đổi từ “hạ thấp nhân tạo” đến “tự nhiên lớn hơn”. Một hiệu chỉnh khởi động hữu ích là trừ 3 đến trừ 5 semitone cao độ được ghép với trừ 15 đến trừ 25% thay đổi formant, mặc dù các con số chính xác phụ thuộc vào nơi giọng nói tự nhiên của bạn bắt đầu.

Thêm cộng hưởng ngực mà không có âm thanh dưới nước

Cao độ và formants giúp bạn hầu hết đến, nhưng đường chảy cuối cùng trên một giọng nói sâu thuyết phục là cơ thể — cộng hưởng ngực tần số thấp làm cho giọng nói cảm thấy được nền tảng vật lý hơn là mỏng manh.

Cách sạch để thêm cái này là một tăng EQ tham số nhỏ xung quanh 80 đến 120 Hz. Vài desibel ở đó làm dày giọng nói mà không có bất kỳ artefact nào đến từ đẩy thay đổi cao độ đến các cực. Hãy nghĩ về nó như thêm trọng lượng chứ không phải hạ thấp ghi chú. Nó tinh tế, nhưng trên một microphone tử tế sự khác biệt giữa một giọng nói sâu phẳng và một cộng hưởng ngực là nghe tức thì.

Tránh cám dỗ để quá xử lý. Chất lượng đục và dưới nước ám ảnh các hiệu ứng giọng nói sâu rẻ tiền đến từ ba lỗi xếp chồng với nhau: quá nhiều giảm cao độ, quá nhiều giảm formant và bộ lọc thông thấp hoặc EQ nặng bịt tắc phần cao. Khả năng hiểu lời nói sống trong các tần số mid-high cao. Nếu bạn cuộn những cái đó xuống theo đuổi độ sâu, bạn sẽ nhận được một giọng nói sâu nhưng lầy lội và khó hiểu. Giữ một số sự hiện diện ở trên 2 kHz để các phụ âm giữ sắc nét, và để cao độ, formants và một nâng tần số thấp nhẹ mang lại độ sâu.

Cách xây dựng một cấu hình giọng nói sâu tự nhiên trong VoxBooster

Đây là một cách từng bước để có được một giọng nói sâu hơn tự nhiên trực tiếp trên Windows trong một vài phút, sau đó định tuyến nó đến một microphone ảo để bất kỳ ứng dụng nào có thể sử dụng nó.

Cài đặt VoxBooster. Tải từ voxbooster.com/download. Trình cài đặt thiết lập định tuyến âm thanh cục bộ tự động — không có driver kernel và không có cáp âm thanh ảo để định cấu hình bằng tay.
Mở tab Hiệu ứng và tải một điểm khởi đầu. Chọn cấu hình giọng nói sâu tích hợp, hoặc bắt đầu từ đầu bằng cách đặt thanh trượt cao độ thành trừ 3 semitone. Điều này cung cấp cho bạn một đường cơ sở để điều chỉnh từ chứ không phải là một canvas trống.
Thêm sự thay đổi formant. Kéo điều khiển Formant xuống khoảng trừ 15%. Nghe qua màn hình thời gian thực trong tai nghe của bạn. Giọng nói sẽ ngay lập tức nghe lớn hơn và ít “sóc ngược” hơn so với chỉ cao độ.
Điều chỉnh cộng hưởng ngực. Mở EQ tích hợp và thêm khoảng 2 đến 3 dB ở 90 Hz với Q vừa phải. Đây là cộng hưởng ngực của bạn. Giữ nó khiêm tốn — bạn muốn trọng lượng, không phải bùng.
Kiểm tra khả năng hiểu. Nói một câu kiểm tra với rất nhiều phụ âm (“she sells sea shells”). Nếu những từ cảm thấy đục, dễ dàng thay đổi formant quay lại trừ 10%, hoặc đảm bảo không có bộ lọc thông thấp nào cắt phần cao của bạn.
Điều chỉnh theo sở thích bằng cách sử dụng bảng cài đặt dưới đây. Di chuyển dọc theo thang đo tinh tế đến sinematic cho đến khi độ sâu phù hợp với trường hợp sử dụng của bạn. Một giọng riêng tư cho các cuộc gọi cần ít hơn một antagonist RPG nổ nót.
Định tuyến đến microphone ảo của bạn. VoxBooster tiếp xúc đầu ra được xử lý như một microphone ảo tiêu chuẩn. Trong Discord, OBS, trò chơi hoặc ứng dụng gọi, chỉ cần chọn đầu ra VoxBooster làm thiết bị đầu vào. Ứng dụng nghe giọng nói sâu của bạn như một micro bình thường — không cần plugin.
Lưu cấu hình. Đặt tên cho nó (ví dụ, “Giọng nói gọi sâu” hoặc “Người kể chuyện RPG”) để bạn có thể nhớ lại các cài đặt chính xác trong phiên tiếp theo chứ không phải xây dựng lại. Tính nhất quán là những gì làm cho một giọng nói ký tự cảm thấy thực sự theo thời gian.

Bảng cài đặt công cụ sửa đổi giọng nói sâu: tinh tế đến sinematic

Sử dụng bảng này làm bản đồ điều chỉnh. Mỗi giọng nói bắt đầu ở một nơi khác, vì vậy hãy coi những cái này là hướng dẫn chứ không phải tọa độ chính xác — điều chỉnh từ hàng phù hợp với mục tiêu của bạn.

Mục tiêu	Thay đổi cao độ	Thay đổi formant	Tăng EQ tần số thấp (80-120 Hz)	Cảm xúc
Độ sâu tinh tế	-1 đến -2 semitone	-5% đến -10%	+1 dB	Sâu hơn một chút, hầu như không đáng chú ý
Giọng nói sâu hơn tự nhiên	-2 đến -4 semitone	-10% đến -18%	+2 dB	Thuyết phục giọng nói sâu hàng ngày
Phát sóng / người kể chuyện	-3 đến -5 semitone	-15% đến -22%	+2 đến +3 dB	Ấm, có quyền lực, kiểu radio
Quyền riêng tư / che phủ	-4 đến -6 semitone	-18% đến -25%	+2 dB	Danh tính bị che khuất, vẫn rõ ràng
Sinematic / ký tự	-5 đến -7 semitone	-22% đến -30%	+3 đến +4 dB	RPG lớn và kịch tính hoặc giọng nói antagonist

Hai tay cầm an toàn. Đầu tiên, giữ cao độ và formant di chuyển cùng nhau khi bạn đi xuống các hàng — đó là toàn bộ thủ thuật. Thứ hai, quá hàng sinematic giọng nói berhenti nghe giống con người và bắt đầu nghe giống như một hiệu ứng đặc biệt, trong các loài thú, nhưng sai cho một cuộc gọi.

Trường hợp sử dụng: nơi công cụ sửa đổi giọng nói sâu giúp

Chơi trò chơi. Một giọng nói sâu hơn thêm sự hiện diện trong trò chuyện đội và loby, và xử lý dựa trên DSP chạy dưới 15 mili giây, vì vậy giọng nói của bạn không bị trễ so với bàn phím và chuột của bạn. Độ trễ thấp này quan trọng đối với các cuộc gọi thực trong các trò chơi nhanh trong đó một giọng nói chậm là một trách nhiệm. Vì VoxBooster không sử dụng driver kernel, không có xung đột chống gian lận phải lo lắng.

Trò chơi vai trò và ký tự. Đối với các phiên bàn, máy chủ trò chơi vai trò thoại và nội dung dựa trên ký tự, một cấu hình giọng nói sâu được lưu cho phép bạn bước vào một người kể chuyện nổ tưng và một antagonist có giọng bề ngoài theo yêu cầu và chuyển trở lại giọng nói bình thường của bạn trong một cú nhấp. Hàng sinematic của bảng cài đặt là điểm khởi đầu của bạn ở đây.

Tạo nội dung. Các streamer và nhà tạo video sử dụng công cụ sửa đổi giọng nói sâu cho các giới thiệu, bit ký tự và một tones kể chuyện có quyền lực hơn. Vì khán giả nghe đầu ra được xử lý trực tiếp, bạn có thể gác vào một cài đặt phát sóng ấm mà không lo lắng về độ trễ monitor của riêng bạn.

Các cuộc gọi và cuộc họp. Một cài đặt độ sâu tinh tế có thể mang lại một tones dựa trên và tự tin hơn trên các cuộc gọi thoại mà không nghe được xử lý. Giữ nó trong phạm vi tinh tế đến tự nhiên để không ai nhận thấy hiệu ứng, chỉ là kết quả.

Quyền riêng tư. Giảm cao độ và formants thay đổi chữ ký giọng nói của bạn đủ để che phủ giọng nói tự nhiên của bạn trong trò chuyện thoại ẩn danh, chơi trò chơi với người lạ hoặc các kênh thoại công khai, trong khi vẫn giữ bài phát biểu của bạn hoàn toàn thông minh được. Mọi thứ được xử lý tại chỗ, vì vậy giọng nói thực sự của bạn không bao giờ rời khỏi PC.

Công cụ sửa đổi giọng nói sâu vs chuyển đổi giọng nói AI

Hai cái này liên tục bị nhầm lẫn, vì vậy đáng để vẽ một đường sạch sẽ.

Công cụ sửa đổi giọng nói sâu dịch chuyển giọng nói của bạn xuống. Nó giảm cao độ, dịch chuyển formants và thêm cộng hưởng, nhưng đầu ra vẫn rõ ràng là bạn — chỉ sâu hơn. Nó nhanh, nhẹ trên phần cứng, và chạy với độ trễ rất thấp, làm cho nó lý tưởng cho các trò chơi và cuộc gọi trực tiếp. Vì nó bảo toàn intonation và tuyên bố của riêng bạn, nó cảm thấy cá nhân hơn là tổng hợp.

Chuyển đổi giọng nói AI làm điều gì đó khác nhau về cơ bản: nó tổng hợp lại bài phát biểu của bạn như một giọng nói được đào tạo hoàn toàn khác nhau. Bạn nói, một mô hình phân tích nội dung ngữ âm, và nó tạo ra âm thanh mới trong âm sắc của giọng nói khác hoàn toàn. Kết quả có thể nghe giống như một người khác, nhưng nó cần nhiều sức mạnh xử lý hơn, thêm độ trễ hơn, và không còn nghe giống bạn. VoxBooster cũng cung cấp cái này, như một tính năng riêng biệt, cho khi bạn muốn một biến đổi đầy đủ chứ không phải một phiên bản sâu hơn của chính mình.

Sự lựa chọn là về ý định. Nếu bạn muốn là chính mình nhưng sâu hơn — cho một cuộc gọi, một trò chơi hoặc một ký tự tự nhiên — công cụ sửa đổi giọng nói sâu là công cụ phù hợp. Nếu bạn muốn nghe như một người khác hoàn toàn, đó là một công việc cho chuyển đổi giọng nói AI. Để có một phân tích rộng hơn về khi nào để đạt tới mỗi cái, hãy duyệt blog VoxBooster.

Mẹo để giữ giọng nói sâu của bạn tự nhiên

Bắt đầu với ít hơn. Bản năng là đẩy cao độ tất cả các cách xuống. Chống lại nó. Trừ 3 semitone với một thay đổi formant phù hợp hầu như luôn nghe tự nhiên hơn so với trừ 8 semitone chỉ trên cao độ.

Luôn di chuyển formants, không chỉ cao độ. Đây là quy tắc đáng lặp lại lần thứ ba. Cao độ mà không có sự thay đổi formant là nguyên nhân duy nhất phổ biến nhất của một giọng nói sâu có vẻ giả tạo.

Bảo vệ phần cao. Giữ một số sự hiện diện ở trên 2 kHz để các phụ âm giữ sắc nét. Độ sâu sẽ đến từ các phạm vi thấp và thấp-mid, không phải từ bịt tắc phần cao.

Theo dõi trước khi bạn đi trực tiếp. Sử dụng xem trước tai nghe thời gian thực để hiệu chỉnh. Những gì nghe đúng trong các phần mềm giám sát solo không phải là bao giờ những gì mặt khác nghe, vì microphone màu low end khác nhau. Làm một bản ghi kiểm tra nhanh đầu tiên.

Lưu và đặt tên các cấu hình của bạn. Xây dựng lại một giọng nói từ đầu mỗi phiên giới thiệu drift. Một cấu hình lưu trữ mỗi trường hợp sử dụng giữ ký tự của bạn nhất quán trong nhiều tuần.

FAQ

Công cụ sửa đổi giọng nói sâu là gì? Công cụ sửa đổi giọng nói sâu là phần mềm giảm tín hiệu microphone của bạn theo thời gian thực để làm cho giọng nói của bạn nghe sâu hơn. Nó giảm cả cao độ và formants với nhau để đầu ra cảm thấy như đến từ một đường thanh âm lớn hơn, thêm cộng hưởng ngực và cơ thể hơn là chỉ thay đổi bạn thành một tones mỏng và có âm thanh như robot.

Làm thế nào để tôi làm cho giọng nói của tôi sâu hơn mà không nghe như một robot? Giảm cao độ và formants cùng một lúc thay vì chỉ cao độ. Thay đổi cao độ riêng lẻ để lại formants cao, mà tai bạn đọc như một mâu thuẫn. Bắt đầu khoảng trừ 3 semitone cao độ và trừ 15% formant, sau đó thêm một tăng EQ tần số thấp nhỏ cho cộng hưởng ngực.

Công cụ sửa đổi giọng nói sâu có hoạt động theo thời gian thực cho các trò chơi và cuộc gọi không? Có. Công cụ sửa đổi giọng nói sâu dựa trên DSP xử lý âm thanh tại chỗ trong dưới 15 mili giây, nhanh đủ cho các cuộc gọi trò chơi trực tiếp, Discord và cuộc gọi thoại. VoxBooster định tuyến đầu ra sâu hơn đến microphone ảo, vì vậy bất kỳ ứng dụng nào cũng nghe nó như một đầu vào microphone bình thường mà không cần plugin bổ sung.

Sự khác biệt giữa công cụ sửa đổi giọng nói sâu và chuyển đổi giọng nói AI là gì? Công cụ sửa đổi giọng nói sâu dịch chuyển giọng nói của bạn xuống bằng cách xử lý cao độ và formants, vì vậy nó vẫn nghe giống bạn nhưng sâu hơn. Chuyển đổi giọng nói AI tổng hợp lại bài phát biểu của bạn như một giọng nói được đào tạo hoàn toàn khác nhau. Các công cụ sửa đổi nhanh hơn và giữ danh tính của bạn; chuyển đổi nghe như một người khác hoàn toàn.

Tôi nên giảm cao độ bao nhiêu cho một giọng nói sâu tự nhiên? Để có kết quả tự nhiên, giữ cao độ giữa trừ 2 và trừ 5 semitone và kết hợp với sự thay đổi formant trừ 10 đến trừ 25%. Vượt quá trừ 6 semitone chỉ trên cao độ giới thiệu su và artefact dưới nước. Cài đặt tinh tế hầu như luôn nghe thuyết phục hơn những cái cực đoan.

Tôi có thể sử dụng công cụ sửa đổi giọng nói sâu để bảo mật trong các cuộc gọi không? Có. Giảm cao độ và formants thay đổi chữ ký giọng nói của bạn đủ để che phủ giọng nói tự nhiên của bạn trên các cuộc gọi và trò chuyện thoại trong khi giữ bài phát biểu của bạn thông minh được. Vì VoxBooster xử lý mọi thứ tại chỗ trên PC của bạn mà không có định tuyến đám mây, âm thanh gốc của bạn không bao giờ rời khỏi máy.

Công cụ sửa đổi giọng nói sâu của VoxBooster có miễn phí để thử không? VoxBooster bao gồm một bản dùng thử đầy đủ ba ngày với các điều khiển cao độ, formant, cộng hưởng và EQ có sẵn, do đó bạn có thể xây dựng và kiểm tra cấu hình giọng nói sâu trước khi mua. Không cần thẻ tín dụng cho bản dùng thử. Xem trang giá cho chi tiết giấy phép suốt đời sau khi bản dùng thử kết thúc.

Kết luận

Một công cụ sửa đổi giọng nói sâu thực sự thuyết phục không phải về kéo một thanh trượt xuống dưới cùng. Nó về việc di chuyển cao độ và formants xuống cùng với nhau, thêm một chút cộng hưởng ngực, và bảo vệ sự rõ ràng của phụ âm của bạn để kết quả nghe giống như một phiên bản lớn hơn, ấm áp hơn của bạn hơn là một hiệu ứng được xử lý. Bắt đầu tinh tế, điều chỉnh dọc theo bảng cài đặt hướng tới trường hợp sử dụng của bạn, và lưu cấu hình làm việc.

VoxBooster cung cấp tất cả nó ở một nơi: các điều khiển thời gian thực cao độ, formant và cộng hưởng, EQ tích hợp cho cơ thể, và microphone ảo định tuyến giọng nói sâu hơn của bạn vào bất kỳ ứng dụng nào trên Windows — tất cả được xử lý tại chỗ mà không có driver kernel và không có âm thanh rời khỏi PC của bạn.

Tải xuống VoxBooster và xây dựng cấu hình giọng nói sâu của bạn với một bản dùng thử đầy đủ ba ngày. Thiết lập mất một vài phút, và màn hình thời gian thực cho phép bạn nghe chính xác cách giọng nói sâu trước khi bạn đi trực tiếp.