Công Cụ Thay Đổi Giọng Nói cho Người Dùng Friend AI Pendant

Dây chuyền AI Friend đến năm 2024 với loại tranh cãi mà chỉ một đợt mua lại tên miền 1,8 triệu USD và microphone luôn lắng nghe có thể tạo ra. Avi Schiffmann, người từng xây dựng một trang web theo dõi COVID được hàng trăm triệu người truy cập, đã rơi số tiền đó trên friend.com và phát hành một thiết bị đeo được thiết kế để trở thành một người bạn kỹ thuật số - một thiết bị nhỏ được đeo quanh cổ để lắng nghe ngày của bạn và phản hồi như một người bạn sẽ.

Phản ứng bị chia: một số người cảm thấy hấp dẫn, những người khác cảm thấy sợ hãi, và một nhóm những người phê bình đáng kể đã viết những bài tiểu luận dài về dịch bệnh cô đơn và liệu một sản phẩm như thế này có chữa triệu chứng hay tăng tốc bệnh. Cuộc tranh luận đó đáng được có. Nó cũng không phải là điều duy nhất đáng nói về Friend.

Bài đăng này bao gồm quy trình giọng nói thực tế cho người dùng Friend trên Windows - cụ thể, cách xây dựng giọng nói persona đồng hành nhất quán kết hợp với đầu ra âm thanh của Friend. Nó cũng bao gồm các đạo đức một cách trực tiếp, không có biệu tượng.

TL;DR

Friend AI Pendant là dây chuyền đồng hành AI luôn lắng nghe được Avi Schiffmann phát hành năm 2024.
Biệu phí tên miền 1,8 triệu USD và microphone luôn bật gây ra những cuộc tranh luận quyền riêng tư và đạo đức hợp pháp.
Bạn có thể kết hợp Friend với VoxBooster trên Windows để nghe người bạn đồng hành thông qua một giọng nói persona AI được tùy chỉnh.
Sự đồng ý nhân bản giọng nói quan trọng: sao chép giọng nói của riêng bạn, hoặc giọng nói mà bạn có sự cho phép rõ ràng để sử dụng.
VoxBooster sử dụng Whisper cục bộ cho sự chuyển lục - âm thanh của bạn không rời khỏi PC của bạn.
Không có trình điều khiển hạt nhân, hoạt động trên Windows 10 và 11 thông qua low-latency audio capture.

Friend AI Pendant Thực Sự Là Gì

Friend là một thiết bị đeo nhỏ - khoảng cỡ và trọng lượng của một đồng tiền lớn - được đeo trên một sợi dây quanh cổ. Nó chứa một microphone liên tục lắng nghe âm thanh xung quanh. Âm thanh đó được xử lý và gửi đến các máy chủ đám mây của Friend, chúng tạo ra các phản hồi trò chuyện từ một mô hình ngôn ngữ lớn. Người bạn đồng hành gửi tin nhắn cho bạn hoặc nói chuyện lại thông qua một ứng dụng người bạn đồng hành, với bản chất của một người bạn hỗ trợ và quan tâm.

Thiết bị được phát hành với danh sách chờ và điểm giá khoảng USD 99. Người bạn đồng hành tương tác bằng văn bản và giọng nói, tham chiếu những điều nó nghe từ bạn trước đó trong ngày, và duy trì bộ nhớ liên tục về mối quan hệ của bạn với nó theo thời gian.

Không có gì thực sự mới về bất kỳ thành phần nào ở đây. LLM, microphone luôn bật, và pipeline xử lý đám mây đều tồn tại trước Friend. Những gì Schiffmann đã xây dựng là một sự kết hợp cụ thể của yếu tố hình dạng, thiết kế persona, và khung marketing - dây chuyền như một đối tượng xã hội mà bạn mặc, không chỉ là một ứng dụng mà bạn mở.

Tranh cãi, Thành thật

Ba điều tạo ra sự phản ứng:

Giá tên miền. USD 1,8 triệu cho friend.com là một tín hiệu cố ý - một phần thương hiệu, một phần chiêu trò PR, một phần tuyên bố ý định. Đối với những người quan sát đã hoài nghi đối với loại sản phẩm này, nó được đọc là hype hơn là chất.

Microphone luôn bật. Bất kỳ thiết bị nào liên tục ghi lại âm thanh xung quanh đều đặt ra các câu hỏi hợp pháp. Cái gì được giữ lại? Bao lâu? Ai có quyền truy cập? Chính sách bảo mật của Friend khi phát hành không đủ chi tiết để thỏa mãn sự giám sát hợp lý. Mô hình luôn bật cũng khác về chất từ một trợ lý giọng nói chỉ lắng nghe sau một từ đánh thức - nó ghi lại các cuộc trò chuyện bạn có với những người khác không đã đồng ý bị ghi âm.

Đối số cô đơn-như-sản phẩm. Đây là chỉ trích sâu nhất và ít có khả năng được giải quyết bằng cách đọc một chính sách bảo mật. Mối lo ngại là một sản phẩm được thiết kế rõ ràng để thay thế bạn đồng hành con người có thể làm giảm ma sát mà nếu không sẽ thúc đẩy mọi người duy trì các mối quan hệ con người. Nếu bạn có thể có một người bạn ít xung đột, luôn có sẵn, hoàn toàn hỗ trợ trong túi của bạn, bạn có đầu tư ít hơn vào công việc lộn xộn, tương huỷ, khó khăn của tình bạn thực sự không? Các nhà nghiên cứu nghiên cứu mối quan hệ parasocial và cách ly xã hội đã nêu câu hỏi này một cách nghiêm túc, và Friend đến vào lúc đạo đức AI companion đang trong quá trình giám sát học tập và chính sách tích cực.

Không có điều này có nghĩa là Friend là lừa đảo hoặc sử dụng nó là có hại. Điều này có nghĩa là sử dụng nó một cách suy tư yêu cầu biết những gì bạn đang làm.

Điều “Companion Persona Voice” Có Nghĩa Thực Tế

Đầu ra giọng nói mặc định của Friend là cố định - người bạn đồng hành có một giọng nói tổng hợp được gán bởi sản phẩm. Một số người dùng muốn kiểm soát nhiều hơn: họ muốn nghe người bạn đồng hành của họ thông qua một persona giọng nói cụ thể mà họ đã thiết kế, thay vì đầu ra mặc định của Friend.

Đây là một trường hợp sử dụng sáng tạo và tâm lý hợp pháp. Nghiên cứu về các tương tác dựa trên giọng nói với AI cho thấy rằng các đặc tính giọng nói được cảm nhận - ấm áp, timbre, tốc độ - ảnh hưởng đáng kể đến cách mọi người phản ứng với hệ thống AI. Nếu bạn thiết kế một persona đồng hành cho mục đích sáng tạo hoặc trị liệu, kiểm soát đầu ra giọng nói là quan trọng.

Quy trình làm việc trên Windows trông như thế này: Friend tạo ra âm thanh thông qua loa hoặc tai nghe thiết bị của bạn. Bằng cách định tuyến đầu ra âm thanh đó thông qua một vòng lặp giám sát và áp dụng chuyển đổi giọng nói AI theo thời gian thực, bạn có thể nghe người bạn đồng hành nói bằng một giọng nói khác - một giọng nói mà bạn đã thiết kế, đào tạo, và thấy phù hợp hơn với trường hợp sử dụng của bạn.

Khung Sự Đồng Ý Nhân Bản Giọng Nói

Trước khi chuyển sang thiết lập kỹ thuật, sự đồng ý nhân bản giọng nói xứng đáng có một phần riêng vì nó liên quan trực tiếp ở đây.

Nhân bản giọng nói AI hoạt động bằng cách đào tạo một mô hình trên các mẫu của một giọng nói cụ thể. Sau khi được đào tạo, mô hình có thể tổng hợp bài nói mới bằng giọng nói đó. Khung đạo đức xung quanh nó thẳng về nguyên tắc ngay cả khi nó trở nên phức tạp trong thực tế:

Sao chép giọng nói của riêng bạn: Rõ ràng không rõ ràng. Bạn sở hữu giọng nói của bạn. Đào tạo một mô hình trên các bản ghi của chính bạn và sử dụng mô hình đó để tạo một persona nhất quán là một cách sử dụng công nghệ hợp pháp.

Sao chép một giọng nói với sự cho phép rõ ràng: Được, nếu sự cho phép là asic và được thông báo. Người được sao chép phải hiểu những gì mô hình sẽ được sử dụng, ai sẽ có quyền truy cập vào nó, và những hàng rào bảo vệ nào tồn tại chống lại sai sử dụng.

Sao chép một giọng nói mà không có sự cho phép: Không được, bất kể trường hợp sử dụng dự định. Điều này áp dụng cho những người nổi tiếng, nhân vật công cộng, mọi người bạn biết, và những người lạ. Thực tế là một giọng nói có sẵn công khai trên YouTube không làm cho nó có thể cấp phép cho nhân bản. Bộ luật pháp khác nhau tùy theo tài phán - một số có luật nhân bản giọng nói rõ ràng, những luật khác dựa vào quyền giống nhau - nhưng tiêu chuẩn đạo đức là nhất quán: bạn cần sự cho phép.

Cho quy trình persona đồng hành cụ thể: sao chép giọng nói của riêng bạn và thiết kế persona từ đó. Xây dựng một giọng nói ký tự tổng hợp từ đầu nếu bạn muốn một cái gì đó hoàn toàn khác. Không nhân bản giọng nói của một người thực sự và gắn nó vào một persona đồng hành.

Thiết Lập Quy Trình Giọng Nói Trên Windows

Thiết lập kỹ thuật để kết hợp một công cụ thay đổi giọng nói với đầu ra âm thanh của Friend liên quan đến ba thành phần: định tuyến âm thanh, chuyển đổi giọng nói, và giám sát.

Bước 1: Định tuyến âm thanh đầu ra của Friend đến một kênh monitor.

Trên Windows, chế độ chia sẻ low-latency audio capture cho phép bạn chụp luồng phát lại từ bất kỳ thiết bị đầu ra âm thanh nào. Đây là phương pháp chụp loopback. Trong VoxBooster, kích hoạt tùy chọn đầu vào nguồn loopback, chụp những gì đang được phát lại thông qua loa hoặc đầu ra tai nghe của bạn thay vì chụp đầu vào microphone. Âm thanh Friend, phát lại thông qua thiết bị của bạn, trở thành tín hiệu nguồn.

Bước 2: Áp dụng chuyển đổi giọng nói AI cho luồng được chụp.

Với nguồn loopback hoạt động, mô hình persona giọng nói được cấu hình xử lý giọng nói tổng hợp của Friend theo thời gian thực. Đầu ra là người bạn đồng hành nói bằng giọng nói bạn đã thiết kế - timbre cụ thể, pitch, cộng hưởng, và đặc tính giai điệu được xác định bởi đào tạo sao chép của bạn. Độ trễ trong toàn bộ đường dẫn này thường dưới 400ms trên GPU hiện đại, thường dưới 250ms trong chế độ độ trễ thấp.

Bước 3: Định tuyến đầu ra được biến đổi đến tai nghe của bạn.

Luồng xử lý đi đến đầu ra tai nghe của bạn - không quay lại vào vòng lặp ghi âm. Bạn nghe giọng nói người bạn đồng hành được biến đổi một cách riêng tư. Không có ứng dụng nào khác bị ảnh hưởng.

Quyền Riêng Tư: Những Gì VoxBooster Làm so với Những Gì Friend Làm

Đây là các hệ thống khác nhau với các luồng dữ liệu khác nhau, và nó đáng được chính xác.

Luồng dữ liệu của Friend: Âm thanh xung quanh của bạn được chụp bởi microphone dây chuyền, gửi đến máy chủ Friend, xử lý bởi LLM của họ, và phản hồi được trả về cho bạn. Âm thanh xung quanh bạn tạo ra đi đến bên thứ ba. Đây là phần của thiết kế Friend làm lên những lo ngại về quyền riêng tư hợp pháp được đề cập trước đây.

Luồng dữ liệu VoxBooster: Xử lý âm thanh xảy ra hoàn toàn trên máy Windows cục bộ của bạn. VoxBooster sử dụng Whisper cho sự chuyển lục cục bộ, có nghĩa là chuyển đổi giọng nói thành văn bản xảy ra trên CPU của bạn - không có âm thanh nào rời khỏi PC của bạn. Chuyển đổi giọng nói chạy trên GPU cục bộ của bạn. Không có gì được tải lên. Đây là một lựa chọn kiến trúc có ý định để làm cho các trường hợp sử dụng nhạy cảm về quyền riêng tư trở thành khả thi.

Thêm VoxBooster vào thiết lập Friend của bạn không làm tăng độ phơi nhiễm dữ liệu của bạn cho các bên thứ ba. Độ phơi nhiễm của bạn đối với việc thu thập dữ liệu của Friend vẫn chính xác như trước đây. Lớp xử lý cục bộ nằm hoàn toàn trên máy của bạn.

Cảnh Quan Đạo Đức Companion AI Rộng Hơn

Friend không phải là người duy nhất trong loại sản phẩm này. Replika đã hoạt động như một AI companion kể từ năm 2017. Character.AI, Nomi, và ngày càng nhiều sản phẩm giải quyết cô đơn, lo âu xã hội, và bạn đồng hành theo nhiều cách khác nhau. Cảnh quan đạo đức AI companion đang nhận được sự giám sát truyền thông tích cực khi danh mục phát triển.

Phổ ý kiến thay đổi từ lợi ích trị liệu thực sự - người dùng mắc rối loạn lo âu xã hội hoặc cô lập nghiêm trọng báo cáo cải thiện hạnh phúc có ý nghĩa - thành các trường hợp có tài liệu của sự phụ thuộc không lành mạnh và quan hệ con người bị dịch chuyển. Nghiên cứu không được giải quyết. Điều rõ ràng là bối cảnh vô cùng quan trọng: ai đang sử dụng sản phẩm, cho mục đích gì, và với mức độ nhận thức nào về sản phẩm là gì.

Sử dụng Friend như một công cụ sáng tạo - cho chơi trò chơi, cho viết tiểu thuyết, cho khám phá các kịch bản hội thoại - khác với việc sử dụng nó như một nguồn hỗ trợ tình cảm chính. Sử dụng VoxBooster để cung cấp cho một persona đồng hành một giọng nói tùy chỉnh cho một dự án sáng tạo khác với việc xây dựng một bộ sưu tập ký tự phức tạp mà bạn tích cực từ chối để phân biệt với hiện thực.

Công nghệ là trung lập. Đạo đức nằm trong cách sử dụng.

So Sánh: Tùy Chọn Quy Trình Làm Việc Tương Thích Friend Trên Windows

Yếu tố	VoxBooster + Friend	Bộ Lọc Âm Thanh OBS Độc Lập	Không Có Xử Lý Giọng Nói
Giọng nói persona tùy chỉnh	AI-cloned, nhất quán	EQ/EFX chỉ, không sao chép	Giọng nói Friend mặc định
Xử lý cục bộ	Có — low-latency audio capture, không đám mây	Có	N/A
Độ trễ	Dưới 400ms (GPU)	Dưới 50ms	Tức thì
Lớp quyền riêng tư	Tất cả cục bộ, không tải lên	Tất cả cục bộ	Cloud Friend chỉ
Trình điều khiển hạt nhân bắt buộc	Không	Không	N/A
Đào tạo sao chép giọng nói	Mẫu âm thanh 3-5 phút	Không được hỗ trợ	N/A
Windows 10 / 11	Hỗ trợ	Hỗ trợ	Hỗ trợ

Bộ lọc âm thanh OBS là một tùy chọn miễn phí đáng tin cậy cho EQ và nén cơ bản. Họ không hỗ trợ sao chép giọng nói AI, vì vậy đầu ra sẽ luôn là giọng nói mặc định của Friend có EQ được áp dụng - ký tự khác, không phải một persona tùy chỉnh. VoxBooster là tùy chọn nếu mục tiêu là một giọng nói persona khác biệt, được đào tạo.

Thiết Lập Giọng Nói Persona của Bạn: Danh Sách Kiểm Tra Thực Tế

Nếu bạn quyết định quy trình làm việc này phù hợp cho bạn, các bước thực tế là:

Ghi âm 3-5 phút âm thanh sạch bằng giọng nói bạn muốn sao chép - giọng nói của riêng bạn hoặc giọng nói tổng hợp mà bạn có quyền sử dụng. Mono 44.1kHz, tiếng ồn nền thấp.
Nhập bản ghi vào tab Voice Clone của VoxBooster. Đào tạo mất 5-10 phút trên GPU kỳ hạn giữa.
Kích hoạt nguồn loopback trong cài đặt đầu vào VoxBooster.
Đặt thiết bị phát lại của bạn thành tai nghe của bạn trong cài đặt Âm thanh Windows.
Trong VoxBooster, đặt đầu ra thành thiết bị tai nghe tương tự.
Bắt đầu Friend và tham gia với nó bình thường. Bạn nghe người bạn đồng hành bằng giọng nói tùy chỉnh của bạn.

Persona bạn xây dựng sẽ phản ánh những lựa chọn sáng tạo cố ý: giọng nói nào nói những gì bạn muốn nói, loại giọng nói nào bạn tìm thấy ấm áp hoặc hấp dẫn hoặc phù hợp khác nhau từ giọng nói của riêng bạn. Đây là loại công việc mà một nhà thiết kế trò chơi làm khi đúc một nhân vật, hoặc một nhà sản xuất audiobook làm khi chọn một người kể chuyện.

Đặc Tính VoxBooster

VoxBooster xử lý các yêu cầu kỹ thuật của quy trình làm việc này một cách sạch sẽ: xử lý âm thanh cấp low-latency audio capture, không có driver kernel, Whisper cục bộ cho bất kỳ nhu cầu chuyển lục nào, và sao chép giọng nói AI chạy hoàn toàn trên GPU cục bộ của bạn. Chạy trên Windows 10 và 11. Giá là USD 6,99/tháng với dùng thử miễn phí 3 ngày. Thiết kế không có driver có nghĩa là thiết lập nguồn loopback được mô tả ở trên hoạt động mà không cần cài đặt cáp âm thanh ảo hoặc cấu hình lại thiết bị âm thanh hệ thống.

Đối với người dùng chủ yếu quan tâm đến quy trình persona đồng hành thay vì các trường hợp sử dụng gaming hoặc streaming, chế độ độ trễ thấp ở 250ms là đủ - bài nói đồng hành không tương tác theo cách tương tự như trò chuyện giọng nói gaming thời gian thực, vì vậy lề khoảng không gian thoải mái.

Kết Luận

Friend AI Pendant là một sản phẩm thực tế với người dùng thực tế và một cuộc tranh luận triết học thực tế gắn liền với nó. Thiết kế luôn lắng nghe tạo ra những câu hỏi về quyền riêng tư hợp pháp xứng đáng được tương tác trực tiếp, không phải bị bác bỏ. Chỉ trích sản phẩm cô đơn không tầm thường và xứng đáng ngồi trước khi đầu tư vào bất kỳ hệ thống AI companion nào.

Đối với người dùng đã đưa ra quyết định thông báo để sử dụng Friend, kết hợp nó với một công cụ thay đổi giọng nói trên Windows để tạo một persona đồng hành nhất quán là một quy trình làm việc sạch sẽ về mặt kỹ thuật. Hạn chế đạo đức chính là sự đồng ý nhân bản giọng nói: sử dụng giọng nói của riêng bạn, hoặc một giọng nói mà bạn có sự cho phép rõ ràng để sao chép. Lợi ích quyền riêng tư chính của VoxBooster trong bối cảnh này là xử lý cục bộ - dữ liệu giọng nói của bạn không rời khỏi máy của bạn ngay cả khi dữ liệu âm thanh Friend du lịch đến máy chủ của họ.

Công nghệ giọng nói là một công cụ. Ý nghĩa mà nó tạo ra là để bạn xây dựng một cách suy tư.

FAQ

Friend AI Pendant là gì và tại sao nó lại gây tranh cãi?

Friend là một dây chuyền đồng hành AI luôn lắng nghe được Avi Schiffmann phát hành vào năm 2024. Nó thu hút sự chú ý do việc mua lại tên miền 1,8 triệu USD, thiết kế microphone luôn bật, và cuộc tranh luận triết học về kỹ thuật số thay thế kết nối con người.

Tôi có thể cho pendant Friend một giọng nói tùy chỉnh nhất quán không?

Friend sử dụng đầu ra giọng nói cố định. Để nghe persona đồng hành của bạn thông qua một giọng nói được sao chép AI một cách nhất quán trên PC Windows của bạn, bạn kết hợp Friend với VoxBooster: định tuyến audio của nó thông qua một vòng lặp monitor, áp dụng giọng nói persona AI của bạn, và nghe qua tai nghe theo thời gian thực.

Sử dụng công cụ thay đổi giọng nói với Friend có gây ra các mối lo ngại về quyền riêng tư không?

Mối lo ngại về quyền riêng tư với Friend chủ yếu là microphone luôn bật tải lên âm thanh xung quanh của bạn. VoxBooster xử lý âm thanh cục bộ trên PC của bạn mà không tải lên đám mây. Thêm xử lý giọng nói cục bộ không làm tăng độ phơi nhiễm của bạn - nhưng chính sách thu thập dữ liệu dây chuyền cơ bản xứng đáng được đọc một cách cẩn thận trước khi sử dụng.

Sự đồng ý nhân bản giọng nói là gì và tại sao nó lại quan trọng ở đây?

Sự đồng ý nhân bản giọng nói có nghĩa là lấy sự cho phép rõ ràng từ người mà giọng nói của họ bạn đang sao chép. Sao chép giọng nói của riêng bạn cho một persona đồng hành là rõ ràng. Sao chép giọng nói của một người nổi tiếng hoặc người khác mà không có sự cho phép là có vấn đề về mặt đạo đức và có khả năng pháp lý, bất kể trường hợp sử dụng.

VoxBooster có yêu cầu trình điều khiển hạt nhân trên Windows 10 hoặc 11 không?

Không. VoxBooster hoạt động ở lớp low-latency audio capture, hệ thống phụ âm thanh tiêu chuẩn của Windows. Không cần cài đặt trình điều khiển hạt nhân, và nó chạy trên Windows 10 và 11 mà không có leo thang đặc quyền.

low-latency audio capture là gì và tại sao nó lại quan trọng đối với xử lý giọng nói độ trễ thấp?

low-latency audio capture là Windows Audio Session API, giao diện âm thanh cấp thấp gốc trên Windows. Không giống như các giao diện MME hoặc DirectSound cũ hơn, low-latency audio capture hỗ trợ bộ đệm chế độ độc quyền và chế độ chia sẻ thấp nhất 3ms, làm cho nó trở thành lớp chính xác cho chuyển đổi giọng nói thời gian thực mà không có độ trễ nhận thức.

Tôi có thể sử dụng âm thanh giọng nói pendant Friend làm mẫu cho nhân bản AI không?

Về mặt kỹ thuật, bạn có thể chụp và nhân bản bất kỳ âm thanh nào. Câu hỏi đạo đức là giọng nói bạn đang sao chép là của riêng bạn hay của người khác. Sử dụng đầu ra tổng hợp của Friend làm nguồn sao chép là một khu vực xám - đầu ra thuộc sản phẩm của Avi Schiffmann, và giấy phép của nó không cấp cho bạn quyền sao chép.

Thử VoxBooster miễn phí trong 3 ngày - không cần thẻ tín dụng. Tải xuống ở đây.