Voice Cloning for ALS Patients: Preserve Your Voice Before It’s Gone
Công nghệ voice cloning cho ALS đã chuyển từ nghiên cứu thử nghiệm sang một tùy chọn thực tế, dễ tiếp cận cho bệnh nhân và gia đình đối mặt với sự tiến triển của xơ cứng teo cơ bên (amyotrophic lateral sclerosis). Ý tưởng cốt lõi rất đơn giản: ghi lại giọng nói tự nhiên của bạn trong khi bạn vẫn còn nó, sử dụng AI để xây dựng một mô hình tổng hợp từ các bản ghi âm đó, sau đó triển khai mô hình đó trong các thiết bị giao tiếp bổ sung và thay thế (AAC) để bạn tiếp tục nghe như chính mình - không phải là một rô-bô nói chuyện văn bản chung chung - khi khả năng nói giảm.
Hướng dẫn này đề cập đến những ai cung cấp voice banking cho bệnh nhân ALS, quá trình thực tế liên quan đến điều gì, cách các giọng nói được tách bản tích hợp với phần cứng AAC và phải làm gì nếu sự tiến triển đã nâng cao.
TL;DR
- Voice banking nên bắt đầu ngay sau khi chẩn đoán ALS - lý tưởng là trước khi khả năng nói bị ảnh hưởng đáng chú ý.
- Các chương trình chính: ProjectRevoice (miễn phí, tập trung vào ALS), Acapela MyOwnVoice, ModelTalker.
- Các hồ sơ giọng nói được tách bản có thể được tải vào các thiết bị AAC bao gồm Tobii Dynavox và hệ thống EyeGaze.
- Chất lượng ghi âm và thời gian quan trọng hơn lượng giờ - những bản ghi sáng sủa ban đầu vượt trội hơn những lượng lớn giọng nói suy giảm.
- Tái cấu trúc từ các bản ghi âm hiện có (video, lời nhắn thoại) là có thể nhưng mang lại kết quả thay đổi.
- AI voice cloning cũng bảo tồn kết nối gia đình - một giọng nói mang 30 năm tính cách là không thể thay thế được.
Tại sao ALS Voice Preservation quan trọng
ALS - amyotrophic lateral sclerosis, còn được gọi là bệnh Lou Gehrig - là một tình trạng thoái hoá thần kinh tiến triển ảnh hưởng đến các nơ-ron vận động điều khiển chuyển động cơ tự nguyện. Đối với hầu hết bệnh nhân, điều này bao gồm các cơ nói chuyện: lưỡi, môi, hàm, vòm miệng và larin. Dysarthria (suy giảm nói do yếu cơ) và cuối cùng là anarthria (mất hoàn toàn chức năng nói) là những hậu quả khó khăn nhất về mặt cảm xúc của bệnh.
Sự thay thế truyền thống đã là tổng hợp văn bản thành giọng nói bằng các giọng nói tổng hợp chung. Mặc dù chức năng, những giọng nói này không mang bất kỳ danh tính nào của bệnh nhân - nhịp độ, ấm áp, giọng địa phương và timbre mà các thành viên gia đình và bạn bè đã biết trong nhiều thập kỷ. Khi một người chồng bị ALS nói với vợ mình rằng anh ấy yêu cô ấy bằng một giọng nói máy tính chung chung, một cái gì đó cơ bản bị mất. Khi anh ấy nói những lời tương tự bằng giọng nói của chính mình, được tổng hợp bởi AI từ các bản ghi âm được thực hiện hai năm trước, kết nối được bảo tồn.
Đây là trường hợp con người cho ALS voice banking, và nó vượt ra ngoài tiện ích giao tiếp vào cái gì đó gần như bảo tồn nhân phẩm và danh tính.
Trường hợp kỹ thuật cũng thuyết phục. Tổng hợp giọng nói AI hiện đại có thể tạo ra giọng nói thống kê không thể phân biệt được từ giọng nói tự nhiên trong các bài kiểm tra nghe được kiểm soát, với điều kiện là dữ liệu đào tạo đủ chất lượng và số lượng. Đối với bệnh nhân ALS bắt đầu ngân hàng sớm, kết quả là thực sự là giọng nói của họ - không phải là một xấp xỉ thô.
Hiểu Voice Banking: Nó là gì và Hoạt động như thế nào
Voice banking là quá trình có cấu trúc ghi âm một corpus lớn của giọng nói tự nhiên của bạn để một công cụ tổng hợp văn bản thành giọng nói hoặc hệ thống AI voice cloning có thể tìm hiểu các đặc điểm âm học cụ thể của giọng nói của bạn. Mô hình kết quả có thể sau đó tạo ra giọng nói mới - các từ và câu bạn không bao giờ thực sự ghi âm - bằng giọng nói của bạn.
Phương pháp truyền thống (được sử dụng bởi ModelTalker và các công cụ tương tự) yêu cầu ghi lại một tập hợp các câu được quy định - thường là 1.600 hoặc hơn - được thiết kế để bao gồm sự đa dạng âm thanh. Các câu bao gồm mọi cụm phụ âm, kết hợp nguyên âm và mẫu nhịp điệu mà công cụ tổng hợp cần phát triển trên toàn bộ văn bản mới. Phương pháp này được kiểm tra tốt và mang lại kết quả đáng tin cậy, nhưng nó yêu cầu cam kết thời gian đáng kể, thường phân tán trên nhiều phiên trong vài tuần hoặc tháng.
Phương pháp AI cloning hiện đại sử dụng các mô hình học sâu có thể tổng quát hóa từ các tập dữ liệu nhỏ hơn. Nơi tổng hợp nối tiếp truyền thống cần mọi âm vị được ghi âm rõ ràng, tổng hợp giọng nói thần kinh học các biểu diễn âm học trừu tượng và có thể tạo ra các âm thanh mới từ ít ví dụ hơn. Một số hệ thống hiện tạo ra kết quả chấp nhận được từ 30-60 phút âm thanh sạch, mặc dù một giờ giọng nói được ghi âm tốt luôn vượt trội hơn một ngày nhàm chán các bản ghi âm bị suy giảm.
Thách thức cụ thể ALS là cửa sổ để chụp giọng nói chất lượng cao hẹp khi bệnh tiến triển. Các bản ghi âm được thực hiện khi nói được đã bị mâm cơm rõ ràng, thấp về âm lượng hoặc mất phạm vi nhịp điệu tạo ra một giọng nói tổng hợp thừa hưởng những suy giảm đó. Mục tiêu luôn là ghi lại sớm nhất có thể, khi giọng nói vẫn nghe như tự nhiên.
Ba chương trình Voice Banking chính cho ALS
ProjectRevoice
ProjectRevoice là một chương trình miễn phí được tạo đặc biệt cho những người sống với ALS. Nó được thành lập với sự hỗ trợ từ ALS Association và đã giúp hàng trăm bệnh nhân bảo tồn giọng nói của họ. Chương trình này ghép các bệnh nhân với các tình nguyện viên voice banking và các nhà chuyên ngành về ngôn ngữ nói hướng dẫn họ thông qua quá trình ghi âm.
ProjectRevoice sử dụng công nghệ AI voice cloning - không phải tổng hợp nối tiếp - điều này có nghĩa là yêu cầu ghi âm có thể quản lý được hơn so với các phương pháp cũ. Các hồ sơ giọng nói kết quả tích hợp với các nền tảng AAC phổ biến. Chương trình cũng nhấn mạnh sự dễ sử dụng cho bệnh nhân có thể đối mặt với trọng lượng cảm xúc và thực tế của chẩn đoán gần đây.
Đối với các gia đình ở Hoa Kỳ, ProjectRevoice thường được khuyên đầu tiên từ các phòng khám ALS. Mạng lưới chi nhánh ALS Association của địa phương có thể kết nối bệnh nhân với chương trình và cung cấp hỗ trợ thông qua quá trình.
Acapela MyOwnVoice
Acapela Group là công ty công nghệ giọng nói có hồ sơ hỗ trợ công nghệ hỗ trợ mạnh. Chương trình MyOwnVoice của họ cho phép các cá nhân tạo một giọng nói tổng hợp cá nhân từ các bản ghi âm, với các gói được thiết kế cho những người cần giọng nói để sử dụng AAC.
Acapela cung cấp cả đường dẫn ghi âm tiêu chuẩn (hàng trăm câu trong giao diện ghi âm độc quyền của họ) và đường dẫn rút gọn cho bệnh nhân có khả năng ghi âm hạn chế. Giọng nói kết quả được lưu trữ trong hệ thống của họ và có thể được xuất sang phần mềm AAC tương thích. Các giọng nói Acapela tích hợp với các thiết bị Tobii Dynavox, trong số những thiết bị khác.
Giá cả và các tùy chọn được hỗ trợ thay đổi tùy theo quốc gia và tình huống. Đối với bệnh nhân ALS ở Châu Âu và Úc, Acapela thường có kết hợp địa phương giảm hoặc loại bỏ chi phí. Liên hệ trực tiếp với đội công nghệ hỗ trợ của họ để biết các tùy chọn hiện tại.
ModelTalker
ModelTalker, được phát triển bởi các nhà nghiên cứu tại Đại học Delaware, là một trong những hệ thống voice banking lâu đời nhất. Nó miễn phí sử dụng và có hồ sơ theo dõi rộng rãi với bệnh nhân ALS và các bệnh motor neuron khác.
Hệ thống yêu cầu người dùng ghi lại một tập hợp lớn các câu mang - lịch sử khoảng 1.600, mặc dù nền tảng có các tùy chọn cho ngân hàng ngắn hơn - thông qua giao diện ghi âm dựa trên web. Sau khi hoàn thành, hệ thống xây dựng một giọng nói tổng hợp được cá nhân hoá có thể được sử dụng trong ứng dụng SpeakIt miễn phí của họ hoặc được xuất để sử dụng trong các hệ thống AAC khác.
Ưu điểm chính của ModelTalker là cơ sở nghiên cứu được thiết lập và chất lượng kết quả được hiểu rõ. Hạn chế chính của nó là gánh nặng ghi âm - 1.600 câu là một cam kết đáng kể, đặc biệt là cho bệnh nhân gặp mệt mỏi hoặc suy giảm nói sớm. Phương pháp theo giai đoạn (ngân hàng trong các lần cài đặt trong vài tuần) là giải pháp khắc phục được khuyến cáo.
Sự so sánh các chương trình Voice Banking
| Chương trình | Chi phí | Yêu cầu ghi âm | Tích hợp AAC | AI Cloning | ALS-Specific |
|---|---|---|---|---|---|
| ProjectRevoice | Miễn phí | Vừa phải (dựa trên AI) | Có | Có | Có |
| Acapela MyOwnVoice | Được hỗ trợ/trả tiền | Vừa phải đến cao | Có (Tobii Dynavox, cái khác) | Có | Không (hỗ trợ chung) |
| ModelTalker | Miễn phí | Cao (1.600+ câu) | Ứng dụng SpeakIt + xuất | Không (nối tiếp) | Không (chung) |
| VoxBooster | Dùng thử miễn phí | Ngắn (30-60 phút) | Thông qua xuất âm thanh | Có | Không (chung) |
VoxBooster chủ yếu được thiết kế để thay đổi giọng nói thời gian thực và tách bản giọng nói sáng tạo, nhưng công cụ AI của nó có thể tạo ra các hồ sơ giọng nói cá nhân từ các bản ghi âm hạn chế. Nó không phải là một đường dẫn AAC lâm sàng - nó không thay thế ProjectRevoice hoặc Acapela cho tích hợp AAC chuyên dụng - nhưng đối với bệnh nhân muốn tạo một giọng nói cá nhân để sử dụng trong giao tiếp gia đình, kể chuyện hoặc ghi âm các tin nhắn cho những người thân yêu, nó cung cấp một điểm vào dễ tiếp cận mà không cần một quy trình dài. Xem thêm hướng dẫn của chúng tôi về voice cloning cho sản xuất voiceover để ngữ cảnh trên những gì tổng hợp giọng nói AI có thể sản xuất.
Khi bắt đầu: Cửa sổ thời gian quan trọng
Lời khuyên duy nhất quan trọng nhất từ các nhà chuyên ngành ngôn ngữ nói chuyên về ALS: bắt đầu voice banking ngay sau chẩn đoán.
Đây không phải là báo động - nó là hậu cần. Voice banking mất thời gian, và tiến triển bệnh có thể vượt quá một lịch ngân hàng chậm trễ. Bệnh nhân bắt đầu khi độ hiểu giọng nói trên 95% có đủ thời gian để tạo ra các bản ghi âm xuất sắc trên nhiều phiên. Bệnh nhân chậm trễ cho đến khi nói được đã bị ảnh hưởng đáng chú ý thường chúc rằng họ đã bắt đầu sớm hơn.
Các điểm chuẩn độ hiểu ngôn ngữ nói để voice banking:
| Mức độ Intelligibility | Hành động được khuyến cáo |
|---|---|
| 95-100% | Bắt đầu ngân hàng ngay lập tức. Đây là cửa sổ tối ưu. |
| 85-95% | Vẫn tốt. Ưu tiên các phiên, nhằm mục tiêu 2-3 mỗi tuần. |
| 70-85% | Có thể nhưng các bản ghi âm sẽ hiển thị một số suy giảm. Bắt đầu hôm nay. |
| Dưới 70% | Tách bản từ các bản ghi âm mới trở nên khó khăn. Xem xét tái cấu trúc từ các bản ghi âm hiện có (video, lời nhắn thoại). |
Nhà chuyên ngành ngôn ngữ nói của bạn có thể đo độ hiểu được chính thức. Western Aphasia Battery và Functional Communication Measure của ASHA thường được sử dụng.
Mệt mỏi là kẻ thù của chất lượng ghi âm. Các phiên nên tối đa 20-30 phút, được lên lịch khi năng lượng và giọng nói của bệnh nhân ở mức hàng ngày cao nhất - thường là giữa buổi sáng cho hầu hết mọi người. Tránh ghi âm sau bữa ăn, trong khi bệnh hoặc ở cuối ngày khi mệt mỏi giọng nói làm giảm chất lượng.
Tích hợp một giọng nói được tách bản với các thiết bị AAC
Một hồ sơ giọng nói được tách bản chỉ hữu ích nếu nó thực sự có thể tạo ra giọng nói khi bệnh nhân chọn các từ hoặc cụm từ trên thiết bị AAC của họ. Tích hợp thay đổi tùy theo nền tảng và chương trình voice banking.
Tobii Dynavox
Tobii Dynavox là nhà lãnh đạo thị trường trong các thiết bị AAC theo dõi mắt. Phần mềm Snap và Compass của họ hỗ trợ các hồ sơ giọng nói tùy chỉnh. Các giọng nói được tạo thông qua các chương trình ngân hàng tương thích - bao gồm các xuất tương thích Acapela - có thể được tải như giọng nói TTS của thiết bị, vì vậy giao tiếp nghe theo dõi mắt xuất giọng nói theo giọng nói của riêng bệnh nhân.
Tích hợp Tobii Dynavox yêu cầu hồ sơ giọng nói ở định dạng tương thích. Không phải tất cả các kết quả AI cloning đều tương thích mà không có chuyển đổi. Nhà chuyên ngành về ngôn ngữ nói hoặc nhà chuyên gia công nghệ hỗ trợ có thể hướng dẫn cài đặt kỹ thuật.
Hệ thống EyeGaze
Các thiết bị EyeGaze (LC Technologies) cũng hỗ trợ tích hợp giọng nói TTS tùy chỉnh, mặc dù tương thích tùy thuộc vào phiên bản phần mềm cụ thể. Giọng nói của bệnh nhân được chọn trong cài đặt phần mềm AAC, và đầu vào văn bản mới được tổng hợp bằng hồ sơ giọng nói tùy chỉnh.
Grid-Based AAC Apps (Snap Core First, TouchChat, Proloquo2Go)
Các ứng dụng AAC dựa trên máy tính bảng này hỗ trợ các giọng nói TTS tùy chỉnh thông qua các công cụ giọng nói tương thích SAPI hoặc dành riêng cho nền tảng. Một số chấp nhận các hồ sơ giọng nói từ Acapela và các nhà cung cấp tương tự trực tiếp. Kiểm tra tài liệu ứng dụng để tìm các định dạng nhập giọng nói được hỗ trợ.
Khoảng cách giữa những gì tồn tại và những gì bệnh nhân cần
Một quan sát trung thực: đường dẫn kỹ thuật từ “AI voice clone” đến “giọng nói AAC làm việc” không phải lúc nào cũng suôn sẻ. Các chương trình voice banking lâm sàng đã đầu tư cụ thể vào vấn đề tích hợp này. Các công cụ AI voice cloning mục đích chung - bao gồm nhiều dịch vụ thương mại - có thể tạo ra âm thanh xuất sắc nhưng không xuất ở các định dạng cắm trực tiếp vào các thiết bị AAC.
Đây là lý do tại sao các chương trình lâm sàng như ProjectRevoice tồn tại. Họ giải quyết không chỉ vấn đề mô hình AI mà còn vấn đề tích hợp. Các công cụ voice cloning mục đích chung điền một nhu cầu khác: tạo một giọng nói cho tin nhắn gia đình, ghi âm âm thanh, nội dung tưởng niệm hoặc giao tiếp không chính thức không định tuyến thông qua thiết bị AAC.
Voice Cloning khi giọng nói đã giảm
Không phải mọi bệnh nhân ALS nghe về voice banking kịp thời. Đối với bệnh nhân đã trải qua mất giọng nói đáng kể, hai tùy chọn tồn tại.
Tái cấu trúc từ các bản ghi âm hiện có
Video gia đình, lời nhắn thoại, ghi âm điện thoại, bài phát biểu sinh nhật, ghi âm chuyên nghiệp hoặc bất kỳ âm thanh nào khi người này nói rõ ràng có thể phục vụ như tài liệu nguồn. Các hệ thống tổng hợp giọng nói AI có thể đào tạo về tài liệu này, mặc dù chất lượng thay đổi đáng kể dựa trên:
- Chất lượng âm thanh (lời nhắn thoại ghi âm qua điện thoại thường ồn ào)
- Độ dài ghi âm (nhiều hơn là tốt hơn; một lời nhắn thoại 20 giây mang lại kết quả kém)
- Nhất quán phong cách nói (nói được bản thân hoạt động tốt hơn so với cuộc trò chuyện tình cảm)
- Mức độ nhiễu nền
Một số dịch vụ chuyên về tái cấu trúc giọng nói từ các tài liệu hạn chế. Kết quả hiếm khi tự nhiên như một kho ngân hàng ghi âm mục đích, nhưng ngay cả một tái cấu trúc không hoàn hảo cũng có thể mang trọng lượng cảm xúc cho các thành viên gia đình - nhịp độ, giọng, cụm từ đặc trưng vẫn còn ở đó.
Đối với các gia đình ALS suy nghĩ về bảo tồn giọng nói cho bộ nhớ và kết nối thay vì sử dụng AAC tích cực, các hướng dẫn liên quan của chúng tôi về voice cloning cho âm thanh buồn và tưởng niệm và voice cloning cho âm thanh làm quen với dementia và familiarity khám phá khía cạnh này chi tiết hơn.
Ngân hàng sửa đổi với lời nói suy giảm
Nếu một số lời nói còn sót lại, ngân hàng vẫn đáng thử. Lời nói ghi 60-70% về độ hiểu có thể vẫn tạo ra một giọng nói tổng hợp có thể sử dụng được, đặc biệt là cho các cụm từ thường xuyên được sử dụng và giao tiếp gia đình - nó chỉ không sẽ tổng quát một cách sạch sẽ để văn bản mới. Cách thực tế: ngân hàng một tập hợp cốt lõi của các cụm từ thường xuyên được sử dụng (thể hiện tình yêu, yêu cầu nhu cầu hàng ngày, phản ứng cảm xúc) thay vì cố gắng xây dựng một mô hình giọng nói hoàn toàn sinh sản. Ngay cả một hệ thống dựa trên cụm từ trong giọng nói của riêng bệnh nhân cũng có ý nghĩa đáng kể hơn một giọng nói TTS chung chung.
Kích thước cảm xúc: Giọng nói như danh tính
Đây không phải là một chủ đề lâm sàng, nhưng nó thuộc về bất kỳ cuộc thảo luận trung thực nào về ALS voice banking.
Giọng nói của một người là một trong những khía cạnh gắn liền với danh tính nhất của sự tồn tại của họ. Nó mang giọng địa phương, tính cách, phạm vi cảm xúc, hài hước và lịch sử. Những người vợ đã nghe giọng nói tương tự trong 30 hoặc 40 năm nhận ra nó theo cách họ nhận ra khuôn mặt. Con cái của bệnh nhân ALS - đặc biệt là trẻ nhỏ - có thể lớn lên với vài bản ghi âm tự nhiên về giọng nói của cha mẹ.
Voice banking, khi thành công, bảo tồn danh tính đó. Nó cho phép bệnh nhân ALS:
- Tiếp tục nói trong các cuộc trò chuyện gia đình với một giọng nói nghe như họ
- Ghi âm các tin nhắn cho con cái và cháu ngoài để mở nhiều năm sau
- Duy trì ý thức về bản thân trong thời gian cơ thể đang thay đổi nhanh chóng
- Giao tiếp cảm xúc thông qua một giọng nói với ấm áp và nhịp điệu đặc trưng của họ, không phải một giọng nói máy tính chung chung
Giá trị thực tế của giao tiếp AAC là rõ ràng. Giá trị cảm xúc của việc nghe giống như bạn trong khi làm điều đó khó lượng hơn nhưng có lẽ còn quan trọng hơn.
Đối với các gia đình tạo tin nhắn âm thanh hoặc ghi âm cho tương lai - không nhất thiết cho sử dụng AAC tích cực - các công cụ như VoxBooster có thể tạo nội dung giọng nói bằng giọng nói được bảo tồn từ văn bản viết. Kết quả có thể trở thành kể chuyện cho video gia đình, nhật ký âm thanh cá nhân hoặc tin nhắn được gửi tại các mốc quan trọng trong tương lai. Hướng dẫn của chúng tôi về các câu chuyện ngủ cá nhân được tạo bằng voice cloning cho thấy một ứng dụng sáng tạo của khả năng này.
Thực hành ghi âm tốt nhất cho ALS Voice Banking
Bất kể bạn sử dụng chương trình nào, chất lượng ghi âm có vấn đề rất lớn. Những thực hành này áp dụng chung.
Thiết bị:
- Sử dụng microphone condenser USB thay vì một microphone máy tính xách tay được tích hợp. Một microphone chuyên dụng được đặt cách miệng 6-8 inch làm giảm tiếng ồn phòng và nắm bắt phản ứng tần số đầy đủ hơn.
- Ghi âm trong một phòng yên tĩnh. Tránh các thiết bị nhà bếp, tiếng ồn HVAC hoặc các cửa sổ đông đúc giao thông.
- Ghi âm tệp WAV ở 44,1 kHz hoặc 48 kHz, tối thiểu 16-bit. Không ghi âm ở MP3 - nén tổn thất ở nguồn giảm chất lượng mô hình giọng nói.
Phiên ghi âm:
- Tối đa 20-30 phút mỗi phiên. Mệt mỏi giọng nói làm giảm chất lượng ghi âm và mô hình học từ giọng nói mệt mỏi.
- Lên lịch các phiên khi năng lượng cao nhất - thường là giữa buổi sáng.
- Nói ở âm lượng và tốc độ hội thoại tự nhiên. Không “thể hiện” hoặc phóng đại sự rõ ràng - AI đào tạo trên cách bạn thực sự nói chuyện.
- Ghi âm trên nhiều ngày. Các điều kiện âm học khác nhau trên các phiên thực sự cải thiện tổng quát hóa mô hình.
Cái gì để ghi âm:
- Tất cả các câu yêu cầu từ danh sách được quy định của chương trình ngân hàng
- Các cụm từ cá nhân bổ sung: tên các thành viên gia đình, các biểu thức thường xuyên được sử dụng, điều khoản của tình yêu
- Một đoạn nói tự do ngắn (đọc một đoạn hoặc nói tự nhiên trong 5 phút) để nắm bắt biến động nhịp điệu tự nhiên
Cài đặt kỹ thuật:
- Vô hiệu hóa kiểm soát lợi nhuận tự động (AGC) trong phần mềm ghi âm của bạn - nó nén động lực theo những cách nhầm giọng nói
- Nhằm mục tiêu các đỉnh xung quanh -12 đến -6 dBFS trên đồng hồ của bạn
- Nghe lại 60 giây đầu tiên trước khi cam kết với một phiên đầy đủ - tốt hơn là bắt một máy lạnh gió trước khi ghi 300 câu so với sau
Cách AI Voice Cloning chung so sánh
Ngoài các chương trình ALS banking chuyên biệt, các công cụ AI voice cloning mục đích chung - bao gồm VoxBooster, ElevenLabs, Resemble AI và các công cụ khác - đã trưởng thành đáng kể. Một số bệnh nhân ALS và gia đình sử dụng các công cụ này bên cạnh hoặc thay vì các chương trình banking chuyên dụng, đặc biệt là cho các trường hợp sử dụng bên ngoài tích hợp thiết bị AAC.
Những khác biệt chính:
| Yếu tố | Chương trình ALS chuyên biệt | AI Cloning mục đích chung |
|---|---|---|
| Tích hợp thiết bị AAC | Bản địa, được kiểm tra | Thủ công / Biến |
| Hỗ trợ lâm sàng ngôn ngữ nói | Có | Không |
| Hướng dẫn ghi âm | Có cấu trúc, được quy định | Tự điều hướng |
| Chi phí | Miễn phí / Được hỗ trợ | Thay đổi; thường được cung cấp miễn phí |
| Tính tự nhiên kết quả | Cao (mục đích được xây dựng) | Cao (cải thiện nhanh chóng) |
| Trường hợp sử dụng | Giao tiếp AAC | Sáng tạo, gia đình, tưởng niệm |
| Tính hợp lệ bảo hiểm / tài trợ | Đôi khi được bao gồm | Hiếm khi được bao gồm |
Đối với bệnh nhân muốn một giọng nói cho tin nhắn gia đình, kể chuyện ghi âm hoặc các mục đích sáng tạo - nhưng không nhất thiết phải tích hợp thiết bị AAC - các công cụ mục đích chung cung cấp một con đường nhanh hơn, linh hoạt hơn. Công nghệ tổng hợp giọng nói AI trong các công cụ này đã đạt được các mức chất lượng khiến kết quả thực sự cá nhân và có xúc cảm, không chỉ chức năng về mặt kỹ thuật.
Nếu bạn đang khám phá điều này cho một thành viên gia đình quan tâm đến voice cloning để mục đích sáng tạo hoặc liệu pháp rộng hơn - ví dụ: cách voice cloning được sử dụng để hỗ trợ những người có thách thức giao tiếp từ các nguyên nhân khác - bài viết của chúng tôi về voice cloning cho bối cảnh liệu pháp nói ngắn cung cấp một quan điểm kề bên hữu ích.
Các bước thực tế: Bắt đầu tuần này
Nếu bạn hoặc người bạn biết có chẩn đoán ALS, đây là chuỗi khởi động thực tế:
-
Liên hệ ProjectRevoice (projectrevoice.org) và yêu cầu nhập học. Họ sẽ hướng dẫn bạn thông qua quá trình của họ mà không có chi phí và kết nối bạn với một nhà chuyên ngành về ngôn ngữ nói nếu bạn không có một người rồi.
-
Yêu cầu bác sĩ thần kinh của bạn giới thiệu đến một phòng khám ALS có một SLP chuyên về AAC. Đây là một nhu cầu lâm sàn, không phải một sự sang trọng - SLP làm việc với bệnh nhân ALS biết các chương trình ngân hàng, các thiết bị AAC và các bước tích hợp.
-
Thiết lập một môi trường ghi âm cơ bản tuần này. Bạn không cần phải chờ quá trình ngân hàng chính thức để bắt đầu nắm bắt giọng nói của bạn. Ghi âm 30 phút hội thoại tình cảm, đọc một vài đoạn, kể chuyện gia đình. Những bản ghi âm này có giá trị bất kể chương trình ngân hàng chính thức nào bạn sau đó sử dụng.
-
Danh sách các bản ghi âm hiện có. Đi qua video điện thoại, lời nhắn thoại, video cũ, bất kỳ bản ghi âm nào có giọng nói nổi bật và rõ ràng. Lưu những bản ghi âm này ở nhiều nơi. Nếu ngân hàng chính thức không thể thực hiện được sau, những bản ghi âm này trở thành tài liệu nguồn tái cấu trúc của bạn.
-
Nói chuyện với chi nhánh ALS Association của bạn. Họ thường có tài trợ để bao gồm chi phí thiết bị (microphone USB, phần mềm ghi âm) và có thể kết nối bạn với các tình nguyện viên giúp đỡ quá trình ghi âm.
-
**Đừng chậm trễ chờ đợi “thời gian phù hợp”.” Không có thời gian thích hợp - chỉ có bây giờ và sau. Đối với voice banking, bây giờ luôn tốt hơn.
Kết luận
Bảo tồn giọng nói ALS là một trong những ứng dụng có ý nghĩa nhất của công nghệ giọng nói AI hiện đại. Khả năng ngân hàng một giọng nói trước khi nói giảm - và sau đó triển khai nó thông qua các thiết bị AAC để một người tiếp tục nghe như chính họ qua nhiều năm giao tiếp - đại diện cho một cải thiện thực sự về chất lượng cuộc sống và nhân phẩm.
Các điểm thực tế chính: bắt đầu sớm nhất có thể, sử dụng các chương trình được thiết lập như ProjectRevoice và Acapela MyOwnVoice cho voice banking tích hợp AAC, ghi âm trong các điều kiện chất lượng với thiết bị thích hợp và lớp các công cụ AI voice cloning mục đích chung cho các trường hợp sử dụng gia đình và tưởng niệm nằm ngoài các đường dẫn lâm sàng.
Công cụ như VoxBooster có thể bổ sung quá trình này - tạo giọng nói trong giọng nói được bảo tồn cho các tin nhắn được ghi âm, kể chuyện gia đình hoặc các dự án cá nhân - mà không thay thế đường dẫn lâm sàng cho tích hợp thiết bị AAC. Bản dùng thử miễn phí 3 ngày có sẵn mà không cần thẻ tín dụng, nếu bạn muốn khám phá những gì công nghệ có thể tạo ra từ một mẫu ghi âm.
Giọng nói quan trọng là giọng nói thuộc về người đó. Mỗi tuần voice banking xảy ra sớm hơn là một mô hình giọng nói tốt hơn phục vụ bệnh nhân và gia đình trong phần còn lại của cuộc sống họ cùng nhau.
Các câu hỏi thường gặp
Voice banking cho bệnh nhân ALS là gì và tại sao nó quan trọng?
Voice banking cho ALS là quá trình ghi lại giọng nói tự nhiên của bạn trước khi bệnh tiến triển gây suy giảm đáng kể khả năng nói. Những bản ghi âm đó sau đó được sử dụng bởi các hệ thống AI để tạo ra một bản sao tổng hợp giọng nói của bạn, điều này cung cấp năng lượng cho các thiết bị AAC (giao tiếp bổ sung và thay thế). Bắt đầu sớm - khi giọng nói vẫn còn mạnh - mang lại kết quả tốt hơn đáng kể.
Bệnh nhân ALS nên bắt đầu voice banking khi nào?
Càng sớm càng tốt sau khi chẩn đoán - lý tưởng là trước khi khả năng nói bị ảnh hưởng đáng chú ý. Hầu hết các nhà chuyên ngành về ngôn ngữ nói khuyến cáo bắt đầu khi độ rõ ràng vẫn trên 90%. Chất lượng giọng nói suy giảm trong vài tháng, và các mô hình AI voice cloning được đào tạo trên giọng nói rõ ràng mang lại kết quả tự nhiên hơn nhiều so với những mô hình được đào tạo trên các bản ghi âm bị suy giảm.
Voice banking có miễn phí cho bệnh nhân ALS không?
Một số chương trình cung cấp voice banking miễn phí hoặc được hỗ trợ cụ thể cho bệnh nhân ALS và các bệnh motor neuron khác. ProjectRevoice cung cấp voice banking hoàn toàn miễn phí với trọng tâm là ALS. Acapela MyOwnVoice và ModelTalker cũng cung cấp các con đường miễn phí. Liên hệ với chi nhánh ALS Association địa phương của bạn để biết thêm các nguồn tài trợ.
Có thể sử dụng giọng nói ALS được tách bản để hoạt động với Tobii Dynavox và các thiết bị AAC khác không?
Có. Hầu hết các chương trình voice banking chuyên nghiệp xuất các hồ sơ giọng nói ở định dạng tương thích với các nền tảng AAC chính bao gồm Tobii Dynavox, hệ thống EyeGaze và các ứng dụng giao tiếp dựa trên lưới. Xác nhận tương thích định dạng xuất với nhà chuyên ngành về ngôn ngữ nói của bạn trước khi chọn một chương trình ngân hàng, vì các bước tích hợp thay đổi tùy theo thiết bị.
Voice banking cần bao nhiêu giờ ghi âm?
Yêu cầu khác nhau tùy theo chương trình. ModelTalker truyền thống yêu cầu 1.600 câu. Acapela MyOwnVoice cần ít hơn đáng kể nhưng vẫn được hưởng lợi từ các phiên kéo dài. Các phương pháp AI voice cloning mới hơn có thể hoạt động với chỉ 30-60 phút giọng nói rõ ràng, mặc dù dữ liệu nhiều hơn luôn mang lại kết quả tự nhiên hơn. Phân tán các phiên trong nhiều ngày để tránh mệt mỏi giọng nói.
Điều gì sẽ xảy ra nếu bệnh nhân ALS đã mất giọng nói tự nhiên của họ?
Nếu tồn tại những bản ghi âm về giọng nói tự nhiên của người đó - video gia đình, lời nhắn thoại, phỏng vấn, tin nhắn âm thanh - những bản ghi này đôi khi có thể được sử dụng làm tài liệu nguồn để tái cấu trúc, mặc dù chất lượng thay đổi. Một số dịch vụ chuyên về tái cấu trúc giọng nói từ các mẫu hạn chế. Giọng nói tưởng niệm AI của gia đình phục vụ một mục đích khác nhưng liên quan để các gia đình muốn bảo tồn kết nối.
Bệnh nhân ALS có thể sử dụng voice cloning để giao tiếp thời gian thực không?
Có, với tích hợp AAC hiện đại. Một hồ sơ giọng nói tổng hợp có thể được tải vào phần mềm AAC để khi bệnh nhân chọn các từ hoặc cụm từ - sử dụng theo dõi mắt, truy cập chuyển đổi hoặc các phương pháp nhập liệu khác - kết quả sử dụng giọng nói được tách bản của họ thay vì một bộ tổng hợp chung. Điều này bảo tồn danh tính giọng nói trong cuộc trò chuyện hàng ngày.