Voice Cloning for ALS Patients: Preserve Your Voice Before It’s Gone
เทคโนโลยีการโคลนเสียงสำหรับ ALS ได้เปลี่ยนจากการวิจัยเชิงทดลองไปเป็นตัวเลือกที่ใช้ได้จริงและเข้าถึงได้ง่ายสำหรับผู้ป่วยและครอบครัวที่เผชิญกับความก้าวหน้าของ amyotrophic lateral sclerosis ความคิดพื้นฐานนั้นตรงไปตรงมา: บันทึกเสียงธรรมชาติของคุณในขณะที่คุณยังมีมัน, ใช้ AI เพื่อสร้างแบบจำลองสังเคราะห์จากบันทึกเหล่านั้น, จากนั้นปรับใช้แบบจำลองนั้นในอุปกรณ์การสื่อสารเพิ่มเติมและทดแทน (AAC) เพื่อให้คุณยังคงฟังเหมือน ตัวเอง - ไม่ใช่หุ่นยนต์วิทยุพูดคำทั่วไป - เมื่อความสามารถในการพูดลดลง
คำแนะนำนี้ครอบคลุมคนใดให้บริการการบันทึกเสียงสำหรับผู้ป่วย ALS, กระบวนการที่เกี่ยวข้องกับอะไร, วิธีการรวมเสียงโคลนกับฮาร์ดแวร์ AAC และสิ่งที่ต้องทำหากความก้าวหน้าได้ไปไกลแล้ว
TL;DR
- การบันทึกเสียงควรเริ่มต้นในไม่ช้าหลังจากการวินิจฉัย ALS - โดยอุดมคติคือก่อนที่ความสามารถในการพูดจะได้รับผลกระทบอย่างเห็นได้ชัด
- โปรแกรมหลัก: ProjectRevoice (ฟรี, มุ่งเน้น ALS), Acapela MyOwnVoice, ModelTalker
- โปรไฟล์เสียงโคลนสามารถโหลดลงในอุปกรณ์ AAC รวมถึง Tobii Dynavox และระบบ EyeGaze
- คุณภาพการบันทึกและการจัดเวลาสำคัญมากกว่าจำนวนชั่วโมง - บันทึกเสียงที่ชัดเจนในช่วงแรกจะเหนือกว่าปริมาณมากของเสียงที่เสื่อมลงมา
- การสร้างใหม่จากบันทึกที่มีอยู่ (วิดีโอ, ข้อความเสียง) เป็นไปได้ แต่ให้ผลลัพธ์ที่แตกต่างกัน
- AI voice cloning ยังรักษาความเชื่อมโยงของครอบครัว - เสียงที่มี 30 ปีของบุคลิกภาพนั้นไม่สามารถแทนที่ได้
เหตุใดการสงวนรักษาเสียง ALS จึงมีความสำคัญ
ALS - amyotrophic lateral sclerosis, หรือเรียกอีกอย่างว่าโรค Lou Gehrig - เป็นภาวะเสื่อมสภาพระบบประสาทแบบเรื้อรังที่มีผลต่อเซลล์ประสาทมอเตอร์ที่ควบคุมการเคลื่อนไหวของกล้ามเนื้อแบบสมัครใจ สำหรับผู้ป่วยส่วนใหญ่ นี่รวมถึงกล้ามเนื้อพูด: ลิ้น, ริมฝีปาก, กรรม, เพดานอ่อน, และกล่องเสียง Dysarthria (ความบกพร่องในการพูดเนื่องจากความอ่อนแอของกล้ามเนื้อ) และในที่สุด anarthria (การสูญเสียการพูดที่ใช้งานได้อย่างสมบูรณ์) อยู่ในบรรดาผลที่ยากลำบากที่สุดทางอารมณ์ของโรค
ทางเลือกแบบเดิมคือการสังเคราะห์ข้อความเป็นเสียงโดยใช้เสียงสังเคราะห์แบบทั่วไป แม้ว่าจะใช้งานได้ จริง เสียงเหล่านี้ไม่มีตัวตนใดๆ ของผู้ป่วย - จังหวะ, ความอบอุ่น, สำเนียงภูมิภาค, และ timbre ที่สมาชิกครอบครัวและเพื่อนรู้จักมานานหลายทศวรรษ เมื่อสามีคนที่เป็น ALS บอกภรรยาว่าเขารักเธอโดยใช้เสียงคอมพิวเตอร์แบบทั่วไป บางสิ่งบางอย่างที่พื้นฐานจะสูญหาย เมื่อเขาพูดคำเดียวกันในเสียงของเขาเอง สังเคราะห์โดย AI จากบันทึกที่ทำขึ้นสองปีก่อน ความเชื่อมโยงจะถูกรักษา
นี่คือกรณีมนุษย์สำหรับการบันทึกเสียง ALS และมันไปไกลกว่าประโยชน์ใช้สอยของการสื่อสารเข้าสู่สิ่งที่เกือบจะใกล้เคียงกับการรักษาหรือการรักษาของเอกลักษณ์
กรณีทางเทคนิคนั้นน่าฉัน เท่าเทียมกัน การสังเคราะห์เสียง AI สมัยใหม่สามารถผลิตเสียงที่แยกไม่ออกจากการพูดตามธรรมชาติในการทดสอบการฟังที่ควบคุม โดยระบบจะให้เงื่อนไขข้อมูลที่ดีเพียงพอ ในด้านของคุณภาพและปริมาณ สำหรับผู้ป่วย ALS ที่เริ่มบันทึกในช่วงแรก ผลลัพธ์คือเสียงของพวกเขาจริง ๆ - ไม่ใช่การประมาณแบบหยาบ
การทำความเข้าใจการบันทึกเสียง: มันคืออะไรและใช้งานอย่างไร
การบันทึกเสียงคือกระบวนการที่มีโครงสร้างของการบันทึก corpus ที่มีขนาดใหญ่ของการพูดตามธรรมชาติของคุณ เพื่อให้เครื่องสังเคราะห์ข้อความเป็นเสียงหรือระบบการโคลนเสียง AI สามารถเรียนรู้ลักษณะเฉพาะของเสียงของคุณ แบบจำลองผลลัพธ์สามารถสร้างการพูดใหม่ได้ - คำและประโยคที่คุณไม่เคยบันทึกไว้จริง ๆ - ในเสียงของคุณ
วิธีการแบบเดิม (ใช้โดย ModelTalker และเครื่องมือที่คล้ายกัน) ต้องการการบันทึกชุดประโยคที่กำหนดไว้ล่วงหน้า - มักจะเป็น 1,600 หรือมากกว่า - ออกแบบมาเพื่อครอบคลุมความหลากหลายของเสียง ประโยครวมถึง consonant cluster ทุกตัว, การรวมกันของสระ, และรูปแบบ prosodic ที่เครื่องสังเคราะห์ต้องการเพื่อสรุป ข้อความใหม่ วิธีนี้ได้รับการทดสอบอย่างดีและสร้างผลลัพธ์ที่เชื่อถือได้ แต่ต้องใช้ความมุ่งมั่นในการใช้เวลาอย่างมีนัยสำคัญ มักจะกระจายไปในหลายเซ็ชันในเดือนหรือหลายเดือน
วิธี AI cloning สมัยใหม่ ใช้แบบจำลองการเรียนรู้เชิงลึกที่สามารถสรุปจากชุดข้อมูลที่เล็กกว่า ซึ่งการสังเคราะห์นอกเหนือเป็นลำดับปกติต้องการทุก phoneme ที่ถูกบันทึกไว้อย่างชัดเจน การสังเคราะห์เสียงประสาทเรียนรู้การแสดงเสียงแบบนามธรรมและสามารถสร้างเสียงใหม่จากตัวอย่างที่น้อยลง ระบบบางระบบตอนนี้ผลิตผลลัพธ์ที่ยอมรับได้จาก 30-60 นาทีของเสียงสะอาด แม้ว่าชั่วโมงของการพูดที่บันทึกไว้ดีจะเหนือกว่าวันแห่งเสียงที่เสื่อมลงไปเสมอ
ความท้าทายเฉพาะของ ALS คือ หน้าต่างในการจับเสียงที่มีคุณภาพสูงจะเล็กลงเมื่อความก้าวหน้าของโรค บันทึกเสียงที่ทำเมื่อพูดได้ถูกเสียวเด้งแล้ว ต่ำเป็นระดับเสียง หรือสูญเสีย prosodic range สร้างเสียงที่สังเคราะห์ที่สืบทอดความบกพร่องเหล่านั้น เป้าหมายคือการบันทึกโดยเร็วที่สุด เมื่อเสียงยังคงฟังเหมือนธรรมชาติ
โปรแกรมการบันทึกเสียง 3 หลักสำหรับ ALS
ProjectRevoice
ProjectRevoice คือโปรแกรมฟรีที่สร้างมาโดยเฉพาะสำหรับคนที่มีชีวิตอยู่กับ ALS ก่อตั้งขึ้นด้วยการสนับสนุนจาก ALS Association และช่วยให้ผู้ป่วยหลายร้อยคนรักษาเสียงของพวกเขา โปรแกรมนี้จับคู่ผู้ป่วยกับอาสาสมัครการบันทึกเสียงและนักพูดศาสตร์ที่นำทางพวกเขาผ่านกระบวนการบันทึก
ProjectRevoice ใช้เทคโนโลยีการโคลนเสียง AI - ไม่ใช่การสังเคราะห์เป็นลำดับที่ - ซึ่งหมายความว่าข้อกำหนดการบันทึกนั้นสามารถจัดการได้มากกว่าวิธีการเก่า โปรไฟล์เสียงผลลัพธ์จะรวมเข้ากับแพลตฟอร์ม AAC ทั่วไป โปรแกรมยังเน้นความง่ายในการใช้งานสำหรับผู้ป่วยที่อาจเผชิญกับน้ำหนักอารมณ์และการใช้งานจริงของการวินิจฉัยล่าสุด
สำหรับครอบครัวในสหรัฐอเมริกา ProjectRevoice มักจะเป็นข้อแนะนำแรกจากคลินิก ALS มีการมี network ของสาขา ALS Association สามารถเชื่อมต่อผู้ป่วยกับโปรแกรมและให้การสนับสนุนตลอดกระบวนการ
Acapela MyOwnVoice
Acapela Group เป็นบริษัท เทคโนโลยีเสียงที่มีประวัติเสริมคุณภาพโครงสร้างพื้นฐานมาแรง โปรแกรม MyOwnVoice ของพวกเขาช่วยให้บุคคลสามารถสร้างเสียงสังเคราะห์ส่วนบุคคลจากบันทึก โดยมีแพ็กเกจออกแบบมาสำหรับคนที่ต้องการเสียงสำหรับการใช้ AAC
Acapela นำเสนอทั้งเส้นทางการบันทึกมาตรฐาน (นับร้อย ๆ ประโยคในอินเทอร์เฟซการบันทึกของเขา) และเส้นทางแบบย่อสำหรับผู้ป่วยที่มีความจุการบันทึกจำกัด เสียงผลลัพธ์จะถูกเก็บไว้ในระบบของพวกเขาและสามารถส่งออกไปยังซอฟต์แวร์ AAC ที่เข้ากันได้ เสียง Acapela รวมเข้ากับอุปกรณ์ Tobii Dynavox, ในหมู่คน อื่น ๆ
ราคาและตัวเลือกการสนับสนุนแตกต่างกันไปตามประเทศและสถานการณ์ สำหรับผู้ป่วย ALS ในยุโรปและออสเตรเลีย Acapela มักมีความเป็นหุ้นส่วนท้องถิ่นที่ลดหรือขจัดค่าใช้จ่าย ติดต่อทีมเทคโนโลยีของพวกเขาโดยตรงเพื่อทำความรู้จักกับตัวเลือกปัจจุบัน
ModelTalker
ModelTalker, พัฒนาโดยนักวิจัยที่มหาวิทยาลัย Delaware, เป็นหนึ่งในระบบการบันทึกเสียงที่มีอายุยาวนานที่สุด เป็นการเสียค่าใช้จ่ายแบบอิสระและมีบันทึกย้อนหลังอย่างกว้างขวางกับผู้ป่วย ALS และผู้ป่วยโรคประสาท motor อื่น ๆ
ระบบขอให้ผู้ใช้บันทึกชุดประโยคพาหะที่มีขนาดใหญ่ - ตามประวัติศาสตร์รอบ 1,600 แม้ว่าแพลตฟอร์มจะมีตัวเลือกสำหรับการบันทึกที่สั้นกว่า - ผ่านอินเทอร์เฟซการบันทึกบนเว็บ เมื่อเสร็จสิ้น ระบบจะสร้างเสียงสังเคราะห์แบบบุคลิกภาพที่สามารถใช้ในแอป SpeakIt ฟรีของพวกเขา หรือส่งออกสำหรับใช้ในระบบ AAC อื่น ๆ
ข้อดีหลักของ ModelTalker คือฐานวิจัยที่สร้างตั้งขึ้นและคุณภาพผลลัพธ์ที่เข้าใจได้ดี ข้อจำกัดหลักคือภาระการบันทึก - 1,600 ประโยคเป็นความมุ่งมั่นที่สำคัญ โดยเฉพาะอย่างยิ่งสำหรับผู้ป่วยที่มีความเหนื่อยล้าหรือเสื่อมสภาพเสียงในช่วงแรก วิธีการแบบเรียงลำดับ (การบันทึกในส่วนตามกิจกรรมในเดือนต่าง ๆ) เป็นวิธีแก้ปัญหาที่ได้รับการแนะนำ
การเปรียบเทียบโปรแกรมการบันทึกเสียง
| โปรแกรม | ค่าใช้จ่าย | ความต้องการการบันทึก | การรวม AAC | AI Cloning | ALS-Specific |
|---|---|---|---|---|---|
| ProjectRevoice | ฟรี | ปานกลาง (ขับเคลื่อนโดย AI) | ใช่ | ใช่ | ใช่ |
| Acapela MyOwnVoice | Subsidized/paid | ปานกลางถึงสูง | ใช่ (Tobii Dynavox, คนอื่น ๆ) | ใช่ | ไม่ (เสริมทั่วไป) |
| ModelTalker | ฟรี | สูง (1,600+ ประโยค) | Aplikasi SpeakIt + ส่งออก | ไม่ (เป็นลำดับที่) | ไม่ (ทั่วไป) |
| VoxBooster | ลองใช้ฟรี | สั้น (30-60 นาที) | ผ่านการส่งออกเสียง | ใช่ | ไม่ (ทั่วไป) |
VoxBooster ออกแบบมาหลักประการแรกสำหรับการเปลี่ยนแปลงเสียงเวลาจริงและการโคลนเสียงที่สร้างสรรค์ แต่เครื่องมือ AI ของมันสามารถสร้างโปรไฟล์เสียงส่วนบุคคลจากบันทึกที่จำกัด ไม่ใช่เส้นทาง AAC ทางการแพทย์ - ไม่ใช่แทน ProjectRevoice หรือ Acapela สำหรับการรวม AAC ข้อมูลมูลค่า - แต่สำหรับผู้ป่วยที่ต้องการสร้างเสียงส่วนบุคคลสำหรับการใช้งานในการสื่อสารครอบครัว, อุปกรณ์ประกอบเสียง, หรือการบันทึกข้อความสำหรับคนรักของพวกเขา นี่จะเสนอจุดเข้ากระบวนการที่เข้าถึงได้ไม่เกี่ยวข้องกับกระบวนการที่ยาวนาน ดูเพิ่มเติมในคำแนะนำของเราเกี่ยวกับ voice cloning สำหรับการผลิต voiceover เพื่อให้บริบทในวัตถุที่การสังเคราะห์เสียง AI สามารถผลิตได้
เมื่อเริ่มต้น: หน้าต่างเวลาที่สำคัญ
ข้อแนะนำที่สำคัญเพียงข้อเดียวจากนักพูดศาสตร์ที่เชี่ยวชาญด้าน ALS: เริ่มการบันทึกเสียงทันทีหลังจากการวินิจฉัย
นี่ไม่ใช่ความหวาดกลัว - มันเป็นเรื่องของโลจิสติก การบันทึกเสียงใช้เวลา และความก้าวหน้าของโรคสามารถเกินกว่า schedule การบันทึกที่ล่าช้า ผู้ป่วยที่เริ่มต้นเมื่อระดับความเข้าใจเสียงอยู่เหนือ 95% มีเวลาเพียงพอในการผลิตบันทึกเสียงที่ยอดเยี่ยมทั่วทั้งหลายเซ็ชัน ผู้ป่วยที่ล่าช้าจนกว่าเสียงจะได้รับผลกระทบอย่างเห็นได้ชัดแล้วมักขอให้พวกเขาเริ่มต้นเร็ว ๆ
เกณฑ์มาตรฐาน intelligibility สำหรับการบันทึกเสียง:
| ระดับ Intelligibility | การดำเนินการที่แนะนำ |
|---|---|
| 95-100% | เริ่มการบันทึกเสียงทันที่ นี่คือหน้าต่างที่เหมาะที่สุด |
| 85-95% | ยังคงดี จัดลำดับความสำคัญของเซ็ชัน, เป้าหมาย 2-3 ต่อสัปดาห์ |
| 70-85% | เป็นไปได้แต่บันทึกจะแสดงสิ่งที่เสื่อมบ้าง เริ่มต้นวันนี้ |
| ต่ำกว่า 70% | การแยกบันทึกจากบันทึกใหม่จะยากขึ้น ให้พิจารณาการสร้างใหม่จากบันทึกที่มีอยู่ (วิดีโอ, ข้อความเสียง) |
นักพูดศาสตร์ของคุณสามารถวัดระดับความเข้าใจอย่างเป็นทางการได้ Western Aphasia Battery และ Functional Communication Measure ของ ASHA ถูกใช้โดยทั่วไป
ความเหนื่อยล้าคือศัตรูของคุณภาพการบันทึก เซ็ชันควรเป็นเวลาสูงสุด 20-30 นาที โดยมีกำหนดการเมื่อพลังงานและเสียงของผู้ป่วยอยู่ที่จุดสูงสุดของวัน - โดยทั่วไปกลางเช้าสำหรับคนส่วนใหญ่ หลีกเลี่ยงการบันทึกหลังอาหาร, ระหว่างการเจ็บป่วย, หรือในตอนท้ายของวันเมื่อความเหนื่อยล้าของเสียงลดคุณภาพ
การรวม Cloned Voice กับอุปกรณ์ AAC
โปรไฟล์เสียงโคลนจึงมีประโยชน์ก็ต่อเมื่อมันสามารถสร้างเสียงได้จริงเมื่อผู้ป่วยเลือกคำหรือวลี บนอุปกรณ์ AAC ของพวกเขา การรวมแตกต่างกันไปตามแพลตฟอร์มและโปรแกรมการบันทึกเสียง
Tobii Dynavox
Tobii Dynavox เป็นผู้นำตลาดในอุปกรณ์ AAC ติดตามตา ซอฟต์แวร์ Snap และ Compass สนับสนุนโปรไฟล์เสียงที่กำหนดเอง เสียงที่สร้างขึ้นผ่านโปรแกรมการบันทึกที่เข้ากันได้ - รวมถึงการส่งออกที่เข้ากันได้กับ Acapela - สามารถโหลดเป็นเสียง TTS ของอุปกรณ์ ดังนั้นการสื่อสารตามการติดตามตาจะมีเสียงการพูดในเสียงของผู้ป่วยเอง
การรวม Tobii Dynavox ต้องการโปรไฟล์เสียงในรูปแบบที่เข้ากันได้ ไม่ใช่ผลลัพธ์ AI cloning ทั้งหมดที่เข้ากันได้โดยไม่มีการแปลง นักพูดศาสตร์หรือผู้เชี่ยวชาญด้านเทคโนโลยีสามารถนำทางการตั้งค่าทางเทคนิค
ระบบ EyeGaze
อุปกรณ์ EyeGaze (LC Technologies) ยังสนับสนุนการรวมเสียง TTS ที่กำหนดเอง แม้ว่าความเข้ากันได้ขึ้นอยู่กับเวอร์ชันซอฟต์แวร์เฉพาะ เสียงของผู้ป่วยจะถูกเลือกในการตั้งค่าซอฟต์แวร์ AAC และการป้อนข้อความใหม่จะถูกสังเคราะห์โดยใช้โปรไฟล์เสียงที่กำหนดเอง
ระบบ AAC แบบกริด (Snap Core First, TouchChat, Proloquo2Go)
แอปพลิเคชัน AAC ที่ใช้แท็บเล็ตเหล่านี้สนับสนุนเสียง TTS ที่กำหนดเองผ่านเครื่องมือเสียงที่เข้ากันได้ SAPI หรือแพลตฟอร์มเฉพาะ บางรายรับโปรไฟล์เสียงจาก Acapela และผู้จัดหาทำนองเดียวกันโดยตรง ตรวจสอบเอกสารแอปสำหรับรูปแบบการนำเข้าเสียงที่รองรับ
ช่องว่างระหว่างสิ่งที่มีอยู่และสิ่งที่ผู้ป่วยต้องการ
หนึ่งในการสังเกตที่ตรงไปตรงมา: ไปป์ไลน์ทางเทคนิคจาก “AI voice clone” ไป “เสียง AAC ที่ใช้งานได้” ไม่เสมอไป เรียบเนียน โปรแกรมการบันทึกเสียงทางการแพทย์ได้ลงทุนโดยเฉพาะในปัญหาการรวม นี่ เครื่องมือ AI voice cloning วัตถุประสงค์ทั่วไป - รวมถึงบริการการค้าจำนวนมาก - อาจสร้างเสียงยอดเยี่ยม แต่ไม่ส่งออกในรูปแบบที่ปลั๊กเข้าตรงในอุปกรณ์ AAC
นี่คือเหตุผลที่โปรแกรมทางการแพทย์เช่น ProjectRevoice มีอยู่ พวกเขาแก้ไขไม่ใช่แค่ปัญหาการสร้างแบบจำลอง AI แต่ยังปัญหาการรวม เครื่องมือ AI voice cloning วัตถุประสงค์ทั่วไปเติมเต็มความต้องการที่แตกต่าง: การสร้างเสียงสำหรับข้อความครอบครัว, บันทึกเสียง, เนื้อหาที่บันทึกไว้หรือการสื่อสารไม่เป็นทางการที่ไม่ได้นำทางผ่านอุปกรณ์ AAC
Voice Cloning เมื่อเสียงได้ลดลงแล้ว
ไม่ใช่ผู้ป่วย ALS ทุกคนจะได้ยินเกี่ยวกับการบันทึกเสียงในเวลา สำหรับผู้ป่วยที่ได้รับความสูญเสียเสียงที่มีนัยสำคัญแล้ว มีสองตัวเลือกที่มีอยู่
การสร้างใหม่จากบันทึกที่มีอยู่
วิดีโอบ้าน, ข้อความเสียง, การบันทึกโทรศัพท์, คำปราศรัยวันเกิด, การบันทึกที่เป็นมืออาชีพ, หรือเสียงใด ๆ ที่ซึ่งคนนี้พูดอย่างชัดเจนสามารถโปรดปรานเป็นวัสดุต้นทาง ระบบการสังเคราะห์เสียง AI สามารถฝึกอบรมในเรื่องนี้ แม้ว่าคุณภาพจะแตกต่างกันไปอย่างมาก โดยอ้างอิงจาก:
- คุณภาพเสียง (ข้อความเสียงที่บันทึกโทรศัพท์มักจะมีเสียงดัง)
- ความยาวการบันทึก (มากกว่าดีกว่า; ข้อความเสียงยาว 20 วินาทีให้ผลลัพธ์ที่ไม่ดี)
- ความสอดคล้องของรูปแบบการพูด (เสียงอ่านใช้งานได้ดีกว่าการสนทนาอย่างไม่เป็นทางการ)
- ระดับเสียงรบกวนพื้นหลัง
บริการบางแห่งเชี่ยวชาญการสร้างเสียงใหม่จากตัวอย่างที่จำกัด ผลลัพธ์นั้นไม่ค่อยเป็นธรรมชาติเหมือนคลังเสียงที่บันทึกมีจุดประสงค์ แต่แม้กระทั่งการสร้างใหม่ที่ไม่สมบูรณ์ก็อาจมีน้ำหนักอารมณ์สำหรับสมาชิกครอบครัว - จังหวะ, สำเนียง, การนำเสนอลักษณะเฉพาะยังคงอยู่ที่นั่น
สำหรับครอบครัว ALS ที่คิดเกี่ยวกับการสงวนรักษาเสียงเพื่อความจำ และการเชื่อมต่อแทนการใช้ AAC ที่ใช้งาน, คำแนะนำที่เกี่ยวข้องของเราเกี่ยวกับ voice cloning สำหรับเสียงความเศร้า และอรรถาธิบาย และ voice cloning สำหรับเสียง dementia และความเป็นเมตตา สำรวจมิตินี้โดยละเอียด
แนวทางการบันทึกที่เปลี่ยนแปลงจากเสียงที่เสื่อมดอย
หากเสียงบางส่วนยังคงอยู่ การบันทึกยังคงควร ลองทำ เสียงที่คะแนน 60-70% เกี่ยวกับความชัดเจนยังคงสามารถสร้างเสียงที่สังเคราะห์ได้ โดยเฉพาะสำหรับวลีที่ใช้บ่อย ๆ และการสื่อสารครอบครัว - มันเพียงแค่จะไม่เป็นภาพรวมที่สะอาดเพื่อข้อความใหม่ วิธีการ pragmatic: ธนาคารชุดข้อมูลหลักของวลีที่ใช้บ่อย ๆ (สำนวนของความรักความสามารถของการร้องขอที่ต้องการการตอบสนองความรู้สึก) แทนที่จะพยายามสร้างแบบจำลองเสียงที่สร้างได้อย่างเต็มที่ แม้แต่ระบบตามวลีในเสียงของผู้ป่วยยังมีความหมายสำคัญมากกว่าเสียง TTS ทั่วไป
มิติทางอารมณ์: เสียงเป็นตัวตน
นี่ไม่ใช่หัวข้อทางการแพทย์ แต่เป็นของการสนทนาที่ตรงไปตรงมาเกี่ยวกับการบันทึกเสียง ALS
เสียงของบุคคลคือ หนึ่งในแง่มุมของการมีอยู่ที่เชื่อมโยงตัวตนมากที่สุด เป็นสำเนียงพื้นที่ ความเป็นตัวตน ช่วงของอารมณ์ อารมณ์ขัน และประวัติศาสตร์ ภรรยาสามีที่ได้ยินเสียงเดียวกันมา 30 หรือ 40 ปีจดจำเสียงขณะที่พวกเขาจดจำใบหน้า เด็ก ๆ ของผู้ป่วย ALS - โดยเฉพาะเด็กเล็ก - อาจเติบโตขึ้นด้วยการบันทึกตามธรรมชาติเพียงไม่กี่รายการของเสียง ของผู้ปกครองของพวกเขา
การบันทึกเสียง, เมื่อประสบความสำเร็จ, คำป้องกันตัวตนนั้น มันอนุญาตให้ผู้ป่วย ALS:
- ยังคงพูดในการสนทนาครอบครัวด้วยเสียงที่ฟังเหมือนพวกเขา
- บันทึกข้อความสำหรับเด็ก ๆ และหลาน ๆ เพื่อเปิดปีต่อมา
- รักษาความรู้สึกของตัวตนในช่วงเวลาที่ร่างกายกำลังเปลี่ยนแปลงอย่างรวดเร็ว
- สื่อสารความรู้สึกผ่านเสียงที่มีความอบอุ่นและจังหวะลักษณะเฉพาะของพวกเขา ไม่ใช่เสียงคอมพิวเตอร์ทั่วไป
มูลค่าเชิงปฏิบัติของการสื่อสาร AAC นั้นชัดเจน มูลค่าทางอารมณ์ของการฟังเหมือนตัวเองในขณะที่ทำเช่นนั้นนั้นยากต่อการวัดปริมาณ แต่อาจมีความสำคัญมากกว่า
สำหรับครอบครัวที่สร้างข้อความเสียงหรือการบันทึกสำหรับอนาคต - ไม่จำเป็นต้องใช้ AAC ที่ใช้งาน - เครื่องมือเช่น VoxBooster สามารถสร้างเนื้อหาเสียงในเสียงที่สงวนรักษาไว้จากข้อความเขียนได้ ผลลัพธ์สามารถกลายเป็นการอ่านข้อความอ้างอิงสำหรับวิดีโอครอบครัว, บันทึกเสียงส่วนบุคคล, หรือข้อความที่จะส่งมอบในเหตุการณ์สำคัญในอนาคต คำแนะนำของเราเกี่ยวกับ นิทานก่อนนอนแบบบุคคลที่สร้างขึ้นด้วย voice cloning แสดงการประยุกต์ใช้ที่สร้างสรรค์ของความสามารถนี้
การฝึกอบรมการบันทึกเสียงที่ดีที่สุดสำหรับการบันทึกเสียง ALS
ไม่ว่าโปรแกรมที่คุณใช้, คุณภาพการบันทึกสำคัญอย่างมาก นิสัยเหล่านี้ใช้ได้อย่างสากล
อุปกรณ์:
- ใช้ไมโครโฟนตัวเก็บประจุ USB แทนไมโครโฟน Laptop ที่สร้างขึ้นมาแล้ว ไมโครโฟนที่เฉพาะเจาะจงวางห่างจากปากหกถึงแปดนิ้วลดเสียงรบกวนห้องและจับภาพการตอบสนองความถี่ที่เต็มไป
- บันทึกในห้องเงียบสงบ หลีกเลี่ยงเครื่องใช้ในครัว, เสียงรบกวน HVAC, หรือหน้าต่างกรรมทรัพย์ที่ติดกันซึ่งมีการจราจร
- บันทึกไฟล์ WAV ที่ 44.1 kHz หรือ 48 kHz, 16-bit ขั้นต่ำ อย่าบันทึกใน MP3 - การบีบอัดการสูญเสียที่แหล่งก่อนลดคุณภาพแบบจำลองเสียง
เซ็ชันการบันทึก:
- สูงสุด 20-30 นาทีต่อเซ็ชัน ความเหนื่อยล้าของเสียงลดคุณภาพการบันทึกและแบบจำลองเรียนรู้จากเสียงที่เหนื่อยล้า
- กำหนดการเซ็ชันเมื่อพลังงานสูงที่สุด - โดยปกติในช่วงกลางเช้า
- พูดที่ระดับเสียงและอัตราการสนทนาตามธรรมชาติ อย่า “แสดง” หรือเกินจริงเสร็จ - AI ฝึกอบรมในวิธีที่คุณพูดจริง ๆ
- บันทึกในหลายวัน สภาวะเสียงที่แตกต่างกันทั่วทั้งเซ็ชันจริง ๆ ดีขึ้น ทั่วไปของแบบจำลอง
สิ่งที่ต้องบันทึก:
- ประโยคที่ต้องการทั้งหมดจากรายชื่อที่กำหนดไว้ของโปรแกรมการบันทึก
- วลีส่วนบุคคลเพิ่มเติม: ชื่อสมาชิกครอบครัว, ความสำนึก ตามที่ใช้บ่อย ๆ, เงื่อนไขของความรักที่มีความรักอย่างมีความสุข
- ส่วนการพูดแบบอิสระสั้น (อ่านเสริมหรือพูดตามธรรมชาติเป็นเวลา 5 นาที) เพื่อจับการแปรปรวนลักษณะเฉพาะ
ตั้งค่าเทคนิค:
- ปิดการใช้งานการควบคุมอัตราการเพิ่ม Autoمา AGC) ในซอฟต์แวร์การบันทึกของคุณ - มันบีบอัดไดนามิกด้วยวิธีที่สับสนโมเดลเสียง
- เป้าหมายสำหรับจุดสูงสุดรอบ -12 ถึง -6 dBFS บนมิเตอร์ของคุณ
- ฟังกลับ 60 วินาทีแรกก่อนที่จะยืนยันเซ็ชันเต็ม - ดีกว่ากับการจับแอร์คอนกระหน่ำก่อนการบันทึก 300 ประโยคกว่า หลังจาก
วิธี AI Voice Cloning ทั่วไปเปรียบเทียบ
นอกจากโปรแกรมการบันทึกเสียง ALS เฉพาะ, เครื่องมือ AI voice cloning วัตถุประสงค์ทั่วไป - รวมถึง VoxBooster, ElevenLabs, Resemble AI และอื่น ๆ - มีการเจริญเติบโตอย่างมาก ผู้ป่วย ALS บางคนและครอบครัวใช้เครื่องมือเหล่านี้ข้างๆ หรือแทนที่จะเป็นโปรแกรมการบันทึกเฉพาะ โดยเฉพาะสำหรับกรณีการใช้นอกการรวม AAC อุปกรณ์
ความแตกต่างหลัก:
| ปัจจัย | โปรแกรม ALS เฉพาะ | AI Cloning วัตถุประสงค์ทั่วไป |
|---|---|---|
| การรวม AAC อุปกรณ์ | ดั้งเดิม, ทดสอบ | Manual/ตัวแปร |
| การสนับสนุนเสียงศาสตร์ทางการแพทย์ | ใช่ | ไม่ใช่ |
| การนำทางการบันทึก | มีโครงสร้าง, ก้อม | ผู้บังคับบัญชาตัวเอง |
| ค่าใช้จ่าย | ฟรี / เสริม | แตกต่าง; ช่วงที่มักฟรี |
| ความเป็นธรรมชาติของผลลัพธ์ | สูง (มีการสร้าง) | สูง (การปรับปรุงอย่างรวดเร็ว) |
| โปรแกรมการใช้ | การสื่อสาร AAC | สร้างสรรค์, ครอบครัว, อรรถาธิบาย |
| ความสามารถ/ประกันทรัพย์สิน | บางครั้ง | ไม่ค่อยครอบคลุม |
สำหรับผู้ป่วยที่ต้องการเสียงสำหรับข้อความครอบครัว, บันทึกเสียง, หรือวัตถุประสงค์สร้างสรรค์ - แต่ไม่จำเป็นต้องมีการรวม AAC อุปกรณ์ - เครื่องมือวัตถุประสงค์ทั่วไปมีเส้นทางที่เร็วกว่า, ยืดหยุ่นมากขึ้น เทคโนโลยีการสังเคราะห์เสียง AI ในเครื่องมือเหล่านี้ได้บรรลุระดับคุณภาพซึ่งทำให้ผลลัพธ์ส่วนบุคคลและทำให้รู้สึกเชื่อมโยง ไม่ใช่แค่ทำงาน ทางเทคนิค เท่านั้น
หากคุณเรียนรู้นี้สำหรับสมาชิกครอบครัวที่สนใจ voice cloning สำหรับวัตถุประสงค์สร้างสรรค์หรือบำบัด - ตัวอย่างเช่น, วิธีการที่ voice cloning ถูกใช้เพื่อสนับสนุนคนที่มีความท้าทายในการสื่อสารจากสาเหตุอื่น ๆ - บทความของเรา เกี่ยวกับ voice cloning สำหรับบริบทการบำบัดพูด ให้มุมมองเพื่อนบ้านที่มีประโยชน์
ขั้นตอนภาคปฏิบัติ: เริ่มต้นสัปดาห์นี้
หากคุณหรือคนที่คุณรู้จักมีการวินิจฉัย ALS นี่คือลำดับการเริ่มต้นแบบปฏิบัติ:
-
ติดต่อ ProjectRevoice (projectrevoice.org) และขอการสมัครเรียน พวกเขาจะแนวทางการคุณผ่านกระบวนการของพวกเขาโดยไม่มีค่าใช้จ่ายและเชื่อมต่อคุณกับนักพูดศาสตร์หากคุณไม่ได้มีอันหนึ่งแล้ว
-
ขอให้แพทย์โรคเก้าขอให้อ้างถึง ไปยังคลินิก ALS มีนักพูดศาสตร์ที่เชี่ยวชาญใน AAC นี่เป็นความต้องการทางการแพทย์ ไม่ใช่ความสู่วรรค - SLPs ทำงานกับผู้ป่วย ALS รู้โปรแกรมการบันทึก, อุปกรณ์ AAC และขั้นตอน ร่วม
-
ตั้งค่าสิ่งแวดล้อมการบันทึกพื้นฐานสัปดาห์นี้. คุณไม่ต้องรอกระบวนการการบันทึกอย่างเป็นทางการเพื่อเริ่มจับเสียงของคุณ บันทึก 30 นาทีการสนทนาตามธรรมชาติ อ่านเสริมสองสามตัว บรรยายเรื่องครอบครัว บันทึกนี้มีค่าไม่ว่าโปรแกรมการบันทึกอย่างเป็นทางการไหนที่คุณใช้ในภายหลัง
-
บันทึกสิ่งแวดล้อมการบันทึกที่มีอยู่. ไปผ่านวิดีโอโทรศัพท์, ข้อความเสียง, วิดีโอเก่า, บันทึกใด ๆ ที่เสียงมีสิ้นและชัดเจน ทำ ส ำสำเนา ของ บันทึก เหล่านี้ ในหลายจุด หากการบันทึกอย่างเป็นทางการไม่สามารถทำได้ในภายหลัง บันทึกเหล่านี้กลายเป็นวัสดุต้นทางสร้างใหม่ของคุณ
-
พูดคุยกับสาขา ALS Association ท้องถิ่นของคุณ. พวกเขามักมีเงินทุนเพื่อครอบคลุมค่าใช้จ่ายอุปกรณ์ (ไมโครโฟน USB, ซอฟต์แวร์การบันทึก) และสามารถเชื่อมต่อคุณกับอาสาสมัครผ่านการบันทึก
-
**อย่าล่าช้าเพื่อรอ “เวลาที่เหมาะสม”.” ไม่มีเวลาที่เหมาะสม - มีเพียงตอนนี้และหลัง สำหรับการบันทึกเสียง, ตอนนี้ยังคงดีกว่า
บทสรุป
การบันทึกเสียง ALS คือหนึ่งในแอปพลิเคชันที่มีความหมายมากที่สุดของเทคโนโลยีเสียง AI สมัยใหม่ ความสามารถในการบันทึกเสียงก่อนที่เสียงจะลดลง - และจากนั้นปรับใช้มันผ่านอุปกรณ์ AAC เพื่อให้บุคคลยังคงฟังเหมือนตัวเองทั่วทั้งหลายปีของการสื่อสาร - แสดงถึงการปรับปรุงที่แท้จริงในคุณภาพชีวิตและศักดิ์ศรี
ขั้นตอนเชิงปฏิบัติที่สำคัญ: เริ่มต้นเร็วที่สุด, ใช้โปรแกรมที่ปรึกษา ProjectRevoice และ Acapela MyOwnVoice สำหรับการบันทึกเสียง AAC-รวม, บันทึกในเงื่อนไขคุณภาพด้วยอุปกรณ์ที่เหมาะสม และระดับเครื่องมือ AI voice cloning วัตถุประสงค์ทั่วไปสำหรับปัญหาครอบครัว และอรรถาธิบายที่นอกเหนือจาก ไปป์ไลน์ทางการแพทย์
เครื่องมือเช่น VoxBooster สามารถเสริม กระบวนการนี้ - การสร้างเนื้อหาเสียงในเสียงที่สงวนรักษาไว้สำหรับข้อความบันทึก, ครอบครัว ที่สล่านรู, หรือโครงการส่วนบุคคล - โดยไม่ต้องแทนที่เส้นทางทางการแพทย์สำหรับการรวม AAC อุปกรณ์ การทดสอบฟรี 3 วันสามารถใช้ได้โดยไม่ต้องบัตรเครดิต หากคุณต้องการสำรวจสิ่งที่เทคโนโลยีสามารถผลิตได้จากตัวอย่างการบันทึก
เสียงที่มีความสำคัญคือเสียงที่เป็นของบุคคลนั้น ทุกสัปดาห์ของการบันทึกเสียงที่เกิดขึ้นเร็วขึ้นคือรูปแบบเสียง ที่ดีกว่า ที่ทำหน้าที่ผู้ป่วยและครอบครัวสำหรับส่วนที่เหลือของชีวิต พวกเขาเป็นหนึ่งเดียวกัน
คำถามที่พบบ่อย
การบันทึกเสียงสำหรับผู้ป่วย ALS คืออะไรและเหตุใดจึงมีความสำคัญ
การบันทึกเสียง ALS คือกระบวนการบันทึกเสียงธรรมชาติของคุณก่อนที่การเสื่อมสภาพของโรคจะทำให้ความสามารถในการพูดลดลงอย่างมีนัยสำคัญ จากนั้นระบบ AI จะใช้บันทึกเหล่านั้นเพื่อสร้างเสียงที่ถูกทำให้เป็นเสียงสังเคราะห์ของเสียงของคุณ ซึ่งขับเคลื่อนอุปกรณ์ AAC (การสื่อสารเพิ่มเติมและทดแทน) การเริ่มต้นก่อนเวลา - ในขณะที่เสียงยังคงแข็งแรง - จะให้ผลลัพธ์ที่ดีขึ้นอย่างมาก
ผู้ป่วย ALS ควรเริ่มการบันทึกเสียงเมื่อใด
ยิ่งเร็วเท่าไหร่ก็ยิ่งดี หลังจากการวินิจฉัย - โดยอุดมคติคือก่อนที่ความสามารถในการพูดจะได้รับผลกระทบอย่างเห็นได้ชัด นักพูดศาสตร์ส่วนใหญ่ขอแนะนำให้เริ่มต้นเมื่อความชัดเจนของเสียงยังคงอยู่เหนือ 90% คุณภาพของเสียงจะลดลงในเดือน และโมเดล AI voice cloning ที่ได้รับการฝึกอบรมจากเสียงที่ชัดเจนจะสร้างผลลัพธ์ที่เป็นธรรมชาติมากกว่าโมเดลที่ได้รับการฝึกอบรมจากบันทึกเสียงที่เสื่อมลงไปแล้ว
การบันทึกเสียงจำเป็นต้องเสียค่าใช้จ่ายสำหรับผู้ป่วย ALS หรือไม่
โปรแกรมหลายโปรแกรมมีการบันทึกเสียงฟรีหรือได้รับการสนับสนุนโดยเฉพาะสำหรับผู้ป่วย ALS และผู้ป่วยโรค motor neuron อื่น ProjectRevoice มีการบันทึกเสียงฟรีโดยสิ้นเชิงโดยเน้น ALS Acapela MyOwnVoice และ ModelTalker ยังเสนอเส้นทางฟรี ติดต่อสาขา ALS Association ท้องถิ่นของคุณเพื่อรับข้อมูลเพิ่มเติมเกี่ยวกับทรัพยากรทางการเงิน
สามารถใช้เสียงที่ถูกโคลนสำหรับผู้ป่วย ALS ได้กับ Tobii Dynavox และอุปกรณ์ AAC อื่น ๆ หรือไม่
ได้ โปรแกรมบันทึกเสียงระดับมืออาชีพส่วนใหญ่ส่งออกโปรไฟล์เสียงในรูปแบบที่เข้ากันได้กับแพลตฟอร์ม AAC หลักรวมถึง Tobii Dynavox, ระบบ EyeGaze และแอปพลิเคชันการสื่อสารแบบกริด ยืนยันความเข้ากันได้ของรูปแบบส่งออกกับนักพูดศาสตร์ของคุณก่อนเลือกโปรแกรมการบันทึก เนื่องจากขั้นตอนการรวมแตกต่างกันไปตามอุปกรณ์
การบันทึกเสียงต้องใช้กี่ชั่วโมงในการบันทึก
ข้อกำหนดแตกต่างกันไปตามโปรแกรม ModelTalker ตามประเพณีขอให้บันทึกประโยค 1,600 ประโยค Acapela MyOwnVoice ต้องใช้เวลาน้อยลงอย่างมีนัยสำคัญ แต่ยังคงได้ประโยชน์จากเซ็ชันที่ยาวขึ้น วิธี AI voice cloning ที่ใหม่กว่าสามารถทำงานได้ด้วยเพียง 30-60 นาทีของเสียงที่ชัดเจน แม้ว่าข้อมูลมากขึ้นจะให้ผลลัพธ์ที่เป็นธรรมชาติมากขึ้นเสมอ กระจายเซ็ชันในหลายวันเพื่อหลีกเลี่ยงความเหนื่อยล้าของเสียง
จะเกิดอะไรขึ้นหากผู้ป่วย ALS สูญเสียเสียงตามธรรมชาติของพวกเขาแล้ว
หากมีบันทึกเสียงธรรมชาติของบุคคลนั้นอยู่ - วิดีโอที่บ้าน, ข้อความเสียง, สัมภาษณ์, ข้อความเสียง - บันทึกเหล่านี้บางครั้งสามารถใช้เป็นวัสดุต้นทางสำหรับการสร้างใหม่ได้ แม้ว่าคุณภาพจะแตกต่างกันไป บริการบางแห่งเชี่ยวชาญในการสร้างเสียงใหม่จากตัวอย่างที่จำกัด เสียงอรรถาธิบายแฟมิลี่ AI ใช้เพื่อจุดประสงค์อื่น แต่เกี่ยวข้องกันสำหรับครอบครัวที่ต้องการรักษาความเชื่อมโยง
ผู้ป่วย ALS สามารถใช้ voice cloning เพื่อการสื่อสารแบบเรียลไทม์ได้หรือไม่
ได้ โดยมีการรวม AAC สมัยใหม่ โปรไฟล์เสียงที่สังเคราะห์ได้สามารถโหลดลงในซอฟต์แวร์ AAC เพื่อให้เมื่อผู้ป่วยเลือกคำหรือวลี - โดยใช้การติดตามตา, การเข้าถึงสวิตช์ หรือวิธีการป้อนข้อมูลอื่น ๆ - เอาต์พุตจะใช้เสียงที่โคลนของพวกเขาแทนซินโธไซเซอร์แบบทั่วไป สิ่งนี้รักษาเอกลักษณ์ของเสียงในการสนทนาในชีวิตประจำวัน