การโคลนเสียงเพื่อการเข้าถึง TTS: เสียงส่วนตัวสำหรับอุปกรณ์ใด ๆ
การโคลนเสียงเพื่อการเข้าถึงได้เปลี่ยนจากห้องปฏิบัติการวิจัยไปเป็นโต๊ะข้างเตียงนอนในช่วงสองสามปี สำหรับผู้ที่ใช้ชีวิตกับ ALS, MND, laryngectomy หรือภาวะใด ๆ ที่ค่อย ๆ ทำให้ความสามารถในการพูดหดลง ความสามารถในการรักษาและใช้เสียงของตนเองต่อมา — ไม่ใช่เครื่องสังเคราะห์เสียงหุ่นยนต์ทั่วไป — ผ่านอุปกรณ์ TTS หรือสมาร์ทโฟนจึงไม่ใช่ความเป็นไปได้ที่ห่างไกล มันพร้อมใช้งานในวันนี้และคำแนะนำนี้อธิบายวิธีการ
เราจะครอบคลุมเทคโนโลยีอย่างชัดเจน เปรียบเทียบแพลตฟอร์มหลัก รวมถึง Apple Personal Voice, Acapela My-own-voice, VocaliD, ElevenLabs และ VoxBooster และให้คำแนะนำด้านปฏิบัติเกี่ยวกับเวลา คุณภาพการบันทึก และการรวมอุปกรณ์ AAC
ประเด็นสำคัญ
- การทำธนาคารเสียงควรเริ่มต้นเร็วขึ้น — ก่อนการลดลงของการพูดที่มีนัยสำคัญ — เพื่อจับภาพวัสดุต้นทางที่ดีที่สุด
- Apple Personal Voice (iOS 17+) ให้บริการโคลนเสียงฟรีบนอุปกรณ์สำหรับผู้ใช้ในภาษาที่รองรับ
- แพลตฟอร์ม AAC มืออาชีพ (Acapela, VocaliD) มีรูปแบบความเที่ยงตรงสูงที่ออกแบบมาโดยเฉพาะสำหรับอุปกรณ์สื่อสารเสริม
- แพลตฟอร์มการสังเคราะห์เสียง AI (ElevenLabs, VoxBooster) ให้เวลาการหมุนเวียนที่เร็วขึ้นและตัวเลือกการกำหนดเส้นทางที่มีความยืดหยุ่นมากขึ้น
- เสียงที่ถูกโคลนสามารถใช้ได้กับอุปกรณ์ AAC, ตัวอ่านหน้าจอ, ไมโครโฟนเสมือน และแอปพลิเคชัน TTS ทั่ว Windows, iOS และ Android
- การโคลนเสียงสำหรับการผ่าตัดตามแบบ (เช่น laryngectomy สำหรับการรักษามะเร็ง) นั้นถูกต้องเท่า ๆ กันและควรวางแผนไว้ก่อนการผ่าตัด
การโคลนเสียงเพื่อการเข้าถึงคืออะไร?
การโคลนเสียงเพื่อการเข้าถึงคือการใช้การสังเคราะห์เสียง AI เพื่อสร้างรูปแบบ text-to-speech ที่ปรับแต่งไว้ตามการบันทึกเสียงของบุคคลที่ระบุ รูปแบบผลลัพธ์ช่วยให้บุคคลนั้นสามารถพิมพ์ข้อความและให้เป็นเสียงดังออกมาด้วยเสียงที่ฟังดูเหมือนเสียงของตนเอง แทนที่จะเป็นเสียงเครื่องสังเคราะห์ทั่วไป
เรื่องนี้สำคัญเพราะเหตุผลที่เป็นมนุษย์ที่เรียบง่าย: ตัวตน เสียงของบุคคลหนึ่งมีบุคลิกภาพ สำเนียง สีสันทางอารมณ์ และความสัมพันธ์นับสิบปีที่สร้างขึ้นจากเสียงนั้น เมื่อภาวะหนึ่งทำให้ความสามารถทางกายภาพในการสร้างเสียงพูดหายไป การสูญเสียตัวละครของเสียงสูงสุดการสูญเสียความสามารถในการสื่อสารจึงเป็นความทุกข์ที่เพิ่มขึ้นเป็นสองเท่า การโคลนนำเสนอวิธีในการรักษาและบูรณคืนชั้นตัวตนนั้น
เทคโนโลยีที่อยู่เบื้องหลังสิ่งนี้เปลี่ยนแปลงอย่างมีนัยสำคัญ ระบบการทำธนาคารเสียงแบบเชื่อมต่อในยุคแรกได้เย็บบันทึกโฟนีมเข้าด้วยกัน — ใช้งานได้ แต่เป็นเครื่องจักรสำหรับประโยคนวนิยาย รูปแบบ TTS ประสาทสมัยใหม่เรียนรู้ลักษณะเสียงของเสียงโดยรวมและสามารถสังเคราะห์ข้อความตามอำเภอใจกับ prosody ธรรมชาติ intonation และแม้แต่สีสันอารมณ์บางอย่าง
ใครใช้การโคลนเสียง TTS เพื่อการเข้าถึง?
ผู้ป่วย ALS และ MND
Amyotrophic Lateral Sclerosis (ALS) และ Motor Neuron Disease (MND) เป็นการวินิจฉัยที่พบบ่อยที่สุดในการขับเคลื่อนความต้องการสำหรับการทำธนาคารเสียง โรคนี้คืบหน้าไปในอัตราที่แตกต่างกัน แต่ ALS onset bulbar สามารถส่งผลกระทบต่อการพูดภายในหลายเดือนหลังจากการวินิจฉัย บุคลากรทางการแพทย์และการกุศลแนะนำการบันทึกเสียงอย่างต่อเนื่องควรเริ่มต้นโดยเร็วที่สุดเท่าที่จะเป็นไปได้หลังจากการวินิจฉัย — ในอุดมคติคือในขณะที่การพูดยังคงอยู่ที่ 100% เข้าใจได้และไม่มีความเหนื่อยล้าที่เห็นได้ชัด
Stephen Hawking Communication Centre และองค์กรเช่น Motor Neurone Disease Association ให้คำแนะนำและบางครั้งสนับสนุนด้านการเงินสำหรับกระบวนการนี้
ผู้ป่วย Laryngectomy
Laryngectomy ทั้งหมด — การผ่าตัดถอดคอนกรีต อย่างน้อยส่วนใหญ่เนื่องจากมะเร็งของคอนกรีตหรือต่อมไทรอยด์ — ส่งผลให้การสูญเสียเสียงธรรมชาติที่สมบูรณ์ ไม่เหมือน ALS นี่มักจะเป็นการผ่าตัดตามตำแหน่ง ซึ่งหมายความว่าการบันทึกเสียงก่อนการผ่าตัดนั้นเป็นไปได้และแนะนำอย่างเข้มแข็ง ผู้ป่วยที่ได้บันทึกเสียงของพวกเขาก่อนการผ่าตัดสามารถใช้เสียง TTS ที่ถูกโคลนทันทีหลังจากการผ่าตัดมากกว่าการเริ่มต้นจากศูนย์ด้วยการแขวนทำงานจำกัดหรือใช้แนวทางเดียว
สำหรับผู้ป่วยเหล่านี้ การโคลนเสียงไม่ใช่โครงการระยะยาว แต่เป็นงานเฉพาะก่อนการผ่าตัดที่มีกำหนดเสร็จแข็ง
Spasmodic Dysphonia และโรค Parkinson
Spasmodic dysphonia ทำให้เกิดอาการระแวกของเสียงที่ไม่ได้ตั้งใจซึ่งทำให้การพูดเป็นสิ่งมีค่าและไม่สอดคล้อง โรค Parkinson มักส่งผลให้เกิด hypophonia (เสียงพูดที่เงียบมาก, นุ่ม) และ dysarthria ประชากรทั้งคู่อาจถึงจุดที่การเสริมหรือแทนที่ TTS นั้นดีกว่าการต่อสู้ผ่านการสื่อสารลอย
การบันทึกในขณะที่การพูดยังคงค่อนข้างชัดเจนยังคงเป็นกลยุทธ์ที่ดีที่สุด — เสียง Parkinson hypophonic ผลิต richer ที่อ่อนแอกว่า hypophonic ก่อนการรักษาจะเกิด
สถานการณ์ที่สามารถเลือกได้
ไม่ใช่การโคลนเสียงทั้งหมดสำหรับการใช้ TTS มาจากการวินิจฉัยทางการแพทย์ บุคคล transgender ที่ยังไม่ผ่านการฝึกอบรมเสียงอาจใช้เสียงที่ถูกโคลนเป็นเอาต์พุต TTS ที่ชื่นชอบเพศในขณะที่เสียงธรรมชาติของพวกเขาพัฒนา บุคคลประชาชนที่ต้องการสร้างสิ่งพิมพ์เสียงที่สามารถเข้าถึงได้หรือเวอร์ชัน AI narrator ของเสียงของพวกเขาใช้โคลนเพื่อการผลิต TTS ที่ปรับขนาดได้ อาจารย์และนักสื่อสารที่พึ่งพาเสียงของพวกเขามากอาจจัดเก็บเพื่อป้องกันการป้องกัน
Apple Personal Voice: โคลนบนอุปกรณ์สำหรับทุกคน
Apple แนะนำ Personal Voice ใน iOS 17 และ macOS Sonoma (2023) เป็นคุณสมบัติการเข้าถึงที่ไม่ต้องการการสมัครสมาชิกและประมวลผลบนอุปกรณ์อย่างสมบูรณ์ ปัจจุบันมีให้บริการสำหรับภาษาอังกฤษ (สหรัฐอเมริกา, สหราชอาณาจักร, ออสเตรเลีย, อินเดีย), สเปน, ฝรั่งเศส, เยอรมัน, อิตาลี, เกาหลี, จีน, กวางตุ้งและญี่ปุ่น
วิธีการตั้งค่า Apple Personal Voice
- ไปที่ Settings > Accessibility > Personal Voice.
- แตะ Create a Personal Voice และทำตามคำแนะนำการตั้งค่า
- คุณจะถูกขอให้อ่านประมาณ 150 วลีที่สุ่มเรียงสับเปลี่ยนออกมาดัง — วลีเดียวกันจะใช้ในแต่ละเซสชันเพื่อให้ครอบคลุมช่วงเสียงกว้าง
- แต่ละเซสชันสามารถสั้นหรือยาวได้ตามต้องการ; การบันทึกจะบันทึกความคืบหน้าเพื่อให้คุณสามารถดำเนินการให้เสร็จในหลายวัน
- เมื่อบันทึกเสร็จสิ้น อุปกรณ์ของคุณจะประมวลผลรูปแบบระหว่างคืนขณะชาร์จ
- เปิดใช้งาน Settings > Accessibility > Live Speech เลือก Personal Voice ของคุณ และคุณสามารถพิมพ์เพื่อพูดด้วยเสียงที่ถูกโคลนของตนเองจาก Control Center
การรวม Live Speech หมายความว่า Personal Voice ของคุณพร้อมใช้งานข้ามการเรียกใช้ FaceTime, การเรียกโทรศัพท์ และแอปพลิเคชันอื่น ๆ ที่ใช้เสียงของระบบ — ไม่ใช่แอปพลิเคชัน TTS แบบสแตนด์โลนเท่านั้น
การประมวลผลบนอุปกรณ์ของ Apple นั้นมีความสำคัญ: ไม่มีเสียงออกจากอุปกรณ์, ไม่มีค่าธรรมเนียมการสมัครสมาชิก, และรูปแบบจะถูกมัดไว้กับ Apple ID ของคุณสำหรับสำรองข้อมูล iCloud คุณภาพจึงน่าประทับใจสำหรับระบบการแคบบนอุปกรณ์ระดับผู้บริโภค แม้ว่าจะไม่ได้อยู่ในระดับเอาต์พุตของแพลตฟอร์ม AAC มืออาชีพก็ตาม
ข้อ จำกัด
- ภาษาอังกฤษและชุดภาษา จำกัด เท่านั้น (ขยายตามเวลา)
- ต้องใช้ iPhone 12 หรือใหม่กว่า หรือ Mac Apple Silicon
- ไม่มีการเข้าถึง API — คุณไม่สามารถส่งเสียงไปยังแอปพลิเคชัน non-Apple ได้
- วลี 150 ต้องใช้เวลา 20-30 นาทีของการบันทึกที่กระทำ; ผู้พูดที่เหนื่อยอาจต้องการขยายสิ่งนี้ในหลายวัน
อุปกรณ์ AAC และแพลตฟอร์มการทำธนาคารเสียงมืออาชีพ
อุปกรณ์ Augmentative and Alternative Communication (AAC) มีตั้งแต่ฮาร์ดแวร์ที่เฉพาะเจาะจง (Tobii Dynavox, อุปกรณ์ PRC-Saltillo) ไปจนถึงซอฟต์แวร์บน iPad และแท็บเล็ต Windows ระบบ AAC สมัยใหม่ส่วนใหญ่ยอมรับเสียงสังเคราะห์ที่กำหนดเองผ่านชั้นซอฟต์แวร์ของพวกเขา
Acapela My-own-voice
บริการ My-own-voice ของ Acapela Group เป็นหนึ่งในแพลตฟอร์มการทำธนาคารเสียงมืออาชีพที่เก่าแก่ที่สุดและใช้กันอย่างแพร่หลายมากที่สุด มันได้ถูกออกแบบมาโดยเฉพาะรอบประเด็นปัญหาการไหลของงาน AAC โดยมีการเป็นหุ้นส่วนกับผู้ผลิตอุปกรณ์ AAC ขนาดใหญ่
กระบวนการ: ผู้ใช้บันทึกชุดวลี (โดยปกติ 50-200) ผ่านแพลตฟอร์มเว็บ ทีม Acapela ประมวลผลรูปแบบและมอบไฟล์เสียงที่เข้ากันได้กับเทคโนโลยี Acapela Voice ของพวกเขา ซึ่งติดตั้งบน Windows และส่งออกเป็นเสียง SAPI5 — เข้ากันได้อย่างซิงโครนัสกับซอฟต์แวร์ AAC ส่วนใหญ่ รวมถึง Tobii Dynavox Communicator, Grid 3 และอื่น ๆ
จุดแข็ง: การรวมฮาร์ดแวร์และซอฟต์แวร์ AAC โดยตรง, การสนับสนุนที่ทุ่มเท สำหรับกรณี ALS/MND, เอาต์พุตคุณภาพสูง, แนวทางแพทย์ pathologist พูด (SLP) ก็มีให้
ข้อ จำกัด: ราคาการสมัครสมาชิกหรือต่อเสียง; ไม่ฟรี การสนับสนุนภาษาแตกต่างกันไป
VocaliD
VocaliD ใช้วิธีการที่แตกต่าง: ถ้าบุคคลหนึ่งมีเสียงของพวกเขาเองไม่กี่ที่ใช้ได้ VocaliD รวมการบันทึกที่มีอยู่เข้าด้วยกันเข้าด้วยกันกับเสียง “surrogateดำเนิน” จากธนาคาร VocaliD HumanVoice (ผู้บริจาคที่มีส่วนร่วมในการบันทึกเสียงเพื่อวัตถุประสงค์นี้) การผสมผสานสามารถรักษาบางส่วนลักษณะเสียงจากผู้ป่วยแม้เมื่อมีเพียงไม่กี่นาทีของการพูดเข้าใจได้
กระบวนการ: บันทึกสิ่งที่คุณสามารถ (แม้แต่พูดที่เสื่อมลงก็มีประโยชน์) ระบบ VocaliD สร้างเสียงที่ผสมผสาน การส่งออกเป็นเสียงที่เข้ากันได้ SAPI5 สำหรับซอฟต์แวร์ AAC Windows
จุดแข็ง: ปรารถนาแม้กับการลดลงของการพูดที่มีนัยสำคัญ; ชุมชนผู้บริจาคเสียงนั้นมีขนาดใหญ่; ออกแบบมาโดยเฉพาะสำหรับ AAC
ข้อ จำกัด: โมเดลการสมัครสมาชิก; ผลลัพธ์ผสมผสานนั้นน้อย “เสียงของคุณอย่างแท้จริง” กว่าการโคลนสะอาดจากบันทึกก่อนหน้า การสนับสนุนที่เน้น ens, แม้ว่าการครอบคลุมภาษาที่กว้างขึ้นกำลังเติบโต
การเปรียบเทียบแพลตฟอร์ม
| แพลตฟอร์ม | ที่ดีที่สุด | บันทึกน้อยที่สุด | รูปแบบเอาต์พุต | ค่าใช้จ่าย | บนอุปกรณ์? |
|---|---|---|---|---|---|
| Apple Personal Voice | ผู้ใช้ iPhone/Mac, iOS Live Speech | ประมาณ 150 วลี / 20 นาที | Apple Live Speech | ฟรี | ใช่ |
| Acapela My-own-voice | อุปกรณ์ AAC, กระบวนการ SLP มืออาชีพ | 50-200 วลี | SAPI5 (Windows) | จ่าย | ไม่ |
| VocaliD | พูดที่เหลือ จำกัด, ผสมผสาน donor | จำนวนใด ๆ | SAPI5 (Windows) | ค่าธรรมเนียม/สมัครสมาชิก | ไม่ |
| ElevenLabs | เวลาหมุนเวียนอย่างรวดเร็ว, นักพัฒนาแอป | ประมาณ 1 นาทีของเสียง | API / web player | ชั้นฟรี + จ่าย | ไม่ |
| VoxBooster | Windows real-time routing, apps ที่ยืดหยุ่น | นาที ๆ ของเสียง | ไมโครโฟนเสมือน | จ่าย (ใช้งานฟรี 3 วัน) | ไม่ |
ElevenLabs สำหรับการเข้าถึง TTS
ElevenLabs ได้กลายเป็นตัวเลือกไปสำหรับนักพัฒนาที่สร้างแอปพลิเคชันการเข้าถึง ส่วนใหญ่เนื่องจากการออกแบบ API-first และการโคลนเสียงที่รวดเร็ว (Professional Voice Cloning ต้องใช้เวลาอย่างน้อย 30 นาทีของเสียงสะอาด; Instant Voice Cloning ทำงานตั้งแต่เพียง 1 นาที โดยมีคุณภาพต่ำกว่า)
ใช้กรณีสำหรับการเข้าถึง:
- แอปพลิเคชัน TTS ที่กำหนดเองสำหรับ iOS หรือ Android ที่เรียก API ElevenLabs เพื่อพูดเอาต์พุตเสียงโคลน
- การรวมเข้ากับเครื่องมือการผลิตภาพ (โปรแกรมอ่านเสียง Notion, ตัวอ่านอีเมล)
- การผลิตสิ่งพิมพ์เสียงโดยใช้เสียงที่สงวนไว้
- เนื้อหาวิดีโอที่สามารถเข้าถึงได้ซึ่งเสียงของผู้สร้างได้เปลี่ยนแปลงหรือหายไป
ข้อ จำกัด: เสียงได้รับการประมวลผลบนเซิร์ฟเวอร์ ElevenLabs (ไม่ใช่บนอุปกรณ์) ซึ่งเป็นข้อพิจารณาความเป็นส่วนตัวสำหรับผู้ใช้บางคน เอาต์พุตส่วนใหญ่ผ่านการเรียก API หรือเครื่องเล่นเว็บของพวกเขา — การเชื่อมต่อกับซอฟต์แวร์ AAC Windows ต้องการสะพานที่กำหนดเองหรือเส้นทางไมโครโฟนเสมือน
การใช้ VoxBooster สำหรับการกำหนดเส้นทาง TTS ที่สามารถเข้าถึงได้
VoxBooster ไม่ได้สร้างขึ้นมาโดยเฉพาะสำหรับ AAC ทางการแพทย์ แต่มีบทบาทเฉพาะและเชื่อมโยงปฏิบัติในเส้นท่อการโคลนเสียงการเข้าถึง: การกำหนดเส้นทางที่ยืดหยุ่นใน Windows
สถานการณ์: คุณมีเสียงที่ถูกโคลนจาก ElevenLabs, โมเดลเสียง AI ที่มีการปรับแต่ง หรือแพลตฟอร์มการสังเคราะห์อื่น — แต่คุณต้องการเพื่อกำหนดเส้นทางเอาต์พุตเสียงไปยังการเรียกวิดีโอ, อินเทอร์เฟซคำพูด Windows หรือแพ็คเกจซอฟต์แวร์ AAC ที่คาดหวังไมโครโฟนอินพุตแทนเสียง SAPI5
เอาต์พุตไมโครโฟนเสมือน VoxBooster เป็นอุปกรณ์อินพุตเสียง Windows มาตรฐาน แอปพลิเคชันใด ๆ ที่ยอมรับไมโครโฟน — Zoom, Teams, Discord, Windows Speech Recognition, OBS — สามารถรับเสียงที่ถูกโคลนราวกับว่ามันเป็นตัวส่งไมโครโฟนสดโดยตรง
กระบวนการทำงานการปฏิบัติ:
- ฝึกอบรมหรืออัปโหลดรูปแบบเสียงของคุณใน VoxBooster (เซสชันบันทึกสั้น ๆ เวลาไม่กี่นาที)
- พิมพ์หรือเขียนข้อความลงไป; VoxBooster สังเคราะห์ผ่านแบบจำลองเสียงที่ถูกโคลนของคุณ
- เลือก VoxBooster เป็นอินพุตไมโครโฟนในแอปพลิเคชัน Windows ใด ๆ
- เสียงที่ถูกโคลนของคุณปรากฏในแอปพลิเคชันการรับรองความจริงเวลาจริง
นี่มีประโยชน์อย่างยิ่งต่อการเรียกวิดีโอและการสื่อสารแบบ real-time ที่ไม่มีการรวม SAPI5 โดยตรง และสำหรับผู้ใช้ Windows ที่ต้องการหนึ่งเครื่องมือที่จัดการทั้งเอฟเฟกต์เสียงและการกำหนดเส้นทาง TTS โดยไม่มีสแตกซอฟต์แวร์แยกต่างหาก
สำหรับผู้ใช้ที่มุ่งเน้นโดยเฉพาะในการสื่อสารแบบ real-time ที่มีการเปลี่ยนแปลงเสียงที่เกี่ยวข้องกับความพิการ คำแนะนำของเราเกี่ยวกับการเข้าถึง voice changer สำหรับความพิการจึงครอบคลุมภาพที่กว้างขึ้นเกี่ยวกับวิธีการใช้เครื่องมือเสียงแบบ real-time ในบริบทช่วยเหลือ
การอนุรักษ์เสียงสำหรับการผ่าตัดตามแบบ: รายการตรวจสอบก่อนผ่าตัด
หากคุณกำลังเผชิญกับ laryngectomy หรือขั้นตอนอื่น ๆ ที่จะเปลี่ยนแปลงเสียงของคุณอย่างถาวร การบันทึกเสียงก่อนผ่าตัดจึงเป็นลำดับความสำคัญที่ชัดเจน นี่คือกรอบการปฏิบัติ:
อย่างน้อย 4 สัปดาห์ก่อนการผ่าตัด:
- ติดต่อแพทย์พูด ที่คุ้นเคยกับ AAC และการทำธนาคารเสียง พวกเขาสามารถชี้แนะการเลือกแพลตฟอร์มและชุดวลีที่เหมาะสมสำหรับภาษาและสไตล์การสื่อสารของคุณ
- เลือกแพลตฟอร์ม ตามฮาร์ดแวร์ของคุณ (ระบบ Apple เทียบกับอุปกรณ์ AAC Windows) งบประมาณ และภาษา Acapela My-own-voice และ VocaliD มีเส้นทางคลินิกที่สร้างขึ้น; Apple Personal Voice เป็นไปได้สำหรับผู้ใช้ iPhone
- บันทึกในห้องเงียบ ด้วยไมโครโฟนคอนเดนเซอร์ USB หรือสมาร์ทโฟนที่ถือ 6-8 นิ้วจากปาก หลีกเลี่ยงการบันทึกเมื่อเหนื่อยล้า ป่วย หรือหลังดื่มแอลกอฮอล์ — คุณภาพเสียงลดลงในวิธีที่รูปแบบจะอนุรักษ์
- บันทึกวลีส่วนตัวก่อน: ชื่อของคุณ, ชื่อสมาชิกครอบครัว, การทักทาย ทั่วไป, ตำแหน่งงานของคุณ, วลี สโมสร นี้คือประโยคที่คุณจะต้องการได้ยินเหมือนคุณกำลังพูด
- สำเร็จชุดวลี ของแพลตฟอร์มโดยครบถ้วน — การครอบคลุมเสียงแบบสุ่มอยู่ที่นั่นเพื่อเหตุผล; บันทึกบางส่วนสร้างรูปแบบที่อ่อนแอกว่า
หลังจากผ่าตัด:
- กำหนดค่าแพลตฟอร์ม AAC หรือ TTS ที่คุณเลือกเพื่อใช้เสียงที่ถูกโคลนของคุณ
- ทำงานกับ SLP ของคุณเพื่อรวมเข้าไปในอุปกรณ์ AAC หรือเวิร์กโฟลว์ TTS Windows ของคุณ
- เก็บบันทึกต้นฉบับที่เก็บถาวร — เทคโนโลยีการโคลนได้รับการปรับปรุงอย่างรวดเร็ว และอาจฝึกแบบจำลองที่ดีกว่าจากข้อมูลเดียวกันในปี 2-3
TTS ที่กำหนดเองในตัวอ่านหน้าจอ
ผู้ใช้ที่มีตาบอดและมีการมองเห็นต่ำที่มีความตั้งใจแข็งขันเพื่อเสียงของตนเอง — หรือที่ต้องการเสียงที่ถูกโคลนเพื่อเหตุผลเฉพาะ (เช่นผู้ยายตัวมี VTuber การรักษาเสียงตัวละคร ผู้ใช้ต้องการเอาต์พุต TTS ยืนยันเพศ) — สามารถใช้เสียงที่ถูกโคลนกับตัวอ่านหน้าจอบน Windows
NVDA และ SAPI5: NVDA (NonVisual Desktop Access) หนึ่งในตัวอ่านหน้าจอฟรีที่ใช้กันอย่างแพร่หลายที่สุด ส่งเครื่องสังเคราะห์เสียง SAPI5 เสียงที่ถูกโคลนใด ๆ ที่ส่งออกเป็น SAPI5 (Acapela, VocaliD) จะปรากฏเป็นตัวเลือกในการตั้งค่าเครื่องสังเคราะห์ NVDA การติดตั้งมักจะเป็นหนึ่ง MSI หรือตัวติดตั้งดำเนิน ตามด้วยการเลือกเสียงจากการตั้งค่า NVDA
JAWS: JAWS สนับสนุน SAPI5 และยังมีเครื่องยนต์ Vocalizer Expressive ของตัวเอง เสียง SAPI5 จากแพลตฟอร์มการทำธนาคารเสียงนั้นเข้ากันได้
Narrator (Windows built-in): Windows Narrator รองรับเสียง SAPI5 ผ่าน Settings > Narrator > Choose a voice น้อยยืดหยุ่นกว่า NVDA หรือ JAWS แต่ทำงานกับเสียง SAPI5 ใด ๆ
สะพานไมโครโฟนเสมือน (เส้นทาง VoxBooster): สำหรับตัวอ่านหน้าจอหรือแอปพลิเคชันที่ไม่มีการเลือกเสียงที่ยืดหยุ่น แต่อนุญาตให้ป้อนไมโครโฟนสำหรับการพูด เอาต์พุตไมโครโฟนเสมือน VoxBooster ให้วิธีแก้ปัญหา — เสียงที่ถูกโคลนเข้าไปในแอปพลิเคชันใด ๆ ผ่านเส้นทางอินพุตไมโครโฟน
จริยธรรมการโคลนเสียงเพื่อการเข้าถึง
หัวข้อนี้สมควรได้ยินการอภิปรายอย่างซื่อสัตย์ เทคโนโลยีการโคลนเสียงมีพลังแอบๆ และการใช้งานการเข้าถึงค่อนข้างเป็นประโยชน์อย่างแท้จริง — แต่การใช้เสียงของบุคคลอื่นโดยไม่ได้รับอนุญาตนั้นเป็นอันตราย โดยไม่คำนึงถึงเหตุผลที่ระบุ สองประเด็นอยู่คุ้มค่าที่ระบุโดยตรง:
ความยินยอมและความเป็นเจ้าของ: เสียงการเข้าถึงที่ถูกโคลนถูกสร้างขึ้นตามจริยธรรมเมื่อบุคคลที่ถูกโคลนตัดสินใจโดยรู้ว่าใครสามารถใช้รูปแบบ, บนอุปกรณ์ใด, และในเงื่อนไขใด สมาชิกครอบครัวหรือผู้ดูแลไม่ควรสั่งซื้อการโคลนเสียงของบุคคลอื่นโดยไม่ได้รับอนุญาตและการมีส่วนร่วมที่ชัดเจนของบุคคลนั้น
หลังจากการเสีย: ครอบครัวบางครัวถามเกี่ยวกับการใช้แบบจำลองเสียงของบุคคลที่เสีย สำหรับวัตถุประสงค์อนุสรณ์หรือการบำรุงรักษา นี่คือคำถามแยกต่างหาก nuanced ถูกสำรวจในโพสต์ของเราเกี่ยวกับจริยธรรมอนุสรณ์การโคลนเสียง บริบทการเข้าถึงจึงใหญ่เกี่ยวกับผู้ใช้ที่อยู่ — การตัดสินใจควรเป็นของพวกเขา
ขอบเขต perangkat ทางการแพทย์: เสียง AAC เป็นเครื่องมือสื่อสาร ไม่ใช่ deepfake การใช้เสียงการเข้าถึงที่ถูกโคลนเพื่อปลอมตัวบุคคลในบริบทที่พวกเขาไม่ได้ให้อนุญาต — ธุรกรรมการเงิน, ประกาศกฎหมาย, โซเชียลมีเดีย — เป็นการใช้ที่ผิด เสื่อมช่วงไว้วางใจในเครื่องมือเหล่านี้อย่างกว้าง
เพื่อหารือที่กว้างขึ้นของปัญหาเหล่านี้ ดูส่วนของเราเกี่ยวกับจริยธรรมการโคลนเสียง 2026
บันทึก: ทรัพยากรใดถูกต้องสำหรับคุณ?
| สถานการณ์ | จุดเริ่มต้นที่แนะนำ |
|---|---|
| ผู้ใช้ iPhone หรือ Mac ผู้พูดภาษาอังกฤษ งบประมาณ จำกัด | Apple Personal Voice — ฟรี บนอุปกรณ์ คุณภาพดี |
| การวินิจฉัย ALS/MND ใช้ Tobii Dynavox หรือ Grid 3 | Acapela My-own-voice — สนับสนุน SLP ผลผลิต SAPI5 |
| การลดลงของการพูดที่มีนัยสำคัญแล้วอยู่ | VocaliD — วิธีการผสมผสาน donor ทำงานกับเสียง จำกัด |
| นักพัฒนาสร้างแอปพลิเคชันการเข้าถึง | ElevenLabs API — เร็วที่สุดเพื่อรวม เอกสารมาก |
| ผู้ใช้ Windows ต้องการการกำหนดเส้นทางการโทร/การประชุมที่ยืดหยุ่น | VoxBooster — เอาต์พุตไมโครโฟนเสมือน ไม่มีไดร์เวอร์เคอร์เนล |
| ก่อน laryngectomy, แพลตฟอร์มใด ๆ | เริ่มต้นด้วย Apple Personal Voice หรือ Acapela; บันทึก 4 สัปดาห์ก่อนผ่าตัด |
การตัดสินใจไม่ได้เป็นพิเศษ — ผู้ใช้หลายคนธนาคารเสียงของพวกเขาบนแพลตฟอร์มหลายแห่ง เนื่องจากความพยายามในการบันทึกนั้นทับซ้อนและมีแบบจำลองสำรอง คำแนะนำที่สมเหตุสมผล
ทรัพยากรภายใน
หากคุณมาจากพื้นหลังเกมหรือการสตรีมมิ่ง และกำลังสำรวจการโคลนเสียงเป็นครั้งแรก บทนำของเรากับวิธีการโคลนเสียงของคุณด้วย AI ครอบคลุมเทคโนโลยีจากพื้นฐาน สำหรับบริบททางการแพทย์เฉพาะของการทำธนาคารเสียงสำหรับ ALS และการวินิจฉัยที่คล้ายกัน ส่วนอย่างลึกซึ้งของเราเกี่ยวกับการทำธนาคารเสียงสำหรับผู้ป่วยทางการแพทย์ไปลึกกว่าในเวิร์กโฟลว์คลินิก การเลือกแพลตฟอร์ม และการประสานงาน SLP
คำถามที่พบบ่อย
การโคลนเสียงเพื่อการเข้าถึงคืออะไร?
การโคลนเสียงเพื่อการเข้าถึงใช้ AI เพื่อสร้างเวอร์ชันสังเคราะห์ของเสียงของบุคคลจากการบันทึกเสียง ผู้คนที่มี ALS, laryngectomy หรือโรคอื่น ๆ ที่ส่งผลกระทบต่อความสามารถในการพูดจะใช้เสียงที่ถูกโคลนของพวกเขาผ่านอุปกรณ์ AAC, ตัวอ่านหน้าจอหรือแอปพลิเคชัน TTS เพื่อให้พวกเขาสามารถสื่อสารต่อไปได้ด้วยเสียงที่ฟังดูเหมือนเสียงของพวกเขา
Apple Personal Voice ต้องการตัวอย่างเสียงกี่ตัว?
Apple Personal Voice (iOS 17 และ macOS Sonoma หรือใหม่กว่า) ต้องให้คุณอ่านประมาณ 150 วลีออกมาดัง กระบวนการนี้ใช้เวลา 15-30 นาทีโดยรวมและรูปแบบได้รับการฝึกอบรมบนอุปกรณ์ซึ่งหมายความว่าข้อมูลเสียงของคุณจะไม่ไปไหนไป iPhone หรือ Mac ของคุณ
การโคลนเสียงสามารถทำงานสำหรับผู้ที่สูญเสียเสียงของพวกเขาแล้วได้หรือไม่?
เฉพาะในกรณีที่มีการบันทึกเสียงของบุคคลนั้นอยู่ก่อนสูญเสียเสียง นั่นคือเหตุผลว่าทำไมสถาปัตยกรรมธนาคารเสียงจึงได้รับการแนะนำอย่างแรงในไม่ช่วงเวลาใดเช่นเดียวกับหลังจากการวินิจฉัย ALS, MND หรือเงื่อนไขก้าวหน้าใด ๆ VocaliD, Acapela My-own-voice และบริการที่คล้ายกันสามารถสร้างรูปแบบจากเวลา 20 นาทีถึงหลายชั่วโมงของการพูดที่บันทึกไว้ก่อนหน้านี้
การโคลนเสียงเพื่อการเข้าถึงได้รับการประกันภัยหรือไม่?
อุปกรณ์ AAC บางตัวและซอฟต์แวร์ที่เกี่ยวข้องสามารถรับทุนได้ผ่าน Medicare, Medicaid หรือประกันภัยส่วนตัวในสหรัฐอเมริกาและผ่านโครงการเทคโนโลยีการช่วยเหลือ NHS ในสหราชอาณาจักร บริการโคลนเองมักจะเป็นค่าใช้จ่ายแยกต่างหาก องค์กรเช่น ALS Association และ MND Association บางครั้งให้ทุนสนับสนุน ตรวจสอบกับแพทย์พูดนอกจากนี้โปรดสาขา AAC อย่างมีประสิทธิ
ความแตกต่างระหว่างการทำธนาคารเสียงและการโคลนเสียงคืออะไร?
การทำธนาคารเสียงโดยปกติจะหมายถึงการบันทึกไลบรารีของวลีที่เชื่อมต่อเข้าด้วยกันในการออกเสียงเพื่อสร้างประโยคใหม่ — วิธีการเชื่อมต่อ การโคลนเสียง (หรือการสังเคราะห์เสียง) จะสร้างแบบจำลองที่ประสาทจากการบันทึกและสามารถสร้างข้อความใด ๆ ในเวอร์ชันของเสียงต้นฉบับที่ฟังดูธรรมชาติ แพลตฟอร์มสมัยใหม่ทำให้เส้นนี้มัวขึ้น แต่การโคลนโดยทั่วไปฟังดูเป็นธรรมชาติมากขึ้นสำหรับประโยคนวนิยาย
ฉันสามารถใช้เสียงที่ถูกโคลนของฉันกับตัวอ่านหน้าจอหรือ Windows ได้หรือไม่?
แพลตฟอร์มบางแห่งเปิดเผยเสียงที่ถูกโคลนเป็นเครื่องสังเคราะห์เสียงที่เข้ากันได้ SAPI5 (Windows) หรือ NVDA ซึ่งช่วยให้สามารถทำงานกับตัวอ่านหน้าจอใด ๆ หรือแอปพลิเคชันที่เปิดใช้งาน TTS ความเข้ากันได้แตกต่างกันไปตามผู้ให้บริการ VoxBooster สามารถกำหนดเส้นทางเสียงที่ถูกโคลนไปยังแอปพลิเคชันใด ๆ ผ่านไมโครโฟนเสมือนซึ่งเป็นวิธีแก้ปัญหาที่มีความยืดหยุ่นเมื่อการรวม SAPI5 โดยตรงไม่พร้อมใช้งาน
ต้องใช้เวลานานเท่าใดในการโคลนเสียงเพื่อการเข้าถึง?
ด้วยการสังเคราะห์เสียง AI สมัยใหม่รูปแบบที่ใช้ได้อาจพร้อมใช้งานภายในหลายนาทีถึงสองสามชั่วโมงจากเสียงต้นทางที่สะอาด 20-30 นาที Apple Personal Voice ใช้เวลาในการประมวลผลระหว่างคืนบนอุปกรณ์ แพลตฟอร์มองค์กรสำหรับ AAC มักต้องใช้เวลา 1-3 วันทำการสำหรับการตรวจสอบคุณภาพ ยิ่งจัดหาเสียงที่สะอาดมากเท่าใด ผลลัพธ์ก็จะยิ่งเป็นธรรมชาติมากขึ้นเท่านั้น
บทสรุป
การโคลนเสียงเพื่อการเข้าถึงได้กลายเป็นหนึ่งในกรณีที่ชัดเจนที่สุดที่เทคโนโลยี AI ให้มูลค่าที่มีความหมายและมุ่งเน้นไปยังมนุษย์ ไม่ว่าคุณเป็นคนที่มี ALS ธนาคารเสียงของคุณก่อนที่จะเปลี่ยน ใครบางคนกำลังเตรียมตัวสำหรับ laryngectomy หรือผู้ดูแลที่ช่วยสมาชิกครอบครัวตั้งค่าซอฟต์แวร์ AAC — เครื่องมือนั้นอยู่ที่นี่ กระบวนการนั้นมีเอกสาร และผลลัพธ์นั้นเป็นการอนุรักษ์ส่วนหนึ่งพื้นฐานของตัวตนของมนุษย์
คำแนะนำการปฏิบัติ: เริ่มต้นเร็วขึ้น บันทึกเสียงสะอาด เลือกแพลตฟอร์มที่ตรงกับระบบนิเวศของเครื่องของคุณ และทำงานกับแพทย์พูดเมื่อมีความเป็นไปได้ Personal Voice เป็นคำตอบที่ถูกต้องสำหรับผู้ใช้ iPhone และ Mac ที่ต้องการจุดเริ่มต้นฟรี Acapela และ VocaliD เป็นตัวเลือกมืออาชีพสำหรับการรวมฮาร์ดแวร์ AAC ElevenLabs ครอบคลุมกรณีการใช้นักพัฒนาและผู้สร้างแอป VoxBooster เติมเต็มช่องว่างการกำหนดเส้นทาง Windows เมื่อเครื่องมืออื่น ๆ ไม่เชื่อมต่อโดยตรงกับแอปพลิเคชันของคุณ
หากคุณต้องการสำรวจว่า TTS เสียงส่วนตัวมีลักษณะเป็นอย่างไรในสภาพแวดล้อม Windows — รวมถึงวิธีการที่เสียงที่ถูกโคลนส่งอพลิเคชัน, ตัวอักษร, และซอฟต์แวร์การเข้าถึงผ่านไมโครโฟนเสมือน — VoxBooster นำเสนอ บ่อยครั้งอย่างเสรี 3 วันโดยไม่ต้องใช้บัตรเครดิต รูปแบบเสียงของคุณสร้างจึงเป็นของคุณ การประมวลผลทำงานในพื้นที่ และไม่จำเป็นต้องติดตั้งไดร์เวอร์เคอร์เนล
สำหรับด้านคลินิกของการอนุรักษ์เสียง ให้อ่านคำแนะนำโดยละเอียดของเราเกี่ยวกับการทำธนาคารเสียงสำหรับผู้ป่วยทางการแพทย์ต่อไป