การโคลนเสียงเพื่อการเข้าถึง TTS: เสียงส่วนตัวสำหรับอุปกรณ์ใด ๆ

วิธีการโคลนเสียง AI เพื่อการเข้าถึงและ TTS เสียงส่วนตัวช่วยผู้ใช้ ALS, laryngectomy และ AAC รักษาและใช้เสียงของตนเองบนอุปกรณ์ใด ๆ

การโคลนเสียงเพื่อการเข้าถึง TTS: เสียงส่วนตัวสำหรับอุปกรณ์ใด ๆ

การโคลนเสียงเพื่อการเข้าถึงได้เปลี่ยนจากห้องปฏิบัติการวิจัยไปเป็นโต๊ะข้างเตียงนอนในช่วงสองสามปี สำหรับผู้ที่ใช้ชีวิตกับ ALS, MND, laryngectomy หรือภาวะใด ๆ ที่ค่อย ๆ ทำให้ความสามารถในการพูดหดลง ความสามารถในการรักษาและใช้เสียงของตนเองต่อมา — ไม่ใช่เครื่องสังเคราะห์เสียงหุ่นยนต์ทั่วไป — ผ่านอุปกรณ์ TTS หรือสมาร์ทโฟนจึงไม่ใช่ความเป็นไปได้ที่ห่างไกล มันพร้อมใช้งานในวันนี้และคำแนะนำนี้อธิบายวิธีการ

เราจะครอบคลุมเทคโนโลยีอย่างชัดเจน เปรียบเทียบแพลตฟอร์มหลัก รวมถึง Apple Personal Voice, Acapela My-own-voice, VocaliD, ElevenLabs และ VoxBooster และให้คำแนะนำด้านปฏิบัติเกี่ยวกับเวลา คุณภาพการบันทึก และการรวมอุปกรณ์ AAC


ประเด็นสำคัญ

  • การทำธนาคารเสียงควรเริ่มต้นเร็วขึ้น — ก่อนการลดลงของการพูดที่มีนัยสำคัญ — เพื่อจับภาพวัสดุต้นทางที่ดีที่สุด
  • Apple Personal Voice (iOS 17+) ให้บริการโคลนเสียงฟรีบนอุปกรณ์สำหรับผู้ใช้ในภาษาที่รองรับ
  • แพลตฟอร์ม AAC มืออาชีพ (Acapela, VocaliD) มีรูปแบบความเที่ยงตรงสูงที่ออกแบบมาโดยเฉพาะสำหรับอุปกรณ์สื่อสารเสริม
  • แพลตฟอร์มการสังเคราะห์เสียง AI (ElevenLabs, VoxBooster) ให้เวลาการหมุนเวียนที่เร็วขึ้นและตัวเลือกการกำหนดเส้นทางที่มีความยืดหยุ่นมากขึ้น
  • เสียงที่ถูกโคลนสามารถใช้ได้กับอุปกรณ์ AAC, ตัวอ่านหน้าจอ, ไมโครโฟนเสมือน และแอปพลิเคชัน TTS ทั่ว Windows, iOS และ Android
  • การโคลนเสียงสำหรับการผ่าตัดตามแบบ (เช่น laryngectomy สำหรับการรักษามะเร็ง) นั้นถูกต้องเท่า ๆ กันและควรวางแผนไว้ก่อนการผ่าตัด

การโคลนเสียงเพื่อการเข้าถึงคืออะไร?

การโคลนเสียงเพื่อการเข้าถึงคือการใช้การสังเคราะห์เสียง AI เพื่อสร้างรูปแบบ text-to-speech ที่ปรับแต่งไว้ตามการบันทึกเสียงของบุคคลที่ระบุ รูปแบบผลลัพธ์ช่วยให้บุคคลนั้นสามารถพิมพ์ข้อความและให้เป็นเสียงดังออกมาด้วยเสียงที่ฟังดูเหมือนเสียงของตนเอง แทนที่จะเป็นเสียงเครื่องสังเคราะห์ทั่วไป

เรื่องนี้สำคัญเพราะเหตุผลที่เป็นมนุษย์ที่เรียบง่าย: ตัวตน เสียงของบุคคลหนึ่งมีบุคลิกภาพ สำเนียง สีสันทางอารมณ์ และความสัมพันธ์นับสิบปีที่สร้างขึ้นจากเสียงนั้น เมื่อภาวะหนึ่งทำให้ความสามารถทางกายภาพในการสร้างเสียงพูดหายไป การสูญเสียตัวละครของเสียงสูงสุดการสูญเสียความสามารถในการสื่อสารจึงเป็นความทุกข์ที่เพิ่มขึ้นเป็นสองเท่า การโคลนนำเสนอวิธีในการรักษาและบูรณคืนชั้นตัวตนนั้น

เทคโนโลยีที่อยู่เบื้องหลังสิ่งนี้เปลี่ยนแปลงอย่างมีนัยสำคัญ ระบบการทำธนาคารเสียงแบบเชื่อมต่อในยุคแรกได้เย็บบันทึกโฟนีมเข้าด้วยกัน — ใช้งานได้ แต่เป็นเครื่องจักรสำหรับประโยคนวนิยาย รูปแบบ TTS ประสาทสมัยใหม่เรียนรู้ลักษณะเสียงของเสียงโดยรวมและสามารถสังเคราะห์ข้อความตามอำเภอใจกับ prosody ธรรมชาติ intonation และแม้แต่สีสันอารมณ์บางอย่าง

ใครใช้การโคลนเสียง TTS เพื่อการเข้าถึง?

ผู้ป่วย ALS และ MND

Amyotrophic Lateral Sclerosis (ALS) และ Motor Neuron Disease (MND) เป็นการวินิจฉัยที่พบบ่อยที่สุดในการขับเคลื่อนความต้องการสำหรับการทำธนาคารเสียง โรคนี้คืบหน้าไปในอัตราที่แตกต่างกัน แต่ ALS onset bulbar สามารถส่งผลกระทบต่อการพูดภายในหลายเดือนหลังจากการวินิจฉัย บุคลากรทางการแพทย์และการกุศลแนะนำการบันทึกเสียงอย่างต่อเนื่องควรเริ่มต้นโดยเร็วที่สุดเท่าที่จะเป็นไปได้หลังจากการวินิจฉัย — ในอุดมคติคือในขณะที่การพูดยังคงอยู่ที่ 100% เข้าใจได้และไม่มีความเหนื่อยล้าที่เห็นได้ชัด

Stephen Hawking Communication Centre และองค์กรเช่น Motor Neurone Disease Association ให้คำแนะนำและบางครั้งสนับสนุนด้านการเงินสำหรับกระบวนการนี้

ผู้ป่วย Laryngectomy

Laryngectomy ทั้งหมด — การผ่าตัดถอดคอนกรีต อย่างน้อยส่วนใหญ่เนื่องจากมะเร็งของคอนกรีตหรือต่อมไทรอยด์ — ส่งผลให้การสูญเสียเสียงธรรมชาติที่สมบูรณ์ ไม่เหมือน ALS นี่มักจะเป็นการผ่าตัดตามตำแหน่ง ซึ่งหมายความว่าการบันทึกเสียงก่อนการผ่าตัดนั้นเป็นไปได้และแนะนำอย่างเข้มแข็ง ผู้ป่วยที่ได้บันทึกเสียงของพวกเขาก่อนการผ่าตัดสามารถใช้เสียง TTS ที่ถูกโคลนทันทีหลังจากการผ่าตัดมากกว่าการเริ่มต้นจากศูนย์ด้วยการแขวนทำงานจำกัดหรือใช้แนวทางเดียว

สำหรับผู้ป่วยเหล่านี้ การโคลนเสียงไม่ใช่โครงการระยะยาว แต่เป็นงานเฉพาะก่อนการผ่าตัดที่มีกำหนดเสร็จแข็ง

Spasmodic Dysphonia และโรค Parkinson

Spasmodic dysphonia ทำให้เกิดอาการระแวกของเสียงที่ไม่ได้ตั้งใจซึ่งทำให้การพูดเป็นสิ่งมีค่าและไม่สอดคล้อง โรค Parkinson มักส่งผลให้เกิด hypophonia (เสียงพูดที่เงียบมาก, นุ่ม) และ dysarthria ประชากรทั้งคู่อาจถึงจุดที่การเสริมหรือแทนที่ TTS นั้นดีกว่าการต่อสู้ผ่านการสื่อสารลอย

การบันทึกในขณะที่การพูดยังคงค่อนข้างชัดเจนยังคงเป็นกลยุทธ์ที่ดีที่สุด — เสียง Parkinson hypophonic ผลิต richer ที่อ่อนแอกว่า hypophonic ก่อนการรักษาจะเกิด

สถานการณ์ที่สามารถเลือกได้

ไม่ใช่การโคลนเสียงทั้งหมดสำหรับการใช้ TTS มาจากการวินิจฉัยทางการแพทย์ บุคคล transgender ที่ยังไม่ผ่านการฝึกอบรมเสียงอาจใช้เสียงที่ถูกโคลนเป็นเอาต์พุต TTS ที่ชื่นชอบเพศในขณะที่เสียงธรรมชาติของพวกเขาพัฒนา บุคคลประชาชนที่ต้องการสร้างสิ่งพิมพ์เสียงที่สามารถเข้าถึงได้หรือเวอร์ชัน AI narrator ของเสียงของพวกเขาใช้โคลนเพื่อการผลิต TTS ที่ปรับขนาดได้ อาจารย์และนักสื่อสารที่พึ่งพาเสียงของพวกเขามากอาจจัดเก็บเพื่อป้องกันการป้องกัน

Apple Personal Voice: โคลนบนอุปกรณ์สำหรับทุกคน

Apple แนะนำ Personal Voice ใน iOS 17 และ macOS Sonoma (2023) เป็นคุณสมบัติการเข้าถึงที่ไม่ต้องการการสมัครสมาชิกและประมวลผลบนอุปกรณ์อย่างสมบูรณ์ ปัจจุบันมีให้บริการสำหรับภาษาอังกฤษ (สหรัฐอเมริกา, สหราชอาณาจักร, ออสเตรเลีย, อินเดีย), สเปน, ฝรั่งเศส, เยอรมัน, อิตาลี, เกาหลี, จีน, กวางตุ้งและญี่ปุ่น

วิธีการตั้งค่า Apple Personal Voice

  1. ไปที่ Settings > Accessibility > Personal Voice.
  2. แตะ Create a Personal Voice และทำตามคำแนะนำการตั้งค่า
  3. คุณจะถูกขอให้อ่านประมาณ 150 วลีที่สุ่มเรียงสับเปลี่ยนออกมาดัง — วลีเดียวกันจะใช้ในแต่ละเซสชันเพื่อให้ครอบคลุมช่วงเสียงกว้าง
  4. แต่ละเซสชันสามารถสั้นหรือยาวได้ตามต้องการ; การบันทึกจะบันทึกความคืบหน้าเพื่อให้คุณสามารถดำเนินการให้เสร็จในหลายวัน
  5. เมื่อบันทึกเสร็จสิ้น อุปกรณ์ของคุณจะประมวลผลรูปแบบระหว่างคืนขณะชาร์จ
  6. เปิดใช้งาน Settings > Accessibility > Live Speech เลือก Personal Voice ของคุณ และคุณสามารถพิมพ์เพื่อพูดด้วยเสียงที่ถูกโคลนของตนเองจาก Control Center

การรวม Live Speech หมายความว่า Personal Voice ของคุณพร้อมใช้งานข้ามการเรียกใช้ FaceTime, การเรียกโทรศัพท์ และแอปพลิเคชันอื่น ๆ ที่ใช้เสียงของระบบ — ไม่ใช่แอปพลิเคชัน TTS แบบสแตนด์โลนเท่านั้น

การประมวลผลบนอุปกรณ์ของ Apple นั้นมีความสำคัญ: ไม่มีเสียงออกจากอุปกรณ์, ไม่มีค่าธรรมเนียมการสมัครสมาชิก, และรูปแบบจะถูกมัดไว้กับ Apple ID ของคุณสำหรับสำรองข้อมูล iCloud คุณภาพจึงน่าประทับใจสำหรับระบบการแคบบนอุปกรณ์ระดับผู้บริโภค แม้ว่าจะไม่ได้อยู่ในระดับเอาต์พุตของแพลตฟอร์ม AAC มืออาชีพก็ตาม

ข้อ จำกัด

  • ภาษาอังกฤษและชุดภาษา จำกัด เท่านั้น (ขยายตามเวลา)
  • ต้องใช้ iPhone 12 หรือใหม่กว่า หรือ Mac Apple Silicon
  • ไม่มีการเข้าถึง API — คุณไม่สามารถส่งเสียงไปยังแอปพลิเคชัน non-Apple ได้
  • วลี 150 ต้องใช้เวลา 20-30 นาทีของการบันทึกที่กระทำ; ผู้พูดที่เหนื่อยอาจต้องการขยายสิ่งนี้ในหลายวัน

อุปกรณ์ AAC และแพลตฟอร์มการทำธนาคารเสียงมืออาชีพ

อุปกรณ์ Augmentative and Alternative Communication (AAC) มีตั้งแต่ฮาร์ดแวร์ที่เฉพาะเจาะจง (Tobii Dynavox, อุปกรณ์ PRC-Saltillo) ไปจนถึงซอฟต์แวร์บน iPad และแท็บเล็ต Windows ระบบ AAC สมัยใหม่ส่วนใหญ่ยอมรับเสียงสังเคราะห์ที่กำหนดเองผ่านชั้นซอฟต์แวร์ของพวกเขา

Acapela My-own-voice

บริการ My-own-voice ของ Acapela Group เป็นหนึ่งในแพลตฟอร์มการทำธนาคารเสียงมืออาชีพที่เก่าแก่ที่สุดและใช้กันอย่างแพร่หลายมากที่สุด มันได้ถูกออกแบบมาโดยเฉพาะรอบประเด็นปัญหาการไหลของงาน AAC โดยมีการเป็นหุ้นส่วนกับผู้ผลิตอุปกรณ์ AAC ขนาดใหญ่

กระบวนการ: ผู้ใช้บันทึกชุดวลี (โดยปกติ 50-200) ผ่านแพลตฟอร์มเว็บ ทีม Acapela ประมวลผลรูปแบบและมอบไฟล์เสียงที่เข้ากันได้กับเทคโนโลยี Acapela Voice ของพวกเขา ซึ่งติดตั้งบน Windows และส่งออกเป็นเสียง SAPI5 — เข้ากันได้อย่างซิงโครนัสกับซอฟต์แวร์ AAC ส่วนใหญ่ รวมถึง Tobii Dynavox Communicator, Grid 3 และอื่น ๆ

จุดแข็ง: การรวมฮาร์ดแวร์และซอฟต์แวร์ AAC โดยตรง, การสนับสนุนที่ทุ่มเท สำหรับกรณี ALS/MND, เอาต์พุตคุณภาพสูง, แนวทางแพทย์ pathologist พูด (SLP) ก็มีให้

ข้อ จำกัด: ราคาการสมัครสมาชิกหรือต่อเสียง; ไม่ฟรี การสนับสนุนภาษาแตกต่างกันไป

VocaliD

VocaliD ใช้วิธีการที่แตกต่าง: ถ้าบุคคลหนึ่งมีเสียงของพวกเขาเองไม่กี่ที่ใช้ได้ VocaliD รวมการบันทึกที่มีอยู่เข้าด้วยกันเข้าด้วยกันกับเสียง “surrogateดำเนิน” จากธนาคาร VocaliD HumanVoice (ผู้บริจาคที่มีส่วนร่วมในการบันทึกเสียงเพื่อวัตถุประสงค์นี้) การผสมผสานสามารถรักษาบางส่วนลักษณะเสียงจากผู้ป่วยแม้เมื่อมีเพียงไม่กี่นาทีของการพูดเข้าใจได้

กระบวนการ: บันทึกสิ่งที่คุณสามารถ (แม้แต่พูดที่เสื่อมลงก็มีประโยชน์) ระบบ VocaliD สร้างเสียงที่ผสมผสาน การส่งออกเป็นเสียงที่เข้ากันได้ SAPI5 สำหรับซอฟต์แวร์ AAC Windows

จุดแข็ง: ปรารถนาแม้กับการลดลงของการพูดที่มีนัยสำคัญ; ชุมชนผู้บริจาคเสียงนั้นมีขนาดใหญ่; ออกแบบมาโดยเฉพาะสำหรับ AAC

ข้อ จำกัด: โมเดลการสมัครสมาชิก; ผลลัพธ์ผสมผสานนั้นน้อย “เสียงของคุณอย่างแท้จริง” กว่าการโคลนสะอาดจากบันทึกก่อนหน้า การสนับสนุนที่เน้น ens, แม้ว่าการครอบคลุมภาษาที่กว้างขึ้นกำลังเติบโต

การเปรียบเทียบแพลตฟอร์ม

แพลตฟอร์มที่ดีที่สุดบันทึกน้อยที่สุดรูปแบบเอาต์พุตค่าใช้จ่ายบนอุปกรณ์?
Apple Personal Voiceผู้ใช้ iPhone/Mac, iOS Live Speechประมาณ 150 วลี / 20 นาทีApple Live Speechฟรีใช่
Acapela My-own-voiceอุปกรณ์ AAC, กระบวนการ SLP มืออาชีพ50-200 วลีSAPI5 (Windows)จ่ายไม่
VocaliDพูดที่เหลือ จำกัด, ผสมผสาน donorจำนวนใด ๆSAPI5 (Windows)ค่าธรรมเนียม/สมัครสมาชิกไม่
ElevenLabsเวลาหมุนเวียนอย่างรวดเร็ว, นักพัฒนาแอปประมาณ 1 นาทีของเสียงAPI / web playerชั้นฟรี + จ่ายไม่
VoxBoosterWindows real-time routing, apps ที่ยืดหยุ่นนาที ๆ ของเสียงไมโครโฟนเสมือนจ่าย (ใช้งานฟรี 3 วัน)ไม่

ElevenLabs สำหรับการเข้าถึง TTS

ElevenLabs ได้กลายเป็นตัวเลือกไปสำหรับนักพัฒนาที่สร้างแอปพลิเคชันการเข้าถึง ส่วนใหญ่เนื่องจากการออกแบบ API-first และการโคลนเสียงที่รวดเร็ว (Professional Voice Cloning ต้องใช้เวลาอย่างน้อย 30 นาทีของเสียงสะอาด; Instant Voice Cloning ทำงานตั้งแต่เพียง 1 นาที โดยมีคุณภาพต่ำกว่า)

ใช้กรณีสำหรับการเข้าถึง:

  • แอปพลิเคชัน TTS ที่กำหนดเองสำหรับ iOS หรือ Android ที่เรียก API ElevenLabs เพื่อพูดเอาต์พุตเสียงโคลน
  • การรวมเข้ากับเครื่องมือการผลิตภาพ (โปรแกรมอ่านเสียง Notion, ตัวอ่านอีเมล)
  • การผลิตสิ่งพิมพ์เสียงโดยใช้เสียงที่สงวนไว้
  • เนื้อหาวิดีโอที่สามารถเข้าถึงได้ซึ่งเสียงของผู้สร้างได้เปลี่ยนแปลงหรือหายไป

ข้อ จำกัด: เสียงได้รับการประมวลผลบนเซิร์ฟเวอร์ ElevenLabs (ไม่ใช่บนอุปกรณ์) ซึ่งเป็นข้อพิจารณาความเป็นส่วนตัวสำหรับผู้ใช้บางคน เอาต์พุตส่วนใหญ่ผ่านการเรียก API หรือเครื่องเล่นเว็บของพวกเขา — การเชื่อมต่อกับซอฟต์แวร์ AAC Windows ต้องการสะพานที่กำหนดเองหรือเส้นทางไมโครโฟนเสมือน

การใช้ VoxBooster สำหรับการกำหนดเส้นทาง TTS ที่สามารถเข้าถึงได้

VoxBooster ไม่ได้สร้างขึ้นมาโดยเฉพาะสำหรับ AAC ทางการแพทย์ แต่มีบทบาทเฉพาะและเชื่อมโยงปฏิบัติในเส้นท่อการโคลนเสียงการเข้าถึง: การกำหนดเส้นทางที่ยืดหยุ่นใน Windows

สถานการณ์: คุณมีเสียงที่ถูกโคลนจาก ElevenLabs, โมเดลเสียง AI ที่มีการปรับแต่ง หรือแพลตฟอร์มการสังเคราะห์อื่น — แต่คุณต้องการเพื่อกำหนดเส้นทางเอาต์พุตเสียงไปยังการเรียกวิดีโอ, อินเทอร์เฟซคำพูด Windows หรือแพ็คเกจซอฟต์แวร์ AAC ที่คาดหวังไมโครโฟนอินพุตแทนเสียง SAPI5

เอาต์พุตไมโครโฟนเสมือน VoxBooster เป็นอุปกรณ์อินพุตเสียง Windows มาตรฐาน แอปพลิเคชันใด ๆ ที่ยอมรับไมโครโฟน — Zoom, Teams, Discord, Windows Speech Recognition, OBS — สามารถรับเสียงที่ถูกโคลนราวกับว่ามันเป็นตัวส่งไมโครโฟนสดโดยตรง

กระบวนการทำงานการปฏิบัติ:

  1. ฝึกอบรมหรืออัปโหลดรูปแบบเสียงของคุณใน VoxBooster (เซสชันบันทึกสั้น ๆ เวลาไม่กี่นาที)
  2. พิมพ์หรือเขียนข้อความลงไป; VoxBooster สังเคราะห์ผ่านแบบจำลองเสียงที่ถูกโคลนของคุณ
  3. เลือก VoxBooster เป็นอินพุตไมโครโฟนในแอปพลิเคชัน Windows ใด ๆ
  4. เสียงที่ถูกโคลนของคุณปรากฏในแอปพลิเคชันการรับรองความจริงเวลาจริง

นี่มีประโยชน์อย่างยิ่งต่อการเรียกวิดีโอและการสื่อสารแบบ real-time ที่ไม่มีการรวม SAPI5 โดยตรง และสำหรับผู้ใช้ Windows ที่ต้องการหนึ่งเครื่องมือที่จัดการทั้งเอฟเฟกต์เสียงและการกำหนดเส้นทาง TTS โดยไม่มีสแตกซอฟต์แวร์แยกต่างหาก

สำหรับผู้ใช้ที่มุ่งเน้นโดยเฉพาะในการสื่อสารแบบ real-time ที่มีการเปลี่ยนแปลงเสียงที่เกี่ยวข้องกับความพิการ คำแนะนำของเราเกี่ยวกับการเข้าถึง voice changer สำหรับความพิการจึงครอบคลุมภาพที่กว้างขึ้นเกี่ยวกับวิธีการใช้เครื่องมือเสียงแบบ real-time ในบริบทช่วยเหลือ

การอนุรักษ์เสียงสำหรับการผ่าตัดตามแบบ: รายการตรวจสอบก่อนผ่าตัด

หากคุณกำลังเผชิญกับ laryngectomy หรือขั้นตอนอื่น ๆ ที่จะเปลี่ยนแปลงเสียงของคุณอย่างถาวร การบันทึกเสียงก่อนผ่าตัดจึงเป็นลำดับความสำคัญที่ชัดเจน นี่คือกรอบการปฏิบัติ:

อย่างน้อย 4 สัปดาห์ก่อนการผ่าตัด:

  1. ติดต่อแพทย์พูด ที่คุ้นเคยกับ AAC และการทำธนาคารเสียง พวกเขาสามารถชี้แนะการเลือกแพลตฟอร์มและชุดวลีที่เหมาะสมสำหรับภาษาและสไตล์การสื่อสารของคุณ
  2. เลือกแพลตฟอร์ม ตามฮาร์ดแวร์ของคุณ (ระบบ Apple เทียบกับอุปกรณ์ AAC Windows) งบประมาณ และภาษา Acapela My-own-voice และ VocaliD มีเส้นทางคลินิกที่สร้างขึ้น; Apple Personal Voice เป็นไปได้สำหรับผู้ใช้ iPhone
  3. บันทึกในห้องเงียบ ด้วยไมโครโฟนคอนเดนเซอร์ USB หรือสมาร์ทโฟนที่ถือ 6-8 นิ้วจากปาก หลีกเลี่ยงการบันทึกเมื่อเหนื่อยล้า ป่วย หรือหลังดื่มแอลกอฮอล์ — คุณภาพเสียงลดลงในวิธีที่รูปแบบจะอนุรักษ์
  4. บันทึกวลีส่วนตัวก่อน: ชื่อของคุณ, ชื่อสมาชิกครอบครัว, การทักทาย ทั่วไป, ตำแหน่งงานของคุณ, วลี สโมสร นี้คือประโยคที่คุณจะต้องการได้ยินเหมือนคุณกำลังพูด
  5. สำเร็จชุดวลี ของแพลตฟอร์มโดยครบถ้วน — การครอบคลุมเสียงแบบสุ่มอยู่ที่นั่นเพื่อเหตุผล; บันทึกบางส่วนสร้างรูปแบบที่อ่อนแอกว่า

หลังจากผ่าตัด:

  • กำหนดค่าแพลตฟอร์ม AAC หรือ TTS ที่คุณเลือกเพื่อใช้เสียงที่ถูกโคลนของคุณ
  • ทำงานกับ SLP ของคุณเพื่อรวมเข้าไปในอุปกรณ์ AAC หรือเวิร์กโฟลว์ TTS Windows ของคุณ
  • เก็บบันทึกต้นฉบับที่เก็บถาวร — เทคโนโลยีการโคลนได้รับการปรับปรุงอย่างรวดเร็ว และอาจฝึกแบบจำลองที่ดีกว่าจากข้อมูลเดียวกันในปี 2-3

TTS ที่กำหนดเองในตัวอ่านหน้าจอ

ผู้ใช้ที่มีตาบอดและมีการมองเห็นต่ำที่มีความตั้งใจแข็งขันเพื่อเสียงของตนเอง — หรือที่ต้องการเสียงที่ถูกโคลนเพื่อเหตุผลเฉพาะ (เช่นผู้ยายตัวมี VTuber การรักษาเสียงตัวละคร ผู้ใช้ต้องการเอาต์พุต TTS ยืนยันเพศ) — สามารถใช้เสียงที่ถูกโคลนกับตัวอ่านหน้าจอบน Windows

NVDA และ SAPI5: NVDA (NonVisual Desktop Access) หนึ่งในตัวอ่านหน้าจอฟรีที่ใช้กันอย่างแพร่หลายที่สุด ส่งเครื่องสังเคราะห์เสียง SAPI5 เสียงที่ถูกโคลนใด ๆ ที่ส่งออกเป็น SAPI5 (Acapela, VocaliD) จะปรากฏเป็นตัวเลือกในการตั้งค่าเครื่องสังเคราะห์ NVDA การติดตั้งมักจะเป็นหนึ่ง MSI หรือตัวติดตั้งดำเนิน ตามด้วยการเลือกเสียงจากการตั้งค่า NVDA

JAWS: JAWS สนับสนุน SAPI5 และยังมีเครื่องยนต์ Vocalizer Expressive ของตัวเอง เสียง SAPI5 จากแพลตฟอร์มการทำธนาคารเสียงนั้นเข้ากันได้

Narrator (Windows built-in): Windows Narrator รองรับเสียง SAPI5 ผ่าน Settings > Narrator > Choose a voice น้อยยืดหยุ่นกว่า NVDA หรือ JAWS แต่ทำงานกับเสียง SAPI5 ใด ๆ

สะพานไมโครโฟนเสมือน (เส้นทาง VoxBooster): สำหรับตัวอ่านหน้าจอหรือแอปพลิเคชันที่ไม่มีการเลือกเสียงที่ยืดหยุ่น แต่อนุญาตให้ป้อนไมโครโฟนสำหรับการพูด เอาต์พุตไมโครโฟนเสมือน VoxBooster ให้วิธีแก้ปัญหา — เสียงที่ถูกโคลนเข้าไปในแอปพลิเคชันใด ๆ ผ่านเส้นทางอินพุตไมโครโฟน

จริยธรรมการโคลนเสียงเพื่อการเข้าถึง

หัวข้อนี้สมควรได้ยินการอภิปรายอย่างซื่อสัตย์ เทคโนโลยีการโคลนเสียงมีพลังแอบๆ และการใช้งานการเข้าถึงค่อนข้างเป็นประโยชน์อย่างแท้จริง — แต่การใช้เสียงของบุคคลอื่นโดยไม่ได้รับอนุญาตนั้นเป็นอันตราย โดยไม่คำนึงถึงเหตุผลที่ระบุ สองประเด็นอยู่คุ้มค่าที่ระบุโดยตรง:

ความยินยอมและความเป็นเจ้าของ: เสียงการเข้าถึงที่ถูกโคลนถูกสร้างขึ้นตามจริยธรรมเมื่อบุคคลที่ถูกโคลนตัดสินใจโดยรู้ว่าใครสามารถใช้รูปแบบ, บนอุปกรณ์ใด, และในเงื่อนไขใด สมาชิกครอบครัวหรือผู้ดูแลไม่ควรสั่งซื้อการโคลนเสียงของบุคคลอื่นโดยไม่ได้รับอนุญาตและการมีส่วนร่วมที่ชัดเจนของบุคคลนั้น

หลังจากการเสีย: ครอบครัวบางครัวถามเกี่ยวกับการใช้แบบจำลองเสียงของบุคคลที่เสีย สำหรับวัตถุประสงค์อนุสรณ์หรือการบำรุงรักษา นี่คือคำถามแยกต่างหาก nuanced ถูกสำรวจในโพสต์ของเราเกี่ยวกับจริยธรรมอนุสรณ์การโคลนเสียง บริบทการเข้าถึงจึงใหญ่เกี่ยวกับผู้ใช้ที่อยู่ — การตัดสินใจควรเป็นของพวกเขา

ขอบเขต perangkat ทางการแพทย์: เสียง AAC เป็นเครื่องมือสื่อสาร ไม่ใช่ deepfake การใช้เสียงการเข้าถึงที่ถูกโคลนเพื่อปลอมตัวบุคคลในบริบทที่พวกเขาไม่ได้ให้อนุญาต — ธุรกรรมการเงิน, ประกาศกฎหมาย, โซเชียลมีเดีย — เป็นการใช้ที่ผิด เสื่อมช่วงไว้วางใจในเครื่องมือเหล่านี้อย่างกว้าง

เพื่อหารือที่กว้างขึ้นของปัญหาเหล่านี้ ดูส่วนของเราเกี่ยวกับจริยธรรมการโคลนเสียง 2026

บันทึก: ทรัพยากรใดถูกต้องสำหรับคุณ?

สถานการณ์จุดเริ่มต้นที่แนะนำ
ผู้ใช้ iPhone หรือ Mac ผู้พูดภาษาอังกฤษ งบประมาณ จำกัดApple Personal Voice — ฟรี บนอุปกรณ์ คุณภาพดี
การวินิจฉัย ALS/MND ใช้ Tobii Dynavox หรือ Grid 3Acapela My-own-voice — สนับสนุน SLP ผลผลิต SAPI5
การลดลงของการพูดที่มีนัยสำคัญแล้วอยู่VocaliD — วิธีการผสมผสาน donor ทำงานกับเสียง จำกัด
นักพัฒนาสร้างแอปพลิเคชันการเข้าถึงElevenLabs API — เร็วที่สุดเพื่อรวม เอกสารมาก
ผู้ใช้ Windows ต้องการการกำหนดเส้นทางการโทร/การประชุมที่ยืดหยุ่นVoxBooster — เอาต์พุตไมโครโฟนเสมือน ไม่มีไดร์เวอร์เคอร์เนล
ก่อน laryngectomy, แพลตฟอร์มใด ๆเริ่มต้นด้วย Apple Personal Voice หรือ Acapela; บันทึก 4 สัปดาห์ก่อนผ่าตัด

การตัดสินใจไม่ได้เป็นพิเศษ — ผู้ใช้หลายคนธนาคารเสียงของพวกเขาบนแพลตฟอร์มหลายแห่ง เนื่องจากความพยายามในการบันทึกนั้นทับซ้อนและมีแบบจำลองสำรอง คำแนะนำที่สมเหตุสมผล

ทรัพยากรภายใน

หากคุณมาจากพื้นหลังเกมหรือการสตรีมมิ่ง และกำลังสำรวจการโคลนเสียงเป็นครั้งแรก บทนำของเรากับวิธีการโคลนเสียงของคุณด้วย AI ครอบคลุมเทคโนโลยีจากพื้นฐาน สำหรับบริบททางการแพทย์เฉพาะของการทำธนาคารเสียงสำหรับ ALS และการวินิจฉัยที่คล้ายกัน ส่วนอย่างลึกซึ้งของเราเกี่ยวกับการทำธนาคารเสียงสำหรับผู้ป่วยทางการแพทย์ไปลึกกว่าในเวิร์กโฟลว์คลินิก การเลือกแพลตฟอร์ม และการประสานงาน SLP

คำถามที่พบบ่อย

การโคลนเสียงเพื่อการเข้าถึงคืออะไร?

การโคลนเสียงเพื่อการเข้าถึงใช้ AI เพื่อสร้างเวอร์ชันสังเคราะห์ของเสียงของบุคคลจากการบันทึกเสียง ผู้คนที่มี ALS, laryngectomy หรือโรคอื่น ๆ ที่ส่งผลกระทบต่อความสามารถในการพูดจะใช้เสียงที่ถูกโคลนของพวกเขาผ่านอุปกรณ์ AAC, ตัวอ่านหน้าจอหรือแอปพลิเคชัน TTS เพื่อให้พวกเขาสามารถสื่อสารต่อไปได้ด้วยเสียงที่ฟังดูเหมือนเสียงของพวกเขา

Apple Personal Voice ต้องการตัวอย่างเสียงกี่ตัว?

Apple Personal Voice (iOS 17 และ macOS Sonoma หรือใหม่กว่า) ต้องให้คุณอ่านประมาณ 150 วลีออกมาดัง กระบวนการนี้ใช้เวลา 15-30 นาทีโดยรวมและรูปแบบได้รับการฝึกอบรมบนอุปกรณ์ซึ่งหมายความว่าข้อมูลเสียงของคุณจะไม่ไปไหนไป iPhone หรือ Mac ของคุณ

การโคลนเสียงสามารถทำงานสำหรับผู้ที่สูญเสียเสียงของพวกเขาแล้วได้หรือไม่?

เฉพาะในกรณีที่มีการบันทึกเสียงของบุคคลนั้นอยู่ก่อนสูญเสียเสียง นั่นคือเหตุผลว่าทำไมสถาปัตยกรรมธนาคารเสียงจึงได้รับการแนะนำอย่างแรงในไม่ช่วงเวลาใดเช่นเดียวกับหลังจากการวินิจฉัย ALS, MND หรือเงื่อนไขก้าวหน้าใด ๆ VocaliD, Acapela My-own-voice และบริการที่คล้ายกันสามารถสร้างรูปแบบจากเวลา 20 นาทีถึงหลายชั่วโมงของการพูดที่บันทึกไว้ก่อนหน้านี้

การโคลนเสียงเพื่อการเข้าถึงได้รับการประกันภัยหรือไม่?

อุปกรณ์ AAC บางตัวและซอฟต์แวร์ที่เกี่ยวข้องสามารถรับทุนได้ผ่าน Medicare, Medicaid หรือประกันภัยส่วนตัวในสหรัฐอเมริกาและผ่านโครงการเทคโนโลยีการช่วยเหลือ NHS ในสหราชอาณาจักร บริการโคลนเองมักจะเป็นค่าใช้จ่ายแยกต่างหาก องค์กรเช่น ALS Association และ MND Association บางครั้งให้ทุนสนับสนุน ตรวจสอบกับแพทย์พูดนอกจากนี้โปรดสาขา AAC อย่างมีประสิทธิ

ความแตกต่างระหว่างการทำธนาคารเสียงและการโคลนเสียงคืออะไร?

การทำธนาคารเสียงโดยปกติจะหมายถึงการบันทึกไลบรารีของวลีที่เชื่อมต่อเข้าด้วยกันในการออกเสียงเพื่อสร้างประโยคใหม่ — วิธีการเชื่อมต่อ การโคลนเสียง (หรือการสังเคราะห์เสียง) จะสร้างแบบจำลองที่ประสาทจากการบันทึกและสามารถสร้างข้อความใด ๆ ในเวอร์ชันของเสียงต้นฉบับที่ฟังดูธรรมชาติ แพลตฟอร์มสมัยใหม่ทำให้เส้นนี้มัวขึ้น แต่การโคลนโดยทั่วไปฟังดูเป็นธรรมชาติมากขึ้นสำหรับประโยคนวนิยาย

ฉันสามารถใช้เสียงที่ถูกโคลนของฉันกับตัวอ่านหน้าจอหรือ Windows ได้หรือไม่?

แพลตฟอร์มบางแห่งเปิดเผยเสียงที่ถูกโคลนเป็นเครื่องสังเคราะห์เสียงที่เข้ากันได้ SAPI5 (Windows) หรือ NVDA ซึ่งช่วยให้สามารถทำงานกับตัวอ่านหน้าจอใด ๆ หรือแอปพลิเคชันที่เปิดใช้งาน TTS ความเข้ากันได้แตกต่างกันไปตามผู้ให้บริการ VoxBooster สามารถกำหนดเส้นทางเสียงที่ถูกโคลนไปยังแอปพลิเคชันใด ๆ ผ่านไมโครโฟนเสมือนซึ่งเป็นวิธีแก้ปัญหาที่มีความยืดหยุ่นเมื่อการรวม SAPI5 โดยตรงไม่พร้อมใช้งาน

ต้องใช้เวลานานเท่าใดในการโคลนเสียงเพื่อการเข้าถึง?

ด้วยการสังเคราะห์เสียง AI สมัยใหม่รูปแบบที่ใช้ได้อาจพร้อมใช้งานภายในหลายนาทีถึงสองสามชั่วโมงจากเสียงต้นทางที่สะอาด 20-30 นาที Apple Personal Voice ใช้เวลาในการประมวลผลระหว่างคืนบนอุปกรณ์ แพลตฟอร์มองค์กรสำหรับ AAC มักต้องใช้เวลา 1-3 วันทำการสำหรับการตรวจสอบคุณภาพ ยิ่งจัดหาเสียงที่สะอาดมากเท่าใด ผลลัพธ์ก็จะยิ่งเป็นธรรมชาติมากขึ้นเท่านั้น

บทสรุป

การโคลนเสียงเพื่อการเข้าถึงได้กลายเป็นหนึ่งในกรณีที่ชัดเจนที่สุดที่เทคโนโลยี AI ให้มูลค่าที่มีความหมายและมุ่งเน้นไปยังมนุษย์ ไม่ว่าคุณเป็นคนที่มี ALS ธนาคารเสียงของคุณก่อนที่จะเปลี่ยน ใครบางคนกำลังเตรียมตัวสำหรับ laryngectomy หรือผู้ดูแลที่ช่วยสมาชิกครอบครัวตั้งค่าซอฟต์แวร์ AAC — เครื่องมือนั้นอยู่ที่นี่ กระบวนการนั้นมีเอกสาร และผลลัพธ์นั้นเป็นการอนุรักษ์ส่วนหนึ่งพื้นฐานของตัวตนของมนุษย์

คำแนะนำการปฏิบัติ: เริ่มต้นเร็วขึ้น บันทึกเสียงสะอาด เลือกแพลตฟอร์มที่ตรงกับระบบนิเวศของเครื่องของคุณ และทำงานกับแพทย์พูดเมื่อมีความเป็นไปได้ Personal Voice เป็นคำตอบที่ถูกต้องสำหรับผู้ใช้ iPhone และ Mac ที่ต้องการจุดเริ่มต้นฟรี Acapela และ VocaliD เป็นตัวเลือกมืออาชีพสำหรับการรวมฮาร์ดแวร์ AAC ElevenLabs ครอบคลุมกรณีการใช้นักพัฒนาและผู้สร้างแอป VoxBooster เติมเต็มช่องว่างการกำหนดเส้นทาง Windows เมื่อเครื่องมืออื่น ๆ ไม่เชื่อมต่อโดยตรงกับแอปพลิเคชันของคุณ

หากคุณต้องการสำรวจว่า TTS เสียงส่วนตัวมีลักษณะเป็นอย่างไรในสภาพแวดล้อม Windows — รวมถึงวิธีการที่เสียงที่ถูกโคลนส่งอพลิเคชัน, ตัวอักษร, และซอฟต์แวร์การเข้าถึงผ่านไมโครโฟนเสมือน — VoxBooster นำเสนอ บ่อยครั้งอย่างเสรี 3 วันโดยไม่ต้องใช้บัตรเครดิต รูปแบบเสียงของคุณสร้างจึงเป็นของคุณ การประมวลผลทำงานในพื้นที่ และไม่จำเป็นต้องติดตั้งไดร์เวอร์เคอร์เนล

สำหรับด้านคลินิกของการอนุรักษ์เสียง ให้อ่านคำแนะนำโดยละเอียดของเราเกี่ยวกับการทำธนาคารเสียงสำหรับผู้ป่วยทางการแพทย์ต่อไป

ลอง VoxBooster — ทดลองใช้ฟรี 3 วัน

โคลนเสียงเรียลไทม์ ซาวด์บอร์ด และเอฟเฟกต์ — ทุกที่ที่คุณคุย

  • ไม่ต้องใช้บัตรเครดิต
  • ความหน่วง ~30ms
  • Discord · Teams · OBS
ลองฟรี 3 วัน