AI Voice Cloning สำหรับเอเจนต์บริการลูกค้า
เทคโนโลยีเสียง AI บริการลูกค้าขณะนี้ดีพอที่จะทำงานบนแล็ปท็อปของเอเจนต์ศูนย์ติดต่อ เปลี่ยนสำเนียงแบบเรียลไทม์ และช่วยให้ผู้โทรเข้าใจเอเจนต์ได้ชัดเจนยิ่งขึ้น — ทั้งหมดโดยไม่ให้ผู้โทรสังเกตเห็นชั้นการประมวลผล คำแนะนำนี้ครอบคลุมวิธีการแปลงเสียงแบบเรียลไทม์ในสภาพแวดล้อม BPO ที่จริง ๆ แล้วลด Average Handle Time เครื่องมือใดอยู่ในตลาด กฎการเปิดเผยใดที่นำไปใช้ และวิธีปรับใช้โดยไม่ขัดขวางนโยบาย IT หรือการปฏิบัติตามกฎระเบียบ
TL;DR
- การแปลงเสียง AI แบบเรียลไทม์สามารถเป็นกลางสำเนียงภาษาอังกฤษฟิลิปปินส์หรืออินเดียไปสู่ภาษาอังกฤษอเมริกันหรือ Received Pronunciation ในเวลาน้อยกว่า 200ms
- กรณีธุรกิจหลักคือการเข้าใจ: ผู้โทรถามคำถามชี้แจงน้อยลงหมายถึง AHT ต่ำลงโดยตรง
- การเปิดเผยเป็นกฎหมายในรัฐสหรัฐอเมริกาบางแห่งและแสดงถึง GDPR เกณฑ์คือประกาศแบบย่อที่เพิ่มเสียงแบบเรียลไทม์ที่จุดเริ่มต้นของการโทร
- Sanas เป็นผู้นำมุ่งเน้นอุตสาหกรรม ElevenLabs Turbo v2 และ VoxBooster ให้บริการขนาดการปรับใช้ที่แตกต่างกัน
- การลอกเลียนเสียงเต็มในการโทรลูกค้าเป็นสนามเศษไทยของกฎหมาย — ทำให้นุ่มนวลสำเนียงและความสอดคล้องของโทนเป็นกรณีการใช้งานที่เกี่ยวข้อง
- เครื่องมือเนทีฟ Windows เช่น VoxBooster ไม่ต้องการไดรเวอร์เคอร์เนล ซึ่งหลีกเลี่ยงข้อคัดค้านด้านความปลอดภัยขององค์กรในส่วนใหญ่
”เสียง AI บริการลูกค้า” หมายถึงอะไรจริง ๆ
คำศัพท์ครอบคลุมสองกรณีการใช้งานที่แตกต่างกันซึ่งบางครั้งสับสน
การเป็นกลางสำเนียง ปรับเปลี่ยนเสียงของเอเจนต์แบบเรียลไทม์เพื่อให้โฟเนมที่เกี่ยวข้องกับสำเนียงภูมิภาคที่เฉพาะเจาะจง — พยัญชนะ retroflex ที่พบได้ทั่วไปในภาษาอังกฤษอินเดีย การเปลี่ยนแปลงเสียงในภาษาอังกฤษฟิลิปปินส์ — ถูกแปลงเป็นสำเนียงเป้าหมายที่ผู้โทรพบว่าง่ายต่อการประมวลผล เอเจนต์พูดตามปกติ ซอฟต์แวร์ดำเนินการแปลงในระดับหน่วงเวลาประมาณ 150-200ms ก่อนที่เสียงจะถึงหูของผู้โทร
ความสอดคล้องของเสียง / เสียงแบรนด์ เลียนแบบเสียงเป้าหมาย — มักเป็นลำโพงอ้างอิงที่ได้รับการฝึกอบรม — และใช้เป็นตัวละครเอาท์พุตสำหรับเอเจนต์ทุกคนในทีม ผู้โทรทุกคนได้ยินเอกลักษณ์เสียงเดียวกันไม่ว่าเอเจนต์ใดจะอยู่บนบรรทัด สิ่งนี้มีความต้องการทางเทคนิคมากขึ้นและซับซ้อนกว่าจากด้านกฎหมาย
การปรับใช้ส่วนใหญ่ในศูนย์ติดต่อสดวันนี้ตกอยู่ในหมวดหมู่แรก การทำให้สำเนียงนุ่มนวลคือที่ ROI ชัดเจนที่สุดและกรอบจริยธรรมที่เก่าที่สุด
ทำไม BPO ในฟิลิปปินส์และอินเดีย คือผู้นำการรับเอา
อุตสาหกรรม BPO ในฟิลิปปินส์จ้างเอเจนต์ประมาณ 1.3 ล้านคนและสร้างรายได้ประมาณ 30 พันล้านดอลลาร์ต่อปี ส่วนใหญ่มาจากสัญญาการสนับสนุนลูกค้าภาษาอังกฤษสำหรับลูกค้า สหรัฐอเมริกา และอังกฤษ ภาคส่วน BPO ของอินเดียมีขนาดเทียบเท่า ทั้งสองอุตสาหกรรมประสบความท้าทายแบบติดตัว: เอเจนต์มักจะเป็นผู้สื่อสารที่มีทักษะสูง แต่เซตย่อยของผู้โทร — โดยเฉพาะผู้โทรชาวอเมริกันที่อายุมากขึ้น — มีความอดทนต่ำต่อสำเนียงที่ไม่ใช่เจ้าของดั้งเดิมและตัดการเชื่อมต่อหรือยกระดับการโทรในอัตราที่สูงขึ้น
นี่ไม่ได้เป็นปัญหาเรื่องทักษะล้วน ๆ การวิจัยเกี่ยวกับการรับรู้สำเนียงอย่างสม่ำเสมอพบว่าแม้ว่าความเข้าใจเป็นจุดมุ่งหมายเดียวกัน ผู้โทรมักจะให้อัตราการพูดที่เป็นกลางสำเนียงว่า “มีความสามารถ” และ “น่าเชื่อถือ” มากขึ้น อคติดังกล่าวเป็นจริงและวัดได้แม้ว่าไม่ยุติธรรม
การแปลงสำเนียงแบบเรียลไทม์ช่วยลดความเข้าใจ (ถ้ามี) และสามารถชดเชยความแตกต่างด้านการรับรู้ได้บางส่วน (ถ้าไม่มี) ทั้งสองผลลัพธ์ไม่ได้เป็นกระสุนเงิน แต่ด้วยกันพวกเขาจึงลดแรงเสียดทานในการโต้ตอบการโทรโดยไม่ต้องให้เอเจนต์ผ่านไปหลายปีของการฝึกสำเนียงที่ให้ผลลัพธ์เพียงเล็กน้อย
สำหรับทีมนอกชายฝั่งที่ประมวลผลการสนับสนุนทางเทคนิค การเก็บเงิน หรือการเรียกร้องประกันภัย — หมวดหมู่ที่มีคำศัพท์ที่ซับซ้อนและเดิมพันสูงต่อการโทร — แม้แต่การปรับปรุงความเข้าใจเล็กน้อยก็มีผลโครงสร้างด้านล่างที่มีความหมายต่ออัตราความละเอียดและคะแนน CSAT
วิธีการแปลงเสียงแบบเรียลไทม์ทำงานในการโทร
เส้นทางทางเทคนิคสั้นกว่าที่คนส่วนใหญ่คาดหวัง:
- อินพุตไมโครโฟนของเอเจนต์ ถูกจับโดยชุดหูและส่งเข้าไปในซอฟต์แวร์การแปลงเสียงที่ทำงานในพื้นที่บนเครื่องของเอเจนต์
- ซอฟต์แวร์ใช้ โมเดลเสียงประสาทเทียม ที่แม่พิมพ์ไปยังเสียง fonem เป้าหมายจำหน่าย นี่ไม่ใช่การเปลี่ยนระดับเสียง — มันเป็นการแปลงการเรียนรู้ของคุณสมบัติเสียงรวมถึง formants ซองสเปกตรัม และเครื่องหมาย prosody
- เอาท์พุตจะถูกส่งไปยัง อุปกรณ์เสียงเสมือน ที่ปรากฏต่อ softphone (Avaya, Genesys, Cisco Finesse, Five9 เป็นต้น) เป็นอินพุตไมโครโฟนมาตรฐาน
- Softphone ส่งเสียงที่แปลงผ่าน VoIP ไปยังผู้โทร
เป้าหมายความล่าช้าแบบเวียนรอบคือต่ำกว่า 200ms โดยรวม (การแปลง + การส่งข้อมูล) ที่เกณฑ์นี้ การโทรจึงรู้สึกเป็นธรรมชาติ เหนือ 300ms ผู้โทรสังเกตเห็นคุณภาพ “ว่าง” หรือความไม่ซิงโครไนซ์เล็กน้อยระหว่างการเคลื่อนไหวของปากตัวแทนที่มองเห็นได้ (ในวิดีโอโทร) และสิ่งที่พวกเขาได้ยิน
การประมวลผลในพื้นที่ — การเรียกใช้โมเดลบนเครื่องของเอเจนต์ — เร็วกว่าและเป็นส่วนตัวมากกว่าการแปลงบนคลาวด์ API บนคลาวด์เช่น ElevenLabs Turbo v2 นำมาซึ่งความล่าช้าในเครือข่ายเพิ่มเติมที่ทำให้ sub-200ms ยากขึ้น เพื่อรับประกันในการเชื่อมต่อที่ไม่ดี
ภูมิประเทศคู่แข่ง: ใครสร้างนี้
| เครื่องมือ | โฟกัสหลัก | โมเดลการปรับใช้ | เป้าหมายความล่าช้า | แบบจำหน่าย |
|---|---|---|---|---|
| Sanas | เป็นกลางสำเนียง BPO องค์กร | Cloud API + แอป client | ~200ms | สัญญาองค์กร |
| ElevenLabs Turbo v2 | ผู้สร้างเนื้อหา API แบบเรียลไทม์ | Cloud streaming API | ~300ms | ต่อ - ตัวละคร API |
| Krisp | การยับยั้งเสียงรบกวน (พร้อมชั้นความชัดเจน) | แอป Desktop / SDK | ไม่ระบุ (ไม่ใช่การแปลงแบบเต็ม) | การสมัครสมาชิก ต่อที่นั่ง |
| VoxBooster | ชั้นเสียง Realtime Native Windows | แอป Desktop, ไมโครโฟนเสมือน | <150ms ท้องถิ่น | หนึ่งครั้งหรือการสมัครสมาชิก |
| Voicemod | เกมพลิเกมลงแบบเรียลไทม์ | แอป Desktop | ต่ำ | Freemium |
Sanas เป็นผลิตภัณฑ์เดียวที่สร้างขึ้นเพื่อจุดประสงค์ที่กำหนดไว้ของเป็นกลางสำเนียง BPO ที่ขนาดองค์กร มันรวมเข้ากับแพลตฟอร์มศูนย์ติดต่อหลักและเสนอแพคเกจเอกสารการปฏิบัติตามกฎระเบียบ การแลกเปลี่ยนคือต้นทุน — สัญญาองค์กรมีราคาแพง และ BPO ที่เล็กกว่าหรือฟรีแลนซ์ส่วนบุคคลไม่สามารถเข้าถึงแพลตฟอร์มได้อย่างง่ายดาย
ElevenLabs Turbo v2 เร็วและมีความสามารถ แต่ถูกออกแบบมาเพื่อวัสดุสำหรับการสร้างเนื้อหา ไม่ใช่โครงสร้างพื้นฐานศูนย์ติดต่อ การรวมเข้าไปในเส้นทาง softphone ต้องการการทำงาน API ที่กำหนดเอง
VoxBooster เติมเต็มหนึ่งอื่น ๆ: เอเจนต์บุคคลหรือ BPO เล็กน้อยที่ต้องการโซลูชัน Windows Native ที่พวกเขาสามารถตั้งค่าโดยไม่ต้องอนุมัติ IT ปรับใช้ในไม่กี่นาที และเรียกใช้ในพื้นที่โดยไม่มีการส่งข้อมูลคลาวด์ สำหรับเอเจนต์ที่ทำงานบนการตั้งค่า BYOD หรือในทีมที่การปรับใช้ซอฟต์แวร์องค์กรแบบเข้มข้นช้า นี่สำคัญ
เพื่อให้มีมุมมองที่กว้างขึ้นเกี่ยวกับการใช้งาน AI เสียงขององค์กร โปรดดูโพสต์ของเราเกี่ยวกับ ตัวสร้างเสียง AI สำหรับการปฐมนิเทศ ที่ครอบคลุมว่าเทคโนโลยีเดียวกันใช้กับเนื้อหาการฝึกอบรมภายในได้อย่างไร
ผลกระทบ AHT: ข้อมูลแสดงอะไรจริง ๆ
Average Handle Time เป็น KPI ศูนย์ติดต่อที่ติดตามมากที่สุด มันวัดเวลาจากการเริ่มต้นของการโทรจนถึงการตัดสินใจ รวมถึงงานหลังการโทร การลด AHT แม้แต่ 30 วินาที ต่อการโทรระดับ — พูด ทีมที่จัดการ 200 การโทรต่อวัน — ประหยัดนาทีหลายพันต่อสัปดาห์
กลไกที่การแปลงเสียง AI ส่งผลต่อ AHT ไม่ใช่เวทมนตร์: มันคือความเข้าใจ
เมื่อผู้โทรไม่สามารถแยกวิเคราะห์ได้ง่าย ๆ ว่าเอเจนต์พูดอะไร สองสิ่งนี้เกิดขึ้น:
- ผู้โทรขอให้เอเจนต์ทำซ้ำตัวเอง (เพิ่มเวลา 20-30 วินาทีต่อครั้ง)
- ผู้โทรสันนิษฐานว่าผิดเกี่ยวกับว่าพูดอะไร ซึ่งนำไปสู่ข้อมูลที่ผิดพลาดที่ยืนยัน ซึ่งปรากฏขึ้นในภายหลังในการเพิ่มระดับหรือเรียกกลับ
BPO ที่ได้ระบายนำเสนอ Sanas ได้รายงานการลด AHT ในช่วง 8-15% สำหรับประเภทการโทรเฉพาะ มีผลกระทบสูงกว่าในการสนับสนุนเชิงเทคนิคและผลกระทบต่ำกว่าในการโทรสถานะคำสั่งซื้อแบบง่าย (ซึ่งการถอดเสียงสั้นและแรงเสียดทานความเข้าใจน้อยที่สุดแม้ว่ามีสำเนียง)
คำเตือนที่สำคัญ: เอเจนต์ที่รู้ว่าพวกเขาแตกต่างกันในระหว่างการแปลงบางครั้งต้องพึ่งเทคโนโลยีมากเกินไปและหยุดทำงานอย่างแข็งขัน บนความชัดเจนของการสื่อสารของตนเอง การปรับใช้ที่ดีที่สุด ถือว่าการแปลงเสียง AI เป็นเครื่องมือ ไม่ใช่การแทนที่การฝึกอบรมเอเจนต์
กฎการเปิดเผย: สิ่งที่คุณต้องบอกผู้โทร
นี่คือชิ้นส่วนที่ทีมกฎหมายสนใจมากที่สุด และมันเข้าใจได้ไม่ดีในสนาม
สหรัฐอเมริกา
กฎ 2024 ของ FCC เกี่ยวกับรถกำแพงที่สร้างด้วย AI ได้สร้างกรอบงานที่มีการอ้างอิงในบริบทการบริการลูกค้าระดับรัฐ รัฐหลายแห่ง — แคลิฟอร์เนีย อิลลินอยส์ นิวยอร์ก — มีกฎหมายหรือกฎหมายที่รอดำเนินการจำเพาะเกี่ยวกับการปิดเผยการเปลี่ยนแปลงเสียง AI ในการโทรเชิงพาณิชย์
ท่าเรือปลอดภัยในทุกเขตอำนาจ สหรัฐอเมริกา คือการเปิดเผยที่จุดเริ่มต้นของการโทร: ‘สายนี้อาจใช้การปรับปรุงเสียงหรือเทคโนโลยีเสียง AI’ สั้น ไม่กระตุก หรือเกี่ยว ต้องไม่อยู่ในสคริปต์การโทร ไม่ใช่ฝังตัวในข้อกำหนดของการบริการ
การใช้การแปลงเสียง AI เพื่อเลียนแบบบุคคลที่ระบุชื่อเฉพาะ (พูด การปรับใช้ ‘เอเจนต์ที่แพทจวนแบบโฆษณาชาวนาของโพ’) ไม่มีความยินยอมที่ชัดแจ้งเป็นกิจกรรมที่แตกต่างกันและเสี่ยงมากกว่ามาก นั่นตกอยู่ภายใต้เสียงความสมบูรณ์และกฎการเปิดเผยความเป็นส่วนตัวที่แตกต่างกันตามรัฐ
สหภาพยุโรป
มาตรา 13 GDPR กำหนดให้บุคคลทั่วไปได้รับแจ้งเมื่อข้อมูลชีวมิติได้รับการประมวลผล ข้อมูลเสียงที่ใช้ในการฝึกอบรมหรือใช้แบบจำลองการแปลงคือข้อมูลชีวมิติ ตัวควบคุม (BPO หรือไคลเอนต์) ต้องเปิดเผยการประมวลผลเสียงในประกาศความเป็นส่วนตัวที่ให้ไว้ที่จุดเริ่มต้นของการโทร ในทางปฏิบัติ การเปิดเผยเสียงตามสคริปต์สั้น ๆ รวมกับประกาศความเป็นส่วนตัวลายลักษณ์อักษรพึงพอใจในการตีความส่วนใหญ่
Directive EU AI ซึ่งเริ่มใช้บังคับระหว่าง 2024-2025 ระดับระบบชีวมิติเรียลไทม์ในบริบทที่หันหน้าไปหาสาธารณะ เป็น ‘ความเสี่ยงสูง’ — ซึ่งหมายความว่าข้อกำหนดการประเมินความสอดคล้องและการบันทึกแบบสำหรับ berat ส่อด้วยบริบทการปรับใช้ที่แน่นอน
บทสรุปสมควรแก่กลั่นพื้นพู่
| ขอบเขตอำนาจ | การเปิดเผยขั้นต่ำ | กิจกรรมเสี่ยง |
|---|---|---|
| สหรัฐฯ (สหพันธ์) | สิ่งเตือนปากเปิดที่จุดเริ่มต้นของการโทร | ลอกเลียนบุคคลที่ระบุชื่อ |
| สหรัฐฯ (แคลิฟอร์เนีย/อิลลินอยส์/นิวยอร์ก) | แจ้งเป็นลายลักษณ์อักษร + ปาก | การปรับใช้โดยไม่มีการเปิดเผย |
| EU (GDPR) | ประกาศความเป็นส่วนตัว + เปิดเผยมาตรา 13 | การประมวลผลโดยไม่มีพื้นฐานทางกฎหมาย |
| EU (AI Act) | การประเมินความสอดคล้องถ้าเสี่ยงสูง | การประมวลผลชีวมิติแบบเรียลไทม์ในที่สาธารณะ |
| ฟิลิปปินส์ (Data Privacy Act) | ความยินยอมหรือพื้นฐานความสนใจที่ชอบด้วยกฎหมาย | การแบ่งปันข้อมูลเสียงกับจุดปลายคลาวด์ของบุคคลที่สาม |
หมายเหตุหนึ่งสำหรับ BPO ที่ยึดถือฟิลิปปินส์โดยเฉพาะ: Data Privacy Act ของฟิลิปปินส์ (สาธารณรัฐ 10173) ควบคุมการเก็บรวบรวมและการประมวลผลข้อมูลส่วนบุคคล รวมถึงเสียง หากซอฟต์แวร์การแปลงสำเนียงของคุณส่งเสียงไปยังจุดปลายคลาวด์ของสหรัฐอเมริกาหรือ EU คุณต้องประเมินการปฏิบัติตามข้อกำหนดการโอนข้อมูลข้ามพรมแดน — หรือใช้เครื่องมือการประมวลผลในพื้นที่ที่เก็บข้อมูลเสียงบนอุปกรณ์
การตั้งค่าชั้นเสียงเรียลไทม์ในสภาพแวดล้อม Softphone
ส่วนนี้ครอบคลุมขั้นตอนการปรับใช้ที่ปฏิบัติได้จริงสำหรับเอเจนต์ที่เรียกใช้เวิร์กสเตชัน Windows พร้อม softphone VoIP มาตรฐาน
ข้อกำหนดเบื้องต้น
- Windows 10 หรือ 11 (64 บิต)
- ชุดหูที่มีไมโครโฟนเฉพาะ (USB ดีกว่า analog 3.5mm สำหรับระดับอินพุตที่สอดคล้องกัน)
- Softphone ที่อนุญาตให้เลือกอุปกรณ์เสียงแบบแมนวัล (Avaya Workplace Genesys CX Cisco Finesse Five9 Agent Zoho Desk ฯลฯ)
- ซอฟต์แวร์การแปลงเสียงติดตั้งและตั้งค่าแล้ว
ขั้นตอนที่ 1 — ติดตั้งซอฟต์แวร์การแปลงเสียง
สำหรับ VoxBooster: ดาวน์โหลดและติดตั้งไคลเอนต์ Windows มันลงทะเบียนไมโครโฟนเสมือนในรายการอุปกรณ์เสียง Windows โดยไม่ต้องติดตั้งไดรเวอร์เคอร์เนล ซึ่งหมายถึงนโยบายความปลอดภัย IT มาตรฐานที่บล็อกไดรเวอร์เสียงระดับเคอร์เนลไม่นำไปใช้
ขั้นตอนที่ 2 — เลือกแบบจำลองเสียงของคุณ
เลือกเป้าหมายสำเนียงที่เหมาะสมกับฐานผู้โทรของคุณ:
- ภาษาอังกฤษอเมริกันทั่วไป — เป้าหมายที่กว้างที่สุด ใช้ได้กับสหรัฐอเมริกา แคนาดา และตลาดการพูดภาษาอังกฤษส่วนใหญ่
- Received Pronunciation (อังกฤษ) — สำหรับสัญญาที่เน้น UK
- ภาษาอังกฤษนานาชาติที่เป็นกลาง — ความเข้มข้นของสำเนียงลดลงโดยไม่ต้องเปลี่ยนแปลงอย่างหนักไปยังสำเนียงภูมิภาคเฉพาะ มักชอบโดยเอเจนต์ที่รู้สึกว่าความเป็นกลางเต็มมีเสียงไม่เป็นธรรมชาติ
ใช้เวลา 5-10 นาที บันทึกเสียงการทดลองและเปรียบเทียบการเล่นกลับก่อนที่จะตรวจสอบการตั้งค่าสำหรับการโทรสด
ขั้นตอนที่ 3 — เส้นทาง Mic เสมือนไป Softphone ของคุณ
ในแผง Softphone Sound Settings ของคุณ เปลี่ยนอินพุตไมโครโฟนจากชุดหูกายภาพไปยังไมโครโฟนเสมือนที่สร้างโดยซอฟต์แวร์การแปลงเสียง Softphone จะได้รับสตรีมเสียงแบบเรียลไทม์ที่แปลงแล้ว
ทดสอบกับเพื่อนร่วมงานหรือบันทึกการโทรก่อนทำการโทรลูกค้าสด
ขั้นตอนที่ 4 — ความล่าช้าของการตรวจสอบ
ขอให้เพื่อนร่วมงานโทรไปยังเวิร์กสเตชันของคุณผ่าน softphone พูดและฟัง echo หรือ lag หากคุณได้ยินเสียงของคุณชะลอตัวในหูชุดหู ความล่าช้าการแปลงเกินความล่าช้าของ sidetone — นี่มักหมายความว่าซอฟต์แวร์อยู่ภายใต้การโหลด CPU ปิดแอปพลิเคชันพื้นหลัง ปิดใช้งานตัวจับเวลาที่ใช้เบราว์เซอร์ และตรวจสอบว่าไม่มีการสแกน antivirus ที่กำลังทำงาน
ขั้นตอนที่ 5 — ปรับการยับยั้งเสียงรบกวน
เครื่องมือการแปลงเสียงเรียลไทม์ส่วนใหญ่มีการยับยั้งเสียงรบกวน ตั้งเป็นค่ากลาง ไม่ใช่สูงสุด การยับยั้งมากเกินไปสร้างสิ่งแปลงปรวนของ ‘ฟองสบู่’ บนเสียงแปลงที่อาจเข้าใจผิดว่าเป็นการเชื่อมต่อที่ไม่ดีโดยผู้โทร
สำหรับคำแนะนำที่กว้างขึ้นเกี่ยวกับการฉายเสียงอย่างชัดเจนเกี่ยวกับการเรียก โปรดดูไกด์ของเราเกี่ยวกับ วิธีการร้องเพลงมืออาชีพในการเรียก ซึ่งครอบคลุมการวางตำแหน่งไมโครโฟน EQ และการส่งเสียงถัดจากชั้นซอฟต์แวร์
AI Voice Cloning สำหรับ IVR และ Touchpoints ลูกค้าที่บันทึกไว้ล่วงหน้า
เกินกว่าการเรียกแบบสด เอเจนต์ AI voice cloning มีแอปพลิเคชันคู่ขนานและน้อยมากที่สัญญาในบริการลูกค้า: เนื้อหาที่บันทึก
ระบบ Interactive Voice Response (IVR) ประกาศดนตรีรอ ข้อความโทรกลับอัตโนมัติ และการแจ้งเตือน SMS-to-voice ทั้งหมดมักจะบันทึกโดยกลุ่มเล็ก ๆ ของนักเสียง การบันทึกสินค้าเหล่านี้ใหม่ทุกครั้งที่สคริปต์เปลี่ยนแปลงนั้นมีราคาแพงและชี้ช้า
AI voice cloning อนุญาตให้บริษัทฝึกแบบจำลองเสียงบนบันทึกจากนักเสียงดั้งเดิม (พร้อมการยินยอมและสัญญาอนุญาต) และสร้างเสียง IVR ใหม่จากข้อความ — ที่ราคานาที ไม่ใช่เวลาสตูดิโอ เสียงที่เกิดขึ้นจึงสอดคล้องกับเสียงแบรนด์ที่มีอยู่และเสียงธรรมชาติให้กับผู้โทรที่ได้โต้ตอบกับ IVR ก่อนหน้านี้
นี่มีความเสี่ยงต่ำกว่าการแปลงเอเจนต์เรียลไทม์เนื่องจาก:
- ไม่มีโซ่การประมวลผลแบบเรียลไทม์พร้อมข้อ จำกัด ความล่าช้า
- เอาท์พุตสามารถตรวจสอบคุณภาพก่อนการปรับใช้
- การเปิดเผยง่ายขึ้น — ผู้โทร IVR เข้าใจอยู่แล้วว่าพวกเขาโต้ตอบกับระบบอัตโนมัติ
สำหรับการสร้างเสียงการฝึกอบรมของบริษัทในระดับ หลักการเดียวกันนำไปใช้ — ดูโพสต์ของเราเกี่ยวกับ voice cloning สำหรับ eLearning บริษัท ซึ่งครอบคลุมเวิร์กโฟลว์การผลิตในรายละเอียด
ความสอดคล้องของโทนและการมาตรฐาน Voiceาก
นอกเหนือจากการทำงานสำเนียง การปรับใช้บริการลูกค้าองค์กรบางส่วนใช้ชั้นเสียง AI เพื่อบังคับใช้ความสอดคล้องของโทนข้ามทีมเอเจนต์
กรณีการใช้: บริษัทบริการการเงินต้องการการโต้ตอบของเอเจนต์ทุกรายให้ฟังสงบ วัด และอบอุ่นปานกลาง — ไม่ใช่บริษัทแบน แต่ไม่มากเกินไป ลิเบอร์นม เอเจนต์แตกต่างกันตามธรรมชาติในวิธีการจัดการของพวกเขา เร็ว หรือการผันของภูมิภาคในการโทร แบบจำลองเสียงที่ฝึกอบรมบนตัวอย่างเสียงเป้าหมายสามารถขยับสำนักและอัตราการพูดของเอาท์พุตเอเจนต์แต่ละตัวไปยังพื้นฐานเป้าหมาย
นี่เป็นคล้ายคลึงมากขึ้นกับการแปลงเสียงเต็มมากกว่าการทำงานสำเนียงเพียงอย่างเดียวและส่งปฏิบัติตามข้อมูลการเปิดเผยที่สูงกว่า นอกจากนี้ยังมีความเสี่ยงต่อการฟังการเรียกในท้องคำว่า ‘คนแปลกหน้า’ ถ้าการดัดแปลงอาจเป็นอาจตรวจพบ ขีด จำกัด ในทางปฏิบัติคือการดัดแปลงสำนักที่เฉียบหลักแหว่งพันกง อัตราการพูด ±10% การเพิ่มความอบอุ่นสกา) มากกว่าการแทนที่เสียงขายส่ง
ที่ทำงานได้ดีที่สุด: การเรียกแจ้งเตือนเอกสารขึ้นสำเร็จการศึกษา (การแจ้งเตือนแล่นสินเชื่อ ยืนยันการนัดหมาย) ที่เนื้อหาสคริปต์สั้นและความสอดคล้องของเสียงมีความสำคัญมากกว่าการแปรผัน
สำหรับบริบทการสาธิตผลิตภัณฑ์และตัวอย่าง โลจิกเสียง AI เดียวกันนำไปใช้ — ดูโพสต์ของเราเกี่ยวกับ ตัวสร้างเสียง AI สำหรับเดโมผลิตภัณฑ์ สำหรับการเปรียบเทียบวิธีการสังเคราะห์หรือโคลน
สิ่งที่บอกให้ตัวแทน: เฟรมเทคโนโลยีอย่างถูกต้อง
เอเจนต์มักจะตอบสนองด้วยความกังวลเมื่อมีการแนะนำเทคโนโลยีการแปลงเสียง ข้อกังวลทั่วไป:
- ‘ปิดหมายถึงงานของฉันน้อยลงเหรอ?’ — ไม่ เทคโนโลยีต้องการเอเจนต์ มันจึงเปลี่ยนแปลงสตรีม มันจึงไม่ได้แทนที่การตัดสินใจของมนุษย์ในการเรียก
- ‘ฉันจะร้องเพลงเหมือนหุ่นยนต์ไหม?’ — ด้วยการตั้งค่าใหม่ที่ใช้มารับ โทษของความหมาย เสียง โทษการแปลงของเสียงหุ่นยนต์มาจากการประมวลผลหรือเสียง ทั้งอาจตั้งค่า
- ‘บริษัทมีบันทึกอะไรจากผู้โทรหรือไม่?’ — นี่คือคำถามด้วยกฎหมาย คำตอบคือนโยบายการเปิดเผยของคุณ อบประจำ: ผู้โทรทำให้ทราบที่จุดเริ่มต้นของการโทร เอเจนต์คือมนุษย์ที่แท้จริง และเทคโนโลยีมารับเข้าความเข้าใจ
การสนับสนุนของเอเจนต์นั้นสำคัญ ทีมที่เข้าใจ ทำไม เทคโนโลยีถูกปรับใช้ — การปรับปรุงความเข้าใจ ไม่ใช่การติดตามเสียงหรือการติดตามเสียง — แสดง การรับเลือกวิธีพยุหะจำนวนมากและความสม่ำเสมอของการตั้งค่า (ตัวอย่างเช่น พวกเขาจำได้ว่าต้องตรวจสอบความล่าช้าและรายงาน artifacts เสียงมากกว่ากำลังหลีก)
ตรวจสอบรายการการปรับใช้สำหรับผู้จัดการศูนย์ติดต่อ
ก่อนนำการแปลงเสียงจริงเวลาบนทีม:
- การตรวจสอบด้านกฎหมายของข้อกำหนดการเปิดเผยสำหรับเขตอำนาจเป้าหมายแต่ละแห่ง (รัฐอเมริกา ประเทศสมาชิก EU DPA ฟิลิปปินส์)
- การประเมินผลกระทบด้านความเป็นส่วนตัวเมื่อใช้การแปลงบนคลาวด์ (การอยู่ที่ของข้อมูล การโอนข้ามพรมแดน)
- การตรวจสอบความปลอดภัย IT ของข้อกำหนดไดรเวอร์เคอร์เนล (ชอบเครื่องมือไร้ไดรเวอร์สำหรับสภาพแวดล้อมองค์กร)
- บรีฟเฟ่หนึ่งตัวแทน: วัตถุประสงค์ วิธีตั้งค่า วิธีการรายงานปัญหา
- การตรวจสอบบันทึกการโทร: ให้แน่ใจว่าเสียงที่บันทึกดักจับเสียงแปลงเพื่อวัตถุประสงค์ QA
- เมตริก CSAT และ AHT พื้นฐานที่ถูกจับต่อหน้าการปรับใช้สำหรับการเปรียบเทียบหลังการปรับใช้
- แนวทางการขยายขนาดถ้าสิ่งแปลงปรวนกระทบต่อการโทรจริง (กลับไปยังเสียงดั้งเดิมอย่างรวดเร็ว)
สำหรับแอพพลิเคชันการแสดงเสียงและคำบรรยายนอกศูนย์ติดต่อ ดูโพสต์ของเราเกี่ยวกับ voice cloning สำหรับการแสดงเสียง ซึ่งครอบคลุมเวิร์กโฟลว์ด้านสตูดิโอ
บทสรุป
การแปลงเสียง AI บริการลูกค้าได้ผ่านขั้นตอนความเป็นจริง BPO ในฟิลิปปินส์และอินเดียปรับใช้ความเป็นกลางสำเนียงขนาดที่แม่นยำ วัดผลกระทบ AHT และสร้างกระบวนการเปิดเผยสมมาตรควบคุม เทคโนโลยีไม่สมบูรณ์ — ความล่าช้า ความเสี่ยง หนูสินค้า และความกังวลของเอเจนต์เป็นการป้องกันวิธีการที่ใช้งานจริง — แต่ดังนั้น ปัญหาการลอกเลียนทีแรนม
เส้นทางปรับใช้ที่ประสบพลังสำหรับศูนย์ติดต่อส่วนใหญ่คือ: เริ่มต้นด้วยนำร่องในทีมเดียว วัด AHT และ CSAT ก่อนและหลัง ตั้งค่าการแปลงไปยังขั้นต่ำที่ให้ผลการปรับปรุงความเข้าใจที่มีความหมาย และสร้างการเปิดเผยสั้น ๆ เป็นคำเปิดเริ่มต้นของการเรียก การแทนที่เสียงแบบเต็มมีพร้อม แต่ไม่ใช่ทำตามที่ถูกต้องในบริบทบริการลูกค้า
ถ้าคุณจัดการทีมเล็ก ๆ หรือเรียนตัวแทนอิสระและต้องการตัวเลือก Windows Native ที่ไม่ต้องการการกำหนดเป้าหมายองค์กร VoxBooster ติดตั้งโดยไม่มีไดรเวอร์เคอร์เนล ประมวลผลที่ยึดได้ และรวมถึงการทดลอง 3 วันฟรีเพื่อให้คุณสามารถทำให้แม่นยำ config การโทรตามปกติของคุณก่อน ติดข้อมูล
ดาวน์โหลด VoxBooster — ทดสอบฟรี 3 วัน ไม่ต้องใช้บัตรเครดิต