AI Voice Cloning สำหรับเอเจนต์บริการลูกค้า

วิธีการใช้เทคโนโลยีเสียง AI ของบริการลูกค้าช่วยให้เอเจนต์ BPO สามารถเป็นกลางสำเนียงแบบเรียลไทม์ ลด AHT และปฏิบัติตามกฎการเปิดเผย เครื่องมือ การปฏิบัติตามกฎระเบียบ และคำแนะนำการตั้งค่า

AI Voice Cloning สำหรับเอเจนต์บริการลูกค้า

เทคโนโลยีเสียง AI บริการลูกค้าขณะนี้ดีพอที่จะทำงานบนแล็ปท็อปของเอเจนต์ศูนย์ติดต่อ เปลี่ยนสำเนียงแบบเรียลไทม์ และช่วยให้ผู้โทรเข้าใจเอเจนต์ได้ชัดเจนยิ่งขึ้น — ทั้งหมดโดยไม่ให้ผู้โทรสังเกตเห็นชั้นการประมวลผล คำแนะนำนี้ครอบคลุมวิธีการแปลงเสียงแบบเรียลไทม์ในสภาพแวดล้อม BPO ที่จริง ๆ แล้วลด Average Handle Time เครื่องมือใดอยู่ในตลาด กฎการเปิดเผยใดที่นำไปใช้ และวิธีปรับใช้โดยไม่ขัดขวางนโยบาย IT หรือการปฏิบัติตามกฎระเบียบ


TL;DR

  • การแปลงเสียง AI แบบเรียลไทม์สามารถเป็นกลางสำเนียงภาษาอังกฤษฟิลิปปินส์หรืออินเดียไปสู่ภาษาอังกฤษอเมริกันหรือ Received Pronunciation ในเวลาน้อยกว่า 200ms
  • กรณีธุรกิจหลักคือการเข้าใจ: ผู้โทรถามคำถามชี้แจงน้อยลงหมายถึง AHT ต่ำลงโดยตรง
  • การเปิดเผยเป็นกฎหมายในรัฐสหรัฐอเมริกาบางแห่งและแสดงถึง GDPR เกณฑ์คือประกาศแบบย่อที่เพิ่มเสียงแบบเรียลไทม์ที่จุดเริ่มต้นของการโทร
  • Sanas เป็นผู้นำมุ่งเน้นอุตสาหกรรม ElevenLabs Turbo v2 และ VoxBooster ให้บริการขนาดการปรับใช้ที่แตกต่างกัน
  • การลอกเลียนเสียงเต็มในการโทรลูกค้าเป็นสนามเศษไทยของกฎหมาย — ทำให้นุ่มนวลสำเนียงและความสอดคล้องของโทนเป็นกรณีการใช้งานที่เกี่ยวข้อง
  • เครื่องมือเนทีฟ Windows เช่น VoxBooster ไม่ต้องการไดรเวอร์เคอร์เนล ซึ่งหลีกเลี่ยงข้อคัดค้านด้านความปลอดภัยขององค์กรในส่วนใหญ่

”เสียง AI บริการลูกค้า” หมายถึงอะไรจริง ๆ

คำศัพท์ครอบคลุมสองกรณีการใช้งานที่แตกต่างกันซึ่งบางครั้งสับสน

การเป็นกลางสำเนียง ปรับเปลี่ยนเสียงของเอเจนต์แบบเรียลไทม์เพื่อให้โฟเนมที่เกี่ยวข้องกับสำเนียงภูมิภาคที่เฉพาะเจาะจง — พยัญชนะ retroflex ที่พบได้ทั่วไปในภาษาอังกฤษอินเดีย การเปลี่ยนแปลงเสียงในภาษาอังกฤษฟิลิปปินส์ — ถูกแปลงเป็นสำเนียงเป้าหมายที่ผู้โทรพบว่าง่ายต่อการประมวลผล เอเจนต์พูดตามปกติ ซอฟต์แวร์ดำเนินการแปลงในระดับหน่วงเวลาประมาณ 150-200ms ก่อนที่เสียงจะถึงหูของผู้โทร

ความสอดคล้องของเสียง / เสียงแบรนด์ เลียนแบบเสียงเป้าหมาย — มักเป็นลำโพงอ้างอิงที่ได้รับการฝึกอบรม — และใช้เป็นตัวละครเอาท์พุตสำหรับเอเจนต์ทุกคนในทีม ผู้โทรทุกคนได้ยินเอกลักษณ์เสียงเดียวกันไม่ว่าเอเจนต์ใดจะอยู่บนบรรทัด สิ่งนี้มีความต้องการทางเทคนิคมากขึ้นและซับซ้อนกว่าจากด้านกฎหมาย

การปรับใช้ส่วนใหญ่ในศูนย์ติดต่อสดวันนี้ตกอยู่ในหมวดหมู่แรก การทำให้สำเนียงนุ่มนวลคือที่ ROI ชัดเจนที่สุดและกรอบจริยธรรมที่เก่าที่สุด

ทำไม BPO ในฟิลิปปินส์และอินเดีย คือผู้นำการรับเอา

อุตสาหกรรม BPO ในฟิลิปปินส์จ้างเอเจนต์ประมาณ 1.3 ล้านคนและสร้างรายได้ประมาณ 30 พันล้านดอลลาร์ต่อปี ส่วนใหญ่มาจากสัญญาการสนับสนุนลูกค้าภาษาอังกฤษสำหรับลูกค้า สหรัฐอเมริกา และอังกฤษ ภาคส่วน BPO ของอินเดียมีขนาดเทียบเท่า ทั้งสองอุตสาหกรรมประสบความท้าทายแบบติดตัว: เอเจนต์มักจะเป็นผู้สื่อสารที่มีทักษะสูง แต่เซตย่อยของผู้โทร — โดยเฉพาะผู้โทรชาวอเมริกันที่อายุมากขึ้น — มีความอดทนต่ำต่อสำเนียงที่ไม่ใช่เจ้าของดั้งเดิมและตัดการเชื่อมต่อหรือยกระดับการโทรในอัตราที่สูงขึ้น

นี่ไม่ได้เป็นปัญหาเรื่องทักษะล้วน ๆ การวิจัยเกี่ยวกับการรับรู้สำเนียงอย่างสม่ำเสมอพบว่าแม้ว่าความเข้าใจเป็นจุดมุ่งหมายเดียวกัน ผู้โทรมักจะให้อัตราการพูดที่เป็นกลางสำเนียงว่า “มีความสามารถ” และ “น่าเชื่อถือ” มากขึ้น อคติดังกล่าวเป็นจริงและวัดได้แม้ว่าไม่ยุติธรรม

การแปลงสำเนียงแบบเรียลไทม์ช่วยลดความเข้าใจ (ถ้ามี) และสามารถชดเชยความแตกต่างด้านการรับรู้ได้บางส่วน (ถ้าไม่มี) ทั้งสองผลลัพธ์ไม่ได้เป็นกระสุนเงิน แต่ด้วยกันพวกเขาจึงลดแรงเสียดทานในการโต้ตอบการโทรโดยไม่ต้องให้เอเจนต์ผ่านไปหลายปีของการฝึกสำเนียงที่ให้ผลลัพธ์เพียงเล็กน้อย

สำหรับทีมนอกชายฝั่งที่ประมวลผลการสนับสนุนทางเทคนิค การเก็บเงิน หรือการเรียกร้องประกันภัย — หมวดหมู่ที่มีคำศัพท์ที่ซับซ้อนและเดิมพันสูงต่อการโทร — แม้แต่การปรับปรุงความเข้าใจเล็กน้อยก็มีผลโครงสร้างด้านล่างที่มีความหมายต่ออัตราความละเอียดและคะแนน CSAT

วิธีการแปลงเสียงแบบเรียลไทม์ทำงานในการโทร

เส้นทางทางเทคนิคสั้นกว่าที่คนส่วนใหญ่คาดหวัง:

  1. อินพุตไมโครโฟนของเอเจนต์ ถูกจับโดยชุดหูและส่งเข้าไปในซอฟต์แวร์การแปลงเสียงที่ทำงานในพื้นที่บนเครื่องของเอเจนต์
  2. ซอฟต์แวร์ใช้ โมเดลเสียงประสาทเทียม ที่แม่พิมพ์ไปยังเสียง fonem เป้าหมายจำหน่าย นี่ไม่ใช่การเปลี่ยนระดับเสียง — มันเป็นการแปลงการเรียนรู้ของคุณสมบัติเสียงรวมถึง formants ซองสเปกตรัม และเครื่องหมาย prosody
  3. เอาท์พุตจะถูกส่งไปยัง อุปกรณ์เสียงเสมือน ที่ปรากฏต่อ softphone (Avaya, Genesys, Cisco Finesse, Five9 เป็นต้น) เป็นอินพุตไมโครโฟนมาตรฐาน
  4. Softphone ส่งเสียงที่แปลงผ่าน VoIP ไปยังผู้โทร

เป้าหมายความล่าช้าแบบเวียนรอบคือต่ำกว่า 200ms โดยรวม (การแปลง + การส่งข้อมูล) ที่เกณฑ์นี้ การโทรจึงรู้สึกเป็นธรรมชาติ เหนือ 300ms ผู้โทรสังเกตเห็นคุณภาพ “ว่าง” หรือความไม่ซิงโครไนซ์เล็กน้อยระหว่างการเคลื่อนไหวของปากตัวแทนที่มองเห็นได้ (ในวิดีโอโทร) และสิ่งที่พวกเขาได้ยิน

การประมวลผลในพื้นที่ — การเรียกใช้โมเดลบนเครื่องของเอเจนต์ — เร็วกว่าและเป็นส่วนตัวมากกว่าการแปลงบนคลาวด์ API บนคลาวด์เช่น ElevenLabs Turbo v2 นำมาซึ่งความล่าช้าในเครือข่ายเพิ่มเติมที่ทำให้ sub-200ms ยากขึ้น เพื่อรับประกันในการเชื่อมต่อที่ไม่ดี

ภูมิประเทศคู่แข่ง: ใครสร้างนี้

เครื่องมือโฟกัสหลักโมเดลการปรับใช้เป้าหมายความล่าช้าแบบจำหน่าย
Sanasเป็นกลางสำเนียง BPO องค์กรCloud API + แอป client~200msสัญญาองค์กร
ElevenLabs Turbo v2ผู้สร้างเนื้อหา API แบบเรียลไทม์Cloud streaming API~300msต่อ - ตัวละคร API
Krispการยับยั้งเสียงรบกวน (พร้อมชั้นความชัดเจน)แอป Desktop / SDKไม่ระบุ (ไม่ใช่การแปลงแบบเต็ม)การสมัครสมาชิก ต่อที่นั่ง
VoxBoosterชั้นเสียง Realtime Native Windowsแอป Desktop, ไมโครโฟนเสมือน<150ms ท้องถิ่นหนึ่งครั้งหรือการสมัครสมาชิก
Voicemodเกมพลิเกมลงแบบเรียลไทม์แอป Desktopต่ำFreemium

Sanas เป็นผลิตภัณฑ์เดียวที่สร้างขึ้นเพื่อจุดประสงค์ที่กำหนดไว้ของเป็นกลางสำเนียง BPO ที่ขนาดองค์กร มันรวมเข้ากับแพลตฟอร์มศูนย์ติดต่อหลักและเสนอแพคเกจเอกสารการปฏิบัติตามกฎระเบียบ การแลกเปลี่ยนคือต้นทุน — สัญญาองค์กรมีราคาแพง และ BPO ที่เล็กกว่าหรือฟรีแลนซ์ส่วนบุคคลไม่สามารถเข้าถึงแพลตฟอร์มได้อย่างง่ายดาย

ElevenLabs Turbo v2 เร็วและมีความสามารถ แต่ถูกออกแบบมาเพื่อวัสดุสำหรับการสร้างเนื้อหา ไม่ใช่โครงสร้างพื้นฐานศูนย์ติดต่อ การรวมเข้าไปในเส้นทาง softphone ต้องการการทำงาน API ที่กำหนดเอง

VoxBooster เติมเต็มหนึ่งอื่น ๆ: เอเจนต์บุคคลหรือ BPO เล็กน้อยที่ต้องการโซลูชัน Windows Native ที่พวกเขาสามารถตั้งค่าโดยไม่ต้องอนุมัติ IT ปรับใช้ในไม่กี่นาที และเรียกใช้ในพื้นที่โดยไม่มีการส่งข้อมูลคลาวด์ สำหรับเอเจนต์ที่ทำงานบนการตั้งค่า BYOD หรือในทีมที่การปรับใช้ซอฟต์แวร์องค์กรแบบเข้มข้นช้า นี่สำคัญ

เพื่อให้มีมุมมองที่กว้างขึ้นเกี่ยวกับการใช้งาน AI เสียงขององค์กร โปรดดูโพสต์ของเราเกี่ยวกับ ตัวสร้างเสียง AI สำหรับการปฐมนิเทศ ที่ครอบคลุมว่าเทคโนโลยีเดียวกันใช้กับเนื้อหาการฝึกอบรมภายในได้อย่างไร

ผลกระทบ AHT: ข้อมูลแสดงอะไรจริง ๆ

Average Handle Time เป็น KPI ศูนย์ติดต่อที่ติดตามมากที่สุด มันวัดเวลาจากการเริ่มต้นของการโทรจนถึงการตัดสินใจ รวมถึงงานหลังการโทร การลด AHT แม้แต่ 30 วินาที ต่อการโทรระดับ — พูด ทีมที่จัดการ 200 การโทรต่อวัน — ประหยัดนาทีหลายพันต่อสัปดาห์

กลไกที่การแปลงเสียง AI ส่งผลต่อ AHT ไม่ใช่เวทมนตร์: มันคือความเข้าใจ

เมื่อผู้โทรไม่สามารถแยกวิเคราะห์ได้ง่าย ๆ ว่าเอเจนต์พูดอะไร สองสิ่งนี้เกิดขึ้น:

  • ผู้โทรขอให้เอเจนต์ทำซ้ำตัวเอง (เพิ่มเวลา 20-30 วินาทีต่อครั้ง)
  • ผู้โทรสันนิษฐานว่าผิดเกี่ยวกับว่าพูดอะไร ซึ่งนำไปสู่ข้อมูลที่ผิดพลาดที่ยืนยัน ซึ่งปรากฏขึ้นในภายหลังในการเพิ่มระดับหรือเรียกกลับ

BPO ที่ได้ระบายนำเสนอ Sanas ได้รายงานการลด AHT ในช่วง 8-15% สำหรับประเภทการโทรเฉพาะ มีผลกระทบสูงกว่าในการสนับสนุนเชิงเทคนิคและผลกระทบต่ำกว่าในการโทรสถานะคำสั่งซื้อแบบง่าย (ซึ่งการถอดเสียงสั้นและแรงเสียดทานความเข้าใจน้อยที่สุดแม้ว่ามีสำเนียง)

คำเตือนที่สำคัญ: เอเจนต์ที่รู้ว่าพวกเขาแตกต่างกันในระหว่างการแปลงบางครั้งต้องพึ่งเทคโนโลยีมากเกินไปและหยุดทำงานอย่างแข็งขัน บนความชัดเจนของการสื่อสารของตนเอง การปรับใช้ที่ดีที่สุด ถือว่าการแปลงเสียง AI เป็นเครื่องมือ ไม่ใช่การแทนที่การฝึกอบรมเอเจนต์

กฎการเปิดเผย: สิ่งที่คุณต้องบอกผู้โทร

นี่คือชิ้นส่วนที่ทีมกฎหมายสนใจมากที่สุด และมันเข้าใจได้ไม่ดีในสนาม

สหรัฐอเมริกา

กฎ 2024 ของ FCC เกี่ยวกับรถกำแพงที่สร้างด้วย AI ได้สร้างกรอบงานที่มีการอ้างอิงในบริบทการบริการลูกค้าระดับรัฐ รัฐหลายแห่ง — แคลิฟอร์เนีย อิลลินอยส์ นิวยอร์ก — มีกฎหมายหรือกฎหมายที่รอดำเนินการจำเพาะเกี่ยวกับการปิดเผยการเปลี่ยนแปลงเสียง AI ในการโทรเชิงพาณิชย์

ท่าเรือปลอดภัยในทุกเขตอำนาจ สหรัฐอเมริกา คือการเปิดเผยที่จุดเริ่มต้นของการโทร: ‘สายนี้อาจใช้การปรับปรุงเสียงหรือเทคโนโลยีเสียง AI’ สั้น ไม่กระตุก หรือเกี่ยว ต้องไม่อยู่ในสคริปต์การโทร ไม่ใช่ฝังตัวในข้อกำหนดของการบริการ

การใช้การแปลงเสียง AI เพื่อเลียนแบบบุคคลที่ระบุชื่อเฉพาะ (พูด การปรับใช้ ‘เอเจนต์ที่แพทจวนแบบโฆษณาชาวนาของโพ’) ไม่มีความยินยอมที่ชัดแจ้งเป็นกิจกรรมที่แตกต่างกันและเสี่ยงมากกว่ามาก นั่นตกอยู่ภายใต้เสียงความสมบูรณ์และกฎการเปิดเผยความเป็นส่วนตัวที่แตกต่างกันตามรัฐ

สหภาพยุโรป

มาตรา 13 GDPR กำหนดให้บุคคลทั่วไปได้รับแจ้งเมื่อข้อมูลชีวมิติได้รับการประมวลผล ข้อมูลเสียงที่ใช้ในการฝึกอบรมหรือใช้แบบจำลองการแปลงคือข้อมูลชีวมิติ ตัวควบคุม (BPO หรือไคลเอนต์) ต้องเปิดเผยการประมวลผลเสียงในประกาศความเป็นส่วนตัวที่ให้ไว้ที่จุดเริ่มต้นของการโทร ในทางปฏิบัติ การเปิดเผยเสียงตามสคริปต์สั้น ๆ รวมกับประกาศความเป็นส่วนตัวลายลักษณ์อักษรพึงพอใจในการตีความส่วนใหญ่

Directive EU AI ซึ่งเริ่มใช้บังคับระหว่าง 2024-2025 ระดับระบบชีวมิติเรียลไทม์ในบริบทที่หันหน้าไปหาสาธารณะ เป็น ‘ความเสี่ยงสูง’ — ซึ่งหมายความว่าข้อกำหนดการประเมินความสอดคล้องและการบันทึกแบบสำหรับ berat ส่อด้วยบริบทการปรับใช้ที่แน่นอน

บทสรุปสมควรแก่กลั่นพื้นพู่

ขอบเขตอำนาจการเปิดเผยขั้นต่ำกิจกรรมเสี่ยง
สหรัฐฯ (สหพันธ์)สิ่งเตือนปากเปิดที่จุดเริ่มต้นของการโทรลอกเลียนบุคคลที่ระบุชื่อ
สหรัฐฯ (แคลิฟอร์เนีย/อิลลินอยส์/นิวยอร์ก)แจ้งเป็นลายลักษณ์อักษร + ปากการปรับใช้โดยไม่มีการเปิดเผย
EU (GDPR)ประกาศความเป็นส่วนตัว + เปิดเผยมาตรา 13การประมวลผลโดยไม่มีพื้นฐานทางกฎหมาย
EU (AI Act)การประเมินความสอดคล้องถ้าเสี่ยงสูงการประมวลผลชีวมิติแบบเรียลไทม์ในที่สาธารณะ
ฟิลิปปินส์ (Data Privacy Act)ความยินยอมหรือพื้นฐานความสนใจที่ชอบด้วยกฎหมายการแบ่งปันข้อมูลเสียงกับจุดปลายคลาวด์ของบุคคลที่สาม

หมายเหตุหนึ่งสำหรับ BPO ที่ยึดถือฟิลิปปินส์โดยเฉพาะ: Data Privacy Act ของฟิลิปปินส์ (สาธารณรัฐ 10173) ควบคุมการเก็บรวบรวมและการประมวลผลข้อมูลส่วนบุคคล รวมถึงเสียง หากซอฟต์แวร์การแปลงสำเนียงของคุณส่งเสียงไปยังจุดปลายคลาวด์ของสหรัฐอเมริกาหรือ EU คุณต้องประเมินการปฏิบัติตามข้อกำหนดการโอนข้อมูลข้ามพรมแดน — หรือใช้เครื่องมือการประมวลผลในพื้นที่ที่เก็บข้อมูลเสียงบนอุปกรณ์

การตั้งค่าชั้นเสียงเรียลไทม์ในสภาพแวดล้อม Softphone

ส่วนนี้ครอบคลุมขั้นตอนการปรับใช้ที่ปฏิบัติได้จริงสำหรับเอเจนต์ที่เรียกใช้เวิร์กสเตชัน Windows พร้อม softphone VoIP มาตรฐาน

ข้อกำหนดเบื้องต้น

  • Windows 10 หรือ 11 (64 บิต)
  • ชุดหูที่มีไมโครโฟนเฉพาะ (USB ดีกว่า analog 3.5mm สำหรับระดับอินพุตที่สอดคล้องกัน)
  • Softphone ที่อนุญาตให้เลือกอุปกรณ์เสียงแบบแมนวัล (Avaya Workplace Genesys CX Cisco Finesse Five9 Agent Zoho Desk ฯลฯ)
  • ซอฟต์แวร์การแปลงเสียงติดตั้งและตั้งค่าแล้ว

ขั้นตอนที่ 1 — ติดตั้งซอฟต์แวร์การแปลงเสียง

สำหรับ VoxBooster: ดาวน์โหลดและติดตั้งไคลเอนต์ Windows มันลงทะเบียนไมโครโฟนเสมือนในรายการอุปกรณ์เสียง Windows โดยไม่ต้องติดตั้งไดรเวอร์เคอร์เนล ซึ่งหมายถึงนโยบายความปลอดภัย IT มาตรฐานที่บล็อกไดรเวอร์เสียงระดับเคอร์เนลไม่นำไปใช้

ขั้นตอนที่ 2 — เลือกแบบจำลองเสียงของคุณ

เลือกเป้าหมายสำเนียงที่เหมาะสมกับฐานผู้โทรของคุณ:

  • ภาษาอังกฤษอเมริกันทั่วไป — เป้าหมายที่กว้างที่สุด ใช้ได้กับสหรัฐอเมริกา แคนาดา และตลาดการพูดภาษาอังกฤษส่วนใหญ่
  • Received Pronunciation (อังกฤษ) — สำหรับสัญญาที่เน้น UK
  • ภาษาอังกฤษนานาชาติที่เป็นกลาง — ความเข้มข้นของสำเนียงลดลงโดยไม่ต้องเปลี่ยนแปลงอย่างหนักไปยังสำเนียงภูมิภาคเฉพาะ มักชอบโดยเอเจนต์ที่รู้สึกว่าความเป็นกลางเต็มมีเสียงไม่เป็นธรรมชาติ

ใช้เวลา 5-10 นาที บันทึกเสียงการทดลองและเปรียบเทียบการเล่นกลับก่อนที่จะตรวจสอบการตั้งค่าสำหรับการโทรสด

ขั้นตอนที่ 3 — เส้นทาง Mic เสมือนไป Softphone ของคุณ

ในแผง Softphone Sound Settings ของคุณ เปลี่ยนอินพุตไมโครโฟนจากชุดหูกายภาพไปยังไมโครโฟนเสมือนที่สร้างโดยซอฟต์แวร์การแปลงเสียง Softphone จะได้รับสตรีมเสียงแบบเรียลไทม์ที่แปลงแล้ว

ทดสอบกับเพื่อนร่วมงานหรือบันทึกการโทรก่อนทำการโทรลูกค้าสด

ขั้นตอนที่ 4 — ความล่าช้าของการตรวจสอบ

ขอให้เพื่อนร่วมงานโทรไปยังเวิร์กสเตชันของคุณผ่าน softphone พูดและฟัง echo หรือ lag หากคุณได้ยินเสียงของคุณชะลอตัวในหูชุดหู ความล่าช้าการแปลงเกินความล่าช้าของ sidetone — นี่มักหมายความว่าซอฟต์แวร์อยู่ภายใต้การโหลด CPU ปิดแอปพลิเคชันพื้นหลัง ปิดใช้งานตัวจับเวลาที่ใช้เบราว์เซอร์ และตรวจสอบว่าไม่มีการสแกน antivirus ที่กำลังทำงาน

ขั้นตอนที่ 5 — ปรับการยับยั้งเสียงรบกวน

เครื่องมือการแปลงเสียงเรียลไทม์ส่วนใหญ่มีการยับยั้งเสียงรบกวน ตั้งเป็นค่ากลาง ไม่ใช่สูงสุด การยับยั้งมากเกินไปสร้างสิ่งแปลงปรวนของ ‘ฟองสบู่’ บนเสียงแปลงที่อาจเข้าใจผิดว่าเป็นการเชื่อมต่อที่ไม่ดีโดยผู้โทร

สำหรับคำแนะนำที่กว้างขึ้นเกี่ยวกับการฉายเสียงอย่างชัดเจนเกี่ยวกับการเรียก โปรดดูไกด์ของเราเกี่ยวกับ วิธีการร้องเพลงมืออาชีพในการเรียก ซึ่งครอบคลุมการวางตำแหน่งไมโครโฟน EQ และการส่งเสียงถัดจากชั้นซอฟต์แวร์

AI Voice Cloning สำหรับ IVR และ Touchpoints ลูกค้าที่บันทึกไว้ล่วงหน้า

เกินกว่าการเรียกแบบสด เอเจนต์ AI voice cloning มีแอปพลิเคชันคู่ขนานและน้อยมากที่สัญญาในบริการลูกค้า: เนื้อหาที่บันทึก

ระบบ Interactive Voice Response (IVR) ประกาศดนตรีรอ ข้อความโทรกลับอัตโนมัติ และการแจ้งเตือน SMS-to-voice ทั้งหมดมักจะบันทึกโดยกลุ่มเล็ก ๆ ของนักเสียง การบันทึกสินค้าเหล่านี้ใหม่ทุกครั้งที่สคริปต์เปลี่ยนแปลงนั้นมีราคาแพงและชี้ช้า

AI voice cloning อนุญาตให้บริษัทฝึกแบบจำลองเสียงบนบันทึกจากนักเสียงดั้งเดิม (พร้อมการยินยอมและสัญญาอนุญาต) และสร้างเสียง IVR ใหม่จากข้อความ — ที่ราคานาที ไม่ใช่เวลาสตูดิโอ เสียงที่เกิดขึ้นจึงสอดคล้องกับเสียงแบรนด์ที่มีอยู่และเสียงธรรมชาติให้กับผู้โทรที่ได้โต้ตอบกับ IVR ก่อนหน้านี้

นี่มีความเสี่ยงต่ำกว่าการแปลงเอเจนต์เรียลไทม์เนื่องจาก:

  • ไม่มีโซ่การประมวลผลแบบเรียลไทม์พร้อมข้อ จำกัด ความล่าช้า
  • เอาท์พุตสามารถตรวจสอบคุณภาพก่อนการปรับใช้
  • การเปิดเผยง่ายขึ้น — ผู้โทร IVR เข้าใจอยู่แล้วว่าพวกเขาโต้ตอบกับระบบอัตโนมัติ

สำหรับการสร้างเสียงการฝึกอบรมของบริษัทในระดับ หลักการเดียวกันนำไปใช้ — ดูโพสต์ของเราเกี่ยวกับ voice cloning สำหรับ eLearning บริษัท ซึ่งครอบคลุมเวิร์กโฟลว์การผลิตในรายละเอียด

ความสอดคล้องของโทนและการมาตรฐาน Voiceาก

นอกเหนือจากการทำงานสำเนียง การปรับใช้บริการลูกค้าองค์กรบางส่วนใช้ชั้นเสียง AI เพื่อบังคับใช้ความสอดคล้องของโทนข้ามทีมเอเจนต์

กรณีการใช้: บริษัทบริการการเงินต้องการการโต้ตอบของเอเจนต์ทุกรายให้ฟังสงบ วัด และอบอุ่นปานกลาง — ไม่ใช่บริษัทแบน แต่ไม่มากเกินไป ลิเบอร์นม เอเจนต์แตกต่างกันตามธรรมชาติในวิธีการจัดการของพวกเขา เร็ว หรือการผันของภูมิภาคในการโทร แบบจำลองเสียงที่ฝึกอบรมบนตัวอย่างเสียงเป้าหมายสามารถขยับสำนักและอัตราการพูดของเอาท์พุตเอเจนต์แต่ละตัวไปยังพื้นฐานเป้าหมาย

นี่เป็นคล้ายคลึงมากขึ้นกับการแปลงเสียงเต็มมากกว่าการทำงานสำเนียงเพียงอย่างเดียวและส่งปฏิบัติตามข้อมูลการเปิดเผยที่สูงกว่า นอกจากนี้ยังมีความเสี่ยงต่อการฟังการเรียกในท้องคำว่า ‘คนแปลกหน้า’ ถ้าการดัดแปลงอาจเป็นอาจตรวจพบ ขีด จำกัด ในทางปฏิบัติคือการดัดแปลงสำนักที่เฉียบหลักแหว่งพันกง อัตราการพูด ±10% การเพิ่มความอบอุ่นสกา) มากกว่าการแทนที่เสียงขายส่ง

ที่ทำงานได้ดีที่สุด: การเรียกแจ้งเตือนเอกสารขึ้นสำเร็จการศึกษา (การแจ้งเตือนแล่นสินเชื่อ ยืนยันการนัดหมาย) ที่เนื้อหาสคริปต์สั้นและความสอดคล้องของเสียงมีความสำคัญมากกว่าการแปรผัน

สำหรับบริบทการสาธิตผลิตภัณฑ์และตัวอย่าง โลจิกเสียง AI เดียวกันนำไปใช้ — ดูโพสต์ของเราเกี่ยวกับ ตัวสร้างเสียง AI สำหรับเดโมผลิตภัณฑ์ สำหรับการเปรียบเทียบวิธีการสังเคราะห์หรือโคลน

สิ่งที่บอกให้ตัวแทน: เฟรมเทคโนโลยีอย่างถูกต้อง

เอเจนต์มักจะตอบสนองด้วยความกังวลเมื่อมีการแนะนำเทคโนโลยีการแปลงเสียง ข้อกังวลทั่วไป:

  • ‘ปิดหมายถึงงานของฉันน้อยลงเหรอ?’ — ไม่ เทคโนโลยีต้องการเอเจนต์ มันจึงเปลี่ยนแปลงสตรีม มันจึงไม่ได้แทนที่การตัดสินใจของมนุษย์ในการเรียก
  • ‘ฉันจะร้องเพลงเหมือนหุ่นยนต์ไหม?’ — ด้วยการตั้งค่าใหม่ที่ใช้มารับ โทษของความหมาย เสียง โทษการแปลงของเสียงหุ่นยนต์มาจากการประมวลผลหรือเสียง ทั้งอาจตั้งค่า
  • ‘บริษัทมีบันทึกอะไรจากผู้โทรหรือไม่?’ — นี่คือคำถามด้วยกฎหมาย คำตอบคือนโยบายการเปิดเผยของคุณ อบประจำ: ผู้โทรทำให้ทราบที่จุดเริ่มต้นของการโทร เอเจนต์คือมนุษย์ที่แท้จริง และเทคโนโลยีมารับเข้าความเข้าใจ

การสนับสนุนของเอเจนต์นั้นสำคัญ ทีมที่เข้าใจ ทำไม เทคโนโลยีถูกปรับใช้ — การปรับปรุงความเข้าใจ ไม่ใช่การติดตามเสียงหรือการติดตามเสียง — แสดง การรับเลือกวิธีพยุหะจำนวนมากและความสม่ำเสมอของการตั้งค่า (ตัวอย่างเช่น พวกเขาจำได้ว่าต้องตรวจสอบความล่าช้าและรายงาน artifacts เสียงมากกว่ากำลังหลีก)

ตรวจสอบรายการการปรับใช้สำหรับผู้จัดการศูนย์ติดต่อ

ก่อนนำการแปลงเสียงจริงเวลาบนทีม:

  • การตรวจสอบด้านกฎหมายของข้อกำหนดการเปิดเผยสำหรับเขตอำนาจเป้าหมายแต่ละแห่ง (รัฐอเมริกา ประเทศสมาชิก EU DPA ฟิลิปปินส์)
  • การประเมินผลกระทบด้านความเป็นส่วนตัวเมื่อใช้การแปลงบนคลาวด์ (การอยู่ที่ของข้อมูล การโอนข้ามพรมแดน)
  • การตรวจสอบความปลอดภัย IT ของข้อกำหนดไดรเวอร์เคอร์เนล (ชอบเครื่องมือไร้ไดรเวอร์สำหรับสภาพแวดล้อมองค์กร)
  • บรีฟเฟ่หนึ่งตัวแทน: วัตถุประสงค์ วิธีตั้งค่า วิธีการรายงานปัญหา
  • การตรวจสอบบันทึกการโทร: ให้แน่ใจว่าเสียงที่บันทึกดักจับเสียงแปลงเพื่อวัตถุประสงค์ QA
  • เมตริก CSAT และ AHT พื้นฐานที่ถูกจับต่อหน้าการปรับใช้สำหรับการเปรียบเทียบหลังการปรับใช้
  • แนวทางการขยายขนาดถ้าสิ่งแปลงปรวนกระทบต่อการโทรจริง (กลับไปยังเสียงดั้งเดิมอย่างรวดเร็ว)

สำหรับแอพพลิเคชันการแสดงเสียงและคำบรรยายนอกศูนย์ติดต่อ ดูโพสต์ของเราเกี่ยวกับ voice cloning สำหรับการแสดงเสียง ซึ่งครอบคลุมเวิร์กโฟลว์ด้านสตูดิโอ

บทสรุป

การแปลงเสียง AI บริการลูกค้าได้ผ่านขั้นตอนความเป็นจริง BPO ในฟิลิปปินส์และอินเดียปรับใช้ความเป็นกลางสำเนียงขนาดที่แม่นยำ วัดผลกระทบ AHT และสร้างกระบวนการเปิดเผยสมมาตรควบคุม เทคโนโลยีไม่สมบูรณ์ — ความล่าช้า ความเสี่ยง หนูสินค้า และความกังวลของเอเจนต์เป็นการป้องกันวิธีการที่ใช้งานจริง — แต่ดังนั้น ปัญหาการลอกเลียนทีแรนม

เส้นทางปรับใช้ที่ประสบพลังสำหรับศูนย์ติดต่อส่วนใหญ่คือ: เริ่มต้นด้วยนำร่องในทีมเดียว วัด AHT และ CSAT ก่อนและหลัง ตั้งค่าการแปลงไปยังขั้นต่ำที่ให้ผลการปรับปรุงความเข้าใจที่มีความหมาย และสร้างการเปิดเผยสั้น ๆ เป็นคำเปิดเริ่มต้นของการเรียก การแทนที่เสียงแบบเต็มมีพร้อม แต่ไม่ใช่ทำตามที่ถูกต้องในบริบทบริการลูกค้า

ถ้าคุณจัดการทีมเล็ก ๆ หรือเรียนตัวแทนอิสระและต้องการตัวเลือก Windows Native ที่ไม่ต้องการการกำหนดเป้าหมายองค์กร VoxBooster ติดตั้งโดยไม่มีไดรเวอร์เคอร์เนล ประมวลผลที่ยึดได้ และรวมถึงการทดลอง 3 วันฟรีเพื่อให้คุณสามารถทำให้แม่นยำ config การโทรตามปกติของคุณก่อน ติดข้อมูล

ดาวน์โหลด VoxBooster — ทดสอบฟรี 3 วัน ไม่ต้องใช้บัตรเครดิต

ลอง VoxBooster — ทดลองใช้ฟรี 3 วัน

โคลนเสียงเรียลไทม์ ซาวด์บอร์ด และเอฟเฟกต์ — ทุกที่ที่คุณคุย

  • ไม่ต้องใช้บัตรเครดิต
  • ความหน่วง ~30ms
  • Discord · Teams · OBS
ลองฟรี 3 วัน