เครื่องสร้างเสียง AI สำหรับคิออส์ชำระเงินอัตโนมัติ

AI เสียงชำระเงินอัตโนมัติในปัจจุบันเป็นใบหน้าหูของร้านค้าปลีกสมัยใหม่ ทุกครั้งที่ผู้ซื้อได้ยิน “โปรดวางสินค้าลงในพื้นที่บรรจุภัณฑ์” ที่ลานชำระเงินอัตโนมัติ Walmart Kroger หรือ Carrefour เสียงนั้นผลิตโดยระบบการแปลงข้อความเป็นเสียง — และมากขึ้นเรื่อย ๆ ระบบนั้นเป็นเครื่องสร้างเสียง AI มากกว่าการบันทึกสตูดิโอจากนักแสดงเสียงที่ว่าจ้าง คำแนะนำนี้อธิบายวิธีที่ผู้ค้าปลีกกำหนดค่าเสียงคิออส์ชำระเงินอัตโนมัติบนฮาร์ดแวร์ NCR Voyix และ Diebold Nixdorf ว่าความสอดคล้องของการเข้าถึงขอบเขตด้านการป้องกัน WCAG 2.1 ต้องการจริงๆ สำหรับเสียงคิออส์ วิธีจัดโครงสร้างไลบรารีพร็อมต์หลายภาษา และวิธีสร้างบุคลิกเสียงสามารถทำงานที่ 2,000 ลงจอดในห่วง

TL;DR

AI เสียงชำระเงินอัตโนมัติขับเคลื่อนพร็อมต์เสียงบนคิออส์ที่ Walmart Kroger Carrefour และสายการส่วนใหญ่ — “โปรดวางสินค้าลงในพื้นที่บรรจุภัณฑ์” เป็นตัวอย่างที่มีชื่อเสียงมากที่สุด
NCR Voyix และ Diebold Nixdorf เป็นผู้ผลิต OEM ที่โดดเด่น ทั้งสองใช้ไลบรารีพร็อมต์ WAV ที่โหลดไปยังคอนโทรลเลอร์เทอร์มินัล
WCAG 2.1 ต้องการให้ทุกพร็อมต์ภาพมีเสียงเทียบเท่า เข้าใจได้ที่ระดับเสียงคิออส์ โดยมีการควบคุมผู้ใช้เหนือเสียง
คิออส์หลายภาษา (อังกฤษ + สเปนที่ Walmart ฝรั่งเศส + อาหรับที่ Carrefour) ต้องไลบรารีพร็อมต์แยกต่างหากต่อภาษาจากโปรไฟล์เสียงเดียวกัน
เครื่องสร้างเสียง AI แทนที่เซชันสตูดิโอต่อการแก้ไขด้วยการสร้างชุดจากสคริปต์ — สำคัญในมาตราส่วนสายการที่อัพเดตพร็อมต์ครั้งเดียวสัมผัสหลายพันเครื่อง
VoxBooster จัดการการโคลนเสียงและการผลิตชุด WAV สำหรับขั้นตอนการทำงานเสียงปลีก PC Windows

AI เสียงชำระเงินอัตโนมัติที่เป็นจริง

AI เสียงคิออส์ปลีกหมายถึงเอนจิน text-to-speech ที่สร้างพร็อมต์เสียงที่นำทางผู้ซื้อผ่านธุรกรรมชำระเงิน self-scan วลีว่า “AI เสียงชำระเงินอัตโนมัติ” ครอบคลุมสแตก ทั้งหมด: บุคลิกเสียงเอง (นำสัง โทน เพศ) ไลบรารีพร็อมต์ (ทุกบรรทัดสคริปต์ที่เป็นไปได้ระบบอาจเล่น) รูปแบบไฟล์เสียง (ข้อมูล WAV ที่ตัวควบคุมรับ) และลอจิกที่ทริกเกอร์พร็อมต์ใด ๆ เล่นเมื่อ

ลำดับเหตุการณ์พร็อมต์ทั่วไปที่เทอร์มินัลชำระเงินอัตโนมัติมีลักษณะดังนี้:

“ยินดีต้อนรับ โปรดสแกนสินค้าชิ้นแรกของคุณ”
“โปรดวางสินค้าลงในพื้นที่บรรจุภัณฑ์”
“สินค้าที่ไม่คาดคิดในพื้นที่บรรจุภัณฑ์” (ตรวจพบความไม่ตรงกันของสเกล)
“คุณมีคูปองหรือบัตรความภักดีหรือไม่”
“โปรดเลือกวิธีการชำระเงินของคุณ”
“โปรดใส่การ์ดของคุณ” / “โปรดแตะการ์ดของคุณ”
“โปรดดึงการ์ดของคุณออก”
“ธุรกรรมได้รับการอนุมัติ โปรดรับใบเสร็จและสินค้าของคุณ”

แต่ละบรรทัดเป็นไฟล์ WAV แยกต่างหากในไลบรารีพร็อมต์เทอร์มินัล ไลบรารีสมบูรณ์ — ครอบคลุมสถานะข้อผิดพลาดทั้งหมด การตรวจสอบอายุ การค้นหาสินค้า การแจ้งเตือนความแตกต่างของน้ำหนัก พร็อมต์สมาชิกทีมร้านค้า และข้อความปิด — ทำงานได้ถึง 80-150 คลิปแยกต่างหากต่อภาษาต่อประเภทลงจอด

คูณด้วยสายการของร้านค้า 500 แห่ง 4 ลงจอดต่อร้านค้า และ 2 ภาษา คุณมีไฟล์เสียงอาจถึง 1.2 ล้านไฟล์ที่ต้องสร้าง บำรุงรักษา และอัปเดต นี่คือเหตุผลที่การสร้างแบบชุด AI แทนที่การบันทึกสตูดิโอสำหรับเสียงปลีกองค์กร: เมื่อข้อบังคับใหม่ต้องการสคริปต์การตรวจสอบอายุที่อัปเดต ระบบ AI จะสร้างคลิปที่ได้รับผลกระทบภายในหนึ่งชั่วโมง เซชันสตูดิโอราคาหลายวันและหลายพันดอลลาร์

เสียงเบื้องหลัง “โปรดวางสินค้าลงในพื้นที่บรรจุภัณฑ์”

พร็อมต์เสียงชำระเงินอัตโนมัติที่รู้จักกันดีที่สุดในโลกปลีกภาษาอังกฤษคือ “โปรดวางสินค้าลงในพื้นที่บรรจุภัณฑ์” สำหรับส่วนใหญ่ของปี 2000 และ 2010 เสียงนั้นถูกบันทึกไว้ — โดยทั่วไปคือนักแสดงเสียงมืออาชีพที่ว่าจ้างเป็นประจำโดยผู้ผลิต OEM ฮาร์ดแวร์ (NCR หรือ Diebold Nixdorf) หรือโดยโซ่ปลีกขนาดใหญ่เพื่อบันทึกเสียงแบรนด์ของตนเอง

เสียงชำระเงินอัตโนมัติ Walmart US เช่น กลายเป็นที่รู้จักพอที่ว่า วลี “สินค้าที่ไม่คาดคิดในพื้นที่บรรจุภัณฑ์” เข้าสู่วัฒนธรรมมีม — สัญญาณของจำนวนผู้ซื้อที่พบพร็อมต์นี้ และความแข็งแกร่งของการรู้จำแบรนด์เสียง

ปัจจัยหลายประการขับเคลื่อนการเปลี่ยนแปลงจากเสียงที่บันทึกไปยังเสียงที่สร้างโดย AI:

ความถี่ในการอัพเดต ระบบ POS ปลีกอัพเดตสคริปต์ปกติ — วิธีการชำระเงินใหม่ การเปลี่ยนแบรนด์โปรแกรมความภักดี ภาษาข้อบังคับสำหรับการซื้อแอลกอฮอล์หรือยาสูบ ข้อความตามฤดูกาล ทุกการเปลี่ยนแปลงสคริปต์ก่อนหน้านี้ต้องการการจองสตูดิโอ การสร้าง AI ลดลงเป็นนาที

มาตราส่วนโลก ผู้ค้าปลีกสากล เช่น Carrefour ทำงานในหลายสิบประเทศและหลายสิบภาษา การว่าจ้างแม่ไม้เสียงท้องถิ่นต่อภาษาต่อตลาด การรักษาความสอดคล้องกันระหว่างเซชัน และการจัดการสัญญาแม่ไม้ในระดับนั้นมีความซับซ้อนในการดำเนินการ การสร้างเสียง AI จัดการทุกภาษาจากโปรไฟล์เสียงที่กำหนด

ความสอดคล้องของแบรนด์ ผู้ค้าปลีกที่ปรับใช้ชำระเงินอัตโนมัติในร้านค้า 2,000 แห่งในช่วงห้าปี โดยใช้เซชันบันทึกต่างๆ เมื่อห่วงขยายตัว จะลงเอยด้วยเสียงที่ฟังดูไม่สอดคล้องกันในหมู่อสังหาริมทรัพย์ — บางอัน อบอุ่น บางเสียง หุ่นยนต์มากขึ้น บางเสียงมีสำเนียงต่างกัน การสร้างเสียง AI จากโปรไฟล์ที่กำหนดหนึ่งโปรไฟล์ผลิตเอาต์พุตที่เหมือนกันที่เทอร์มินัล 1 และเทอร์มินัล 4,000

ราคาต่อพร็อมต์ ที่อัตราสตูดิโอ ไลบรารีพร็อมต์ 120 คลิปในสองภาษามีค่าใช้จ่ายหลายพันดอลลาร์ การสร้าง AI ลดต้นทุนส่วนเพิ่มของพร็อมต์ใหม่เกือบเป็นศูนย์หลังจากสร้างโปรไฟล์เสียง

NCR Voyix Self-Checkout: สถาปัตยกรรมฮาร์ดแวร์และเสียง

NCR Voyix (เดิมชื่อ NCR Corporation rebranded 2024) ผลิตสายการ FastLane SelfServ 90 และ EASY CHECKOUT ที่คุณพบได้ใน Walmart Kroger Home Depot และห่วงขนาดใหญ่ส่วนใหญ่ของสหรัฐอเมริกา การเข้าใจวิธีที่ระบบเหล่านี้จัดการเสียงเป็นสิ่งจำเป็นสำหรับทุกคนที่ผลิตเสียงคิออส์ที่กำหนดเอง

หน่วยชำระเงินอัตโนมัติ NCR FastLane และ SelfServ ใช้ Windows (โดยทั่วไปคือ Windows 10 IoT Enterprise บนฮาร์ดแวร์รุ่นปัจจุบัน) หรือ OS บน Linux โปรดทราบว่า เสียงจัดการโดยซอฟต์แวร์ POS — NCR Emerald POS หรือแพลตฟอร์ม SCOT (Self-Checkout Solution) — ซึ่งเล่นไฟล์ WAV จากไดเร็กทอรี่ไลบรารีพร็อมต์ในพื้นที่บนเทอร์มินัล

ข้อมูล จำเพาะเสียงสำหรับระบบ NCR:

สายการ NCR	อัตราการสุ่มตัวอย่าง	ความลึกบิต	ช่อง	รูปแบบ
FastLane (รุ่นปัจจุบัน)	44.1 kHz	16-bit	Mono	WAV PCM
SelfServ 90	22.05 kHz หรือ 44.1 kHz	16-bit	Mono	WAV PCM
EASY CHECKOUT	44.1 kHz	16-bit	Mono	WAV PCM
หน่วย SCOT เก่า	11.025 kHz หรือ 22.05 kHz	16-bit	Mono	WAV PCM

ไลบรารีพร็อมต์บนเทอร์มินัล NCR จัดระเบียบในโครงสร้างไดเร็กทอรี่ซึ่งแต่ละชื่อไฟล์ WAV สอดคล้องกับรหัสเหตุการณ์พร็อมต์ในการกำหนดค่าซอฟต์แวร์ POS ปกติการตั้งชื่อแตกต่างกันไปตามการปรับแต่งผู้ค้าปลีก — การปรับใช้ Kroger อาจใช้รหัสพร็อมต์ที่แตกต่างจากการปรับใช้ Walmart แม้บนฮาร์ดแวร์ NCR ที่เหมือนกัน

ข้อจำกัดการผลิตสำคัญ: ระบบลำโพงชำระเงินอัตโนมัติ NCR เป็นไดรเวอร์ 3-5 วัตต์ในห้องเอกชน พวกเขาไม่ใช่ลำโพง high-fidelity พร็อมต์ที่ดังเกินไปบิดเบี้ยว พร็อมต์ที่เบาเกินไปล้มเหลวในการปฏิบัติตามนโยบาย เป้าหมาย -18 LUFS ผสมรวมโดยมีลิมิตจุดสูงสุด -3 dBTP (จุดสูงสุดที่แท้จริง) สำหรับข้อมูล จำเพาะความดัง

Diebold Nixdorf Self-Checkout: ระบบ BEETLE และ TP Application

Diebold Nixdorf (เดิมชื่อ Wincor Nixdorf) ผลิตไลบรารี BEETLE และ TP Application ที่พบเห็นได้ส่วนใหญ่ในห่วงร้านค้าเบอร์โล Carrefour สธ. และในซีเซ่นปลีกในสหรัฐอเมริกา สถาปัตยกรรมของพวกเขาคล้ายกับของ NCR แต่มีการตั้งค่ารูปแบบเสียงที่แตกต่างกัน

ระบบ BEETLE POS ใช้ Windows และใช้แพลตฟอร์มแอปพลิเคชัน Storelogix หรือ ProFIT ของ Diebold Nixdorf พร็อมต์เสียงถูกโหลดเป็นไฟล์ WAV ลงในไลบรารีสื่อบนเทอร์มินัล ระบบ BEETLE รุ่นปัจจุบันยอมรับ WAV mono 16 บิต 44.1 kHz หน่วยที่เก่าแก่มักต้องการ 11.025 kHz หรือ 22.05 kHz

เทอร์มินัล TP Application (สายการ TP6 และ TP7) ใช้ระบบไลบรารีพร็อมต์ WAV เดียวกัน สายการสินค้า TP7 ซึ่งเป็นเรื่องปกติในห่วงร้านค้าเบอร์โลลําหน่ายจำนวนมาก ส่วนรองรับเสียง 44.1 kHz บนเฟิร์มแวร์ปัจจุบัน

ข้อมูล จำเพาะเสียงสำหรับระบบ Diebold Nixdorf:

ระบบ	อัตราการสุ่มตัวอย่าง	ความลึกบิต	ช่อง	รูปแบบ
BEETLE POS (ปัจจุบัน)	44.1 kHz	16-bit	Mono	WAV PCM
BEETLE POS (เก่า)	11.025-22.05 kHz	16-bit	Mono	WAV PCM
TP6 Application	22.05 kHz หรือ 44.1 kHz	16-bit	Mono	WAV PCM
TP7 Application	44.1 kHz	16-bit	Mono	WAV PCM

หมายเหตุเฉพาะ Carrefour: การปรับใช้ชำระเงินอัตโนมัติของ Carrefour ยุโรปใช้ฝรั่งเศส และภาษาอังกฤษ (สำหรับสถานที่ท่องเที่ยวจำนวนมาก) หรือฝรั่งเศส และอาหรับ (สำหรับร้านค้าแอฟริกาเหนือ) ไลบรารีพร็อมต์ต่อเทอร์มินัลประกอบด้วยชุดภาษาสองชุดพร้อมพร็อมต์การเลือกภาษาที่จุดเริ่มต้นของแต่ละธุรกรรม ระบบ TP Application ของ Diebold Nixdorf จัดการสิ่งนี้ผ่านลอจิกตัวเลือกภาษาในการกำหนดค่า Storelogix ไม่ใช่ด้วยการแลกเปลี่ยนไดเร็กทอรี WAV — ไลบรารี multilingual เต็มรูปแบบอยู่บนแต่ละเทอร์มินัล

สร้างบุคลิกเสียงชำระเงินอัตโนมัติ

บุคลิกเสียงชำระเงินอัตโนมัติมากกว่าการบันทึกเสียง — มันเป็นการตัดสินใจในการออกแบบเสียงโดยจงใจที่กำหนดรูปแบบวิธีการรับรู้ของผู้ซื้อต่อแบรนด์ในช่วงเวลาของการชำระเงิน

ผู้ค้าปลีกส่วนใหญ่เลือกเสียงในการลงทะเบียนกลาง-ถึง-อบอุ่น: ไม่ใช่เย็นหรือหุ่นยนต์ (ซึ่งสร้างแรงเสียดทานในช่วงเวลาที่มีความเครียดอยู่แล้ว) ไม่ใช่อบอุ่นมากเกินไปหรือสุ่มเสี่ยง (ซึ่งรู้สึกไม่เหมาะในบริบทที่เป็นธุรกรรม) การเลือกเพศแตกต่างกันไปตามผู้ค้าปลีกและตลาด — ห่วงปลีกสหรัฐฯ โดยประวัติศาสตร์ได้เสียงหญิง บางห่วงยุโรปใช้เสียงชาย การปรับใช้สมัยใหม่มักจะเสนออื่น ๆ ทั้งคู่และปล่อยให้เทอร์มินัลตรวจพบการตั้งค่าภาษาและจัดเสนอเสียงที่สอดคล้องกัน

ลักษณะบุคลิกเสียงที่กำหนดก่อนการผลิต:

ลงทะเบียนเพศ: หญิง ชาย หรือเป็นกลาง (ท่อสุดท้ายเพิ่มเติม)
สำเนียง: สำเนียงทั่วไป สเปนสำหรับห่วง สหรัฐฯ Received Pronunciation หรือเป็นกลางในภูมิภาคสำหรับสหราชอาณาจักร สำเนียงมาตรฐานแห่งชาติสำหรับตลาดที่ไม่ใช่อังกฤษ
อัตราการพูด: 130-145 คำต่อนาทีสำหรับพร็อมต์คำแนะนำ เร็วขึ้นเล็กน้อย (150 WPM) สำหรับข้อความยืนยัน
โทน: อบอุ่น แต่ประกาศ — ไม่ใช่คำถามหรือขออภัย (“โปรดทำ X” มากกว่า “คุณสามารถโปรด X ได้หรือไม่”)
ความสอดคล้องของ prosodic: ทุกคลิปต้องมีความดังที่เหมือนกัน cadence วลีที่คล้ายกัน และไม่มีความแตกต่างของเสียงในหลักสูตรห้อง

ปัญหาความสอดคล้องในมาตราส่วนห่วง:

โปรไฟล์เสียง AI เดียวแก้ปัญหาความสอดคล้องตามคำนิยาม ทุกพร็อมต์ ไม่ว่าจะเมื่อใดที่ถูกสร้าง หรือใครแก้ไขสคริปต์ มาจากโมเดลเสียงเดียวกันกับการตั้งค่าเดียวกัน สำหรับห่วงที่ขยายตัวจาก 300 ถึง 1,000 ร้านค้าในระหว่างสามปี การปรับใช้เทอร์มินัลใหม่ในปีที่สามฟังเหมือนกับการปรับใช้ดั้งเดิมในปีที่หนึ่ง

นี่คือสาเหตุที่การโคลนเสียง AI ที่ขับเคลื่อนด้วยแบรนด์เป็นความสามารถมูลค่าสูงสุดสำหรับเสียงปลีกองค์กร กำหนดเสียงครั้งเดียว — อาจโดยการโคลนจากการบันทึกนักแสดงเสียงคุณภาพสูงที่แบรนด์เป็นเจ้าของแล้ว — จากนั้นสร้างพร็อมต์ไม่จำกัดจากโปรไฟล์ที่โคลนนั้นตลอดไป

การเขียนสคริปต์พร็อมต์ชำระเงินอัตโนมัติสำหรับเอาต์พุตเสียง AI ธรรมชาติ

สคริปต์คือที่ที่โครงการเสียงคิออส์ DIY ส่วนใหญ่ผลิตผลลัพธ์ที่ไม่ดี พร็อมต์ชำระเงินอัตโนมัติมีโครงสร้างทางภาษาศาสตร์เฉพาะที่แตกต่างจาก TTS การสนทนา

ให้พร็อมต์สั้น และมีคำสั่ง “โปรดวางสินค้าลงในพื้นที่บรรจุภัณฑ์” (7 คำ) ถูกต้อง “คุณสามารถโปรดตรวจสอบให้แน่ใจว่าวางสินค้าของคุณบนพื้นที่บรรจุภัณฑ์ได้หรือไม่” ผิดทั้งสำหรับคุณภาพ TTS และการประสบการณ์ของผู้ใช้ การวิจัย UX ปลีกแสดงให้เห็นอย่างสม่ำเสมอว่าพร็อมต์ที่สั้นกว่าลดเวลาธุรกรรมและความสับสนของผู้ซื้อ

ใช้เครื่องหมายวรรคตอนเป็นการควบคุม prosody เครื่องหมายจุลภาคสร้างจังหวะที่สั้นในเครื่องสร้างเสียง AI ส่วนใหญ่ “ยินดีต้อนรับ โปรดสแกนสินค้าชิ้นแรกของคุณ” สร้างการแบ่งประโยคที่สำเร็จ โดยไม่มีช่วงเวลา “ยินดีต้อนรับโปรดสแกนสินค้าชิ้นแรกของคุณ” วิ่งไปด้วยกันและฟังดูไม่ธรรมชาติ

หลีกเลี่ยงการอ่านตัวเลขที่คลุมเครือ เขียน “สี่ดอลลาร์และห้าสิบเซนต์” ไม่ใช่ “$4.50” — ระบบ TTS บางระบบอ่าน ไฟล์หลังเป็น “ดอลลาร์ 4 ดอท 50” หรือ “สี่จุดห้าศูนย์ดอลลาร์” โปรดทราบว่าชัดเจนเกี่ยวกับวิธีการ ต้องการให้ตัวเลขอ่านอักษร โดยเฉพาะสำหรับราคา ปริมาณ และหมายเลขลำเลียง

สคริปต์การตรวจสอบอายุต้องการความชัดเจนมากกว่าอื่น ๆ พร็อมต์เหล่านี้ทริกเกอร์ขั้นตอนการปฏิบัติตามนโยบาย สคริปต์เช่น “ทีมสมาชิกร้านค้าต้องตรวจสอบอายุของคุณสำหรับรายการนี้ โปรดรอ” ต้องชัดเจน มีอำนาจ และปราศจากภาษาที่อ่อนแอซึ่งอาจทำให้ความต้องการฟังดูเสมือน

หมวดหมู่ไลบรารีพร็อมต์ชำระเงินอัตโนมัติมาตรฐาน:

หมวดหมู่	ตัวอย่างพร็อมต์	นับปกติ
ต้อนรับและสแกน	”ยินดีต้อนรับ โปรดสแกนสินค้าชิ้นแรกของคุณ”	3-5
พื้นที่บรรจุภัณฑ์	”โปรดวางสินค้าลงในพื้นที่บรรจุภัณฑ์” / “สินค้าที่ไม่คาดคิดในพื้นที่บรรจุภัณฑ์”	8-12
การแจ้งเตือนน้ำหนัก	”โปรดนำสินค้าทั้งหมดออกจากพื้นที่บรรจุภัณฑ์” / “สินค้าที่ถูกลบ — โปรดสแกนอีกครั้ง”	4-6
พร็อมต์ชำระเงิน	”โปรดเลือกวิธีการชำระเงินของคุณ” / “โปรดใส่การ์ดของคุณ” / “โปรดแตะการ์ดของคุณ”	10-15
ความภักดีและคูปอง	”คุณมีบัตรความภักดีหรือคูปองหรือไม่” / “บัตรความภักดียอมรับ”	4-6
การตรวจสอบอายุ	”รายการนี้ต้องการการตรวจสอบอายุ สมาชิกทีมจะช่วยเหลือคุณ”	2-3
ข้อผิดพลาดและแทน	”โปรดรออยู่เพื่อขอความช่วยเหลือ” / “สมาชิกทีมได้ได้รับการแจ้งเตือน”	5-8
ธุรกรรมเสร็จสมบูรณ์	”ธุรกรรมได้รับการอนุมัติ โปรดรับใบเสร็จของคุณ”	3-4
เฉพาะของร้านค้า	การแนะนำตามฤดูกาล ข้อความส่งเสริม ชื่อร้านค้าในพร็อมต์เปิด	5-20
ปิด/ปิด	”ยินดีต้อนรับ [ชื่อร้านค้า] โปรดสแกนสินค้าชิ้นแรกของคุณเมื่อพร้อม”	2-4

รวมต่อภาษา: โดยปกติ 80-150 คลิปสำหรับไลบรารีลงจอดเดี่ยวที่สมบูรณ์

WCAG 2.1 สอดคล้องกันการเข้าถึงสำหรับเสียงคิออส์ปลีก

เทอร์มินัลชำระเงินอัตโนมัติเป็นสิ่งอำนวยความสะดวกสาธารณะภายใต้ ADA ในสหรัฐฯ และภายใต้กฎหมายการเข้าถึงที่เทียบเท่ากันในสหภาพยุโรป (พระราชกฤษฎีกาการเข้าถึงยุโรป มีผล มิถุนายน 2025 สำหรับอินเทอร์เฟซดิจิทัลปลีก) และสหราชอาณาจักร WCAG 2.1 จัดเตรียมมาตรฐานทางเทคนิคที่การตรวจสอบการเข้าถึงส่วนใหญ่ใช้เพื่อประเมินเสียงคิออส์

เกณฑ์ความสำเร็จ WCAG 2.1 ที่เกี่ยวข้องสำหรับเสียงชำระเงินอัตโนมัติ:

1.1.1 เนื้อหาที่ไม่ใช่ข้อความ (ระดับ A): ทุกพร็อมต์ภาพบนหน้าจอคิออส์ต้องมีเสียงเทียบเท่า หากหน้าจอแสดง “วางสินค้าลงในพื้นที่บรรจุภัณฑ์” เป็นเบาะแส พร็อมต์เสียงยังต้องเล่น พร็อมต์ที่เฉพาะภาพเท่านั้นไม่ผ่านเกณฑ์นี้

1.3.3 ลักษณะสัมผัส (ระดับ A): คำแนะนำต้องไม่อาศัยลักษณะภาพเพียงอย่างเดียว “กดปุ่มสีเขียว” โดยไม่มีคำแนะนำเสียงที่สอดคล้องกัน ล้มเหลว “กดปุ่มสีเขียวที่มีป้ายชื่อ OK” พร้อมเสียงเทียบเท่าผ่าน

1.4.2 ควบคุมเสียง (ระดับ A): หากเสียงเล่นโดยอัตโนมัติมากกว่า 3 วินาที ผู้ใช้จะต้องสามารถหยุดชั่วคราว หยุด หรือควบคุมระดับเสียง ที่คิออส์ชำระเงินอัตโนมัติ โดยปกติสิ่งนี้ได้รับการตอบสนองโดยการจัดเตรียมปุ่มควบคุมระดับเสียงบนอินเทอร์เฟซหน้าจออ

1.4.3 ความแตกต่าง (สำหรับข้อความบนหน้าจอ ระดับ AA): ไม่ใช่เสียงเฉพาะ แต่เกี่ยวข้องกับ UI คิออส์ที่รวมไว้ซึ่งทำงานพร้อมกับพร็อมต์เสียง

2.4.6 หัวเรื่องและป้ายกำกับ (ระดับ AA): การอ่านหน้าจออยู่ข้างๆ — ใช้เมื่อคิออส์เปิดเสียงแจ็คหูฟังสำหรับการฟังส่วนตัว ซึ่ง ATM ที่เป็นไปตาม ADA มักจะทำ

ข้อกำหนดการผลิตการเข้าถึงในทางปฏิบัติ:

ความชัดเจนการพูดขั้นต่ำ: เอาต์พุตเสียง AI ต้องจัดอันดับสูงกว่า 90% ในการทดสอบความสามารถในการเข้าใจคำ (แก้ไขแบบทดสอบสัทศาสตร์หรือที่คล้ายกัน) ผ่านลำโพง onboard ของคิออส์ที่เสียงโดยรอบ 65 dB SPL
อัตราการพูด: 120-150 WPM สำหรับพร็อมต์คำแนะนำ เร็วขึ้นลดความสามารถในการเข้าใจสำหรับผู้ซื้อที่มีความแตกต่างในการประมวลผลด้านความรู้ความเข้าใจ
ความดัง: -18 LUFS ผสมรวมที่สอดคล้องกันในคลิปทั้งหมด การเปลี่ยนแปลงระดับเสียงระหว่างพร็อมต์สร้างความสับสนให้กับผู้ใช้ที่มีข้อเพศขาด
พอร์ตการฟังส่วนตัว: คิออส์ที่มีการจราจรจำนวนมากพร้อมแจ็คหูฟังต้องผลิตเสียงที่สำเร็จในระดับความขัดแย้งของหูฟังมาตรฐาน — เป้าหมายความดังที่แตกต่างจากเอาต์พุตลำโพง

สำหรับพื้นฐานที่เจาะลึกเกี่ยวกับการสอดคล้องการเข้าถึงเสียง AI สำหรับเทอร์มินัลที่หันหน้าไปยังสาธารณะ คำแนะนำของเรากล่าวถึงเครื่องสร้างเสียง AI สำหรับพร็อมต์ล็อบบี้ ATM ครอบคลุมข้อกำหนด ADA และ WCAG ที่ทับซ้อนกันสำหรับคิออส์ที่เป็นเงิน ซึ่งเผชิญกับความท้าทายการเข้าถึงที่เหมือนกัน

เสียงชำระเงินอัตโนมัติหลายภาษา: แบบจำลอง Walmart Kroger Carrefour

ห่วงปลีกสามห่วงที่มีการสังเกตมากที่สุดโดยเปิดตัว AI เสียงชำระเงินอัตโนมัติหลายภาษา แทนสามวิธีที่แตกต่างกันในการแก้ไขความท้าทายหลายภาษา

Walmart US: ภาษาอังกฤษ + สเปน

เทอร์มินัลชำระเงินอัตโนมัติ Walmart สหรัฐฯ ในตลาดที่มีประชากรฮิสแปนิก สูง เสนอชุดพร็อมต์ภาษาอังกฤษและสเปน การเลือกภาษาเกิดขึ้นที่จุดเริ่มต้นของธุรกรรม (พร็อมต์ “เลือกภาษา” พร้อมปุ่มหน้าจอสัมผัส) หรือผ่านการตั้งค่าภาษาที่ยั่งยืน ที่เชื่อมโยงกับบัญชีความภักดีของผู้ซื้อ

บุคลิกเสียง Walmart สำหรับภาษาอังกฤษเป็นเสียงหญิงสเปนอเมริกันเป็นกลาง — หนึ่งในเสียงชำระเงินอัตโนมัติที่รู้จักกันดีที่สุดในปลีก US เวอร์ชันสเปนยักษ์เสียงลงทะเบียนที่คล้ายกัน แต่มีสำเนียงสเปนอเมริกาเหนือที่เป็นกลาง (หลีกเลี่ยงความเป็นเอกลักษณ์ในภูมิภาค ซึ่งอาจรู้สึกว่าไม่รวมผู้พูด จากพื้นฐานภาษาสเปนต่างๆ)

การดำเนินการทางเทคนิค: บนเทอร์มินัล FastLane NCR ที่ Walmart ไลบรารีภาษาสองตัวเก็บไว้ในไดเร็กทอรี่แยกต่างหาก (เช่น /prompts/en/ และ /prompts/es/) และแอปพลิเคชัน POS เปลี่ยนเส้นทางไดเร็กทอรี่ตามธง ปฐมพร้อมต์ที่ตั้งค่าไว้ที่จุดเริ่มต้นของเซสชัน

Kroger US: ภาษาอังกฤษ + พิจารณาระดับภูมิภาค

การปรับใช้ชำระเงินอัตโนมัติของ Kroger ทั่ว banners (King Soopers Fred Meyer Ralphs Harris Teeter) ใช้ภาษาอังกฤษเป็นภาษาหลักพร้อมการสนับสนุนสเปนบ้างในตลาดที่เกี่ยวข้อง แนวทางของ Kroger ในประวัติศาสตร์เน้นเสียง โทน conversational อบอุ่นมากกว่า Walmart — สะท้อนให้เห็นตำแหน่งโหมสังคมชุมชนแบรนด์

“เสียง Kroger” ทั่วเครือข่ายชำระเงินอัตโนมัติของ เด่นพอที่ห่วงลงทุนในเสียงความสอดคล้องเป็น differentiator ของแบรนด์ — ใช้กรณีที่การโคลนเสียง AI สนับสนุนโดยการอนุญาตแบรนด์ที่ครอบครอง และทำซ้ำ บุคลิกเสียงเฉพาะ

Carrefour: ฝรั่งเศส อาหรับ และภาษาเฉพาะของตลาด

Carrefour ทำงานโดยเกิน 35+ ประเทศพร้อมการปรับใช้ชำระเงินอัตโนมัติที่ต้องการไลบรารีพร็อมต์ multilingual ที่แท้จริง ฝรั่งเศส เป็นภาษาพื้นฐาน อาหรับเป็นภาษาทุติยภูมิสำหรับตลาดแอฟริกาเหนือ (โมร็อกโก ตูนิเซีย แอลจีเรีย อียิปต์) สเปนใช้ในสเปน และส่วนแอมเมริกาใต้

ความซับซ้อนทางเทคนิคที่ Carrefour มีนัยสำคัญ: เทอร์มินัล Diebold Nixdorf TP7 เดียวในมนาสตีร์ Carrefour Morocco อาจต้องการฝรั่งเศส และโมร็อกโก อาหรับ (Darija) หรือฝรั่งเศส และสมัยใหม่อาหรับมาตรฐาน (MSA) ขึ้นอยู่กับชาติคน — และสองแบบที่หลากหลาย ของอาหรับแยกต่างหากไลบรารีพร็อมต์เป็นสิ่งจำเป็น

เครื่องสร้างเสียง AI สนับสนุนวิธีนี้โดยอนุญาตให้ทีมเสียง Carrefour สร้างไลบรารีบริการแนน Darija ที่กำหนดจากสคริปต์พร็อมต์เดียวกันโดยไม่ต้องจ้างบุคลากรแยกต่างหากสำหรับ Darija และ MSA

สถาปัตยกรรมการเลือกภาษา

สองวิธีการครอบครัวสำหรับสถาปัตยกรรมเสียงคิออส์หลายภาษา:

วิธี	วิธีการทำงาน	ที่ดีที่สุดสำหรับ
เลือกภาษาที่จุดเริ่มต้นการ	ผู้ซื้อเลือกภาษาบนหน้าจอแรก เซสชันเล่นจากไลบรารีภาษานั้น	ร้านค้าความหลากหลายสูง ตั้งใจภาษาชัดเจน
ควรลงทะเบียนความภักดี	ภาษาเชื่อมโยงกับบัญชีความภักดี auto-select บนการสอด	ผู้ซื้อปกติ การลดน้ำหนักสำหรับลูกค้าที่ทราบ
เสียงขนานกัน (ภาษาทั้งสอง)	สร้างคลิปรวมหนึ่งต่อพร็อมต์: ภาษาอังกฤษ + หยุดชั่วคราว + สเปน	คอนโทรลเลอร์ที่เก่าแก่ซึ่งไม่สามารถเปลี่ยนไดเร็กทอรี่ได้ mid-session
TTS ไดนามิก	เครื่องสร้างเสียง on-device หรือ API สร้างพร็อมต์แต่ละตัวสด	ความยืดหยุ่นสูงสุด ต้องการเอนจิน TTS latency-low และการเข้าถึงเครือข่าย

สำหรับบริบทการปรับใช้ที่อยู่ติดกัน — เสียง AI ที่สร้างที่ลานการสั่งซื้อไดรฟ์ผ่าน ซึ่งพร็อมต์หลายภาษาบริการลูกค้าที่ไม่ได้เลือกล่วงหน้า — ดูคำแนะนำของเรากล่าวถึงเครื่องสร้างเสียง AI สำหรับการสั่งซื้อไดรฟ์-ซู่ ซึ่งครอบคลุมการตรวจพบภาษาและการเปลี่ยนแปลงไดนามิก สำหรับระบบลำโพงกลางแจ้ง

ขั้นตอนการผลิตเทคนิค: สร้างไลบรารีพร็อมต์ปลีก

นี่คือขั้นตอนการผลิตในการสร้างไลบรารีพร็อมต์ชำระเงินอัตโนมัติแบบเต็มจำนวนโดยใช้เครื่องสร้างเสียง AI:

ขั้นตอนที่ 1 — ตรวจสอบ Specทางเทคนิค ขอเอกสารการรวมเสียงจากวิศวกรภาคสนาม NCR Voyix หรือ Diebold Nixdorf รับอัตราการสุ่มตัวอย่างที่ต้องการ ความลึกบิต mono/stereo ความต้องการ codec (เสมอ WAV PCM สำหรับระบบเหล่านี้) และรูปแบบการตั้งชื่อไฟล์สำหรับไดเร็กทอรี่ไลบรารีพร็อมต์

ขั้นตอนที่ 2 — ร่างสคริปต์พร็อมต์ที่สมบูรณ์ สร้างรายการของทุกรหัสเหตุการณ์ที่แอปพลิเคชัน POS สามารถทริกเกอร์ได้ การปรับใช้ NCR และ Diebold Nixdorf ส่วนใหญ่มาพร้อมกับไลบรารีพร็อมต์พื้นฐานจาก OEM — รับสิ่งนี้เป็นข้อมูลอ้างอิง เพิ่มพร็อมต์เฉพาะผู้ค้าปลีก (ชื่อร้านค้า โปรแกรมความภักดี ชื่อวิธีการชำระเงินแบบเป็นส่วนตัว)

ขั้นตอนที่ 3 — กำหนดพารามิเตอร์บุคลิกเสียง ตั้งค่าการลงทะเบียนเพศ อัตราการพูด (130-145 WPM สำหรับพร็อมต์คำแนะนำ) โทน และสำเนียง หากจับคู่เสียงแบรนด์ที่มีอยู่ นำตัวอย่างการบันทึกอ้างอิงมาสำหรับการโคลนเสียง

ขั้นตอนที่ 4 — สร้างชุด ป้อนรายการสคริปต์พร็อมต์ที่สมบูรณ์ เลือกโปรไฟล์เสียง ตั้งค่ารูปแบบเอาต์พุตต่อข้อมูล จำเพาะ ประมวลผลคลิปทั้งหมดในชุดเดียวเพื่อให้แน่ใจว่าการตั้งค่าเสียงสอดคล้องกันในไฟล์ทั้งหมด อย่าสร้างคลิปในเซสชันแยกต่างหากด้วยการตั้งค่าต่างๆ — ความแตกต่างของความดังและ prosody ระหว่างคลิปจะได้ยินได้ในการผลิต

ขั้นตอนที่ 5 — ทำให้ความดังปกติ เป้าหมาย -18 LUFS ผสมรวมพร้อมลิมิตจุดสูงสุด -3 dBTP นำไปใช้กับทุกคลิปในชุด เครื่องมือ: Loudnorm ใน FFmpeg หรือตัวทำให้ความดังปกติดั้งเดิม อย่าใช้การทำให้ปกติของจุดสูงสุด — มันผลิตความดังที่ได้ยินสิ่งไม่สอดคล้องกัน

ขั้นตอนที่ 6 — เพิ่มบัฟเฟอร์ความเงียบ ยอมรับ 50-100ms ความเงียบ; ผนวก 200ms ความเงียบ คอนโทรลเลอร์ที่จะตัดเสียงที่จุดเริ่มต้นของเสียงโดยไม่มีบัฟเฟอร์ความเงียบสั้น ความเงียบในส่วนท้ายหลีกเลี่ยงสิ่งกีดขวางที่คลิกเมื่อพร็อมต์ถัดไปทริกเกอร์

ขั้นตอนที่ 7 — เปลี่ยนชื่อไปยังรหัสพร็อมต์ เปลี่ยนชื่อไฟล์ต่อแบบแผนการตั้งชื่อคอนโทรลเลอร์ ความไม่ตรงกันระหว่างชื่อไฟล์และรหัสเหตุการณ์ที่คาดไว้หมายถึงพร็อมต์เล่นความเงียบ — โหมดล้มเหลวทั่วไปมากที่สุดในการปรับใช้ไลบรารีพร็อมต์ที่กำหนดเอง

ขั้นตอนที่ 8 — การทดสอบการตรวจสอบ ปรับใช้ไลบรารีพร็อมต์ไปยังเทอร์มินัลทดสอบ เดินผ่านการไหลธุรกรรมที่สมบูรณ์รวมถึงสถานะข้อผิดพลาด (ความไม่ตรงกันของพื้นที่บรรจุภัณฑ์ การปฏิเสธการ์ด ทริกเกอร์การตรวจสอบอายุ) ตรวจสอบว่าพร็อมต์แต่ละตัวเล่นอย่างถูกต้อง ในช่วงเวลาที่เหมาะสม ที่ระดับเสียงที่ถูกต้อง

ขั้นตอนที่ 9 — เอกสารการตั้งค่าโปรไฟล์เสียง บันทึกแต่ละพารามิเตอร์ที่ใช้: โมเดลเสียง อัตราการพูด การตั้งค่าความดัง รูปแบบเอาต์พุต เมื่อการอัพเดตสคริปต์ต้องการการสร้างใหม่ของคลิปเดียวหกเดือนต่อมา การจับคู่การตั้งค่าดั้งเดิมช่วยให้แน่ใจว่าคลิปใหม่ฟังเหมือนกับไลบรารีที่มีอยู่

สำหรับบริบทในวิธีการสร้างลอจิกแบตชที่คล้ายกันใช้กับพร็อมต์เสียงเครื่องจำหน่ายอัตโนมัติ — ใช้กรณี AI เสียงคิออส์ที่คล้ายกัน แต่ง่ายกว่า — ดูคำแนะนำของเรากล่าวถึงเครื่องสร้างเสียง AI สำหรับเครื่องจำหน่ายอัตโนมัติ

เปรียบเทียบแพลตฟอร์มเสียง AI สำหรับการผลิตคิออส์ปลีก

แพลตฟอร์ม	ส่งออก WAV	สคริปต์ชุด	การโคลนเสียง	ออฟไลน์	การสนับสนุน SSML
ElevenLabs	ใช่ (จ่าย)	ผ่าน API	ใช่ (จ่าย)	ไม่	จำกัด
Murf	ใช่ (จ่าย)	ผ่าน API	จำกัด	ไม่	ใช่
Azure TTS	ใช่	ใช่ (SSML)	เสียงประสาท กำหนดเอง	ไม่	ทั้งหมด
Google Cloud TTS	ใช่	ใช่	เสียง กำหนดเอง	ไม่	ทั้งหมด
VoxBooster	ใช่	ใช่	ใช่ (ในพื้นที่)	ใช่ (Windows)	ใช่

ประเด็นสำคัญสำหรับการปรับใช้ปลีก:

การประมวลผลออฟไลน์/ท้องถิ่น: เทอร์มินัลคิออส์ในสภาพแวดล้อม back-of-house ปลีกอาจมีการเข้าถึง outbound ที่จำกัด เหตุผล PCI-DSS สมมติฐาน เครื่องสร้างเสียงในพื้นที่ที่ทำงานบนเวิร์กสเตชันการผลิตโดยไม่มีเรียกใช้ API cloud กำจัด การสนทนาปฏิบัติตามนโยบาย

การโคลนเสียงจากการบันทึกอ้างอิง: หากผู้ค้าปลีกมีการบันทึกนักแสดงเสียงที่มีอยู่ซึ่งกำหนดเสียงแบรนด์ของพวกเขา การโคลนการอ้างอิง — มากกว่าการเลือกเสียงใหม่ชั่วนิ ยง — ปกป้องหลักแบรนด์ เสียงที่โคลนสร้างพร็อมต์ทั้งหมดและอัพเดตตลอดไป จากบุคลิกเสียง

ส่งออกชุดพร้อมการตั้งค่าสอดคล้อง: การสร้าง 120 คลิปครั้งละครั้งผ่าน UI เว็บไม่ใช่เรื่องปฏิบัติ การประมวลผลชุดจากไฟล์สคริปต์โดยมีการตั้งค่าเสียงถูก ensuresทุกคลิปในไลบรารีสอดคล้องกัน

SSML สำหรับการควบคุมการออกเสียง: พร็อมต์ปลีกมักจะรวมรหัสผลิตภัณฑ์ รูปแบบราคา และชื่อโปรแกรมความภักดีที่เอนจิน TTS อาจอ่านโดยไม่คาดคิด SSML ช่วยให้คุณระบุการออกเสียงอย่างชัดเจน: <say-as interpret-as="currency">$4.50</say-as> หรือ <say-as interpret-as="cardinal">4</say-as> ครั้ง

สำหรับขั้นตอนการทำงานการโคลนเสียง — โดยเฉพาะการจับคู่การบันทึกเสียงแบรนด์ที่มีอยู่ — คำแนะนำการโคลนเสียงของเรากล่าวถึง voiceover ครอบคลุมวิธีการ มาตรฐานคุณภาพ และข้อกำหนดทางเทคนิคสำหรับการโคลนระดับการผลิต

ข้อผิดพลาดทั่วไปในการผลิตเสียงคิออส์ปลีก

สร้างแบบสเตอริโอ ทุกคอนโทรลเลอร์ชำระเงินอัตโนมัติขนาดใหญ่ — NCR Diebold Nixdorf และ OEM รองทั่วไป — ต้อง WAV mono ไฟล์สเตอริโอถูกปฏิเสธหรือเล่นอย่างไม่ถูกต้อง สร้าง mono จากจุดเริ่มต้น อย่าอาศัยคอนโทรลเลอร์ที่จะ downmix

ใช้เสียง TTS ผู้บริโภคโดยตรงโดยไม่มีการทำให้ความดังปกติ แพลตฟอร์ม TTS ผู้บริโภคเพิ่มประสิทธิภาพการเล่นโดยใช้หูฟังหรือลำโพงที่ประมาณ -14 LUFS ลำโพงคิออส์ปลีกคือสภาพแวดล้อมเสียง ต่าง ๆ โดยไม่มีการทำให้ความดังปกติเป็น -18 LUFS พร็อมต์จะ มากมายดังเกินไปอย่างไม่สอดคล้องกันทั่วไลบรารี

ข้ามบัฟเฟอร์ความเงียบด้านหน้า คอนโทรลเลอร์ที่ทริกเกอร์เสียงทันทีบนไฟเหตุการณ์จะตัดพยางค์แรกของพร็อมต์ที่เริ่มต้นที่ตัวอย่างศูนย์ ส่วนหัวของความเงียบ 50-100ms หลีกเลี่ยงสิ่งนี้

การตั้งค่าเสียงต่างกันระหว่างเซสชั่นอัพเดต สร้างไลบรารีเบื้องต้นในมกราคม และอัพเดตพร็อมต์สามรายการในกันยายนพร้อมการตั้งค่า pitch หรือ speed ที่แตกต่างกันเล็กน้อย สร้างความไม่สอดคล้องของเสียงในการผลิต โครงการล็อกและ เอกสารการตั้งค่าวันแรก

ภาษาอ่อนในพร็อมต์ปฏิบัติตามนโยบาย พร็อมต์การตรวจสอบอายุและการตรวจสอบ ID มีอยู่เพื่อปฏิบัติตามกฎหมาย ทำให้อ่อนแอลง (“คุณอาจต้องแสดง ID”) สร้าง ambiguity ที่ทำให้ผู้ซื้อสับสนและเป็นปัญหาที่อาจสร้างความรับผิดชอบ พร็อมต์เหล่านี้ต้องชัดเจน โดยตรง และชัดเจน

ละเว้นลูป idle/ต้อนรับ พร็อมต์สถานะ idle ที่เล่นเมื่อเทอร์มินัลรอคนแบบหนึ่ง — เป็นส่วนหนึ่งที่มีเสียงมากที่สุดในร้านค้า โทน-ของ-มัน ตั้งค่า ความประทับใจแรก ของการทำให้ ราคา ออกมาด้วยข้อมูล ข้อมูล อย่าปฏิบัติต่อ เป็นความคิดสุดท้าย

สำหรับเครื่องสร้างเสียงที่มุ่งเป้าไปที่ผู้สร้างเนื้อหาแทนการปรับใช้ปลีกองค์กร คำแนะนำตัวเปลี่ยนเสียงของเรากล่าวถึงผู้สร้างเนื้อหาครอบคลุมข้อกำหนดคุณภาพและขั้นตอนการทำงานต่างๆ สำหรับกรณีการใช้งาน streaming และโซเชียลมีเดีย

คำถามที่พบบ่อย

AI เสียงชำระเงินอัตโนมัติคืออะไร

AI เสียงชำระเงินอัตโนมัติคือระบบการแปลงข้อความเป็นเสียงที่ฝังตัวในคิออส์ค้าปลีกซึ่งนำทางผู้ซื้อผ่านกระบวนการสแกนและชำระเงิน ระบบนี้ผลิตข้อความที่คุณได้ยินที่ลานชำระเงินอัตโนมัติ Walmart Kroger และ Carrefour — “โปรดวางสินค้าลงในพื้นที่บรรจุภัณฑ์” “สินค้าที่ไม่คาดคิดในพื้นที่บรรจุภัณฑ์” “โปรดใส่การ์ดของคุณ” — โดยใช้บุคลิกเสียงสังเคราะห์ที่สอดคล้องกันในทุกเครื่องในสายของร้านค้า

ฮาร์ดแวร์ใดที่ใช้พร็อมต์เสียงชำระเงินอัตโนมัติที่ผู้ค้าปลีกรายใหญ่

NCR Voyix (เดิมชื่อ NCR) และ Diebold Nixdorf เป็นผู้ผลิต OEM ชำระเงินอัตโนมัติที่โดดเด่นสองคน สายการ FastLane และ SelfServ ของ NCR เล่นเสียงผ่านลำโพง onboard ที่ขับเคลื่อนโดยคอนโทรลเลอร์ที่ใช้ Windows หรือ Linux ระบบ BEETLE และ TP Application ของ Diebold Nixdorf ใช้สถาปัตยกรรมที่คล้ายกัน ทั้งสองยอมรับไฟล์เสียง WAV ที่โหลดลงในไลบรารีพร็อมต์บนคอนโทรลเลอร์ — เครื่องสร้างเสียง AI ผลิตไฟล์ WAV เหล่านั้น

ฉันจะทำให้เสียงชำระเงินอัตโนมัติเป็นไปตามมาตรฐาน WCAG 2.1 ได้อย่างไร

เกณฑ์ความสำเร็จ WCAG 2.1 1.4.2 (ควบคุมเสียง) และ 1.3.3 (ลักษณะสัมผัส) เป็นจุดตรวจสอบที่เกี่ยวข้องมากที่สุด ในทางปฏิบัติ: ทุกพร็อมต์ภาพต้องมีพร็อมต์เสียงที่เท่าเทียมกัน เสียงต้องไม่เล่นโดยอัตโนมัติมากกว่า 3 วินาทีโดยไม่มีการควบคุมของผู้ใช้ และเสียงจะต้องเข้าใจได้ที่ระดับเสียงคิออส์ปกติ — โดยทั่วไป 65-75 dB SPL ที่ 0.5 ม. ใช้สำเนียงที่ชัดเจนและเป็นกลางที่ 130-150 WPM และความดังที่สอดคล้องกัน (-18 LUFS ผสมรวม)

เสียง AI เดียวสามารถครอบคลุมคิออส์ชำระเงินอัตโนมัติในหลายภาษาได้หรือไม่

เอนจิน AI เสียงเดียวสามารถสร้างพร็อมต์ในหลายภาษาจากโปรไฟล์เสียงเดียวกัน แต่บุคลิกเสียงผลลัพธ์จะแตกต่างกันตามภาษาเนื่องจากแต่ละโมเดลภาษาได้รับการฝึกอบรมตามรูปแบบการพูดของชาติ สำหรับความสอดคล้องของแบรนด์ทั่วภาษา กำหนดการลงทะเบียนเป้าหมาย (อบอุ่น เป็นกลาง มีลักษณะ) และประเมินผลลัพธ์ของแต่ละภาษาตามโปรไฟล์นั้นก่อนปรับใช้ ร้านค้า Walmart ในสหรัฐอเมริกามักจะใช้ภาษาอังกฤษ + ภาษาสเปน; Carrefour ฝรั่งเศส ใช้ฝรั่งเศส + อาหรับสำหรับสถานที่ที่มีการจราจรจำนวนมาก

รูปแบบเสียงใดที่คิออส์ NCR Voyix และ Diebold Nixdorf ยอมรับ

ระบบชำระเงินอัตโนมัติ NCR Voyix ส่วนใหญ่ยอมรับ WAV PCM 16 บิตที่ 22.05 kHz หรือ 44.1 kHz mono สายการ BEETLE และ TP Application ของ Diebold Nixdorf มักใช้ WAV mono 16 บิตที่ 11.025 kHz หรือ 22.05 kHz สำหรับไลบรารีพร็อมต์ที่เก่าแก่และ 44.1 kHz สำหรับระบบ รุ่นปัจจุบัน ขอข้อมูล จำเพาะการรวมเสียงจากวิศวกรสนามเสมอ — ความไม่ตรงกันของรูปแบบเป็นเหตุผลที่พบบ่อยที่สุดที่พร็อมต์เสียงที่กำหนดเองล้มเหลวในการเล่น

คิออส์ชำระเงินอัตโนมัติทั่วไปต้องการพร็อมต์เสียงจำนวนเท่าใด

ไลบรารีพร็อมต์ชำระเงินอัตโนมัติมาตรฐานสำหรับเครื่องลงจอดเดี่ยวประกอบด้วยคลิป WAV ระหว่าง 80-150 คลิปที่ครอบคลุมพร็อมต์การสแกน การแจ้งเตือนพื้นที่บรรจุภัณฑ์ ขั้นตอนการชำระเงิน พร็อมต์โปรแกรมความภักดี การตรวจสอบอายุ การกู้คืนข้อผิดพลาด และข้อความเฉพาะของร้านค้า คูณด้วยสายของร้านค้า 500 แห่ง มี 4 ลงจอดต่อร้านค้า และ 2 ภาษา นั่นอาจเป็นไฟล์เสียง 1.2 ล้านไฟล์แยกกัน — การสร้างแบบชุด AI เป็นวิธีเดียวที่ใช้ได้จริงในการสร้างและรักษาไว้ตามมาตราส่วน

VoxBooster ใช้งานได้สำหรับการผลิตเสียงคิออส์ปลีกหรือไม่

VoxBooster ทำงานบน Windows และผลิต WAV เอาต์พุตคุณภาพสูงโดยมีการโคลนเสียง AI ที่กำหนดเอง — มีประโยชน์สำหรับการสร้างบุคลิกเสียงแบรนด์ที่สอดคล้องกันทั่วไลบรารีพร็อมต์คิออส์แบบเต็ม ขั้นตอนการทำงานตรงกับสิ่งที่ทีมเสียงปลีกทำ: บันทึกหรือโคลนเสียงอ้างอิง สร้างพร็อมต์ทั้งหมดจากรายการสคริปต์เป็นชุด ส่งออกเป็น WAV mono ที่อัตราตัวอย่างที่จำเป็น การทดลองใช้ฟรีครอบคลุมเอาต์พุตที่เพียงพอเพื่อตรวจสอบคุณภาพเสียงก่อนที่จะผูกมัดกับการเรียกใช้การผลิตไลบรารีพร็อมต์แบบเต็ม

บทสรุป

AI เสียงชำระเงินอัตโนมัติเป็นวินัยการผลิต ไม่ใช่เพียงแค่ตัวเลือกเทคโนโลยี เสียง “โปรดวางสินค้าลงในพื้นที่บรรจุภัณฑ์” ที่ผู้ซื้อได้ยินที่ Walmart Kroger และ Carrefour ได้รับการออกแบบและผลิตโดยมีข้อกำหนดฮาร์ดแวร์ที่เฉพาะเจาะจง มาตรฐานการเข้าถึง และแนวทางเสียงแบรนด์ที่สำคัญ — และการรักษาไว้ทั่วหลายพันลงจอดและหลายภาษาต้องการขั้นตอนการทำงานที่การบันทึกสตูดิโอไม่สามารถ ยั่งยืนในระดับ

เครื่องสร้างเสียง AI แก้ไขข้อจำกัดทั้งหมด: ข้อกำหนด NCR Voyix และ Diebold Nixdorf (WAV mono 16 บิตที่อัตราตัวอย่างที่ถูกต้อง) การปฏิบัติตามนโยบาย WCAG 2.1 (ความดังสอดคล้องกัน อัตราการพูดที่เข้าใจได้ เสียงเทียบเท่าสำหรับพร็อมต์ภาพ) และการปรับใช้หลายภาษา (งานชุดหนึ่งต่อภาษาจากโปรไฟล์เสียงเดียวกัน) ขั้นตอนการทำงาน — สคริปต์ สร้าง ทำให้ปกติ ตั้งชื่อ ตรวจสอบ — ทำได้ซ้ำและสามารถตรวจสอบได้ในวิธีที่เซสชั่นสตูดิโอแบบ ad-hoc ไม่สามารถ

VoxBooster จัดการการสร้างเสียง AI และการโคลนเสียงที่กำหนดเองบน Windows ซึ่งทำให้ใช้งานได้จริงเพื่อสร้างไลบรารีพร็อมต์ปลีกแบบเต็มจากบุคลิกเสียงแบรนด์ที่กำหนด ขั้นตอนการทำงานท้องถิ่นและออฟไลน์เดียวกันที่หลีกเลี่ยงคำถามปฏิบัติตามนโยบาย API PCI-DSS ยังหมายถึง อัพเดตพร็อมต์ในบ่ายวัน ไม่ใช่ปรึกษาวิศวกรหลายสัปดาห์ การทดลองใช้ 3 วันฟรี — ไม่ต้องใช้บัตรเครดิต

ดาวน์โหลด VoxBooster — การทดลองใช้ 3 วันฟรี ไม่ต้องใช้บัตรเครดิต