ตัวสร้างเสียง AI สำหรับการนำทางคนขับรถจัดส่ง

วิธีที่ AI เสียงคนขับรถจัดส่งปรับปรุงการนำทาง Amazon Flex Uber Eats DoorDash และ iFood - บุคคลที่เงียบ การเตือนหยุดที่พลาดเร่งด่วน ชื่อถนนท้องถิ่นทำให้ถูกต้อง

ตัวสร้างเสียง AI สำหรับการนำทางคนขับรถจัดส่ง

AI เสียงคนขับรถจัดส่งกำลังเปลี่ยนแปลงวิธีที่คนส่งจดหมายประสบการณ์เส้นทางของพวกเขา - และไม่เพียงแต่เพื่อความสะดวกสบาย เมื่อการนำทางของคุณพูดด้วยเสียงที่เงียบและชัดเจนซึ่งคุณเชื่อถือ คุณจะทำให้มีการเลี้ยวที่ผิด พลาดจุดหยุด น้อยลง และสำเร็จการขับรถที่นานขึ้นด้วยการล้มป่วยที่ลดลง คู่มือนี้ครอบคลุมทุกเรื่องเกี่ยวกับการใช้เครื่องสร้างเสียงนำทางคนขับสำหรับแพลตฟอร์มการจัดส่งจริง: Amazon Flex Uber Eats DoorDash และ iFood


TL;DR

  • เสียงการนำทางเริ่มต้นคือขนาดเดียวสำหรับทั้งหมด เสียง AI ที่กำหนดเองสามารถปรับจูนเพื่อสงบคนขับในเลี้ยวปกติและเพิ่มเร่งด่วนในจุดหยุดที่พลาด
  • Amazon Flex Uber Eats DoorDash และ iFood ต่างใช้เสียง GPS ของบุคคลที่สาม - หมายความว่าคุณสามารถสลับเสียงได้โดยไม่ต้องสัมผัสแอป
  • การออกเสียงชื่อถนนท้องถิ่นเป็นจุดเสียดทานที่พบได้บ่อยที่สุดจุดหนึ่ง โปรไฟล์เสียงที่กำหนดเองแก้ไข
  • ความเหนื่อยของคนขับในเส้นทาง 6-8 ชั่วโมงเป็นเรื่องจริง เสียงที่คนขับรู้จักและเชื่อถือสร้างการลดลงของความสนใจที่ลดลงและความเข้มข้นของความคิดที่ต่ำกว่าแบบวัดได้
  • VoxBooster ช่วยให้คุณสามารถสร้างโปรไฟล์เสียงการนำทางแบบกำหนดเองด้วยการทดลองฟรี 3 วัน

เหตุใดคนขับรถจัดส่งจึงต้องการเสียงการนำทางที่ดีกว่า

คนขับรถจัดส่งโดยเฉลี่ยบน Amazon Flex หรือ DoorDash ได้ยินพร้อมท์การนำทางเป็นร้อยครั้งต่อกะ ในระหว่างการขับรถ 7 ชั่วโมงที่ครอบคลุมการหยุด 80-120 ครั้ง เสียง TTS แบบหุ่นยนต์มาตรฐานกลายเป็นสัญญาณรบกวนพื้นหลัง - นั่นคือปัญหา เมื่อเสียงผสมเข้ากับพื้นหลัง คนขับจะหยุดตอบสนองต่อเสียงด้วยความระวัง และนั่นคือเมื่อการปล่อยแนะนำและอาคารที่พลาดเกิดขึ้น

อีกด้านหนึ่งของปัญหาเดียวกัน: เสียงที่ก้าวร้าวหรือไม่คาดคิดเกินไปทำให้เกิดการลดลงของความสนใจของกระตุ้นทุกครั้งที่พูด เสียง TTS เริ่มต้นที่ “กระฉับกระเฉง” จากแอป GPS บางแอปสร้างต้นทุนทางความรู้ขนาดเล็กแต่สะสมในระหว่างพร้อมท์หลายร้อยแบบ

สิ่งที่คนขับต้องการจริงๆคือเสียงที่:

  • ฟังเหมือนธรรมชาติและสม่ำเสมอ ดังนั้นจึงยังคงอยู่ในพื้นหลังอย่างถูกต้อง - พวกเขาประมวลผลโดยไม่คิด
  • ยกระดับโทนเสียงโดยเฉพาะเมื่อสถานการณ์เรียกร้องให้ใส่ใจ (หยุดที่พลาด U-turn ที่จำเป็น ทำให้เป็นเส้นทางใหม่)
  • ออกเสียงชื่นถนนท้องถิ่นอย่างถูกต้อง เพื่อให้สมองไม่ต้องแปลการออกเสียงที่ผิดพลาดขณะเดียวกับก็ต้องจัดการการจราจร
  • รู้สึกเหมือนเสียงของพวกเขา - หรือเสียงที่พวกเขาเลือก - แทนที่จะเป็นเสียง TTS ทั่วไป

เครื่องสร้างเสียง AI สำหรับคนขับรถจัดส่งที่ทำทั้งสี่อย่างนี้ไม่ใช่ของหรูหรา มันเป็นเครื่องมือที่ใช้ได้จริงซึ่งจ่ายตัวเองในข้อผิดพลาดที่น้อยลงต่อกะ

วิธีการทำงานของเสียงการนำทางใน Application ส่งของ

ก่อนที่จะปรับแต่งอะไรก็ตาม การเข้าใจว่าเสียงมาจากที่ใดในแต่ละแพลตฟอร์มจึงเป็นสิ่งที่น่าสนใจ

Amazon Flex

Amazon Flex ไม่มีเครื่องยนต์แผนที่ของตัวเอง มันส่งการนำทางไปยังแอปการนำทางเริ่มต้นบนโทรศัพท์ของคุณ - โดยปกติ Google Maps Waze หรือ Apple Maps ขึ้นอยู่กับภูมิภาคและการตั้งค่าของคุณ เสียง TTS ที่คุณได้ยินถูกควบคุมโดยแอปเหล่านั้นไม่ใช่ Flex หมายความว่าคุณสามารถเปลี่ยนเสียงใน Google Maps หรือ Waze โดยอิสระจากแอป Flex และการเปลี่ยนแปลงจะใช้ได้อย่างอัตโนมัติ

Uber Eats

Uber Eats มีเลเยอร์แผนที่และการนำทางในตัวสำหรับคนขับ แต่ยังเปิดเผยตัวเลือก “navigate with” ที่ส่งต่อปลายทางไปยัง Google Maps หรือ Waze เมื่อคุณใช้ตัวเลือกการนำทางภายนอก เสียงจะถูกควบคุมโดยแอปแผนที่ที่คุณเลือกอีกครั้ง

DoorDash

แอปคนขับของ DoorDash (Dasher) รวมทิศทาง Google Maps ภายในแอป เสียงคือ Google Maps TTS DoorDash ยังมีโหมดอินทิเกรตแยกต่างหากซึ่งเปิด Google Maps หรือ Waze เป็นแอปแยกต่างหาก

iFood (บราซิล/อเมริกาละติน)

คนส่งสินค้า iFood นำทางผ่านการจัดเส้นทางในตัวของแอป iFood ซึ่งใช้ Google Maps SDK ภายใต้ประทุน พร้อมท์ TTS สร้างขึ้นโดยเครื่องยนต์ของ Google ในพื้นที่ที่มีชื่อถนนภาษาโปรตุเกสหนัก - São Paulo Belo Horizonte Curitiba - Google TTS เริ่มต้นจัดการการออกเสียงส่วนใหญ่อย่างถูกต้อง แต่ต่อสู้ในชื่อย่านและชื่นถนนท้องถิ่นที่ไม่เป็นทางการที่ผู้คนใช้ท้องถิ่น

ธีมทั่วไป

ทั้งสี่แพลตฟอร์มต่างต้องพึ่งพา Google Maps TTS Waze TTS หรือ Apple Maps TTS ในเลเยอร์เสียง หมายความว่า เครื่องสร้างเสียงนำทางคนขับที่ทำงานในระดับ OS เสียง - หรือ pre-generates พร้อมท์เสียงสำหรับการทับเสียงการนำทางแบบกำหนดเอง - สามารถปรับปรุงการประสบการณ์เสียงทั้งสี่แบบโดยไม่ต้องมีการเข้าถึง root หรือการปรับเปลี่ยนแอป

แพลตฟอร์มแหล่งการนำทางเลเยอร์เสียงเสียงที่กำหนดเองหลีกเลี่ยง
Amazon FlexGoogle Maps / Waze (ภายนอก)Google / Waze TTSใช่ - เปลี่ยนในแอปแผนที่
Uber Eatsในแอป + ตัวเลือกภายนอกGoogle Maps TTSใช่ - ผ่านโหมดนับ nav ภายนอก
DoorDash (Dasher)Google Maps SDK (in-app)Google TTSใช่ - ผ่านการตั้งค่าการนำทาง Dasher
iFoodGoogle Maps SDK (in-app)Google TTS (PT-BR)ใช่ - TTS ระดับภูมิภาคเปลี่ยนได้

สิ่งที่เครื่องสร้างเสียงนำทางคนขับทำจริงๆ

เครื่องสร้างเสียงนำทางคนขับเป็นระบบ text-to-speech ที่ปรับให้เหมาะสมโดยเฉพาะสำหรับกรณีการใช้งานการนำทาง ความแตกต่างที่สำคัญจาก TTS วัตถุประสงค์ทั่วไป:

การปรับจูนความเร็ว. พร้อมท์การนำทางได้ยินในขณะที่ขับรถ - มักที่ 30-60 ไมล์ต่อชั่วโมงพร้อมเสียงลมและเพลงเล่น เสียงที่ปรับให้เหมาะสมด้านการนำทางพูดด้วยความเร็วคำต่อนาทีที่ช้ากว่าเล็กน้อยเมื่อเทียบกับ TTS การสนทนาและใช้การออกเสียงพยัญชนะที่ชัดเจน คนขับมีเวลาประมาณ 2-3 วินาทีในการประมวลผล “turn right on Chestnut” ก่อนที่จะพลาดการเลี้ยว

การจับคู่โทนเสียงประเภทพร้อมท์. คำแนะนำปกติใช้โทนเสียงที่สงบและคำนวณ เหตุการณ์ deroute miss stops และการแจ้งเตือนที่กำหนดเวลาใช้โทนเสียงที่สังเกตได้ว่ามีเร่งด่วนมากขึ้น - ส่งต่ออย่างเร็วกว่า ระดับเสียงสูงขึ้น prosody ต่างกัน สิ่งนี้สอนสมองของคนขับเพื่อตอบสนองต่อประเภทพร้อมท์ที่แตกต่างกันโดยไม่มีความพยายาม

การออกเสียงชื่นท้องถิ่น. เครื่องยนต์ TTS ทั่วไปได้รับการฝึกอบรมจากคลัง corpus ข้อความและอาจทำให้ชื่นถนน ชื่นย่าน หรือชื่นสถานที่สะกดภาษาสเปน / โปรตุเกสเสียหาย โปรไฟล์เสียงที่กำหนดเองซึ่งได้รับการฝึกอบรมบนเสียงท้องถิ่นหรือตั้งค่าด้วยการแทนที่ phoneme จัดการอย่างถูกต้อง

ตัวตนเสียงที่เลือกโดยคนขับ. เมื่อคนขับได้ยินเสียงของตัวเอง (หรือเสียงของบางคนที่พวกเขาเชื่อถือ) ให้คำแนะนำ สมองประมวลผลคำแนะนำเหล่านั้นแตกต่างกัน - ลดลงจากเสียงสิ่งแวดล้อมและเพิ่มเติมเป็นข้อมูลที่ใช้งานได้ สิ่งนี้ไม่ใช่คุณสมบัติของนวนิยาย มีผลกระทบที่วัดได้ต่ออัตราการมีส่วนร่วมในคำแนะนำ

คุณสามารถดูการเปรียบเทียบที่กว้างขึ้นเกี่ยวกับวิธีการใช้ระบบ TTS ที่กำหนดเองสำหรับกรณีการใช้งานที่แตกต่างกันในคู่มือตัวสร้างเสียง AI สำหรับวิดีโอการอธิบาย - เครื่องยนต์หลักเดียวกันนี้ใช้กับการปรับจูนที่แตกต่างกัน

เสียงสงบ vs. เสียงเร่งด่วน: ระบบโหมดคู่

การตัดสินใจออกแบบที่มีผลกระทบมากที่สุดในระบบเสียงคนขับคือการแยกพร้อมท์การนำทางปกติออกจากพร้อมท์ข้อยกเว้น

โหมดสงบ: Turn-by-Turn ปกติ

พร้อมท์การนำทางปกติควรส่งมอบในเวอร์ชันที่สงบที่สุดของโปรไฟล์เสียงที่เลือก ลักษณะเฉพาะ:

  • ความเร็ว: ประมาณ 130-150 คำต่อนาที (ช้ากว่าการสนทนาเล็กน้อย)
  • ระดับเสียง: เส้นฐานธรรมชาติสำหรับโปรไฟล์เสียง
  • Prosody: การเสื่อมสภาพอย่างนุ่มนวลในตอนท้ายของคำแนะนำ
  • ปริมาณ: ปรับจูนให้นั่งเหนือเสียงถนนรอบข้างเล็กน้อยโดยไม่ทำให้ตกใจ

ตัวอย่างพร้อมท์ปกติ: “ใน 400 เมตร เลี้ยวขวาลงถนนโอ๊ก” ส่งมอบแบบแบน ชัดเจน โดยไม่มีสีย้อมเร่งด่วน

โหมดเร่งด่วน: ยกเลิกที่พลาดและ Reroutes

เหตุการณ์ข้อยกเว้นต้องการโปรไฟล์ที่ต่างกันที่ตัดผ่านโดยไม่ทำให้ตกใจ โทรศัพท์ของคนขับมักจะหันลง เพลงอาจเล่น และพวกเขาจัดการการจราจร เสียงเร่งด่วนต้องสังเกตการณ์ทันที

  • ความเร็ว: 160-180 คำต่อนาที (เร็วกว่าเล็กน้อย)
  • ระดับเสียง: ยกขึ้น 2-4 ครึ่งหน่วยจากพื้นฐาน
  • Prosody: การเพิ่มขึ้นของส่วนโทนสำคัญ (“missed” ในคุณ “ส่วนข้อมูลที่หายไปของคุณ”)
  • เสียงนำหน้า: tone การแจ้งเตือนสั้น 200ms ก่อนพร้อมท์ที่พูด

ตัวอย่างพร้อมท์เร่งด่วน: [alert tone] “หยุดที่พลาดแล้ว ทำเลี้ยว U เมื่อปลอดภัย” ความแตกต่างทางอะคูสติกจากโหมดสงบนั้นทันทีและชัดเจน แม้แต่สำหรับคนขับที่เหนื่อย

วิธีการสองโหมดนี้สะท้อนให้เห็นว่าการสื่อสารของเจ้าหน้าที่เครื่องบินมืออาชีพได้รับการจัดโครงสร้างอย่างไร - การโทรปกติใช้การส่งมอบสงบ การโทรฉุกเฉินใช้ความเร่งด่วนที่ยกระดับ - และสามารถถ่ายโอนไปยังการนำทางการจัดส่งได้ด้วยการสคริปต์เสียง ที่ตรงไปตรงมา

หลักการเดียวกันที่ใช้ในตัวสร้างเสียง AI สำหรับระบบ PA สถานีรถไฟนั้นใช้ที่นี่: คุณกำลังออกแบบสำหรับผู้ฟังที่อาจขาดสมาธิ เหนื่อย หรือทำงานภายใต้ความกดดันตามเวลา

การออกเสียงถนนท้องถิ่น: ทำไมมันถึงสำคัญมากกว่าที่ดูเหมือน

ชื่นถนนที่ออกเสียงผิดเป็นปัญหาที่รุนแรงกว่าที่ปรากฏ เมื่อเสียงการนำทางพูด “Gw-ad-ah-loop-ay” สำหรับ Guadalupe หรือ “Gwa-da-loop” สำหรับสิ่งที่ควรเป็น “Gwad-ah-loo-pay” สมองของคนขับต้องเรียกใช้ขั้นตอนการแปล - “ถนนนั้นคืออะไร?” - ขณะเดียวกัดก็ทำการตัดสินใจขับรถ ขั้นตอนการแปลนั้นใช้ 0.5-1.5 วินาทีของหน่วยความจำการทำงาน

ที่ 40 ไมล์ต่อชั่วโมง 0.5 วินาทีคือ 29 ฟุต ที่สี่แยกจราจรที่เวลาการเลี้ยวสำคัญ ความแตกต่างนั้นมีความหมาย

พื้นที่ปัญหาทั่วไปตามภูมิภาค

ทางใต้และทางตะวันตกเฉียงใต้ของสหรัฐอเมริกา: ชื่นถนนภาษาสเปน (Guadalupe Albuquerque Cahuenga La Brea) TTS เริ่มต้นมักใช้กฎ phoneme ภาษาอังกฤษ

บราซิล (iFood): ชื่อพื้นที่ใกล้เคียง (Bom Retiro Consolação Ipanema) ชื่นถนนที่เชื่อมต่อ และชื่นท้องถิ่นที่ไม่เป็นทางการที่ปรากฏบนแผนที่แอป แต่ไม่ได้ในฐานข้อมูลที่อยู่อย่างเป็นทางการ

ทางใต้ของสหรัฐอเมริกา: ชื่นสถานที่ที่มีต้นกำเนิดจากฝรั่งเศส (Baton Rouge Natchitoches Iberville) ซึ่งออกเสียงผิดอย่างสม่ำเสมอโดย TTS ทั่วไป

Midwest ของสหรัฐอเมริกา: ชื่นสถานที่ที่มีต้นกำเนิดแบบเยอรมัน (Versailles-OH ออกเสียงว่า “ver-SALES” ไม่ใช่ “ver-SY”) ซึ่งได้รับการจัดเรียงใหม่เป็นภาษาอังกฤษในท้องถิ่น

การแก้ไขการออกเสียงในเสียงแบบกำหนดเอง

เครื่องสร้างเสียงคุณภาพสูงส่วนใหญ่ช่วยให้สามารถแทนที่ระดับ phoneme หรือป้อนการสะกดแบบอื่น สำหรับตัวอย่างข้างต้น:

ลายเซ็นTTS เริ่มต้นการออกเสียงที่ถูกต้องอินพุตแทนที่
Guadalupe”gwa-da-LOOP""gwad-ah-LOO-pay""gwadaLOOpay”
Natchitoches”NATCH-ih-toh-cheez""NACK-ih-tush""NAKitush”
Bom Retiro”Bom Reh-tiro""Bong Heh-CHEE-roo""Bong HehCHEEru”

การสร้างพจนานุกรมการออกเสียงสำหรับชื่นถนนอันดับ 50 อันดับแรกในอาณาเขตการขับขี่ปกติของคนขับใช้เวลาประมาณ 30-60 นาทีและกำจัดเสียดทานการออกเสียงผิดเกือบทั้งหมดสำหรับเส้นทางของคนขับ

ความเหนื่อยของคนขับและบทบาทของการออกแบบเสียง

ความเหนื่อยของคนขับในการจัดส่ง last-mile เป็นปัญหาด้านสุขภาพที่ทำงาน ไม่เพียงแต่ความกังวลเกี่ยวกับความสะดวกสบาย คนขับที่ทำงานกะ 6-10 ชั่วโมงจัดการความเหตุรุ่งแรง ความแปรปรวนของการจราจร การติดต่อของลูกค้า และการตัดสินใจนำทางเป็นร้อยครั้งตามลำดับ การออกแบบเสียงเป็นหนึ่งในตัวแปรหลายตัวที่ควบคุมได้ซึ่งส่งผลต่อภาระความเข้มข้นของความคิดตลอดการขับรถ

การวิจัยเกี่ยวกับการสื่อสารของเจ้าหน้าที่เครื่องบิน (ซึ่งมีวรรณกรรมที่เข้มงวดที่สุดเกี่ยวกับความเสี่ยงต่อเสียงและผลกระทบต่อความสนใจในบริบทการดำเนินงานที่มีความเสี่ยงสูง) กำหนดว่าลักษณะเสียง - ความคุ้นเคย จังหวะ ระดับเสียง และ prosody - มีผลกระทบอย่างมีนัยสำคัญต่อระดับที่เร็วเพียงใดผู้ปฏิบัติการตอบสนองต่อพร้อมท์และหน่วยความจำการทำงานจำนวนมากที่พร้อมท์นั้นใช้ไป

สำหรับคนขับจัดส่ง ผลกระทบในทางปฏิบัติคือ:

ความคุ้นเคยลดต้นทุนการประมวลผล. เสียงที่คนขับใช้เป็นเวลาหลายสัปดาห์กลายเป็นช่องป้อนข้อมูลที่เชื่อถือได้ การประมวลผลจึงอัตโนมัติ ทำให้มีความสามารถทางความรู้มากขึ้นสำหรับการจราจรและการระบุหยุด

ความสม่ำเสมอของจังหวะลดการตอบสนองต่อการที่ระบบกระตุ้น. เสียงที่ประกาศการเลี้ยวในจังหวะและเวลาเดียวกันเสมอไม่สร้างการเพิ่มขึ้นของความสนใจ การตอบสนองต่อการกระตุ้นนั้นไม่ได้ขึ้นอยู่กับการสัง่สม และใช้หน่วยความจำการทำงานเป็นเวลา 1-3 วินาที - มีนัยสำคัญเมื่อมีขนาดในช่วงการขับรถทั้งหมด

ความแม่นยำชื่อลดการโหลดหน่วยความจำการทำงาน. ตามที่ครอบคลุมข้างต้น การออกเสียงชื่นถนนที่ถูกต้องขจัดขั้นตอนการแปล ในช่วง 100+ พร้อมท์ต่อการขับรถ นี่จึงเพิ่มขึ้น

การทำงาน end-of-shift - การหยุดที่พลาดน้อยลง การเสร็จสิ้นการหยุดที่เร็วขึ้น อัตราข้อผิดพลาดที่ต่ำกว่า - ปรับปรุงอย่างเห็นได้ชัดเมื่อเสียดทานเสียงลดลง ผลกระทบนี้มองเห็นได้ชัดที่สุดในการขับรถระยะยาว (6+ ชั่วโมง) และในพื้นที่มีความหนาแน่นของเมืองสูงขึ้นโดยที่ความถี่หยุดสูง

สำหรับมุมมองที่กว้างขึ้นเกี่ยวกับวิธีการสร้างเสียง AI ถูกใช้ในบริบทโลจิสติกส์และการดำเนินงาน โปรดดูคู่มือตัวสร้างเสียง AI สำหรับการดำเนินงาน pick-pack คลังสินค้า

การสร้างโปรไฟล์เสียงการนำทางแบบกำหนดเองใน VoxBooster

เครื่องยนต์ AI voice cloning ของ VoxBooster ให้คนขับสามารถสร้างเสียงนำทางส่วนบุคคลจากการบันทึกเสียงสั้น ๆ กระบวนการ:

ขั้นตอนที่ 1 - บันทึกเสียงของคุณ (หรือเลือกเสียงแม่แบบ). สำหรับการโคลน self-voice 3-5 นาทีของเสียงสะอาดบันทึกในสภาพแวดล้อมที่เงียบก็เพียงพอ อ่านสคริปต์ที่เตรียมไว้ซึ่งครอบคลุม phoneme ในภาษาเป้าหมายของคุณ รวมถึงเสียงเฉพาะภูมิภาค VoxBooster รวมคู่มือการบันทึกที่ปรับให้เหมาะสมสำหรับการโคลนเสียงนำทาง

ขั้นตอนที่ 2 - สร้างรูปแบบเสียง. การประมวลผล AI ทำงานในเครื่องบนเครื่อง Windows 10/11 ของคุณ - ไม่มีเสียงส่งไปยังเซิร์ฟเวอร์คลาวด์ เวลาการประมวลผลสำหรับตัวอย่าง 5 นาทีโดยปกติ 8-15 นาทีขึ้นอยู่กับ GPU

ขั้นตอนที่ 3 - สคริปต์ library พร้อมท์. สร้างตัวแปรเสียง 2 ตัว: สงบ (nav ปกติ) และ เร่งด่วน (stop ที่พลาด / reroute) VoxBooster ให้คุณตั้งค่า prosody ต่างกันต่อตัวแปรแต่ละตัว ไลบรารี่พร้อมท์ที่สมบูรณ์สำหรับกรณีการใช้งานนำทางมาตรฐานครอบคลุม:

  • พร้อมท์เลี้ยว (ซ้าย ขวา ตรง เล็กน้อย คม)
  • Callout ระยะทาง (ใน 100m ใน 400m ใน 1km เข้าใกล้)
  • การแจ้งเตือนการวางแผนใหม่และการหยุดที่พลาด
  • ยืนยันการมาถึง
  • ยืนยันที่อยู่

ขั้นตอนที่ 4 - ส่งออกและรวมเข้า. ส่งออกเสียงพร้อมท์เป็น WAV หรือ MP3 ใช้แอปการทับเสียงนำทาง (มีตัวเลือกหลายตัวสำหรับ Android และ iOS) เพื่อแทนที่พร้อมท์ TTS เริ่มต้นด้วยไฟล์เสียงแบบกำหนดเองของคุณ หรือ route VoxBooster virtual microphone เอาต์พุตไปยังลำโพงรถยนต์ของคุณผ่าน Bluetooth เพื่อสร้างพร้อมท์แบบเรียลไทม์

ขั้นตอนที่ 5 - เพิ่มการแทนที่การออกเสียง. สำหรับชื่นถนนท้องถิ่นที่รูปแบบเสียงพื้นฐานจัดการไม่ถูกต้อง เพิ่มการแทนที่ phoneme ในพจนานุกรมการออกเสียง VoxBooster ก่อนที่จะส่งออกไลบรารี่พร้อมท์สุดท้าย

ผลลัพธ์คือเสียงการนำทางที่ฟังเหมือนคุณ (หรือคนที่คุณเลือก) จัดการถนนท้องถิ่นของคุณอย่างถูกต้อง และขยับสูงโดยเหมาะสมเมื่อบางสิ่งบางอย่างผิดพลาดในเส้นทาง

หากคุณสนใจในการประยุกต์ใช้เสียงโคลนแบบกำหนดเองที่กว้างขึ้นไปยังบรรยาย และงานเนื้อหา โปรดดูคู่มือการโคลนเสียงสำหรับงาน voiceover ซึ่งครอบคลุมเทคโนโลยีพื้นฐาน

ตัวเลือกการรวมเข้า: ตั้งแต่ง่ายไปยังขั้นสูง

ไม่ใช่ทุกคนขับต้องการสร้าง library พร้อมท์ที่กำหนดเองแบบเต็มสูง นี่คือสเปกตรัมของวิธีการบูรณาการตั้งแต่นำเข้าถึงแบบเต็ม:

ระดับที่ 1 - เปลี่ยนเสียงแผนที่

วิธีที่ง่ายที่สุด: เปลี่ยนเสียง TTS ใน Google Maps หรือ Waze เป็นอย่างที่มีคุณภาพดีกว่า ทั้งสองแอปมีตัวเลือกเสียงหลายตัว และเครื่องยนต์ TTS บุคคลที่สาม (รวมถึงบางตัวที่มีการจัดการ phoneme ที่ดีกว่า) สามารถตั้งเป็นเสียง TTS ระบบ แล้วใช้โดยแอปการนำทางทั้งหมดโดยอัตโนมัติ

ความพยายาม: 5-10 นาที ผลกระทบ: ปานกลาง คุณได้เสียงที่ดีกว่า แต่ไม่มีการปรับแต่งสำหรับเส้นทางเฉพาะของคุณ

ระดับที่ 2 - เสียงแบบกำหนดเองใน Maps TTS

บน Android คุณสามารถติดตั้งเครื่องยนต์ TTS บุคคลที่สาม (Google TTS Samsung TTS หรืออื่น ๆ ) และสลับเสียง TTS ระบบของคุณ บางตัวสนับสนุนชุดเสียงแบบกำหนดเอง ตั้งเป็นเสียง TTS ระบบ และแอปการนำทางทั้งหมดจะใช้มัน

ความพยายาม: 15-30 นาที ผลกระทบ: ปานกลางถึงดี ขึ้นอยู่กับคุณภาพเสียง ไม่มีการแยกเร่งด่วน / สงบ

ระดับที่ 3 - ไลบรารี่พร้อมท์ที่สร้างไว้ล่วงหน้า

ใช้เครื่องสร้างเสียง เช่น VoxBooster เพื่อ pre-generate ไลบรารี่พร้อมท์เสียงแบบเต็มของคุณ ติดตั้งแอปการทับเสียงนำทาง (มีหลายตัวสำหรับ Android และ iOS) ที่ใช้ไฟล์เสียงแบบกำหนดเองแทน TTS นี่คือวิธีการที่ให้คุณควบคุมเต็มรูปแบบเหนือคุณภาพเสียงและโทนพร้อมท์

ความพยายาม: 2-4 ชั่วโมงการตั้งค่าเบื้องต้น เกือบศูนย์อย่างต่อเนื่อง ผลกระทบ: สูง เสียงแบบกำหนดเองแบบเต็มการออกเสียงที่ถูกต้อง ระบบโหมดทั่วไป

ระดับที่ 4 - AI Voice Real-Time via Virtual Microphone

เรียกใช้เอาต์พุต virtual microphone VoxBooster ไปยังลำโพง Bluetooth ในรถยนต์ TTS แอปการนำทางประมวลผลผ่าน VoxBooster แบบเรียลไทม์ แปลงเป็นเสียงเป้าหมายในทางไป สิ่งนี้ต้องใช้แล็ปท็อปหรือเดสก์ท็อปที่เรียกใช้ VoxBooster และเอาต์พุต Bluetooth ไปยังลำโพงแบบพกพา - ปฏิบัติได้สำหรับคนขับที่มีคอมพิวเตอร์นำทางเฉพาะในยานพาหนะแล้ว

ความพยายาม: การตั้งค่าเบื้องต้น 30-60 นาที ผลกระทบ: ความยืดหยุ่นสูงสุด เสียงสามารถอัปเดตทันทีโดยไม่ต้อง re-export library พร้อมท์

สถาปัตยกรรมการประมวลผลเสียงแบบเรียลไทม์เดียวกันอธิบายไว้ในบทความตัวสร้างเสียง AI สำหรับการส่งออกคุณสมบัติเครื่องมือ IoT - กรณีการใช้งานนำทางการจัดส่งเป็นรูปแบบเฉพาะของการป้อนกลับเครื่องมือที่ฝังอยู่

เปรียบเทียบตัวเลือกตัวสร้างเสียงสำหรับ Nav คนขับ

เครื่องมือเสียงแบบกำหนดเองแทนที่การออกเสียงโทนโหมดคู่การประมวลผลเสียงท้องถิ่นระดับฟรี
Google TTS (preset)ไม่ไม่ไม่คลาวด์ใช่
Waze TTS (preset)ไม่ไม่ไม่คลาวด์ใช่
ElevenLabsใช่ (อินพุตข้อความ)จำกัดสคริปต์ด้วยตนเองคลาวด์จำกัด
Murfใช่ (เทมเพลต)จำกัดสคริปต์ด้วยตนเองคลาวด์จำกัด
VoxBoosterใช่ (voice clone)ใช่ใช่ (สองโปรไฟล์)ท้องถิ่นทดลอง 3 วัน

ข้อดีของการประมวลผลในเครื่องคือความเป็นส่วนตัว - เสียงการนำทางและข้อมูลเสียงของคุณไม่เดินทางผ่านเซิร์ฟเวอร์ของบุคคลที่สาม - และเวลาแฝง ซึ่งสำคัญสำหรับการรวมแบบเรียลไทม์ที่ระดับที่ 4

เคล็ดลับปฏิบัติสำหรับคนขับส่งสินค้าที่ใช้ Nav Voice AI

ทดสอบในเส้นทางสั้นจริงครั้งแรก. ก่อนที่จะตัดสินใจใช้เสียง nav แบบกำหนดเองเต็มที่ ให้เรียกใช้บนเส้นทาง 10 หยุดที่คุณรู้จักดี คุณจะได้ยินทันทีว่าการออกเสียง ความเร็ว และปริมาณได้รับการปรับสมดุลอย่างถูกต้องหรือไม่

ตั้งค่าระดับเสียงก่อนการขับรถ ไม่ใช่ระหว่าง. ปรับระดับเอาต์พุตเสียงในการตั้งค่าของคุณก่อนที่จะเริ่มขับรถ การปรับเสียงตรงกลางเส้นทางเป็นการรบกวน เป้าหมายระดับที่พร้อมท์สงบได้ยินชัดเจนเหนือเสียงถนน แต่ไม่ทำให้พร้อมท์เร่งด่วนเรียกเข้า

สร้างพจนานุกรมการออกเสียงสำหรับอาณาเขตหลักของคุณ. ระบุชื่นถนน 20-30 ชื่นในโซนการจัดส่งปกติของคุณที่เสียง nav ปัจจุบันออกเสียงผิด การสร้างการแทนที่สำหรับชื่นเหล่านั้นเป็นการปรับปรุง ROI ที่เร็วที่สุดในการบ้าน

ใช้เสียงสงบเป็นค่าเริ่มต้นของคุณ เสมอ. หากคุณไม่แน่ใจว่าประเภทพร้อมท์ใดสมควรได้โทนใด ให้เริ่มต้นด้วยสงบ Over-urgency แย่กว่า under-urgency เพราะคนขับที่ได้ยินพร้อมท์ “เร่งด่วน” มากเกินไปในสถานการณ์ที่ไม่เร่งด่วนเริ่มจะละเลยโทนเร่งด่วน - เอาชนะจุดประสงค์

รีเฟรชโปรไฟล์เสียงสำหรับอาณาเขตใหม่. หากคุณเพิ่มโซนการจัดส่งใหม่ในพื้นที่อื่น ให้ใช้เวลา 15 นาทีในการอัปเดตพจนานุกรมการออกเสียงของคุณสำหรับชื่นถนนในพื้นที่นั้นก่อนการขับรถแรกของคุณที่นั่น

คำถามที่พบบ่อย

AI เสียงคนขับจัดส่งสำหรับการนำทางคืออะไร

AI เสียงคนขับจัดส่งเป็นระบบ text-to-speech ที่แปลงคำแนะนำการนำทาง turn-by-turn เป็นเสียงที่ปรับให้เหมาะสมสำหรับสภาพการขับขี่ - โทนเสียงสงบสำหรับเลี้ยวปกติ การแจ้งเตือนเร่งด่วนสำหรับจุดหยุดที่พลาดหรือรีเร้าท์ โดยลดภาระความเข้มข้นของความคิด จึงทำให้คนขับสามารถมุ่งเน้นไปที่ถนนแทนที่จะมองหน้าจอ

ฉันสามารถใช้เสียง AI ที่กำหนดเองสำหรับการนำทาง Amazon Flex ของฉันได้หรือไม่

Amazon Flex อ่านการนำทางผ่านเสียง GPS ในตัวบนโทรศัพท์ของคุณ (Google Maps Waze หรือ Apple Maps) คุณสามารถแทนที่เสียงเหล่านั้นด้วยเสียง AI ที่กำหนดเองได้โดยการเรียกใช้เครื่องสร้างเสียงนำทางคนขับที่ส่งออกเสียงไปยังลำโพงรถยนต์ของคุณผ่าน Bluetooth หรือ aux เพื่อแทนที่พร้อมท์ TTS เริ่มต้น

AI เสียงนำทางคนขับจัดการการออกเสียงชื่นถนนท้องถิ่นอย่างไร

เครื่องสร้างเสียงนำทางคนขับที่มีคุณภาพสูงช่วยให้คุณเพิ่มกฎการออกเสียงที่กำหนดเอง (การแทนที่ phoneme หรือการสะกดแบบอื่น) สำหรับชื่นถนนท้องถิ่นที่เครื่องยนต์ TTS เริ่มต้นขาดทำให้ ตัวอย่างเช่น Guadalupe มักถูกออกเสียงผิดโดยเสียงทั่วไป - เสียงที่กำหนดเองซึ่งได้รับการฝึกอบรมจากเสียงท้องถิ่นจัดการได้อย่างถูกต้อง

เสียงการนำทางที่กำหนดเองจะช่วยลดความเหนื่อยของคนขับได้หรือไม่

ได้ ตามการวัด การวิจัยเกี่ยวกับภาระความเข้มข้นของความคิดในการขับขี่แสดงให้เห็นว่าเสียงที่ไม่คาดหวังหรือเป็นหุ่นยนต์ทำให้เกิดการลดลงของความสนใจที่กระตุ้นอย่างรวดเร็ว เสียงที่คนขับเลือกและเชื่อถือเท่านั้นทำให้เกิดการลดลงเหล่านี้ในระหว่างการขับรถที่นานขึ้น จึงลดความเหนื่อยและเพิ่มระยะขอบความปลอดภัยเมื่อสิ้นสุดเส้นทาง 6-8 ชั่วโมง

แพลตฟอร์มใดที่ทำงานกับเครื่องสร้างเสียงนำทางคนขับจัดส่ง

Amazon Flex Uber Eats DoorDash และ iFood ต่างต้องพึ่งพาแผนที่ของบุคคลที่สาม (Google Maps Waze หรือ GPS ในแอป) สำหรับเสียง turn-by-turn เครื่องสร้างเสียงที่รวมในระดับ OS เสียง - หรือส่งออกไปยังลำโพง Bluetooth - ทำงานควบคู่ไปกับทั้งหมดโดยไม่ต้องแก้ไขแอป

มีเครื่องสร้างเสียงนำทางคนขับจัดส่งฟรีที่ฉันสามารถลองได้หรือไม่

เครื่องมือหลายตัวมีระดับฟรีที่มีเสียงและนาทีการส่งออกที่จำกัด VoxBooster รวมการทดลองฟรี 3 วันที่ครอบคลุมการสร้างเสียงที่กำหนดเองและการส่งออกเสียง - เวลาเพียงพอในการสร้างโปรไฟล์เสียงการนำทางแบบเต็มและทดสอบในการขับรถจริงก่อนที่จะตัดสินใจ

เสียง AI สามารถเปลี่ยนโทนระหว่างสงบและเร่งด่วนโดยอัตโนมัติได้หรือไม่

ได้ เมื่อเครื่องสร้างเสียงสคริปต์เพื่อแท็กประเภทคำแนะนำที่แตกต่างกัน เทมเพลตโหมดสงบจัดการเลี้ยวปกติ เทมเพลตโหมดเร่งด่วนจัดการจุดหยุดที่พลาด U-turn ที่จำเป็น และพร้อมท์การคำนวณใหม่ ตัวสลับนั้นใช้กฎ - ไม่จำเป็นต้องอนุมานแบบเรียลไทม์

บทสรุป

AI เสียงคนขับจัดส่งไม่ใช่กิจวัตร - มันเป็นการตอบสนองเชิงปฏิบัติต่อปัญหาการดำเนินงานจริง เสียง TTS การนำทางมาตรฐานได้รับการออกแบบมาเพื่อการใช้งานที่เป็นกิจวัตรเป็นครั้งคราว ไม่ใช่เพื่อความเข้มข้นของความคิดของการขับรถ 7 ชั่วโมง 100 ครั้ง คนขับจัดส่งเสียงที่ฟังคุ้นเคย พูดชื่นถนนท้องถิ่นอย่างถูกต้อง และเพิ่มโทนเฉพาะเมื่อสถานการณ์ต้องการ ให้ผลลัพธ์ที่วัดได้: การหยุดที่พลาดน้อยลง ความเข้มข้นของความคิดต่ำลง และความเหนื่อยน้อยลงเมื่อสิ้นสุดเส้นทางยาว

Amazon Flex Uber Eats DoorDash และ iFood ต่างใช้เสียงการนำทางผ่านแอปแผนที่บุคคลที่สาม ซึ่งหมายความว่าเสียงสามารถแทนที่ได้โดยไม่ต้องแตะแอปการจัดส่ง การรวมเข้ามีช่วงตั้งแต่การสลับเครื่องยนต์ TTS อย่างง่าย (10 นาที ผลกระทบปานกลาง) ไปจนถึงไลบรารี่พร้อมท์แบบกำหนดเองอย่างสมบูรณ์พร้อมโหมดทั่วไปและพจนานุกรมการออกเสียง (สองสามชั่วโมงของการตั้งค่า ผลกระทบสูง)

หากคุณต้องการสร้างเสียงการนำทางจากเสียงของคุณเอง - หรือโคลนเสียงสงบและมีอำนาจที่จัดการชื่นถนนดิแลด้วยการจัดส่งของคุณอย่างถูกต้อง - VoxBooster เป็นจุดเริ่มต้นที่ดี การทดลองฟรี 3 วันเพียงพอในการสร้างไลบรารี่พร้อมท์แบบเต็มและทดสอบในเส้นทางจริงก่อนที่คุณจะตัดสินใจ ไม่จำเป็นต้องใช้บัตรเครดิต ไม่มีการอัปโหลดคลาวด์ของข้อมูลเสียงของคุณ

ดาวน์โหลด VoxBooster - ทดลองฟรี 3 วัน Windows 10/11

ลอง VoxBooster — ทดลองใช้ฟรี 3 วัน

โคลนเสียงเรียลไทม์ ซาวด์บอร์ด และเอฟเฟกต์ — ทุกที่ที่คุณคุย

  • ไม่ต้องใช้บัตรเครดิต
  • ความหน่วง ~30ms
  • Discord · Teams · OBS
ลองฟรี 3 วัน