voice changer ไม่ใช่ทั้งหมดที่เท่ากันในแง่ของเวลาแฝง - และเวลาแฝงคือสิ่งทั้งหมด
voice changer แบบ real-time ที่ประมวลผลเสียง 400ms หลังจากที่คุณพูดนั้นเป็นเทคนิค “real-time” ในแง่ที่ว่ามันไม่ต้องการการบันทึกเบื้องต้น แต่ 400ms ล่าช้ากระหว่างการสนทนา ออกแบบให้ทำให้การสนทนาขัดขวาง เรียกเสียงสะท้อนในหูฟังของคุณ และทำให้ทุกการโทรรู้สึกเหมือนคุณกำลังพูดผ่านลิงค์ดาวเทียมที่แตกหัก
คู่มือนี้เจาะลึกเข้าไปในคณิตศาสตร์ของเวลาแฝงเบื้องหลัง voice changer live บน Windows - วิธีการทำงานของ low-latency audio capture Exclusive mode ว่ามันเปรียบเทียบกับ ASIO คืออะไร ที่จุด sub-100ms / sub-300ms / sub-500ms ในทางปฏิบัติ และวิธีกำหนดค่าระบบของคุณเพื่อให้ได้ตัวเลขต่ำสุดที่เป็นไปได้
Stack แฝง: ที่มิลิวินาทีไป
เวลาแฝง end-to-end ใน voice changer ไม่ใช่ตัวเลขเดียว มันเป็นผลรวมของหลายชั้น แต่ละชั้นเพิ่มความล่าช้าของตัวเอง:
1. เวลาแฝงของ input driver - เวลาในการอ่านบัฟเฟอร์เสียงจากไมโครโฟนของคุณ ที่ 128 frame / 48kHz ใน low-latency audio capture Exclusive: ~2.67ms
2. เวลาแฝงของ output driver - เวลาในการเขียนบัฟเฟอร์ไปยังอุปกรณ์เอาต์พุตของคุณ การคำนวณเดียวกัน: ~2.67ms
3. เวลาแฝงของการประมวลผลเสียง - เวลาที่อัลกอริทึม voice changer ของคุณใช้ในการแปลงเสียง สำหรับเอฟเฟกต์ DSP: 2-10ms สำหรับการแปลงเสียง AI: 60-180ms ขึ้นอยู่กับฮาร์ดแวร์
4. ค่าใช้จ่ายเพิ่มเติมของ Windows audio stack - ไม่สำคัญใน low-latency audio capture Exclusive (เส้นทางฮาร์ดแวร์โดยตรง); 20-30ms ใน low-latency audio capture Shared (mixer ระบบ); ไม่มีใน ASIO
5. ค่าใช้จ่ายเพิ่มเติมของอุปกรณ์เสียงเสมือน - voice changer ส่วนใหญ่จะส่งเสียงที่ประมวลผลผ่านไดรเวอร์ไมโครโฟนเสมือน อุปกรณ์เสมือนที่เขียนไว้ได้ดี เพิ่ม 5-15ms อุปกรณ์ที่เขียนไว้ไม่ดีสามารถเพิ่ม 40-80ms
เพิ่มทั้งหมดนี้ และคุณจะได้เวลาแฝง end-to-end ที่แท้จริงของคุณ สองรายการแรกได้รับการแก้ไขตามการตั้งค่าขนาดบัฟเฟอร์ของคุณ รายการ 4 และ 5 ถูกกำหนดโดยโหมด driver ของคุณและคุณภาพของการใช้งานอุปกรณ์เสมือน voice changer
| การตั้งค่า | เวลาแฝง driver | การประมวลผล | รวม (DSP) | รวม (AI, GPU) |
|---|---|---|---|---|
| low-latency audio capture Shared, 1024 frame | 40-60ms | 5-15ms | 60-90ms | 120-200ms |
| low-latency audio capture Exclusive, 256 frame | 10-15ms | 5-15ms | 25-40ms | 80-160ms |
| low-latency audio capture Exclusive, 128 frame | 5-10ms | 5-15ms | 15-30ms | 70-150ms |
| ASIO, 64 frame | 2-5ms | 5-15ms | 10-25ms | 65-140ms |
โหมด low-latency audio capture Exclusive: สิ่งที่ทำและทำไมถึงสำคัญ
Windows มีแบบจำลอง driver เสียงสองแบบที่ voice changer ส่วนใหญ่สามารถใช้: low-latency audio capture Shared และ low-latency audio capture Exclusive
low-latency audio capture Shared ทำงานผ่าน Windows Audio Device Graph (audiodg.exe) เสียงของแต่ละแอปพลิเคชันจะถูกผสมเข้าด้วยกันในซอฟต์แวร์ก่อนที่จะถึงฮาร์ดแวร์ การผสมนี้จะเพิ่มความแฝง - โดยปกติ 20-30ms - และบังคับให้ resampling หากอัตราตัวอย่างของคุณไม่ตรงกับการตั้งค่าเสียงของระบบทั้งหมด หากตั้ง voice changer ของคุณเป็น 44.1kHz และ Windows ตั้งเป็น 48kHz ตัวสุ่มตัวอย่างจะเพิ่มมิลลิวินาทีเพิ่มเติมและลดคุณภาพเสียง
low-latency audio capture Exclusive ข้าม mixer โดยสิ้นเชิง แอปพลิเคชันของคุณมีความเป็นเจ้าของฮาร์ดแวร์โดยเฉพาะ กำหนดค่าที่อัตราตัวอย่างและขนาด buffer ของคุณเลือก และอ่าน / เขียนโดยตรง Windows mixer ไม่เกี่ยวข้อง สิ่งนี้ขจัด 20-30ms ของค่าใช้จ่ายเพิ่มเติม mixer และค่าใช้จ่าย resampling ปัญหา: แอปพลิเคชันอื่นไม่สามารถใช้อุปกรณ์เสียงนั้นพร้อมกัน
สำหรับ voice changer ค่าแลกเปลี่ยนนี้เกือบจะเป็นความคุ้มค่าเสมอ คุณกำลังส่งเสียงทั้งหมดผ่านอุปกรณ์เสมือน voice changer ของคุณ - แอปพลิเคชันอื่น ๆ ส่งเสียงไปยังเอาต์พุตที่แตกต่างกัน
เพื่อตรวจสอบว่า voice changer ใช้ low-latency audio capture Exclusive mode อย่างแท้จริง: เปิด Task Manager ในขณะที่ voice changer กำลังทำงาน ให้มองหาการใช้ CPU ของ audiodg.exe หากสูงกว่า ~2% voice changer อยู่ใน Shared mode และจ่ายภาษี mixer
ASIO: เมื่อมูลค่าและเมื่อไม่
ASIO (Audio Stream Input/Output) เป็นมาตรฐาน driver ที่พัฒนาโดย Steinberg ที่ให้การเข้าถึงฮาร์ดแวร์โดยตรง คล้ายกับ low-latency audio capture Exclusive แต่ด้วยการควบคุมระดับต่ำกว่าและเวลาแฝงที่เป็นไปได้ต่ำกว่าโดยปกติ
ความแตกต่างในทางปฏิบัติสำหรับ voice changer live:
ข้อดี ASIO:
- สามารถรักษา buffer 64 frame (1.3ms ที่ 48kHz) อย่างน่าเชื่อถือบนฮาร์ดแวร์สมัยใหม่
- ค่าใช้จ่าย CPU ต่ำกว่าที่ขนาด buffer เทียบเท่า
- เวลาแฝงที่สม่ำเสมอมากขึ้น - jitter ต่ำกว่า ซึ่งสำคัญสำหรับโมเดล AI ที่ประมวลผลชาンก์ขนาดคงที่
ข้อเสีย ASIO:
- ต้องการอินเตอร์เฟสเสียงเฉพาะ (Focusrite Scarlett, MOTU, RME เป็นต้น)
- ไม่มีบน audio built-in - Realtek onboard และ Intel HD Audio ไม่มีไดรเวอร์ ASIO ที่แท้จริง; ASIO4ALL เป็น shim ที่ไม่ให้ประโยชน์อย่างเต็มที่
- อินเตอร์เฟสราคา $100-$600; มากเกินไปหากคุณเพียงต้องการ voice changer เวลาแฝงต่ำ
- บาง audio device เสมือนไม่เปิดเผยอินเตอร์เฟส ASIO ทำลายเส้นทางการจัดเส้น
คำแนะนำที่ใช้งานได้: low-latency audio capture Exclusive ที่ 128 frame เป็นทางเลือกที่เหมาะสมสำหรับผู้ใช้ voice changer ส่วนใหญ่ ความแตกต่างของเวลาแฝงระหว่าง ASIO ที่ 64 frame และ low-latency audio capture Exclusive ที่ 128 frame อยู่ต่ำกว่า 3ms - ไม่สามารถตรวจจับได้ในสถานการณ์การสนทนาแบบ real-world ใด ๆ ลงทุนใน ASIO หากคุณกำลังทำการผลิตเพลงและต้องการสำหรับงาน DAW; อย่าซื้ออินเตอร์เฟสเสียงเฉพาะสำหรับการเปลี่ยนแปลงเสียง
สามชั้นของเวลาแฝงและความรู้สึกที่เป็นไป
Sub-100ms: โปร่งใส
ที่ต่ำกว่า 100ms end-to-end ผู้ใช้ส่วนใหญ่ไม่สามารถรับรู้ความล่าช้าได้ การสนทนาไหลไปเรื่อย ๆ แม้แต่การเปรียบเทียบโดยตรงระหว่างไมโครโฟนดิบของคุณและเอาต์พุตที่ประมวลผลในการสนทนาเดียวกันก็ไม่เปิดเผยความแตกต่างของเวลา
ชั้นนี้ต้องการ:
- โหมด driver low-latency audio capture Exclusive หรือ ASIO
- บัฟเฟอร์ 128-256 frame
- การประมวลผล DSP (pitch shift, formants, EQ) หรือการแปลงเสียง AI กับ GPU แยกต่างหาก
การวัด real-world สำหรับ PC เล่นเกม Windows ทั่วไปที่มี GPU ระดับกลาง: low-latency audio capture Exclusive + 128 frame + การแปลงเสียง AI = 85-110ms end-to-end เกือบจะอยู่บนเกณฑ์ แต่ผู้ใช้ส่วนใหญ่รายงานว่ารู้สึกว่าไม่เห็น
Sub-300ms: ใช้ได้
ระหว่าง 100ms ถึง 300ms ความล่าช้าจะเห็นได้ในการตรวจสอบหูฟัง - คุณได้ยินเสียงสะท้อนเบา ๆ ของเสียงของคุณเองขณะที่คุณพูด แต่คนที่อีกด้านไม่ได้ยินอะไรที่ผิดปกติ พวกเขาได้รับเสียงประมวลผลของคุณด้วยความเร็วเต็มที่โดยไม่มีความล่าช้า
ผู้ใช้ส่วนใหญ่ปรับตัวให้เข้ากับความล่าช้าการตรวจสอบ sub-300ms ภายในไม่กี่นาทีและหยุดสังเกตเห็น มันไม่ทำให้จังหวะการสนทนาของผู้ฟังขัดขวาง สำหรับ gaming callout การแชท Discord และบรรยายสตรีมมิ่ง 200-280ms เป็นช่วงที่ใช้ได้จริงทั่วไป
ชั้นนี้ครอบคลุม:
- low-latency audio capture Exclusive + การแปลงเสียง AI บน CPU สมัยใหม่ (ไม่มี GPU)
- low-latency audio capture Shared + การแปลงเสียง AI บน GPU
- การตั้งค่าใด ๆ ที่มีอุปกรณ์เสมือนเสียงที่ใช้งานไม่ดี
VoxBooster เล็งที่ชั้นนี้สำหรับผู้ใช้ CPU ในโหมดการแปลงเสียง AI ของมัน - ต่ำกว่า 300ms end-to-end บน Windows 10/11 ไม่จำเป็นต้องมี GPU เฉพาะ ไม่จำเป็นต้องมีไดรเวอร์เคอร์เนล เพียงแอปพลิเคชันที่ติดตั้ง
Sub-500ms: ขอบ
ระหว่าง 300ms ถึง 500ms เสียงสะท้อนการตรวจสอบจะเด่นขึ้นและจังหวะการสนทนาลดลง ผู้ใช้บางคนปรับตัว ส่วนใหญ่ไม่ voice changer ที่ใช้ระบบคลาวด์ซึ่งประมวลผลเสียงบนเซิร์ฟเวอร์ระยะไกลอยู่ในช่วงนี้ - ราวรอบเครือข่ายเพียงอย่างเดียวใช้เวลา 80-200ms ของงบประมาณก่อนที่จะมีการประมวลผลใด ๆ เกิดขึ้น
ที่ 400ms+ คุณจะลดความเร็วการพูดพูดโดยธรรมชาติ หยุดนานขึ้นระหว่างประโยค และบางครั้งพูดทับตัวเอง มันไม่ทำให้การสื่อสารเป็นไปไม่ได้ แต่มันเพิ่มความเสียดสีให้กับทุกปฏิสัมพันธ์
ข้างต้น 500ms ผลิตภัณฑ์นี้ไม่ใช่ voice changer แบบ real-time ในความหมายใด ๆ ที่มีประโยชน์ - มันเป็นเอฟเฟกต์ near-real-time ที่ทำงานสำหรับเอาต์พุตเนื้อหา แต่ไม่ใช่การสนทนา live
การตั้งค่า Windows สำหรับเวลาแฝงขั้นต่ำ
การได้รับตัวเลขเวลาแฝงต่ำสุดต้องการการปรับการตั้งค่าเสียง Windows ไม่ใช่เพียง voice changer ตัวเอง
ตั้งค่าอัตราตัวอย่างอุปกรณ์เสียง เปิด Sound Settings - Device Properties - Additional device properties - tab Advanced ตั้งค่ารูปแบบเป็น “24-bit, 48000 Hz (Studio Quality)” การจับคู่อัตราตัวอย่างระหว่าง Windows และ voice changer ของคุณขจัด resampling ขั้นหนึ่ง
ปิดใช้งาน audio enhancements ใน tab Advanced เดียวกัน ยกเลิกการเลือก “Enable audio enhancements” Windows enhancements (EQ, spatial audio, noise reduction) ทำงานใน shared mode mixer และเพิ่มเวลาแฝง และสิ่งประดิษฐ์แม้ว่าคุณจะใช้ low-latency audio capture Exclusive สำหรับอินพุต voice changer ของคุณ
ปิดใช้งาน Exclusive Mode สำหรับแอปพลิเคชันอื่น ใน tab Advanced เลือก “Allow applications to take exclusive control of this device” สิ่งนี้จำเป็นสำหรับ low-latency audio capture Exclusive ที่จะทำงาน - หากไม่ได้เลือก voice changer จะเงียบ ๆ กลับไปยัง Shared mode
ปรับแผนพลังงาน ใช้ Windows High Performance หรือ Ultimate Performance power plan Balanced plan จะควบคุม CPU clocks ในช่วงเวลาที่ไม่ได้ใช้งานโดยพลการ - ซึ่งอาจทำให้ audio buffer underrun และ crackle หากระบบปลายทาง CPU ของคุณเพิ่มขึ้นระหว่างการประมวลผลเสียง
ตรวจสอบการรบกวน USB 3 ตัวควบคุม USB 3.0 เป็นแหล่งที่ทราบจำนวนมากของการรบกวนเสียง USB บนระบบบางระบบ หากคุณใช้ไมโครโฟน USB และประสบปัญหา crackle ที่ขนาดบัฟเฟอร์ต่ำ ให้ลองย้ายไปยังพอร์ต USB 2.0 หรือ hub
ทำไมเวลาแฝงจึงสำคัญสำหรับการไหลของการสนทนา
ผลของเวลาแฝงต่อการสนทนาไม่ได้เกี่ยวกับการได้ยินความล่าช้า - เกี่ยวกับลูป feedback ปัจจุบัน เมื่อคุณพูด สมองของคุณใช้ feedback เสียงเพื่อควบคุมการหมดเวลาพูด ปริมาณ และ prosody ล่าช้าของ feedback เสียงของคุณเองและสมองได้รับสัญญาณที่ขัดแย้ง
การศึกษาวิจัยเกี่ยวกับ delayed auditory feedback (DAF) แสดงว่าความล่าช้าเพียง 50ms เริ่มเปลี่ยนรูปแบบการพูด - ระยะเวลาที่ยาวนานขึ้น การส่งมอบที่ช้าลง ข้อผิดพลาดที่เพิ่มขึ้น ที่ 200ms ผู้เข้าร่วมในการทดลองแสดงการก่อกวนการพูดที่วัดได้ ที่ 300ms+ เอฟเฟกต์มีความสม่ำเสมอเพียงพอที่จะใช้ในการทดลองเพื่อสร้าง stutter ที่เป็นเทียม
สำหรับผู้ใช้ voice changer สิ่งนี้หมายถึง:
- Sub-100ms: ไม่มีผลกระทบต่อสติ ใช้โดยไม่ตรวจสอบเสียงของคุณเองหากต้องการ
- 100-200ms: คำจำกัดความน้อย ผู้ใช้ส่วนใหญ่ปรับตัวในอีกไม่กี่นาที เสียงรู้สึกเหมือน echo เล็กน้อย
- 200-300ms: เห็นได้ชัด ผู้ใช้ปรับโดยการพูดช้าและสร้างช่องว่างนาน
- 300ms+: อำนาจ ใช้ได้เพียงหากคุณ mute การตรวจสอบของคุณเอง (ได้ยินตัวเองแห้ง ไม่ได้ประมวลผล)
Take-home: ถ้า voice changer ของคุณอยู่ในช่วง 200-300ms ให้ปิดใช้งานการตรวจสอบหูฟังของเสียงของคุณเอง ปล่อยให้ผ่านแห้ง (ไม่ได้ประมวลผล) ไปยังหูฟังของคุณในขณะที่เวอร์ชันประมวลผลไปที่ Discord/game สมองของคุณได้รับ feedback ที่บริสุทธิ์; ผู้ฟังได้รับเอฟเฟกต์ voice changer ส่วนใหญ่สนับสนุนการตั้งค่าการตรวจสอบแบบแยก
Checklist การตั้งค่าอย่างรวดเร็ว
ก่อนเปิดตัว voice changer ของคุณ:
- ตั้งค่ารูปแบบเสียง Windows เป็น 48kHz, 24-bit บนอุปกรณ์อินพุตและเอาต์พุต
- ปิดใช้งาน Windows audio enhancements บนอุปกรณ์ทั้งสอง
- ยืนยันว่ามี “Allow exclusive control” ที่ถูกเปิดใช้งานบนอุปกรณ์อินพุต
- ตั้ง voice changer เป็นโหมด driver low-latency audio capture Exclusive
- เริ่มต้นด้วย buffer 128 frame; ขั้นตอนไปยัง 256 หากคุณได้ยิน crackle
- ปิดใช้งานการตรวจสอบหูฟังของเสียงประมวลผลของคุณเองหากเวลาแฝง สูงกว่า 150ms
- หากคุณต้องการคุณภาพของเสียง AI และไม่มี GPU ให้เปิดใช้งานโหมด CPU inference และคาดว่า 200-280ms
VoxBooster จัดการขั้นตอน 3-5 โดยอัตโนมัติในการเปิดตัวครั้งแรก - ตรวจจับอุปกรณ์เสียงของคุณ เลือก low-latency audio capture Exclusive และเรียกใช้การสอบเทียมเวลาแฝงสั้นเพื่อตั้งค่าขนาด buffer ที่เหมาะสมสำหรับฮาร์ดแวร์ของคุณ
บทสรุป
ความแตกต่างระหว่าง voice changer ที่รู้สึกว่าไม่เห็น และหนึ่งที่ทำให้การสนทนาเหนื่อยลาคือไม่ใช่คุณภาพเอฟเฟกต์ - มันคือเวลาแฝง ลงต่ำกว่า 100ms และผู้ใช้ไม่เคยคิดเกี่ยวกับมัน ผลักดัน 300ms เกินกว่าและการสนทนาทุกอย่างกลายเป็นการเจรจาความล่าช้า
โหมด low-latency audio capture Exclusive เป็นเส้นทางที่ใช้ได้มากที่สุดในการเวลาแฝง sub-100ms บนระบบ Windows ใด ๆ ASIO ลงต่ำกว่า แต่ต้องการการลงทุนฮาร์ดแวร์ที่สมเหตุสมผลเฉพาะเมื่อคุณกำลังทำการผลิตเพลงด้วย สำหรับเกมเมอร์และ streamer ส่วนใหญ่ low-latency audio capture Exclusive ที่ 128 frame เป็นการตั้งค่าที่เหมาะสม - และ voice changer ใด ๆ ที่ไม่เสนอมันจะทิ้งประสิทธิภาพที่สำคัญไว้บนตาราง