ตัวเปลี่ยนเสียง Hatsune Miku: ฟังเสมือนโวคาลอยด์

เรียนรู้วิธีการทำงานของตัวเปลี่ยนเสียง Hatsune Miku แบบเรียลไทม์ — ครอบคลุมการเลื่อน pitch การสร้างรูปแบบ formant การแปลงประสาท AI การตั้งค่า Discord และเนื้อสัมผัส Vocaloid สังเคราะห์

ตัวเปลี่ยนเสียง Hatsune Miku: ฟังเสมือนโวคาลอยด์

ตัวเปลี่ยนเสียง Hatsune Miku ให้คุณได้ยินเนื้อเสียง Vocaloid ที่สว่าง สังเคราะห์ และสูงเสมือนจริงแบบเรียลไทม์ — ไม่ว่าคุณจะแชทใน Discord สตรีมบน Twitch หรือบันทึกวิดีโอ การทำให้สำเร็จต้องใช้มากกว่าการเพิ่มการเลื่อน pitch ขึ้นเท่านั้น; เสียง Miku มีรูปแบบเสียงเฉพาะที่มาจากการรวมกันของความถี่พื้นฐาน การวาง formant เนื้อผ้าฮาร์มอนิก และเงาดิจิทัลเล็กน้อยที่ฝังอยู่ในการสังเคราะห์ Vocaloid คู่มือนี้ทำลายทุกชั้น จากทฤษฎีเสียงไปจนถึงการตั้งค่าซอฟต์แวร์ที่แน่นอนและขั้นตอนการสตรีม


TL;DR

  • Hatsune Miku เป็นตัวละครเสียง Vocaloid ของ Crypton Future Media — “เสียงของเธอ” คือเครื่องสังเคราะห์ซึ่งกำหนดคุณสมบัติเสียงเฉพาะของมัน
  • การได้เสียง Miku ต้องการการเลื่อน pitch และการเลื่อน formant อิสระ — pitch เพียงอย่างเดียวให้ squirrel ไม่ใช่ Vocaloid
  • เส้นทางแบบเรียลไทม์สองสาย: การสร้างรูปแบบ pitch-formant DSP (CPU เท่านั้น latency เกือบเป็นศูนย์) และการแปลงเสียงประสาท AI (GPU ที่แนะนำ ตรงกันกว่า)
  • เป้าหมายการเลื่อน pitch +8 ถึง +10 semitone (ชาย) หรือ +4 ถึง +6 (หญิง) การเลื่อน formant ประมาณ 70% ของค่าการเลื่อน pitch
  • เพิ่มพยอล์ต light reverb บาง ๆ และตัวกรอง high-pass เพื่อให้ได้การเจิดจ้า Vocaloid สังเคราะห์
  • สำหรับ Discord และการสตรีม กำหนดเส้นทางผ่านไมโครโฟนเสมือน — ไม่จำเป็นต้องใช้ไดรเวอร์เคอร์เนลกับเครื่องมือที่ใช้ low-latency audio capture

Hatsune Miku คือใคร และอะไรทำให้เสียงของเธอพิเศษ?

ก่อนที่คุณจะแตะซอฟต์แวร์ใด ๆ การเข้าใจสิ่งที่คุณจริง ๆ แล้วเลียนแบบจะเปลี่ยนวิธีการตั้งค่า Hatsune Miku ไม่ใช่นักร้องจริง — เธอเป็นตัวละครเสียง ซอฟต์แวร์ที่พัฒนาโดย Crypton Future Media และสร้างจากเทคโนโลยี synthesizer Vocaloid “เสียงของเธอ” คือการเรียงต่อขนาน pitch ของการสุ่มตัวอย่างเสียงพยัญชนะจากนักแสดงเสียง ประมวลผลผ่านเอนจิน synthesis Vocaloid เพื่อสร้างวลีเมโลดี้ กระบวนการสังเคราะห์นี้คือเหตุผลว่าทำไม Miku ถึงมีเสียงเช่นนั้น

ผลลัพธ์เสียงมีลักษณะเด่นหลายประการที่ไม่มีในการเลียนแบบของมนุษย์ที่มีทักษะมากที่สุด:

ความเสถียรของ pitch การสังเคราะห์ Vocaloid ถือว่าโน้ตด้วยความแม่นยำเกือบเหมือนเครื่องจักร — ไม่มีการลอยตัว micro-vibrato ไม่มีเสียง glide ระหว่างพยางค์เว้นแต่จะเป็นโปรแกรมที่ชัดเจน เสียงของมนุษย์สั่นอย่างธรรมชาติ; ของ Miku ไม่ได้

การวาง Formant. Formant สระของเธอนั่งสูงขึ้นและสว่างกว่าเสียงมนุษย์ตามธรรมชาติในระดับเดียวกัน นี่คือส่วนหนึ่งเพราะแนวเสียงตัวแสดงมีเสียงที่สว่างและวางไปข้างหน้าตามธรรมชาติ และส่วนหนึ่งเพราะการประมวลผล Vocaloid ใช้การย้อม timbal ของตัวเอง

เนื้อสัมผัส Harmonic. การสังเคราะห์ Vocaloid เพิ่มเงาดิจิทัลที่โดดเด่น — ความหนาแน่นฮาร์มอนิกเล็กน้อยที่ฟังเหมือน “สังเคราะห์” แม้ว่าจะพยายามฟังเหมือนเป็นธรรมชาติ นี่ไม่ใช่ข้อบกพร่อง; มันเป็นส่วนหนึ่งของตัวตนของตัวละคร

ช่วง Frequency. ช่วงเสียงมาตรฐานของ Miku ในงานอย่างเป็นทางการครอบคลุมคร่าว ๆ G3 ถึง E6 ในการร้องเพลง แต่ระดับการพูดของเธอ (ใช้ในวิดีโอโปรโมชั่นและการปรากฏตัวในเกม) โดยทั่วไปอยู่ที่ประมาณ E4 ถึง C5 — สูงกว่าช่วงการพูดตามธรรมชาติสำหรับผู้ใหญ่ส่วนใหญ่

ความเข้าใจในลักษณะเหล่านี้บอกคุณว่าพารามิเตอร์ใดที่ต้องกำหนดเป้าหมายในตัวเปลี่ยนเสียง


ทำไมการเลื่อน Pitch เพียงอย่างเดียวจึงไม่ได้ผล

ความผิดพลาดที่พบบ่อยที่สุดที่ผู้คนทำเมื่อพยายามฟังเหมือน Miku คือการใช้การเลื่อน pitch บริสุทธิ์ — การย้ายสัญญาณเสียงทั้งหมดขึ้น 8 หรือ 10 semitone โดยไม่สัมผัส formant ผลที่ได้คือสิ่งที่วิศวกรเสียงเรียกว่า “เอฟเฟกต์กระรอก”: เสียงของคุณฟังเหมือนถูกเล่นซ้ำด้วยความเร็วสองเท่า พร้อมกับสิ่งประดิษฐ์ที่ไม่มีเสถียรภาพและเสียงหลวม ๆ

เหตุผลคือฟิสิกส์เสียง เสียงของคุณมีสองส่วนแยกต่างหาก:

  1. ความถี่พื้นฐาน (F0): อัตราที่สายเสียงของคุณสั่นไหว — นี่คือสิ่งที่การเลื่อน pitch เปลี่ยนแปลง
  2. Formant: ความถี่เรโซแนนต์ของท่อเสียงของคุณ (คอ ปาก โพรงจมูก) ที่สร้างรูปแบบสระและให้เสียงของคุณลักษณะเฉพาะตัว

เมื่อคุณเลื่อน pitch โดยไม่เลื่อน formant formant จะอยู่ที่ตำแหน่งเดิมของมันเมื่อเทียบกับเสียงการพูดตามธรรมชาติของคุณ ปากของคุณยังคงมีรูปร่างเหมือนปากของคุณ แม้ว่าสัญญาณ pitch จะพูดว่า “บุคคลเล็กกว่า สูงกว่า” ความไม่สอดคล้องนั้นสามารถได้ยินได้ทันที

การเลื่อน Formant อิสระ — การย้าย formant ที่แยกจาก pitch — แก้ไขปัญหานี้ เป้าหมายคือการสร้างรูปแบบใหม่ “ท่อเสียงเสมือน” เพื่อให้ตรงกับโปรไฟล์เรโซแนนต์ของท่อเสียงที่สั้น สว่างของเสียงตัวละครสูง การเลื่อน pitch-plus-formant แบบรวมนั้นฟังว่าน่าเชื่อถือมากกว่า pitch เพียงอย่างเดียว แม้จะก่อนที่การประมวลผล AI จะเข้าสู่ภาพ


เส้นทางแบบเรียลไทม์สองสาย

มีสองวิธีที่แตกต่างกันโดยพื้นฐานในการบรรลุเสียงแบบ Miku แบบเรียลไทม์ และทั้งสองควรเข้าใจเพราะมันเหมาะสมกับความต้องการฮาร์ดแวร์และ latency ที่แตกต่างกัน

เส้นทาง 1: สร้างรูปแบบ Pitch และ Formant DSP

นี่คือแนวทางแบบดั้งเดิมและยังคงเป็นแนวทางที่ใช้ได้จริงมากที่สุดสำหรับผู้ใช้ที่ไม่มี GPU โดยเฉพาะ ห่วงโซ่สัญญาณมีลักษณะดังนี้:

ไมโครโฟน → ตัวกรอง high-pass → pitch shift + formant shift → chorus/harmonizer → reverb → เอาต์พุตไมโครโฟนเสมือน

มันทำงานทั้งหมดบน CPU โดยใช้อัลกอริทึมการประมวลผลสัญญาณดิจิทัลมาตรฐาน Latency มักจะต่ำกว่า 20 ms — ไม่สามารถตรวจจับได้สำหรับการสนทนาแบบสดใจ การแลกเปลี่ยนคือมันเปลี่ยนเสียงของคุณเป็นเสียงที่สูงฟังเหมือนโปรไฟล์ pitch-formant ของ Miku แต่มันยังคงชัดเจนว่าเป็นเสียงของคุณที่ด้านล่าง — ลักษณะเสียงเฉพาะของคุณ รูปแบบการออกเสียง การหายใจของคุณ

สำหรับกรณีการใช้งานส่วนใหญ่ (Discord การสตรีมแบบสบาย ๆ เกม) นี่ก็โอเค ไม่มีใครอยู่ที่ปลายอีกด้านของการโทร Discord ทำการวิเคราะห์ยุติธรรมรม harmonics ของคุณ

เส้นทาง 2: การแปลงเสียงประสาท AI

การแปลงเสียงประสาท AI ใช้วิธีการที่แตกต่างกันโดยพื้นฐาน: แทนที่จะเลื่อนพารามิเตอร์เสียง มันจะแมปสัญญาณเสียงทั้งหมดใหม่ผ่านแบบจำลองประสาท ที่ได้รับการฝึกอบรมซึ่งได้เรียนรู้ว่าเสียงเป้าหมายฟังอย่างไร เอาต์พุตไม่ใช่ “เสียงของคุณ แต่สูงกว่า” — มันคือเสียงที่มี timbre เป้าหมาย โครงสร้าง formant และอักขระสเปกตรัมของแบบจำลอง โดยมีเนื้อหาเสียงของคุณ (คำ เวลา การแสดงออก) ขับเคลื่อน

ผลลัพธ์ฟังน่าเชื่อถือมากกว่าอย่างมีนัยสำคัญ เนื้อสัมผัส Vocaloid สังเคราะห์ การวาง formant ความหนาแน่นฮาร์มอนิก — สิ่งเหล่านี้ฝังอยู่ในแบบจำลองมากกว่าการประมาณไปด้วยการปรับ slider ช่องว่างระหว่างเอาต์พุต DSP และ AI ชัดเจนในครั้งแรกที่คุณได้ยินมันเคียงข้าง

ต้นทุนคือฮาร์ดแวร์ การแปลงเสียงประสาทแบบเรียลไทม์ต้องการการอนุมานโปรแกรม GPU อย่างต่อเนื่อง และเส้นโค้งคุณภาพต่อ latency นั้นชัน: GPU ที่ทำหน้าที่เฉพาะด้าน mid-range (RTX 2060 ดังกล่าวหรือดีกว่า) ให้คุณ latency ในช่วง 150-300 ms; การอนุมานเฉพาะ CPU บนชิป eight-core สมัยใหม่โดยทั่วไปทำงาน 500-900 ms สำหรับ push-to-talk บน Discord แม้แต่ 800 ms ก็ยังมีชีวิต สำหรับการสนทนาต่อเนื่องมันรู้สึกช้า สำหรับการสตรีมกับวิดีโอ คุณเพิ่ม latency เสียงที่ตรงกันใน OBS และไม่มีใครสังเกตเห็น


การตั้งค่าสำหรับเส้นทาง DSP

นี่คือจุดเริ่มต้นที่ใช้ได้จริงสำหรับแนวทาง DSP ปรับแต่งโดยเฉพาะเพื่อประมาณ timbre ตัวละคร Miku แทนที่จะเป็น “เสียง anime สูง” ทั่วไป

พารามิเตอร์จุดเริ่มต้นเสียงผู้ชายจุดเริ่มต้นเสียงผู้หญิงหมายเหตุ
Pitch shift+9 ถึง +10 semitone+4 ถึง +6 semitoneฟังหูของคุณ — เป้าหมายประมาณ A4 ในการพูดตามธรรมชาติ
Formant shift+6 ถึง +7 semitone+3 ถึง +4 semitoneประมาณ 65-70% ของค่า pitch shift
High-pass filter120 Hz150 Hzลบ low-end mud ที่ขัดแย้งกับตัวละครสว่าง
Chorus depth15-25%10-20%เพิ่มเงา Vocaloid โดยไม่ฟังเหมือนเหยื่อกีตาร์
Chorus rate0.4-0.6 Hz0.4-0.5 Hzโมดูเลชันช้า — ประสานเสียงเร็วฟังเหมือน vibrato
Reverb (small room)10-15% wet8-12% wetห้องเล็ก ต่ำกว่า 200ms pre-delay
Gate threshold-40 dBFS-38 dBFSตัดเสียงหายใจและเสียงห้องระหว่างวลี

หมายเหตุบางประการเกี่ยวกับเหตุผลของค่าเฉพาะเหล่านี้:

ประสานเสียง. เอนจิน synthesis Vocaloid เพิ่มความหนาแน่นสเปกตรัมที่โดดเด่นซึ่งทำให้เสียงฟังเหมือน “ดิจิทัล” — มี partials หลายตัวที่เกี่ยวข้องกับฮาร์มอนิกในความหนาแน่นสูงกว่าที่เสียงมนุษย์ตามธรรมชาติสร้าง เอฟเฟกต์ประสานเสียงบาง ๆ (เสียงสองถึงสาม โมดูเลชันช้า ความเบี่ยงเบนของ pitch น้อยที่สุด) ประมาณสิ่งนี้โดยไม่ฟังเหมือนเอฟเฟกต์กีตาร์ เก็บความลึกไว้ต่ำ; คุณต้องการเงา ไม่ใช่เบลอที่เปียกเหนอะหนะ

ตัวกรอง high-pass. เสียง Miku มีพลังงานเล็กน้อยต่ำกว่า 150 Hz ในเอาต์พุตอย่างเป็นทางการใด ๆ การตัด low-end บนสัญญาณที่ประมวลผลแล้วจะลบ low-frequency residual content จากเสียงตามธรรมชาติของคุณที่ไหลผ่านแม้หลังจาก pitch shift หนัก นี่เป็นหนึ่งในการเปลี่ยนแปลงจุดเดียวที่มีผลกระทบมากที่สุดที่คุณสามารถทำได้

อัตราส่วน Formant. กฎ 65-70% เป็นแนวทางหยาบโดยอิงตามฟิสิกส์ของการปรับขนาดท่อเสียง — ท่อเสียงที่จะสร้างความถี่ formant ของ Miku ตามธรรมชาติ สั้นกว่าผู้ใหญ่ชายประมาณอัตราส่วนนั้น ในทางปฏิบัติ ปรับให้พอดีกับหูของคุณจนกว่าเสียงสระเช่น “ah” และ “ee” จะมีความสว่างที่เหมาะสม


การตั้งค่าสำหรับเส้นทาง AI

เส้นทาง AI ต้องการการปรับพารามิเตอร์ด้วยตนเองน้อยกว่า — แบบจำลองทำงานหนัก — แต่มันยังต้องการการกำหนดค่าที่ถูกต้องเพื่อให้ได้เสียงที่ถูกต้องแทนที่จะเป็นสิ่งประดิษฐ์

Input gain. ตั้งค่าระดับอินพุตไมโครโฟนของคุณเพื่อให้พีค hit รอบ -12 ถึง -10 dBFS มากเกินไปและแบบจำลองหลีกเลี่ยงบัฟเฟอร์อินพุตของมัน; เงียบเกินไปและคุณได้รับเสียงที่ขยายเป็นเอาต์พุต ระดับอินพุตที่สอดคล้องกันให้ผลลัพธ์เอาต์พุตที่เสถียรที่สุด

Inference chunk size. Chunk ที่เล็กกว่า = latency ต่ำกว่า = โหลด CPU/GPU สูงกว่า สำหรับการอนุมาน GPU 256 หรือ 512 ตัวอย่างต่อ chunk ให้ latency ที่ดีที่สุดโดยไม่มีความไม่เสถียร สำหรับการอนุมาน CPU 1024 หรือ 2048 ตัวอย่าง latency การค้นพบเพื่อเสถียรภาพ

Pitch correction offset. แบบจำลอง AI ได้รับการฝึกอบรมบนเสียงเป้าหมายในช่วง pitch ที่เฉพาะเจาะจง หากเสียงของคุณอยู่นอกช่วงอินพุตที่คาดหวังของแบบจำลองอย่างมีนัยสำคัญ ให้ใช้ pre-shift ของ ±2 ถึง ±4 semitone ก่อนแบบจำลองเพื่อนำอินพุตของคุณเข้าสู่โซนที่เหมาะสม นี่แตกต่างจาก output pitch shift ที่ใช้ในโหมด DSP

Formant preserve vs. shift. บางตัวเปลี่ยนเสียง AI ช่วยให้คุณเปิดใช้งาน formant preservation (เพื่อให้เอาต์พุตเก็บโครงสร้าง formant ของแบบจำลอง) หรือ formant shift อิสระ (สำหรับการปรับแต่ง) สำหรับ Miku โดยเฉพาะ formant preservation มักจะเป็นตัวเลือกที่ถูกต้อง — แบบจำลองมีการวางรูปแบบการแก้ไขที่ถูกต้องแล้ว

Noise suppression input. เรียกใช้ noise suppression บนสัญญาณไมโครโฟนก่อนที่จะเข้าสู่แบบจำลอง AI เสียงรบกวนในพื้นหลังเข้าไปในแบบจำลองเป็นสัญญาณ และเอาต์พุตอาจฟังว่าเป็นสัญญาณรบกวนเมื่อแบบจำลองพยายามตีความเสียงสะท้อนของห้องหรือคลิกแป้นพิมพ์เป็นเนื้อหาสัทศาสตร์ การระงับก่อนให้แบบจำลองอินพุตที่สะอาด


เนื้อสัมผัส Vocaloid สังเคราะห์: มันคืออะไร และวิธีประมาณ

เนื้อสัมผัสสังเคราะห์ของเสียง Miku ไม่ได้เป็นข้อบกพร่องที่ต้องแก้ไข — มันคือลายเซ็น การสังเคราะห์ Vocaloid สร้างมันขึ้นมาผ่านการเชื่อมต่อและการจัดการ pitch ของการสุ่มตัวอย่างเสียงพยัญชนะซึ่งนำเสนอสิ่งประดิษฐ์ที่ละเอียด ที่ transients ของหมายเหตุ ความหนาแน่นฮาร์มอนิกที่โดดเด่น และคุณภาพ “ดิจิทัล” เล็กน้อยในสระที่ยั่งยืน

เมื่อคุณไป Miku-style voice กับตัวเปลี่ยนเสียงแบบเรียลไทม์ การจำลองเนื้อสัมผัสนี้หมายถึง:

ฮาร์มอนิกและเงา

ฮาร์โมไนเซอร์ที่บาง ๆ ตั้งเป็น +12 semitone (สูงกว่าหนึ่งอักเสบ) ที่ 5-10% wet เพิ่มเนื้อหาฮาร์มอนิกส่วนบนที่เลียนแบบ partials ส่วนบนความหนาแน่นสูงของ Vocaloid เก็บระดับต่ำ — ควรรู้สึกมากกว่าการได้ยินเป็นเอฟเฟกต์แยก รวมกับการตั้งค่าประสานเสียงข้างต้น นี่เพิ่มชั้น “เงา” ที่แยกการประมาณ Miku จากเสียงสูงทั่วไป

Articulation ของสระ

การสังเคราะห์ Vocaloid จัดการการเปลี่ยนแปลงสระแบบเครื่องจักร — การเปลี่ยนแปลงพยัญชนะเป็นสระ แหลมกว่าในการพูดมนุษย์ตามธรรมชาติ คุณสามารถประมาณนี้ได้โดยเพิ่มความชัดเจนการออกเสียงของคุณเล็กน้อย: ออกเสียงพยัญชนะอย่างชาญฉลาดและเปิดสระให้เต็มที่ ฟังดูไม่เป็นธรรมชาติในการพูดวันนี้ แต่ตรงกับการลงทะเบียนอักขระอย่างแน่นอน

Pitch Quantization (ไม่บังคับ)

ตัวเปลี่ยนเสียงบางตัวนำเสนอการหาปริมาณระดับเสียงหรือ pitch snap ซึ่งจะบดขยี่ระดับเสียงของคุณไปยัง semitone ที่ใกล้ที่สุดโดยอัตโนมัติที่ความแรงที่สามารถกำหนดค่าได้ ที่ความแรงต่ำ (20-30%) นี่จะลด pitch drift ตามธรรมชาติและให้เอาต์พุตที่รู้สึก “ได้รับการเขียนโปรแกรม” เล็กน้อยโดยไม่ลบนิพจน์ทั้งหมด นี่เป็นไม่บังคับอย่างแท้จริง — มันเหมาะสมกับบางสไตล์และไม่ใช่คนอื่น ๆ


เปรียบเทียบสองวิธี

คุณสมบัติDSP Pitch + FormantConversion ประสาท AI
Latencyภายใต้ 20 ms150-900 ms (GPU/CPU)
ฮาร์ดแวร์ที่จำเป็นCPU สมัยใหม่ใด ๆGPU แนะนำ
ความแม่นยำของตัวละครประมาณดีตรงกันใกล้กว่า
รักษาตัวตนของคุณใช่น้อยที่สุด
เนื้อสัมผัสสังเคราะห์กำหนดค่าด้วยตนเองฝังในแบบจำลอง
ความซับซ้อนของการตั้งค่าต่ำปานกลาง
ทำงานในสภาพแวดล้อมเฉพาะ CPUใช่ใช่ กับ latency สูงกว่า
ดีที่สุดสำหรับการตั้งค่าอย่างรวดเร็ว การใช้งานแบบสบาย ๆStreaming สร้างเนื้อหา

ไม่มีแนวทางใดที่ “ดีกว่า” อย่างแท้จริง — ตัวเลือกที่เหมาะสมขึ้นอยู่กับฮาร์ดแวร์ของคุณ ความอดทน latency ของคุณ และระดับการจับคู่ตัวละครที่คุณต้องการ ผู้ใช้จำนวนมากใช้เส้นทาง DSP สำหรับแชท Discord แบบสบาย ๆ และสลับไปเปลี่ยนรูปแบบ AI สำหรับเซสชั่นการสตรีมซึ่งคุณภาพสำคัญกว่าการตอบสนองทันที


Discord Setup: การกำหนดเส้นทางไมโครโฟนเสมือน

เมื่อตัวเปลี่ยนเสียงของคุณได้รับการกำหนดค่า การเชื่อมต่อกับ Discord ต้องการสามขั้นตอน

ขั้นตอนที่ 1: ยืนยันว่าอุปกรณ์เสมือนได้ถูกสร้างขึ้น ตัวเปลี่ยนเสียงที่ใช้ low-latency audio capture ลงทะเบียนไมโครโฟนเสมือน Windows มาตรฐาน เปิด Windows Sound Settings (คลิกขวาไอคอนลำโพง → เปิด Sound Settings → อินพุต) และยืนยันว่าคุณเห็นไมโครโฟนเสมือนที่อยู่เป็นอุปกรณ์อินพุต หากคุณไม่เห็นมันแอปตัวเปลี่ยนเสียงอาจไม่ทำงาน หรือคุณอาจต้องเริ่มต้นใหม่บริการเสียง

ขั้นตอนที่ 2: ตั้งค่าอินพุต Discord ใน Discord ให้เปิด User Settings → Voice & Video ภายใต้ Input Device ให้เลือกไมโครโฟนเสมือนตัวเปลี่ยนเสียงจากแนวฉาก ปิดใช้งาน Discord built-in noise suppression และ echo cancellation — สิ่งเหล่านี้ประมวลผลสัญญาณหลังจากที่ตัวเปลี่ยนเสียงของคุณได้ทำแล้ว และการใช้ noise suppression สองครั้งจะทำให้ลดลง คุณภาพอย่างมีนัยสำคัญ

ขั้นตอนที่ 3: ทดสอบและปรับ ใช้ปุ่ม Echo Test ในการตั้งค่าเสียง Discord (หรือขอให้เพื่อนฟัง) และยืนยันว่าเอาต์พุตฟังถูกต้อง ปัญหาทั่วไปในขั้นตอนนี้: pitch shift มากเกินไป สร้างความไม่เสถียร ความลึกประสานเสียงสูงเกินไป สร้างเอฟเฟกต์ที่เปียก หรือ pre-delay reverb ตั้งไว้นานเกินไป สร้างเสียงสะท้อนที่เห็นได้ชัด

หมายเหตุเกี่ยวกับ anti-cheat: ตัวเปลี่ยนเสียงที่ใช้ low-latency audio capture ที่ใช้งาน — ไม่มีไดรเวอร์เคอร์เนล — ปลอดภัยจากการโกง ไมโครโฟนเสมือนปรากฏเป็นอุปกรณ์อินพุตเสียงมาตรฐาน ระบบ anti-cheat ตรวจสอบหน่วยความจำกระบวนการเกมและโมดูลเคอร์เนล; ไมโครโฟนเสมือน low-latency audio capture ไม่ใช่อย่างใดอย่างหนึ่ง คุณสามารถใช้มันใน Valorant Fortnite หรือเกมอื่นใดได้โดยไม่ต้องกังวล

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการกำหนดค่าเสียง Discord โปรดดูคู่มือเรื่อง วิธีใช้ตัวเปลี่ยนเสียงบน Discord


การตั้งค่าการสตรีม: OBS และการจัดการ Latency

สำหรับการสตรีมบน Twitch YouTube หรือแพลตฟอร์มที่คล้ายกัน การกำหนดค่าแตกต่างจาก Discord เล็กน้อยเนื่องจากคุณกำลังจัดการกับเสียงที่บันทึกแล้วไม่ใช่เสียงการโทรแบบเรียลไทม์

แหล่งเสียง OBS ใน OBS ให้เพิ่มไมโครโฟนเสมือนตัวเปลี่ยนเสียงเป็นแหล่ง Audio Input Capture ตั้งชื่อให้ชัดเจน (เช่น “Miku Voice”) เพื่อให้คุณสามารถระบุได้ในตัวผสม ตั้งค่าระดับตัวผสมเพื่อให้พีค hit ประมาณ -12 ถึง -6 dBFS ในเครื่องวัดเสียง OBS

จัดการ Latency Conversion AI หากคุณใช้การแปลงประสาท AI ที่มี latency 200-400 ms คุณต้องหน่วงเวลา feed วิดีโอของคุณให้ตรงกัน ใน OBS ให้คลิกขวาแหล่งจับวิดีโอของคุณ → Filters → เพิ่ม Audio/Video Delay (หากคุณติดตั้งปลั๊กอินแล้ว) หรือใช้แผง Advanced Audio Properties เพื่อเพิ่ม sync offset บนแหล่ง capture เสียง เท่ากับ AI conversion latency ของคุณ วัด latency ที่แท้จริงของคุณโดยการบันทึกคลิปทดสอบสั้น ๆ และเปรียบเทียบรูปคลื่นเสียงกับการเคลื่อนไหวของริมฝีปากบนหน้าจอ

ตรวจสอบเสียงของคุณเอง เมื่อใช้เสียงตัวละครเพื่อการสตรีม ให้พิจารณากำหนดเส้นทางบ่อหูเพื่อให้คุณได้ยินเสียงที่ประมวลผลแล้วในหูฟังของคุณแทนไมโครโฟนดิบของคุณ การได้ยินตัวคุณเองเป็น Miku (แทนที่จะเป็นตัวคุณเอง) จะเปลี่ยนความเร็วและการออกเสียงของคุณตามธรรมชาติ — คุณจะแสดงออกมาแตกต่างกันเมื่อคุณฟังเหมือนตัวละคร

หมายเหตุเกี่ยวกับคุณภาพสตรีม Twitch และ YouTube บีบอัดเสียงสำหรับการจัดส่ง เอฟเฟกต์ที่ละเอียด เช่น ประสานเสียงเบา ๆ และเงาที่เพิ่มโดยพรีเซ็ต Miku อยู่รอดจากการบีบอัดได้ค่อนข้างดี แต่ reverb และ chorus ที่หนักมากมีแนวโน้มที่จะเข้ารหัสได้ไม่ดี เก็บค่า wet mix ให้อยู่ในระดับปานกลางและการประมวลผลจะแปลอย่างสะอาด

สำหรับการตั้งค่าตัวเปลี่ยนเสียง latency ต่ำโดยทั่วไป ให้ดู คู่มือตัวเปลี่ยนเสียง latency ต่ำ


การเชื่อมต่อ Soundboard: เอฟเฟกต์เสียง Miku ในเซสชั่นสดใจ

Hatsune Miku มีแคตตาล็อกที่กว้างขวางของเอฟเฟกต์เสียง catchphrases และ motifs เพลง ที่แฟน ๆ รู้จักทันที การเรียกใช้ soundboard ควบคู่กับตัวเปลี่ยนเสียงของคุณช่วยให้คุณกระตุ้นสิ่งเหล่านี้ในสตรีมหรือการโทร Discord เพื่อจับเวลา ปฏิกิริยา หรือเวลาตัวละคร

การตั้งค่า soundboard Miku ที่จัดระเบียบได้ดีโดยทั่วไปรวมถึง:

  • การคำอวยพรเสียงสั้น ๆ (เสียงตอบสนองที่เป็นลักษณะเฉพาะของ Miku จากการปรากฏตัวในเกม)
  • Snippet leitmotif ไอคอนิก — วลีเพลงหลัก ไม่ใช่ส่วนเพลง เพื่ออยู่ในการใช้ที่ยุติธรรม
  • เสียง “boot-up” chime Vocaloid
  • Stinger ปฏิกิริยาสำหรับช่วงเวลา hype และความล้มเหลว

ในการตั้งค่า OBS ที่รวม เสียง soundboard ที่กระตุ้นโดยปุ่มลัด เล่นโดยตรงเข้าไปในการผสม ไมโครโฟนเสมือน ดังนั้นผู้ชมจึงได้ยินมันด้วยวิธีเดียวกับที่พวกเขาได้ยินเสียงของคุณ นี่แตกต่างจากแนวทางตัวผสมแยกต่างหากซึ่งเสียงมาถึงช่องต่างกัน ข้อได้คือเอาต์พุตที่มีความสัมพันธ์กัน; ข้อเสียคือต้องการการปฏิบัติตามข้อบัญญัติระดับที่ดีเพื่อหลีกเลี่ยงการตัดเสียง soundboard โดยที่ดังกว่าเสียงของคุณมากขึ้น


Hatsune Miku และปรากฏการณ์ Vocaloid ที่กว้างใหญ่ขึ้น

ส่วนหนึ่งของสิ่งที่ทำให้ Miku เป็นเป้าหมายที่น่าดึงดูดสำหรับตัวเปลี่ยนเสียง คือ แนวเทพวรรณะวัฒนธรรมของเธอ นับตั้งแต่ที่ปล่อยออกมาเมื่อเดือนสิงหาคม 2007 เธอได้กลายเป็นตัวละคร Vocaloid ที่รู้จักกันอย่างแพร่หลายมากที่สุด — รู้จักกันแม้กระทั่งโดยผู้คนที่ไม่เคยได้ยินคำว่า “Vocaloid” การออกแบบภาพของเธอ (ลิงตัวแฝดสีเทอร์ควอยส์ เครื่องแต่งกาย futuristic) มีความเป็นไอคอนพอ ๆ กับเสียงของเธอ และทั้งสองไม่สามารถแยกจากกันได้ในการรับรู้วัฒนธรรม

เสียงของเธอปรากฏใน การปล่อยเพลง Vocaloid ที่ได้รับใบอนุญาตอย่างเป็นทางการ คอนเสิร์ต hologram สดใจ (ซีรีส์ “Miku Expo”) วิดีโอเกม (ซีรีส์ Project DIVA) และแทร็กที่ผลิตโดยแฟน ๆ นับไม่ถ้วน ระบบนิเวศการผลิตแฟน ๆ มีความสำคัญเป็นพิเศษ: เครื่องมือสังเคราะห์เสียง Miku ถูกวางตำแหน่งโดยจงใจเพื่อให้สามารถสร้างสรรค์ได้ด้วยแฟน ๆ ซึ่งเป็นเหตุผลว่าทำไมจึงมีไลบรารีขนาดใหญ่ของเพลงที่สร้างสรรค์โดยผู้ใช้ซึ่งได้ร่วมกำหนดว่า “Miku ฟัง” ในการลงทะเบียนและสไตล์เพลงต่างๆ

วัฒนธรรมสร้างสรรค์ของแฟน ๆ นี้ขยายไปสู่ตัวเปลี่ยนเสียง ผู้คนที่ต้องการฟังเหมือน Miku ไม่ใช่ผู้ใช้ที่อยู่นอกขอบ — พวกเขาเป็นส่วนหนึ่งของประเพณีแฟนที่มีอายุหลายสิบปีของการมีส่วนร่วมในสรรค์สร้างกับตัวละคร เทคโนโลยีเพียงแค่ตามลำดับการปรารถนา


ปัญหาทั่วไปและวิธีแก้ไข

“เสียงที่ทำการเปลี่ยน pitch ของฉันฟังเหมือนกระรอก” คุณกำลังเลื่อน pitch โดยไม่เลื่อน formant หรือการเลื่อน formant ของคุณไม่สูงพอเมื่อเทียบกับค่าการเลื่อน pitch ของคุณ เพิ่มการเลื่อน formant ขึ้นเป็นประมาณ 65-70% ของค่าการเลื่อน pitch ของคุณและทดสอบอีกครั้ง

“Conversion AI ฟังเหมือนสัญญาณรบกวนหรือโลหะ” โดยทั่วไปเนื่องจากอินพุตไมโครโฟนที่มีเสียงรบกวน เปิดใช้งาน noise suppression ก่อนแบบจำลอง AI ในโซ่สัญญาณของคุณ ยังตรวจสอบด้วยว่า input gain ของคุณไม่ได้ตัด — puncak ไม่ควรเกิน -6 dBFS

“มีเสียงสะท้อนหรือ reverb ที่ชัดเจนในเอาต์พุตของฉัน” Pre-delay reverb ของคุณยาวเกินไปหรือขนาดห้อง reverb ของคุณใหญ่เกินไป เก็บ pre-delay ไว้ต่ำกว่า 20 ms และขนาดห้องในหมวดหมู่ “ห้องเล็ก” Reverb หนักบ่งชี้ถึงการสะท้อนเสียงห้องในสภาพแวดล้อมบันทึกจริง ที่ถูกหยิบและประมวลผล

“เสียงตัวละครตัดขาดสั้น ๆ ระหว่างพยัญชนะ” Noise gate threshold ตั้งไว้ก้าวร้าว ปล่อยให้ threshold gate ลดลง 6-10 dB เพื่อให้ gate เปิดได้อย่างน่าเชื่อถือในระหว่างพยัญชนะอ่อน ไม่ใช่เพียงสระชื่น

“เสียงของฉันดีในหูฟังของฉัน แต่ประมวลผลบน stream” คุณอาจตรวจสอบสัญญาณแห้ง (ไม่ประมวลผล) ขณะสตรีมสัญญาณเปียก (ประมวลผล) กำหนดค่าตัวตรวจสอบของคุณใหม่เพื่อใช้เอาต์พุต ไมโครโฟนเสมือนเพื่อให้คุณได้ยินสิ่งที่ผู้ชมของคุณได้ยิน นอกจากนี้ยังช่วยให้คุณแสดงออกมาอย่างเป็นธรรมชาติมากขึ้นในตัวละคร

สำหรับคำแนะนำเทคนิคที่เกี่ยวข้อง โปรดดู วิธีการทำงานของการเลื่อน pitch และ การเปลี่ยน formant อธิบาย


คำถามที่พบบ่อย

ตัวเปลี่ยนเสียง Hatsune Miku คืออะไร?

ตัวเปลี่ยนเสียง Hatsune Miku เปลี่ยนสัญญาณไมโครโฟนสดของคุณแบบเรียลไทม์เพื่อให้ดูเหมือนกับเนื้อเสียง Vocaloid ที่สว่าง สูง และสังเคราะห์เล็กน้อย มันรวมการเลื่อน pitch การปรับ formant และการประมวลผล harmonics ที่เป็นทางเลือกเพื่อให้ได้เนื้อเสียงเสียงดิจิทัลที่โดดเด่นนั้น

ฉันจะได้เสียงแบบ Miku บน Discord ได้อย่างไร?

ติดตั้งตัวเปลี่ยนเสียงแบบเรียลไทม์ที่สร้างไมโครโฟนเสมือน ใช้การเลื่อน pitch สูง (ประมาณ +8 ถึง +12 semitone) พร้อมการเลื่อน formant อิสระ จากนั้นกำหนดเส้นทางไมโครโฟนเสมือนไปยัง Discord เป็นอุปกรณ์อินพุตของคุณ เปิดใช้งานตัวกรอง high-pass เพื่อลบความมัวของส่วนต่ำและเพิ่มการทำซ้ำเบา ๆ สำหรับเสียงตัวละครที่ลอยแบบ

การแปลงเสียง AI ฟังเหมือน Miku มากกว่าการเลื่อน pitch DSP หรือไม่?

ใช่ อย่างมีนัยสำคัญ การเลื่อน pitch DSP เพิ่มความถี่พื้นฐานของคุณแต่ปล่อยให้การสั่นพ้องของท่อเสียงอยู่ที่เดิม ส่งผลให้เกิดเอฟเฟกต์กระรอก การแปลงเสียงประสาท AI จับคู่ pitch และโครงสร้าง formant พร้อมกัน สร้างผลลัพธ์ที่ราบรื่นมากขึ้น คล้ายตัวละครมากกว่า — แม้ว่าจะต้องใช้ GPU เพื่อให้ได้ latency ต่ำสุด

การตั้งค่า pitch ใดที่ใกล้เคียงกับเสียง Hatsune Miku?

เป้าหมายความถี่พื้นฐานการพูดรอบ E4 ถึง A4 (ประมาณ 330-440 Hz) การเลื่อน pitch +8 ถึง +10 semitone ใช้ได้กับเสียงผู้ชายส่วนใหญ่; +4 ถึง +6 สำหรับเสียงผู้หญิง การเลื่อน formant ควรปฏิบัติตามประมาณ 60-80% ของค่าการเลื่อน pitch เพิ่มพยอล์ต light และการทำซ้ำขั้นต่ำเพื่อให้ได้การเจิดจ้า synthetic

ตัวเปลี่ยนเสียง Hatsune Miku ปลอดภัยสำหรับเกมป้องกันการโกง หรือไม่?

ตัวเปลี่ยนเสียงที่ใช้งาน low-latency audio capture ที่เลเวล API เสียง Windows — ไม่มีไดรเวอร์เคอร์เนล — ปลอดภัยจากการโกง มันลงทะเบียนอุปกรณ์ไมโครโฟนเสมือน Windows มาตรฐานและไม่เคยแตะกระบวนการเกมหรือหน่วยความจำเคอร์เนล ดังนั้นระบบป้องกันการโกงจึงไม่เห็นอะไรที่ผิดปกติ

ฉันสามารถใช้ตัวเปลี่ยนเสียง Miku เพื่อสตรีมบน Twitch หรือ YouTube ได้หรือไม่?

ได้ ตั้งค่าซอฟต์แวร์สตรีมของคุณ (OBS, Streamlabs) เพื่อจับภาพจากเอาต์พุตไมโครโฟนเสมือนของตัวเปลี่ยนเสียง แทนที่จะใช้ไมโครโฟนทางกายภาพของคุณ พิจารณาเพิ่มการหน่วงเสียง 250-400 ms เป็นฟีด วิดีโอของคุณ หากใช้การแปลง AI เพื่อให้เสียงของคุณอยู่ในระบบพร้อมกับการกระทำบนหน้าจอ

ฉันต้องการฮาร์ดแวร์ใดบ้างสำหรับการแปลงเสียง AI แบบเรียลไทม์เป็นเสียง Miku?

สำหรับการแปลงเสียงประสาท AI แบบเรียลไทม์ GPU ที่เฉพาะเจาะจง (RTX 2060 หรือดีกว่า) ให้ latency ต่ำกว่า 300 ms บนฮาร์ดแวร์ CPU เท่านั้น คาดหวัง 500-900 ms ซึ่งสามารถใช้งานได้กับ push-to-talk แต่ไม่สะดวกสำหรับการพูดต่อเนื่อง การเลื่อน pitch-formant DSP เพียงอย่างเดียวใช้ได้ดีกับ CPU สมัยใหม่


บทสรุป

ฟังเหมือน Hatsune Miku แบบเรียลไทม์นั้นบรรลุได้ — แต่มันต้องการการเข้าใจว่าเสียง Miku เป็นเครื่องสังเคราะห์ ไม่ใช่เสียงของมนุษย์ที่จะเลียนแบบอย่างไม่ประมาท การรวมกันของการเลื่อน pitch การเลื่อน formant อิสระ ประสานเสียงเบา ๆ และตัวกรอง high-pass ทำให้คุณเชื่อว่าใกล้เคียงโดยใช้ CPU ไม่มีอย่างอื่น การแปลงเสียงประสาท AI ทำให้คุณใกล้ชิดยิ่งขึ้นด้วย GPU ที่เหมาะสม การตั้งค่าเหมือนกันสำหรับ Discord เกม หรือการสตรีม — เพียงกำหนดเส้นทางผ่านไมโครโฟนเสมือนและปรับเปลี่ยน latency compensation สำหรับวิดีโอหากจำเป็น

VoxBooster จัดการเส้นทางทั้งสองบน Windows 10/11: เอฟเฟกต์เสียงแบบเรียลไทม์ DSP พร้อมการควบคุม pitch และ formant อิสระ การแปลงเสียงประสาท AI และ soundboard ที่รวมพร้อมการสนับสนุน hotkey และการรวม OBS มันทำงานผ่าน low-latency audio capture โดยไม่มีไดรเวอร์เคอร์เนล ดังนั้นจึงปลอดภัยสำหรับเกม anti-cheat และการทดลอง 3 วันฟรีเพื่อทดสอบการตั้งค่าฮาร์ดแวร์ของคุณก่อนตัดสินใจ

สำรวจ คุณสมบัติตัวเปลี่ยนเสียง คุณสมบัติการโคลนเสียง AI ตรวจสอบ หน้าราคา หรือรับการทดลองโดยตรง:

ดาวน์โหลด VoxBooster — ทดลองฟรี 3 วัน ไม่มีไดรเวอร์เคอร์เนล Windows 10/11

ลอง VoxBooster — ทดลองใช้ฟรี 3 วัน

โคลนเสียงเรียลไทม์ ซาวด์บอร์ด และเอฟเฟกต์ — ทุกที่ที่คุณคุย

  • ไม่ต้องใช้บัตรเครดิต
  • ความหน่วง ~30ms
  • Discord · Teams · OBS
ลองฟรี 3 วัน