ตัวเปลี่ยนเสียง Hatsune Miku: ฟังเสมือนโวคาลอยด์

ตัวเปลี่ยนเสียง Hatsune Miku ให้คุณได้ยินเนื้อเสียง Vocaloid ที่สว่าง สังเคราะห์ และสูงเสมือนจริงแบบเรียลไทม์ — ไม่ว่าคุณจะแชทใน Discord สตรีมบน Twitch หรือบันทึกวิดีโอ การทำให้สำเร็จต้องใช้มากกว่าการเพิ่มการเลื่อน pitch ขึ้นเท่านั้น; เสียง Miku มีรูปแบบเสียงเฉพาะที่มาจากการรวมกันของความถี่พื้นฐาน การวาง formant เนื้อผ้าฮาร์มอนิก และเงาดิจิทัลเล็กน้อยที่ฝังอยู่ในการสังเคราะห์ Vocaloid คู่มือนี้ทำลายทุกชั้น จากทฤษฎีเสียงไปจนถึงการตั้งค่าซอฟต์แวร์ที่แน่นอนและขั้นตอนการสตรีม

TL;DR

Hatsune Miku เป็นตัวละครเสียง Vocaloid ของ Crypton Future Media — “เสียงของเธอ” คือเครื่องสังเคราะห์ซึ่งกำหนดคุณสมบัติเสียงเฉพาะของมัน
การได้เสียง Miku ต้องการการเลื่อน pitch และการเลื่อน formant อิสระ — pitch เพียงอย่างเดียวให้ squirrel ไม่ใช่ Vocaloid
เส้นทางแบบเรียลไทม์สองสาย: การสร้างรูปแบบ pitch-formant DSP (CPU เท่านั้น latency เกือบเป็นศูนย์) และการแปลงเสียงประสาท AI (GPU ที่แนะนำ ตรงกันกว่า)
เป้าหมายการเลื่อน pitch +8 ถึง +10 semitone (ชาย) หรือ +4 ถึง +6 (หญิง) การเลื่อน formant ประมาณ 70% ของค่าการเลื่อน pitch
เพิ่มพยอล์ต light reverb บาง ๆ และตัวกรอง high-pass เพื่อให้ได้การเจิดจ้า Vocaloid สังเคราะห์
สำหรับ Discord และการสตรีม กำหนดเส้นทางผ่านไมโครโฟนเสมือน — ไม่จำเป็นต้องใช้ไดรเวอร์เคอร์เนลกับเครื่องมือที่ใช้ low-latency audio capture

Hatsune Miku คือใคร และอะไรทำให้เสียงของเธอพิเศษ?

ก่อนที่คุณจะแตะซอฟต์แวร์ใด ๆ การเข้าใจสิ่งที่คุณจริง ๆ แล้วเลียนแบบจะเปลี่ยนวิธีการตั้งค่า Hatsune Miku ไม่ใช่นักร้องจริง — เธอเป็นตัวละครเสียง ซอฟต์แวร์ที่พัฒนาโดย Crypton Future Media และสร้างจากเทคโนโลยี synthesizer Vocaloid “เสียงของเธอ” คือการเรียงต่อขนาน pitch ของการสุ่มตัวอย่างเสียงพยัญชนะจากนักแสดงเสียง ประมวลผลผ่านเอนจิน synthesis Vocaloid เพื่อสร้างวลีเมโลดี้ กระบวนการสังเคราะห์นี้คือเหตุผลว่าทำไม Miku ถึงมีเสียงเช่นนั้น

ผลลัพธ์เสียงมีลักษณะเด่นหลายประการที่ไม่มีในการเลียนแบบของมนุษย์ที่มีทักษะมากที่สุด:

ความเสถียรของ pitch การสังเคราะห์ Vocaloid ถือว่าโน้ตด้วยความแม่นยำเกือบเหมือนเครื่องจักร — ไม่มีการลอยตัว micro-vibrato ไม่มีเสียง glide ระหว่างพยางค์เว้นแต่จะเป็นโปรแกรมที่ชัดเจน เสียงของมนุษย์สั่นอย่างธรรมชาติ; ของ Miku ไม่ได้

การวาง Formant. Formant สระของเธอนั่งสูงขึ้นและสว่างกว่าเสียงมนุษย์ตามธรรมชาติในระดับเดียวกัน นี่คือส่วนหนึ่งเพราะแนวเสียงตัวแสดงมีเสียงที่สว่างและวางไปข้างหน้าตามธรรมชาติ และส่วนหนึ่งเพราะการประมวลผล Vocaloid ใช้การย้อม timbal ของตัวเอง

เนื้อสัมผัส Harmonic. การสังเคราะห์ Vocaloid เพิ่มเงาดิจิทัลที่โดดเด่น — ความหนาแน่นฮาร์มอนิกเล็กน้อยที่ฟังเหมือน “สังเคราะห์” แม้ว่าจะพยายามฟังเหมือนเป็นธรรมชาติ นี่ไม่ใช่ข้อบกพร่อง; มันเป็นส่วนหนึ่งของตัวตนของตัวละคร

ช่วง Frequency. ช่วงเสียงมาตรฐานของ Miku ในงานอย่างเป็นทางการครอบคลุมคร่าว ๆ G3 ถึง E6 ในการร้องเพลง แต่ระดับการพูดของเธอ (ใช้ในวิดีโอโปรโมชั่นและการปรากฏตัวในเกม) โดยทั่วไปอยู่ที่ประมาณ E4 ถึง C5 — สูงกว่าช่วงการพูดตามธรรมชาติสำหรับผู้ใหญ่ส่วนใหญ่

ความเข้าใจในลักษณะเหล่านี้บอกคุณว่าพารามิเตอร์ใดที่ต้องกำหนดเป้าหมายในตัวเปลี่ยนเสียง

ทำไมการเลื่อน Pitch เพียงอย่างเดียวจึงไม่ได้ผล

ความผิดพลาดที่พบบ่อยที่สุดที่ผู้คนทำเมื่อพยายามฟังเหมือน Miku คือการใช้การเลื่อน pitch บริสุทธิ์ — การย้ายสัญญาณเสียงทั้งหมดขึ้น 8 หรือ 10 semitone โดยไม่สัมผัส formant ผลที่ได้คือสิ่งที่วิศวกรเสียงเรียกว่า “เอฟเฟกต์กระรอก”: เสียงของคุณฟังเหมือนถูกเล่นซ้ำด้วยความเร็วสองเท่า พร้อมกับสิ่งประดิษฐ์ที่ไม่มีเสถียรภาพและเสียงหลวม ๆ

เหตุผลคือฟิสิกส์เสียง เสียงของคุณมีสองส่วนแยกต่างหาก:

ความถี่พื้นฐาน (F0): อัตราที่สายเสียงของคุณสั่นไหว — นี่คือสิ่งที่การเลื่อน pitch เปลี่ยนแปลง
Formant: ความถี่เรโซแนนต์ของท่อเสียงของคุณ (คอ ปาก โพรงจมูก) ที่สร้างรูปแบบสระและให้เสียงของคุณลักษณะเฉพาะตัว

เมื่อคุณเลื่อน pitch โดยไม่เลื่อน formant formant จะอยู่ที่ตำแหน่งเดิมของมันเมื่อเทียบกับเสียงการพูดตามธรรมชาติของคุณ ปากของคุณยังคงมีรูปร่างเหมือนปากของคุณ แม้ว่าสัญญาณ pitch จะพูดว่า “บุคคลเล็กกว่า สูงกว่า” ความไม่สอดคล้องนั้นสามารถได้ยินได้ทันที

การเลื่อน Formant อิสระ — การย้าย formant ที่แยกจาก pitch — แก้ไขปัญหานี้ เป้าหมายคือการสร้างรูปแบบใหม่ “ท่อเสียงเสมือน” เพื่อให้ตรงกับโปรไฟล์เรโซแนนต์ของท่อเสียงที่สั้น สว่างของเสียงตัวละครสูง การเลื่อน pitch-plus-formant แบบรวมนั้นฟังว่าน่าเชื่อถือมากกว่า pitch เพียงอย่างเดียว แม้จะก่อนที่การประมวลผล AI จะเข้าสู่ภาพ

เส้นทางแบบเรียลไทม์สองสาย

มีสองวิธีที่แตกต่างกันโดยพื้นฐานในการบรรลุเสียงแบบ Miku แบบเรียลไทม์ และทั้งสองควรเข้าใจเพราะมันเหมาะสมกับความต้องการฮาร์ดแวร์และ latency ที่แตกต่างกัน

เส้นทาง 1: สร้างรูปแบบ Pitch และ Formant DSP

นี่คือแนวทางแบบดั้งเดิมและยังคงเป็นแนวทางที่ใช้ได้จริงมากที่สุดสำหรับผู้ใช้ที่ไม่มี GPU โดยเฉพาะ ห่วงโซ่สัญญาณมีลักษณะดังนี้:

ไมโครโฟน → ตัวกรอง high-pass → pitch shift + formant shift → chorus/harmonizer → reverb → เอาต์พุตไมโครโฟนเสมือน

มันทำงานทั้งหมดบน CPU โดยใช้อัลกอริทึมการประมวลผลสัญญาณดิจิทัลมาตรฐาน Latency มักจะต่ำกว่า 20 ms — ไม่สามารถตรวจจับได้สำหรับการสนทนาแบบสดใจ การแลกเปลี่ยนคือมันเปลี่ยนเสียงของคุณเป็นเสียงที่สูงฟังเหมือนโปรไฟล์ pitch-formant ของ Miku แต่มันยังคงชัดเจนว่าเป็นเสียงของคุณที่ด้านล่าง — ลักษณะเสียงเฉพาะของคุณ รูปแบบการออกเสียง การหายใจของคุณ

สำหรับกรณีการใช้งานส่วนใหญ่ (Discord การสตรีมแบบสบาย ๆ เกม) นี่ก็โอเค ไม่มีใครอยู่ที่ปลายอีกด้านของการโทร Discord ทำการวิเคราะห์ยุติธรรมรม harmonics ของคุณ

เส้นทาง 2: การแปลงเสียงประสาท AI

การแปลงเสียงประสาท AI ใช้วิธีการที่แตกต่างกันโดยพื้นฐาน: แทนที่จะเลื่อนพารามิเตอร์เสียง มันจะแมปสัญญาณเสียงทั้งหมดใหม่ผ่านแบบจำลองประสาท ที่ได้รับการฝึกอบรมซึ่งได้เรียนรู้ว่าเสียงเป้าหมายฟังอย่างไร เอาต์พุตไม่ใช่ “เสียงของคุณ แต่สูงกว่า” — มันคือเสียงที่มี timbre เป้าหมาย โครงสร้าง formant และอักขระสเปกตรัมของแบบจำลอง โดยมีเนื้อหาเสียงของคุณ (คำ เวลา การแสดงออก) ขับเคลื่อน

ผลลัพธ์ฟังน่าเชื่อถือมากกว่าอย่างมีนัยสำคัญ เนื้อสัมผัส Vocaloid สังเคราะห์ การวาง formant ความหนาแน่นฮาร์มอนิก — สิ่งเหล่านี้ฝังอยู่ในแบบจำลองมากกว่าการประมาณไปด้วยการปรับ slider ช่องว่างระหว่างเอาต์พุต DSP และ AI ชัดเจนในครั้งแรกที่คุณได้ยินมันเคียงข้าง

ต้นทุนคือฮาร์ดแวร์ การแปลงเสียงประสาทแบบเรียลไทม์ต้องการการอนุมานโปรแกรม GPU อย่างต่อเนื่อง และเส้นโค้งคุณภาพต่อ latency นั้นชัน: GPU ที่ทำหน้าที่เฉพาะด้าน mid-range (RTX 2060 ดังกล่าวหรือดีกว่า) ให้คุณ latency ในช่วง 150-300 ms; การอนุมานเฉพาะ CPU บนชิป eight-core สมัยใหม่โดยทั่วไปทำงาน 500-900 ms สำหรับ push-to-talk บน Discord แม้แต่ 800 ms ก็ยังมีชีวิต สำหรับการสนทนาต่อเนื่องมันรู้สึกช้า สำหรับการสตรีมกับวิดีโอ คุณเพิ่ม latency เสียงที่ตรงกันใน OBS และไม่มีใครสังเกตเห็น

การตั้งค่าสำหรับเส้นทาง DSP

นี่คือจุดเริ่มต้นที่ใช้ได้จริงสำหรับแนวทาง DSP ปรับแต่งโดยเฉพาะเพื่อประมาณ timbre ตัวละคร Miku แทนที่จะเป็น “เสียง anime สูง” ทั่วไป

พารามิเตอร์	จุดเริ่มต้นเสียงผู้ชาย	จุดเริ่มต้นเสียงผู้หญิง	หมายเหตุ
Pitch shift	+9 ถึง +10 semitone	+4 ถึง +6 semitone	ฟังหูของคุณ — เป้าหมายประมาณ A4 ในการพูดตามธรรมชาติ
Formant shift	+6 ถึง +7 semitone	+3 ถึง +4 semitone	ประมาณ 65-70% ของค่า pitch shift
High-pass filter	120 Hz	150 Hz	ลบ low-end mud ที่ขัดแย้งกับตัวละครสว่าง
Chorus depth	15-25%	10-20%	เพิ่มเงา Vocaloid โดยไม่ฟังเหมือนเหยื่อกีตาร์
Chorus rate	0.4-0.6 Hz	0.4-0.5 Hz	โมดูเลชันช้า — ประสานเสียงเร็วฟังเหมือน vibrato
Reverb (small room)	10-15% wet	8-12% wet	ห้องเล็ก ต่ำกว่า 200ms pre-delay
Gate threshold	-40 dBFS	-38 dBFS	ตัดเสียงหายใจและเสียงห้องระหว่างวลี

หมายเหตุบางประการเกี่ยวกับเหตุผลของค่าเฉพาะเหล่านี้:

ประสานเสียง. เอนจิน synthesis Vocaloid เพิ่มความหนาแน่นสเปกตรัมที่โดดเด่นซึ่งทำให้เสียงฟังเหมือน “ดิจิทัล” — มี partials หลายตัวที่เกี่ยวข้องกับฮาร์มอนิกในความหนาแน่นสูงกว่าที่เสียงมนุษย์ตามธรรมชาติสร้าง เอฟเฟกต์ประสานเสียงบาง ๆ (เสียงสองถึงสาม โมดูเลชันช้า ความเบี่ยงเบนของ pitch น้อยที่สุด) ประมาณสิ่งนี้โดยไม่ฟังเหมือนเอฟเฟกต์กีตาร์ เก็บความลึกไว้ต่ำ; คุณต้องการเงา ไม่ใช่เบลอที่เปียกเหนอะหนะ

ตัวกรอง high-pass. เสียง Miku มีพลังงานเล็กน้อยต่ำกว่า 150 Hz ในเอาต์พุตอย่างเป็นทางการใด ๆ การตัด low-end บนสัญญาณที่ประมวลผลแล้วจะลบ low-frequency residual content จากเสียงตามธรรมชาติของคุณที่ไหลผ่านแม้หลังจาก pitch shift หนัก นี่เป็นหนึ่งในการเปลี่ยนแปลงจุดเดียวที่มีผลกระทบมากที่สุดที่คุณสามารถทำได้

อัตราส่วน Formant. กฎ 65-70% เป็นแนวทางหยาบโดยอิงตามฟิสิกส์ของการปรับขนาดท่อเสียง — ท่อเสียงที่จะสร้างความถี่ formant ของ Miku ตามธรรมชาติ สั้นกว่าผู้ใหญ่ชายประมาณอัตราส่วนนั้น ในทางปฏิบัติ ปรับให้พอดีกับหูของคุณจนกว่าเสียงสระเช่น “ah” และ “ee” จะมีความสว่างที่เหมาะสม

การตั้งค่าสำหรับเส้นทาง AI

เส้นทาง AI ต้องการการปรับพารามิเตอร์ด้วยตนเองน้อยกว่า — แบบจำลองทำงานหนัก — แต่มันยังต้องการการกำหนดค่าที่ถูกต้องเพื่อให้ได้เสียงที่ถูกต้องแทนที่จะเป็นสิ่งประดิษฐ์

Input gain. ตั้งค่าระดับอินพุตไมโครโฟนของคุณเพื่อให้พีค hit รอบ -12 ถึง -10 dBFS มากเกินไปและแบบจำลองหลีกเลี่ยงบัฟเฟอร์อินพุตของมัน; เงียบเกินไปและคุณได้รับเสียงที่ขยายเป็นเอาต์พุต ระดับอินพุตที่สอดคล้องกันให้ผลลัพธ์เอาต์พุตที่เสถียรที่สุด

Inference chunk size. Chunk ที่เล็กกว่า = latency ต่ำกว่า = โหลด CPU/GPU สูงกว่า สำหรับการอนุมาน GPU 256 หรือ 512 ตัวอย่างต่อ chunk ให้ latency ที่ดีที่สุดโดยไม่มีความไม่เสถียร สำหรับการอนุมาน CPU 1024 หรือ 2048 ตัวอย่าง latency การค้นพบเพื่อเสถียรภาพ

Pitch correction offset. แบบจำลอง AI ได้รับการฝึกอบรมบนเสียงเป้าหมายในช่วง pitch ที่เฉพาะเจาะจง หากเสียงของคุณอยู่นอกช่วงอินพุตที่คาดหวังของแบบจำลองอย่างมีนัยสำคัญ ให้ใช้ pre-shift ของ ±2 ถึง ±4 semitone ก่อนแบบจำลองเพื่อนำอินพุตของคุณเข้าสู่โซนที่เหมาะสม นี่แตกต่างจาก output pitch shift ที่ใช้ในโหมด DSP

Formant preserve vs. shift. บางตัวเปลี่ยนเสียง AI ช่วยให้คุณเปิดใช้งาน formant preservation (เพื่อให้เอาต์พุตเก็บโครงสร้าง formant ของแบบจำลอง) หรือ formant shift อิสระ (สำหรับการปรับแต่ง) สำหรับ Miku โดยเฉพาะ formant preservation มักจะเป็นตัวเลือกที่ถูกต้อง — แบบจำลองมีการวางรูปแบบการแก้ไขที่ถูกต้องแล้ว

Noise suppression input. เรียกใช้ noise suppression บนสัญญาณไมโครโฟนก่อนที่จะเข้าสู่แบบจำลอง AI เสียงรบกวนในพื้นหลังเข้าไปในแบบจำลองเป็นสัญญาณ และเอาต์พุตอาจฟังว่าเป็นสัญญาณรบกวนเมื่อแบบจำลองพยายามตีความเสียงสะท้อนของห้องหรือคลิกแป้นพิมพ์เป็นเนื้อหาสัทศาสตร์ การระงับก่อนให้แบบจำลองอินพุตที่สะอาด

เนื้อสัมผัส Vocaloid สังเคราะห์: มันคืออะไร และวิธีประมาณ

เนื้อสัมผัสสังเคราะห์ของเสียง Miku ไม่ได้เป็นข้อบกพร่องที่ต้องแก้ไข — มันคือลายเซ็น การสังเคราะห์ Vocaloid สร้างมันขึ้นมาผ่านการเชื่อมต่อและการจัดการ pitch ของการสุ่มตัวอย่างเสียงพยัญชนะซึ่งนำเสนอสิ่งประดิษฐ์ที่ละเอียด ที่ transients ของหมายเหตุ ความหนาแน่นฮาร์มอนิกที่โดดเด่น และคุณภาพ “ดิจิทัล” เล็กน้อยในสระที่ยั่งยืน

เมื่อคุณไป Miku-style voice กับตัวเปลี่ยนเสียงแบบเรียลไทม์ การจำลองเนื้อสัมผัสนี้หมายถึง:

ฮาร์มอนิกและเงา

ฮาร์โมไนเซอร์ที่บาง ๆ ตั้งเป็น +12 semitone (สูงกว่าหนึ่งอักเสบ) ที่ 5-10% wet เพิ่มเนื้อหาฮาร์มอนิกส่วนบนที่เลียนแบบ partials ส่วนบนความหนาแน่นสูงของ Vocaloid เก็บระดับต่ำ — ควรรู้สึกมากกว่าการได้ยินเป็นเอฟเฟกต์แยก รวมกับการตั้งค่าประสานเสียงข้างต้น นี่เพิ่มชั้น “เงา” ที่แยกการประมาณ Miku จากเสียงสูงทั่วไป

Articulation ของสระ

การสังเคราะห์ Vocaloid จัดการการเปลี่ยนแปลงสระแบบเครื่องจักร — การเปลี่ยนแปลงพยัญชนะเป็นสระ แหลมกว่าในการพูดมนุษย์ตามธรรมชาติ คุณสามารถประมาณนี้ได้โดยเพิ่มความชัดเจนการออกเสียงของคุณเล็กน้อย: ออกเสียงพยัญชนะอย่างชาญฉลาดและเปิดสระให้เต็มที่ ฟังดูไม่เป็นธรรมชาติในการพูดวันนี้ แต่ตรงกับการลงทะเบียนอักขระอย่างแน่นอน

Pitch Quantization (ไม่บังคับ)

ตัวเปลี่ยนเสียงบางตัวนำเสนอการหาปริมาณระดับเสียงหรือ pitch snap ซึ่งจะบดขยี่ระดับเสียงของคุณไปยัง semitone ที่ใกล้ที่สุดโดยอัตโนมัติที่ความแรงที่สามารถกำหนดค่าได้ ที่ความแรงต่ำ (20-30%) นี่จะลด pitch drift ตามธรรมชาติและให้เอาต์พุตที่รู้สึก “ได้รับการเขียนโปรแกรม” เล็กน้อยโดยไม่ลบนิพจน์ทั้งหมด นี่เป็นไม่บังคับอย่างแท้จริง — มันเหมาะสมกับบางสไตล์และไม่ใช่คนอื่น ๆ

เปรียบเทียบสองวิธี

คุณสมบัติ	DSP Pitch + Formant	Conversion ประสาท AI
Latency	ภายใต้ 20 ms	150-900 ms (GPU/CPU)
ฮาร์ดแวร์ที่จำเป็น	CPU สมัยใหม่ใด ๆ	GPU แนะนำ
ความแม่นยำของตัวละคร	ประมาณดี	ตรงกันใกล้กว่า
รักษาตัวตนของคุณ	ใช่	น้อยที่สุด
เนื้อสัมผัสสังเคราะห์	กำหนดค่าด้วยตนเอง	ฝังในแบบจำลอง
ความซับซ้อนของการตั้งค่า	ต่ำ	ปานกลาง
ทำงานในสภาพแวดล้อมเฉพาะ CPU	ใช่	ใช่ กับ latency สูงกว่า
ดีที่สุดสำหรับ	การตั้งค่าอย่างรวดเร็ว การใช้งานแบบสบาย ๆ	Streaming สร้างเนื้อหา

ไม่มีแนวทางใดที่ “ดีกว่า” อย่างแท้จริง — ตัวเลือกที่เหมาะสมขึ้นอยู่กับฮาร์ดแวร์ของคุณ ความอดทน latency ของคุณ และระดับการจับคู่ตัวละครที่คุณต้องการ ผู้ใช้จำนวนมากใช้เส้นทาง DSP สำหรับแชท Discord แบบสบาย ๆ และสลับไปเปลี่ยนรูปแบบ AI สำหรับเซสชั่นการสตรีมซึ่งคุณภาพสำคัญกว่าการตอบสนองทันที

Discord Setup: การกำหนดเส้นทางไมโครโฟนเสมือน

เมื่อตัวเปลี่ยนเสียงของคุณได้รับการกำหนดค่า การเชื่อมต่อกับ Discord ต้องการสามขั้นตอน

ขั้นตอนที่ 1: ยืนยันว่าอุปกรณ์เสมือนได้ถูกสร้างขึ้น ตัวเปลี่ยนเสียงที่ใช้ low-latency audio capture ลงทะเบียนไมโครโฟนเสมือน Windows มาตรฐาน เปิด Windows Sound Settings (คลิกขวาไอคอนลำโพง → เปิด Sound Settings → อินพุต) และยืนยันว่าคุณเห็นไมโครโฟนเสมือนที่อยู่เป็นอุปกรณ์อินพุต หากคุณไม่เห็นมันแอปตัวเปลี่ยนเสียงอาจไม่ทำงาน หรือคุณอาจต้องเริ่มต้นใหม่บริการเสียง

ขั้นตอนที่ 2: ตั้งค่าอินพุต Discord ใน Discord ให้เปิด User Settings → Voice & Video ภายใต้ Input Device ให้เลือกไมโครโฟนเสมือนตัวเปลี่ยนเสียงจากแนวฉาก ปิดใช้งาน Discord built-in noise suppression และ echo cancellation — สิ่งเหล่านี้ประมวลผลสัญญาณหลังจากที่ตัวเปลี่ยนเสียงของคุณได้ทำแล้ว และการใช้ noise suppression สองครั้งจะทำให้ลดลง คุณภาพอย่างมีนัยสำคัญ

ขั้นตอนที่ 3: ทดสอบและปรับ ใช้ปุ่ม Echo Test ในการตั้งค่าเสียง Discord (หรือขอให้เพื่อนฟัง) และยืนยันว่าเอาต์พุตฟังถูกต้อง ปัญหาทั่วไปในขั้นตอนนี้: pitch shift มากเกินไป สร้างความไม่เสถียร ความลึกประสานเสียงสูงเกินไป สร้างเอฟเฟกต์ที่เปียก หรือ pre-delay reverb ตั้งไว้นานเกินไป สร้างเสียงสะท้อนที่เห็นได้ชัด

หมายเหตุเกี่ยวกับ anti-cheat: ตัวเปลี่ยนเสียงที่ใช้ low-latency audio capture ที่ใช้งาน — ไม่มีไดรเวอร์เคอร์เนล — ปลอดภัยจากการโกง ไมโครโฟนเสมือนปรากฏเป็นอุปกรณ์อินพุตเสียงมาตรฐาน ระบบ anti-cheat ตรวจสอบหน่วยความจำกระบวนการเกมและโมดูลเคอร์เนล; ไมโครโฟนเสมือน low-latency audio capture ไม่ใช่อย่างใดอย่างหนึ่ง คุณสามารถใช้มันใน Valorant Fortnite หรือเกมอื่นใดได้โดยไม่ต้องกังวล

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการกำหนดค่าเสียง Discord โปรดดูคู่มือเรื่อง วิธีใช้ตัวเปลี่ยนเสียงบน Discord

การตั้งค่าการสตรีม: OBS และการจัดการ Latency

สำหรับการสตรีมบน Twitch YouTube หรือแพลตฟอร์มที่คล้ายกัน การกำหนดค่าแตกต่างจาก Discord เล็กน้อยเนื่องจากคุณกำลังจัดการกับเสียงที่บันทึกแล้วไม่ใช่เสียงการโทรแบบเรียลไทม์

แหล่งเสียง OBS ใน OBS ให้เพิ่มไมโครโฟนเสมือนตัวเปลี่ยนเสียงเป็นแหล่ง Audio Input Capture ตั้งชื่อให้ชัดเจน (เช่น “Miku Voice”) เพื่อให้คุณสามารถระบุได้ในตัวผสม ตั้งค่าระดับตัวผสมเพื่อให้พีค hit ประมาณ -12 ถึง -6 dBFS ในเครื่องวัดเสียง OBS

จัดการ Latency Conversion AI หากคุณใช้การแปลงประสาท AI ที่มี latency 200-400 ms คุณต้องหน่วงเวลา feed วิดีโอของคุณให้ตรงกัน ใน OBS ให้คลิกขวาแหล่งจับวิดีโอของคุณ → Filters → เพิ่ม Audio/Video Delay (หากคุณติดตั้งปลั๊กอินแล้ว) หรือใช้แผง Advanced Audio Properties เพื่อเพิ่ม sync offset บนแหล่ง capture เสียง เท่ากับ AI conversion latency ของคุณ วัด latency ที่แท้จริงของคุณโดยการบันทึกคลิปทดสอบสั้น ๆ และเปรียบเทียบรูปคลื่นเสียงกับการเคลื่อนไหวของริมฝีปากบนหน้าจอ

ตรวจสอบเสียงของคุณเอง เมื่อใช้เสียงตัวละครเพื่อการสตรีม ให้พิจารณากำหนดเส้นทางบ่อหูเพื่อให้คุณได้ยินเสียงที่ประมวลผลแล้วในหูฟังของคุณแทนไมโครโฟนดิบของคุณ การได้ยินตัวคุณเองเป็น Miku (แทนที่จะเป็นตัวคุณเอง) จะเปลี่ยนความเร็วและการออกเสียงของคุณตามธรรมชาติ — คุณจะแสดงออกมาแตกต่างกันเมื่อคุณฟังเหมือนตัวละคร

หมายเหตุเกี่ยวกับคุณภาพสตรีม Twitch และ YouTube บีบอัดเสียงสำหรับการจัดส่ง เอฟเฟกต์ที่ละเอียด เช่น ประสานเสียงเบา ๆ และเงาที่เพิ่มโดยพรีเซ็ต Miku อยู่รอดจากการบีบอัดได้ค่อนข้างดี แต่ reverb และ chorus ที่หนักมากมีแนวโน้มที่จะเข้ารหัสได้ไม่ดี เก็บค่า wet mix ให้อยู่ในระดับปานกลางและการประมวลผลจะแปลอย่างสะอาด

สำหรับการตั้งค่าตัวเปลี่ยนเสียง latency ต่ำโดยทั่วไป ให้ดู คู่มือตัวเปลี่ยนเสียง latency ต่ำ

การเชื่อมต่อ Soundboard: เอฟเฟกต์เสียง Miku ในเซสชั่นสดใจ

Hatsune Miku มีแคตตาล็อกที่กว้างขวางของเอฟเฟกต์เสียง catchphrases และ motifs เพลง ที่แฟน ๆ รู้จักทันที การเรียกใช้ soundboard ควบคู่กับตัวเปลี่ยนเสียงของคุณช่วยให้คุณกระตุ้นสิ่งเหล่านี้ในสตรีมหรือการโทร Discord เพื่อจับเวลา ปฏิกิริยา หรือเวลาตัวละคร

การตั้งค่า soundboard Miku ที่จัดระเบียบได้ดีโดยทั่วไปรวมถึง:

การคำอวยพรเสียงสั้น ๆ (เสียงตอบสนองที่เป็นลักษณะเฉพาะของ Miku จากการปรากฏตัวในเกม)
Snippet leitmotif ไอคอนิก — วลีเพลงหลัก ไม่ใช่ส่วนเพลง เพื่ออยู่ในการใช้ที่ยุติธรรม
เสียง “boot-up” chime Vocaloid
Stinger ปฏิกิริยาสำหรับช่วงเวลา hype และความล้มเหลว

ในการตั้งค่า OBS ที่รวม เสียง soundboard ที่กระตุ้นโดยปุ่มลัด เล่นโดยตรงเข้าไปในการผสม ไมโครโฟนเสมือน ดังนั้นผู้ชมจึงได้ยินมันด้วยวิธีเดียวกับที่พวกเขาได้ยินเสียงของคุณ นี่แตกต่างจากแนวทางตัวผสมแยกต่างหากซึ่งเสียงมาถึงช่องต่างกัน ข้อได้คือเอาต์พุตที่มีความสัมพันธ์กัน; ข้อเสียคือต้องการการปฏิบัติตามข้อบัญญัติระดับที่ดีเพื่อหลีกเลี่ยงการตัดเสียง soundboard โดยที่ดังกว่าเสียงของคุณมากขึ้น

Hatsune Miku และปรากฏการณ์ Vocaloid ที่กว้างใหญ่ขึ้น

ส่วนหนึ่งของสิ่งที่ทำให้ Miku เป็นเป้าหมายที่น่าดึงดูดสำหรับตัวเปลี่ยนเสียง คือ แนวเทพวรรณะวัฒนธรรมของเธอ นับตั้งแต่ที่ปล่อยออกมาเมื่อเดือนสิงหาคม 2007 เธอได้กลายเป็นตัวละคร Vocaloid ที่รู้จักกันอย่างแพร่หลายมากที่สุด — รู้จักกันแม้กระทั่งโดยผู้คนที่ไม่เคยได้ยินคำว่า “Vocaloid” การออกแบบภาพของเธอ (ลิงตัวแฝดสีเทอร์ควอยส์ เครื่องแต่งกาย futuristic) มีความเป็นไอคอนพอ ๆ กับเสียงของเธอ และทั้งสองไม่สามารถแยกจากกันได้ในการรับรู้วัฒนธรรม

เสียงของเธอปรากฏใน การปล่อยเพลง Vocaloid ที่ได้รับใบอนุญาตอย่างเป็นทางการ คอนเสิร์ต hologram สดใจ (ซีรีส์ “Miku Expo”) วิดีโอเกม (ซีรีส์ Project DIVA) และแทร็กที่ผลิตโดยแฟน ๆ นับไม่ถ้วน ระบบนิเวศการผลิตแฟน ๆ มีความสำคัญเป็นพิเศษ: เครื่องมือสังเคราะห์เสียง Miku ถูกวางตำแหน่งโดยจงใจเพื่อให้สามารถสร้างสรรค์ได้ด้วยแฟน ๆ ซึ่งเป็นเหตุผลว่าทำไมจึงมีไลบรารีขนาดใหญ่ของเพลงที่สร้างสรรค์โดยผู้ใช้ซึ่งได้ร่วมกำหนดว่า “Miku ฟัง” ในการลงทะเบียนและสไตล์เพลงต่างๆ

วัฒนธรรมสร้างสรรค์ของแฟน ๆ นี้ขยายไปสู่ตัวเปลี่ยนเสียง ผู้คนที่ต้องการฟังเหมือน Miku ไม่ใช่ผู้ใช้ที่อยู่นอกขอบ — พวกเขาเป็นส่วนหนึ่งของประเพณีแฟนที่มีอายุหลายสิบปีของการมีส่วนร่วมในสรรค์สร้างกับตัวละคร เทคโนโลยีเพียงแค่ตามลำดับการปรารถนา

ปัญหาทั่วไปและวิธีแก้ไข

“เสียงที่ทำการเปลี่ยน pitch ของฉันฟังเหมือนกระรอก” คุณกำลังเลื่อน pitch โดยไม่เลื่อน formant หรือการเลื่อน formant ของคุณไม่สูงพอเมื่อเทียบกับค่าการเลื่อน pitch ของคุณ เพิ่มการเลื่อน formant ขึ้นเป็นประมาณ 65-70% ของค่าการเลื่อน pitch ของคุณและทดสอบอีกครั้ง

“Conversion AI ฟังเหมือนสัญญาณรบกวนหรือโลหะ” โดยทั่วไปเนื่องจากอินพุตไมโครโฟนที่มีเสียงรบกวน เปิดใช้งาน noise suppression ก่อนแบบจำลอง AI ในโซ่สัญญาณของคุณ ยังตรวจสอบด้วยว่า input gain ของคุณไม่ได้ตัด — puncak ไม่ควรเกิน -6 dBFS

“มีเสียงสะท้อนหรือ reverb ที่ชัดเจนในเอาต์พุตของฉัน” Pre-delay reverb ของคุณยาวเกินไปหรือขนาดห้อง reverb ของคุณใหญ่เกินไป เก็บ pre-delay ไว้ต่ำกว่า 20 ms และขนาดห้องในหมวดหมู่ “ห้องเล็ก” Reverb หนักบ่งชี้ถึงการสะท้อนเสียงห้องในสภาพแวดล้อมบันทึกจริง ที่ถูกหยิบและประมวลผล

“เสียงตัวละครตัดขาดสั้น ๆ ระหว่างพยัญชนะ” Noise gate threshold ตั้งไว้ก้าวร้าว ปล่อยให้ threshold gate ลดลง 6-10 dB เพื่อให้ gate เปิดได้อย่างน่าเชื่อถือในระหว่างพยัญชนะอ่อน ไม่ใช่เพียงสระชื่น

“เสียงของฉันดีในหูฟังของฉัน แต่ประมวลผลบน stream” คุณอาจตรวจสอบสัญญาณแห้ง (ไม่ประมวลผล) ขณะสตรีมสัญญาณเปียก (ประมวลผล) กำหนดค่าตัวตรวจสอบของคุณใหม่เพื่อใช้เอาต์พุต ไมโครโฟนเสมือนเพื่อให้คุณได้ยินสิ่งที่ผู้ชมของคุณได้ยิน นอกจากนี้ยังช่วยให้คุณแสดงออกมาอย่างเป็นธรรมชาติมากขึ้นในตัวละคร

สำหรับคำแนะนำเทคนิคที่เกี่ยวข้อง โปรดดู วิธีการทำงานของการเลื่อน pitch และ การเปลี่ยน formant อธิบาย

คำถามที่พบบ่อย

ตัวเปลี่ยนเสียง Hatsune Miku คืออะไร?

ตัวเปลี่ยนเสียง Hatsune Miku เปลี่ยนสัญญาณไมโครโฟนสดของคุณแบบเรียลไทม์เพื่อให้ดูเหมือนกับเนื้อเสียง Vocaloid ที่สว่าง สูง และสังเคราะห์เล็กน้อย มันรวมการเลื่อน pitch การปรับ formant และการประมวลผล harmonics ที่เป็นทางเลือกเพื่อให้ได้เนื้อเสียงเสียงดิจิทัลที่โดดเด่นนั้น

ฉันจะได้เสียงแบบ Miku บน Discord ได้อย่างไร?

ติดตั้งตัวเปลี่ยนเสียงแบบเรียลไทม์ที่สร้างไมโครโฟนเสมือน ใช้การเลื่อน pitch สูง (ประมาณ +8 ถึง +12 semitone) พร้อมการเลื่อน formant อิสระ จากนั้นกำหนดเส้นทางไมโครโฟนเสมือนไปยัง Discord เป็นอุปกรณ์อินพุตของคุณ เปิดใช้งานตัวกรอง high-pass เพื่อลบความมัวของส่วนต่ำและเพิ่มการทำซ้ำเบา ๆ สำหรับเสียงตัวละครที่ลอยแบบ

การแปลงเสียง AI ฟังเหมือน Miku มากกว่าการเลื่อน pitch DSP หรือไม่?

ใช่ อย่างมีนัยสำคัญ การเลื่อน pitch DSP เพิ่มความถี่พื้นฐานของคุณแต่ปล่อยให้การสั่นพ้องของท่อเสียงอยู่ที่เดิม ส่งผลให้เกิดเอฟเฟกต์กระรอก การแปลงเสียงประสาท AI จับคู่ pitch และโครงสร้าง formant พร้อมกัน สร้างผลลัพธ์ที่ราบรื่นมากขึ้น คล้ายตัวละครมากกว่า — แม้ว่าจะต้องใช้ GPU เพื่อให้ได้ latency ต่ำสุด

การตั้งค่า pitch ใดที่ใกล้เคียงกับเสียง Hatsune Miku?

เป้าหมายความถี่พื้นฐานการพูดรอบ E4 ถึง A4 (ประมาณ 330-440 Hz) การเลื่อน pitch +8 ถึง +10 semitone ใช้ได้กับเสียงผู้ชายส่วนใหญ่; +4 ถึง +6 สำหรับเสียงผู้หญิง การเลื่อน formant ควรปฏิบัติตามประมาณ 60-80% ของค่าการเลื่อน pitch เพิ่มพยอล์ต light และการทำซ้ำขั้นต่ำเพื่อให้ได้การเจิดจ้า synthetic

ตัวเปลี่ยนเสียง Hatsune Miku ปลอดภัยสำหรับเกมป้องกันการโกง หรือไม่?

ตัวเปลี่ยนเสียงที่ใช้งาน low-latency audio capture ที่เลเวล API เสียง Windows — ไม่มีไดรเวอร์เคอร์เนล — ปลอดภัยจากการโกง มันลงทะเบียนอุปกรณ์ไมโครโฟนเสมือน Windows มาตรฐานและไม่เคยแตะกระบวนการเกมหรือหน่วยความจำเคอร์เนล ดังนั้นระบบป้องกันการโกงจึงไม่เห็นอะไรที่ผิดปกติ

ฉันสามารถใช้ตัวเปลี่ยนเสียง Miku เพื่อสตรีมบน Twitch หรือ YouTube ได้หรือไม่?

ได้ ตั้งค่าซอฟต์แวร์สตรีมของคุณ (OBS, Streamlabs) เพื่อจับภาพจากเอาต์พุตไมโครโฟนเสมือนของตัวเปลี่ยนเสียง แทนที่จะใช้ไมโครโฟนทางกายภาพของคุณ พิจารณาเพิ่มการหน่วงเสียง 250-400 ms เป็นฟีด วิดีโอของคุณ หากใช้การแปลง AI เพื่อให้เสียงของคุณอยู่ในระบบพร้อมกับการกระทำบนหน้าจอ

ฉันต้องการฮาร์ดแวร์ใดบ้างสำหรับการแปลงเสียง AI แบบเรียลไทม์เป็นเสียง Miku?

สำหรับการแปลงเสียงประสาท AI แบบเรียลไทม์ GPU ที่เฉพาะเจาะจง (RTX 2060 หรือดีกว่า) ให้ latency ต่ำกว่า 300 ms บนฮาร์ดแวร์ CPU เท่านั้น คาดหวัง 500-900 ms ซึ่งสามารถใช้งานได้กับ push-to-talk แต่ไม่สะดวกสำหรับการพูดต่อเนื่อง การเลื่อน pitch-formant DSP เพียงอย่างเดียวใช้ได้ดีกับ CPU สมัยใหม่

บทสรุป

ฟังเหมือน Hatsune Miku แบบเรียลไทม์นั้นบรรลุได้ — แต่มันต้องการการเข้าใจว่าเสียง Miku เป็นเครื่องสังเคราะห์ ไม่ใช่เสียงของมนุษย์ที่จะเลียนแบบอย่างไม่ประมาท การรวมกันของการเลื่อน pitch การเลื่อน formant อิสระ ประสานเสียงเบา ๆ และตัวกรอง high-pass ทำให้คุณเชื่อว่าใกล้เคียงโดยใช้ CPU ไม่มีอย่างอื่น การแปลงเสียงประสาท AI ทำให้คุณใกล้ชิดยิ่งขึ้นด้วย GPU ที่เหมาะสม การตั้งค่าเหมือนกันสำหรับ Discord เกม หรือการสตรีม — เพียงกำหนดเส้นทางผ่านไมโครโฟนเสมือนและปรับเปลี่ยน latency compensation สำหรับวิดีโอหากจำเป็น

VoxBooster จัดการเส้นทางทั้งสองบน Windows 10/11: เอฟเฟกต์เสียงแบบเรียลไทม์ DSP พร้อมการควบคุม pitch และ formant อิสระ การแปลงเสียงประสาท AI และ soundboard ที่รวมพร้อมการสนับสนุน hotkey และการรวม OBS มันทำงานผ่าน low-latency audio capture โดยไม่มีไดรเวอร์เคอร์เนล ดังนั้นจึงปลอดภัยสำหรับเกม anti-cheat และการทดลอง 3 วันฟรีเพื่อทดสอบการตั้งค่าฮาร์ดแวร์ของคุณก่อนตัดสินใจ

สำรวจ คุณสมบัติตัวเปลี่ยนเสียง คุณสมบัติการโคลนเสียง AI ตรวจสอบ หน้าราคา หรือรับการทดลองโดยตรง:

ดาวน์โหลด VoxBooster — ทดลองฟรี 3 วัน ไม่มีไดรเวอร์เคอร์เนล Windows 10/11