วิธีเปลี่ยนแปลงระดับเสียงของคุณแบบเรียลไทม์

เครื่องเปลี่ยนระดับเสียง vocal เป็นเครื่องมือที่ดูเรียบง่าย จนกว่าคุณจะพยายามสร้างมันจริงๆ — จากนั้นคุณจะตระหนักถึงการประมวลผลสัญญาณจำนวนมากที่นั่นระหว่าง “เพิ่มระดับเสียง” และ “ยังฟังดูเหมือนมนุษย์” ไม่ว่าคุณต้องการเสียงวิทยุที่ลึกกว่าสำหรับการสตรีมมิง โทนที่สูงกว่าสำหรับตัวละคร หรือเพียงแค่ต้องการเข้าใจว่าซอฟต์แวร์สตรีมมิงของคุณกำลังทำอะไรอยู่เบื้องหลัง คู่มือนี้ครอบคลุมภาพรวมทั้งหมด: ทฤษฎี DSP การตั้งค่าที่สำคัญจริงๆ และการตั้งค่าทีละขั้นตอนที่ปฏิบัติได้ใน VoxBooster สำหรับ Discord เกม และ OBS

TL;DR

การเปลี่ยนระดับเสียงเปลี่ยนความถี่โดยไม่เปลี่ยนความเร็ว — ความแตกต่างนี้มีความสำคัญต่อความล่าช้าและคุณภาพ
อัลกอริธึม phase-vocoder และ time-domain มีข้อแลกเปลี่ยนแต่ละรายการ การรู้ว่าเครื่องมือของคุณใช้รายการไหนจะอธิบายสิ่งแปลกปลอมที่คุณได้ยิน
เซมิโทนเป็นหน่วยที่ถูกต้อง ±3–6 เซมิโทนครอบคลุมการเปลี่ยนแปลงเสียงที่สมจริงส่วนใหญ่
การแก้ไขโฟร์แมนต์ไม่ใช่ตัวเลือกหากคุณต้องการฟังดูเหมือนมนุษย์
VoxBooster ลงทะเบียนไมโครโฟนเสมือนมาตรฐาน (low-latency audio capture ไม่มีไดรเวอร์เคอร์เนล) ที่แอปใดๆ สามารถเลือกได้
ความล่าช้าต่ำกว่า 10 มิลลิวินาทีสามารถทำได้บนฮาร์ดแวร์สมัยใหม่ด้วยการตั้งค่าบัฟเฟอร์ที่ถูกต้อง

สิ่งที่การเปลี่ยนระดับเสียงทำจริงๆ

เมื่อคุณเพิ่มความเร็วการบันทึกเทป ระดับเสียงจะขึ้น ทำให้ช้า ระดับเสียงลดลง ความสัมพันธ์ระหว่างความเร็วและระดับเสียงนั้นเป็นแนวทางไร้เดียงสา — และมันไร้ประโยชน์สำหรับงานเสียงแบบเรียลไทม์เพราะมันยังยืดหรือบีบเวลา ทำให้คำพูดไม่สามารถเข้าใจได้

การเปลี่ยนระดับเสียงจริงแยกระดับเสียงจากเวลา สัญญาณจะถูกแบ่งออกเป็นส่วนที่ทับซ้อนกันสั้นๆ แต่ละส่วนจะมีการเปลี่ยนความถี่ (ผ่านการจัดการสเปกตรัมในโดเมนความถี่ หรือผ่านเคล็ดลับอัตราการเล่นในโดเมนเวลา) และส่วนต่างๆ จะถูกติดกลับเข้าด้วยกันในเวลาดั้งเดิม ผู้ฟังได้ยินเสียงที่เปลี่ยนระดับเสียงด้วยความเร็วที่คุณพูด

การแยกนี้คือความท้าทายทางเทคนิคทั้งหมด นี่คือเหตุผลที่การเปลี่ยนระดับเสียงคุณภาพสูงมีต้นทุน CPU ที่ไม่เล็กน้อย และเหตุผลที่การใช้งานอื่นๆ ผลิตสิ่งแปลกปลอม “โลหะ” หรือ “หุ่นยนต์” ที่เป็นลักษณะเฉพาะ

Phase Vocoder: อัลกอริธึมที่โดดเด่น

Phase vocoder คืออะไร และเหตุใดจึงสำคัญสำหรับเสียงแบบเรียลไทม์?

Phase vocoder แปลงสัญญาณเสียงเป็นโดเมนความถี่โดยใช้ Short-Time Fourier Transform (STFT) เปลี่ยนแต่ละถังความถี่ด้วยตัวคูณคงที่ (เช่น ×1.189 สำหรับ +3 เซมิโทน เนื่องจาก 2^(3/12) ≈ 1.189) จากนั้นสร้างสัญญาณโดเมนเวลาด้วย STFT ผกผัน เนื่องจากความถี่และเฟสจะติดตามแยกกัน เวลาจึงยังคงคงที่ “เฟส” ในชื่อหมายถึงการติดตามความสอดคล้องของเฟสที่จำเป็นเพื่อหลีกเลี่ยงการทำให้ transient ผลิตภัณฑ์ที่เบลอทั่วหน้าต่าง overlap-add

พารามิเตอร์หลัก:

ขนาดหน้าต่าง FFT — หน้าต่างที่ใหญ่ขึ้นให้ความละเอียดความถี่ที่ดีกว่า (ระดับเสียงที่ดีกว่า) แต่ความล่าช้าเพิ่มเติม หน้าต่าง 2048 พอยต์ที่ 48 kHz เพิ่มความล่าช้าประมาณ 42 มิลลิวินาทีจากหน้าต่างเพียงอย่างเดียว หน้าต่าง 512 พอยต์ลดลงเหลือ ~10 มิลลิวินาที แต่นำเสนอการทำให้ความถี่เบลอมากขึ้น
ขนาด Hop — เท่าไหร่หน้าต่างการวิเคราะห์พัฒนาแต่ละเฟรม Hop ที่เล็กกว่า = ทับซ้อนมากขึ้น = นุ่มลื่นขึ้น แต่ CPU หนักขึ้น
Phase locking — การใช้งานบางอย่างล็อกเฟสของยอดความถี่เข้าด้วยกัน ลดความ “phasiness” บนสระที่ยาวนาน โดยมีต้นทุน CPU เพิ่มเติมเล็กน้อย

สำหรับการใช้งานแบบเรียลไทม์ การแลกเปลี่ยนนั้นตรงไปตรงมา: หน้าต่างที่เล็กกว่าสำหรับความล่าช้าต่ำกว่า หน้าต่างที่ใหญ่กว่าสำหรับคุณภาพ เครื่องมือที่ดีจะเปิดใช้สิ่งนี้เป็นการหมุนคุณภาพ/ความล่าช้าแบบง่ายๆ แทนที่จะเป็นพารามิเตอร์ FFT ดิบ

มีวรรณกรรมวิชาการมากมายเกี่ยวกับการออกแบบ phase-vocoder — บทความพื้นฐานโดย Flanagan และ Golden (1966) และงานในภายหลังโดย Laroche และ Dolson เป็นจุดเริ่มต้นที่ดีหากคุณต้องการเจาะลึก บทความ phase vocoder ของ Wikipedia เป็นภาพรวมที่สมเหตุสมผลเกี่ยวกับคณิตศาสตร์

Time-Domain Pitch Shifting: PSOLA และตัวแปรต่างๆ

ตระกูลอัลกอริธึมอื่นทำงานในโดเมนเวลามากกว่าโดเมนความถี่ ที่พบได้บ่อยที่สุดคือ PSOLA (Pitch-Synchronous Overlap-Add) ซึ่ง:

ตรวจสอบช่วงพื้นฐาน (ช่วงระดับเสียง) ของสัญญาณที่ถูกกำหนดเสียง
สกัดเม็ดข้าวที่มีขนาดช่วงระดับเสียง
ประกอบกลับไปในระยะห่างที่แตกต่างกันเพื่อเปลี่ยนระดับเสียง

PSOLA ส่วนใหญ่มีประสิทธิภาพ CPU และให้ผลลัพธ์ที่ฟังดูมีธรรมชาติมากบนคำพูดเดียวสะอาด — นั่นคือสิ่งที่อุปกรณ์เปลี่ยนเสียงทำให้เกิด มันดิ้นรนกับพยัญชนะที่ไม่มีเสียง (fricatives เช่น /s/ /f/) และอินพุตที่มีเสียงดัง ซึ่งช่วงระดับเสียงไม่ได้กำหนด เครื่องเปลี่ยนเสียงเชิงพาณิชย์จำนวนมากใช้ไฮบริด: PSOLA สำหรับคำพูดที่มีเสียง FFT-based สำหรับทุกสิ่ง

ประเด็นจำนวนมาก: หากคุณได้ยินสิ่งแปลกปลอมเฉพาะบนเสียง sibilant (s sh f th) แต่สระฟังเหมือนสะอาด คุณอาจใช้เครื่องมือที่ใช้ PSOLA หากสิ่งแปลกปลอมมีความสม่ำเสมอมากขึ้น — เงาโลหะทั่วเสียงทั้งหมด — มันอาจเป็นการใช้งาน FFT ที่ง่ายกว่าโดยไม่มีการล็อกเฟสที่เหมาะสม

Semitone: หน่วยที่ถูกต้องสำหรับการเปลี่ยนระดับเสียง

ความถี่วัดเป็น Hz แต่ระยะห่างที่รับรู้ระหว่างระดับเสียงเป็นลอการิทึม เซมิโทนคือ 1/12 ของอ็กเทฟ ตรงกับอัตราส่วนความถี่ 2^(1/12) ≈ 1.0595 ซึ่งหมายความว่า:

เปลี่ยน Semitone	ตัวคูณความถี่	เอฟเฟกต์ที่รับรู้
+1	×1.06	แทบสังเกตไม่เห็น
+3	×1.19	สูงขึ้นเล็กน้อย ยังเป็นธรรมชาติ
+6	×1.41	สูงชัด ขอบเขตกระรอกโดยไม่มีการแก้ไข formant
+12	×2.00	อ็กเทฟเต็มขึ้น — ชัดเจนที่ดำเนินการ
-3	×0.84	ลึกขึ้นเล็กน้อย น่าเชื่อถือ
-5	×0.75	ลึกขึ้นอย่างเห็นได้ชัด ดีสำหรับเสียงวิทยุ
-8	×0.63	ลึกมาก หุ่นยนต์โดยไม่ได้รับการแก้ไข formant
-12	×0.50	อ็กเทฟเต็มลง — ชัดเจนสังเคราะห์

การเปลี่ยนแปลงเสียงที่สมจริงมากที่สุดอยู่ในช่วง ±2 ถึง ±7 เซมิโทน นอกเหนือจากนั้น การชดเชย formant จะมีความสำคัญจริงๆ ในการรักษาผลลัพธ์ให้ฟังดูเหมือนเสียงมนุษย์มากกว่าเอฟเฟกต์หุ่นยนต์

โปรดทราบว่าเครื่องมือจำนวนมากแสดงระดับเสียงในเซมิโทน cent (1/100 เซมิโทน) หรือบางครั้งเป็นอัตราส่วนความถี่ดิบ VoxBooster ใช้เซมิโทนเป็นหน่วยหลัก ซึ่งสัญชาตญาณที่สุดสำหรับงานเสียง

Formant: เหตุใดระดับเสียงเพียงอย่างเดียวจึงไม่เพียงพอ

เมื่อคุณเปลี่ยนระดับเสียงโดยไม่สัมผัส formant คุณจะได้เอฟเฟกต์กระรอกหรือ ogre แบบคลาสสิก นี่คือเหตุผล

เสียงมนุษย์มีส่วนประกอบหลักสองส่วน: แหล่งกำเนิด (การร้องของสายเสียง ซึ่งกำหนดระดับเสียง) และ ตัวกรอง (ช่องว่างที่สั่นพ้องของลำคอและปาก ซึ่งกำหนดสีเสียงสเปกตรัมและกำหนดลักษณะที่รับรู้ของเสียง) ยอดค่าเรโซแนนต์ของตัวกรองเรียกว่า formants

เมื่อระดับเสียงเพิ่มขึ้น 6 เซมิโทน แหล่งกำเนิดจะเคลื่อนขึ้น แต่ vocal tract ไม่เปลี่ยนความยาวทางกายภาพ — ดังนั้น formant จึงยังคงอยู่ที่เดิม ผลลัพธ์ฟังดูผิดเพราะสมองใช้อัตราส่วนระหว่างความถี่พื้นฐานและ formant เพื่อตัดสินขนาดของผู้พูด ความถี่พื้นฐานสูงพร้อม formant ต่ำฟังเหมือนสัตว์เล็ก ๆ ในตัวใหญ่ (กระรอกที่มีลำคอใหญ่)

การแก้ไข Formant จะย้ายยอด formant ตามสัดส่วนกับการเปลี่ยนระดับเสียง เลียนแบบสิ่งที่จะเกิดขึ้นหากบุคคลที่มีสายเสียงสูงขึ้นตามธรรมชาติ (ผู้พูดที่เล็กกว่า) พูดสิ่งเดียวกัน ผลลัพธ์ฟังเหมือนคนที่แตกต่างกันโดยแท้จริง มากกว่าเป็นเวอร์ชันที่ดำเนินการของคุณ

ใน VoxBooster การแก้ไข formant เปิดใช้งานโดยค่าเริ่มต้นเมื่อคุณเลือกพรีเซ็ต และคุณยังสามารถปรับแต่งด้วยตนเองโดยใช้นบ Formant แยกต่างหากพร้อมกับนบ Pitch ทั้งสองสามารถย้ายแยกต่างหาก — มีประโยชน์เมื่อคุณต้องการตัวของเสียงลึกแต่มีระดับเสียงสูงขึ้นเล็กน้อย หรือในทางกลับกัน

ลึกกว่า vs สูงกว่า: การตั้งค่าจริง

ไป Deeper (Masculine Radio Monster)

สำหรับเสียงที่ลึกกว่าซึ่งฟังดูเป็นธรรมชาติ:

Pitch: -3 ถึง -5 เซมิโทน
Formant: -1 ถึง -2 เซมิโทน (เลื่อน formant ลง น้อยกว่า pitch สำหรับผลลัพธ์ที่เป็นธรรมชาติ)
Noise suppression: On — เสียงที่ลึกกว่าเปิดโปงเสียงลมมากขึ้น
Compression: Light (3:1 ratio) เพื่อปรับแต่งพลวัต

ข้อผิดพลาดทั่วไปคือการไปลึกเร็วเกินไป -5 เซมิโทนนั้นแสดงความเปลี่ยนแปลงอย่างมีนัยสำคัญ ที่ -7 หรือต่ำกว่า คุณจึงเกือบต้องหาค่า formant อย่างน้อย -2 เซมิโทนหรือผลลัพธ์ฟังเหมือนถ้ำแทนที่จะลึก

สำหรับเอฟเฟกต์ monster หรือ robot ทั้งหมด คุณต้องการสิ่งแปลกปลอมที่เกินจริง — ดังนั้นปิดใช้งาน formant linking และดันระดับเสียงลง -8 หรือ -10 โปรดดู คู่มือเอฟเฟกต์เสียงหุ่นยนต์ และ โพสต์เอฟเฟกต์เสียงวิทยุ สำหรับพรีเซ็ตเฉพาะ

ไป Higher (Feminine Chipmunk Character)

สำหรับเสียงที่สูงกว่าและเบากว่า:

Pitch: +3 ถึง +6 เซมิโทน
Formant: +2 ถึง +4 เซมิโทน (จับคู่หรือเกินการเปลี่ยน pitch เล็กน้อยสำหรับเสียงผู้หญิง/เด็ก)
Sibilance: ระวังเสียง /s/ ที่เกินจริง — de-esser หรือการตัดความถี่สูงเบาเหนือ 8 kHz ช่วย
Breath noise: ชัดเจนมากขึ้นที่ระดับเสียงสูง ใช้ noise gate

สำหรับเอฟเฟกต์กระรอกโดยตั้งใจ เลื่อนระดับเสียง +8 ถึง +12 พร้อมกับ formant ถูกล็อคหรือเปลี่ยนมากขึ้นน้อย — สถานการณ์ formant ที่ไม่ตรงกันเช่นเดียวกับที่อธิบายไว้ข้างต้น ใช้โดยตั้งใจ ดู เอฟเฟกต์เสียงกระรอก สำหรับขั้นตอนโดยขั้นตอน

ความล่าช้า: สิ่งที่ทำให้เกิดและวิธีลดให้น้อยที่สุด

การเปลี่ยนระดับเสียง Realtime เพิ่มความล่าช้าจากสองแหล่ง: ความล่าช้าอัลกอริธึม (หน้าต่างการวิเคราะห์) และความล่าช้า driver/buffer

Algorithmic delay ไม่สามารถลดได้สำหรับอัลกอริธึมและขนาดหน้าต่างที่กำหนด FFT 512 พอยต์ที่อัตราตัวอย่าง 48 kHz ให้หน้าต่าง ~10.7 มิลลิวินาที เพิ่ม hop 256 ตัวอย่าง และคุณมองความล่าช้าอัลกอริธึม 5-11 มิลลิวินาที ที่ไม่สามารถหลีกเลี่ยงได้ ขึ้นอยู่กับการใช้งาน บางอัลกอริธึมโดเมนเวลาสามารถทำงานที่ความล่าช้าต่ำกว่าเนื่องจากพวกมันประมวลผลเม็ดข้าวที่สั้นกว่า

Buffer delay ขึ้นอยู่กับฮาร์ดแวร์ ที่ buffer 128 ตัวอย่าง (48 kHz) คุณเพิ่ม 2.7 มิลลิวินาทีต่อ buffer ในเชนนั้น สายโดยทั่วไปเกี่ยวข้องกับสองบัฟเฟอร์ (อินพุตและเอาต์พุต) ดังนั้น ~5 มิลลิวินาที Buffer ที่ใหญ่กว่า (1024+ ตัวอย่าง) เสถียรมากขึ้นแต่เพิ่ม ~21 มิลลิวินาทีแต่ละตัว

ความล่าช้ารวมที่สามารถทำได้ในการตั้งค่าที่กำหนดค่าได้ดี: 8–15 มิลลิวินาที VoxBooster ได้รับการออกแบบให้อยู่ต่ำกว่า 10 มิลลิวินาทีของความล่าช้าเพิ่มเติมบนฮาร์ดแวร์ที่สามารถจัดการ buffer low-latency audio capture 128 ตัวอย่าง

เคล็ดลับจริงเพื่อลดความล่าช้าให้น้อยที่สุด:

ตั้งค่าอุปกรณ์เสียง Windows เป็น 48 kHz 24-bit — จับคู่กับอัตราการประมวลผลภายใน VoxBooster
ใช้โหมด low-latency audio capture พิเศษหากการตั้งค่าของคุณอนุญาต
ปิดซอฟต์แวร์เสียงอื่นๆ (DAWs แอปเสียงอื่น ๆ) ที่อาจมีอุปกรณ์เสียง
ปิดใช้งาน Windows audio enhancements บนอุปกรณ์ไมโครโฟนของคุณ (คลิกขวา > Properties > Enhancements > Disable all)
ใช้ชุดหูฟังแบบมีสายแทน Bluetooth — เสียง BT เพิ่ม 40–200 มิลลิวินาทีโดยอิสระจากซอฟต์แวร์

Step-by-Step: การตั้งค่า Pitch Shifting ใน VoxBooster

1. ติดตั้งและเปิด VoxBooster

ดาวน์โหลดจาก voxbooster.com/download และเรียกใช้ตัวติดตั้ง VoxBooster ลงทะเบียนไมโครโฟนเสมือน (อุปกรณ์ low-latency audio capture มาตรฐาน ไม่มีไดรเวอร์เคอร์เนล) ทดลองใช้ฟรี 3 วันให้การเข้าถึงเต็มรูปแบบไปยังเอฟเฟกต์ทั้งหมด รวมถึงการเปลี่ยนระดับเสียงและควบคุม formant

2. เลือกอุปกรณ์อินพุตของคุณ

เปิด VoxBooster และในหน้าต่างหลัก ให้เลือกไมโครโฟนทางกายภาพของคุณเป็นอุปกรณ์อินพุต หากคุณมี mic USB ให้เลือกตามชื่อ หากคุณมีอินเทอร์เฟซเสียง ให้เลือกอินพุต low-latency audio capture สำหรับอุปกรณ์นั้น

3. ปรับระดับเสียงของ Pitch

คลิกแท็บ Voice Effects คุณจะเห็นนบ Pitch (semitone) และนบ Formant ตั้งค่า pitch เป็นค่าเป้าหมายของคุณ — เริ่มต้นด้วย -4 สำหรับเสียงที่ลึกกว่าหรือ +4 สำหรับสัยมากกว่า ปรับ formant ในทิศทางเดียวกันแต่อย่างอื่นน้อยกว่า (เช่น -2 ถึง -3 formant สำหรับ -4 pitch)

มิเตอร์เรียลไทม์แสดงระดับเสียงที่ประมวลผลของคุณ พูดและดูมันตอบสนอง

4. ตั้ง VoxBooster เป็นอินพุตในแอปของคุณ

Discord: Settings > Voice & Video > Input Device > เลือก VoxBooster Virtual Mic ดู คู่มือการตั้งค่า voice changer Discord ทั้งหมด สำหรับสกรีนช็อต

OBS: Sources > Audio Input Capture > เพิ่ม VoxBooster Virtual Mic หรือใช้มิกเซอร์เสียง OBS เพื่อจัดเส้นทางอุปกรณ์ VoxBooster เป็นแหล่งการตรวจสอบ เอกสารประกอบ OBS เกี่ยวกับการตั้งค่าเสียง ครอบคลุมตัวเลือกการจัดเส้นทาง

Game: เกมส่วนใหญ่ใช้อุปกรณ์สื่อสารเริ่มต้น Windows ตั้ง VoxBooster Virtual Mic เป็นอุปกรณ์สื่อสารเริ่มต้นในการตั้งค่าเสียง Windows (คลิกขวาไอคอนลำโพง > Sound settings > Input)

5. ทดสอบและปรับแต่ง

ใช้บอต Echo Test Discord หรือการตรวจสอบ OBS เพื่อได้ยินตัวเอง ปัญหาและแก้ไขทั่วไป:

เสียงหุ่นยนต์/โลหะ: ลดจำนวน pitch shift หรือเปิดใช้งาน formant correction หากปิด
Chipmunk ที่ระดับเสียงสูง: เพิ่มการเปลี่ยน formant เพื่อให้ตรงกันหรือเกิน pitch shift
เอาต์พุตที่มีเสียงดัง: เปิดใช้งาน noise suppression ในเชนเอฟเฟกต์ VoxBooster
Clipping: ลดระดับเสียงไมโครโฟนของคุณใน Windows ตัวจำกัด VoxBooster จะจับยอด แต่คุณต้องการอินพุตสะอาด

6. บันทึก Preset

เมื่อคุณมีการตั้งค่าที่คุณชอบ ให้บันทึก preset ใน VoxBooster เพื่อให้คุณสามารถสลับระหว่างเสียงปกติและเวอร์ชัน pitch-shifted ด้วยคลิกเดียว (หรือ hotkey) ผูกพัน Hotkey นั้นมีประโยชน์โดยเฉพาะในระหว่าง stream

Pitch Shifting vs. Effects Sound อื่น ๆ

Pitch shifting มักรวมกับเอฟเฟกต์อื่น ๆ สำหรับเสียงตัวละครที่สมบูรณ์มากขึ้น นี่คือวิธีการโต้ตอบของเอฟเฟกต์หลัก:

เอฟเฟกต์	ทำสิ่งที่	รวมเข้าด้วยกันดีกับ pitch?
Pitch shift	เปลี่ยนความถี่พื้นฐาน	— (จุดศูนย์กลางของเสียงตัวละครส่วนใหญ่)
Formant shift	เปลี่ยนลักษณะ vocal tract	ควรจับคู่เสมอกับ pitch
Reverb	เพิ่มพื้นที่/พื้นที่	ดีสำหรับเสียงวิทยุ/ผู้ประกาศ
Distortion	เพิ่มความอิ่มตัวกลสวรรค์	ผี/หุ่นยนต์เสียง
Noise gate	ตัดความเงียบ/breath noise	เสมอมีประโยชน์
EQ	เพิ่ม/ตัดวงดนตรี	ปรับแต่งระดับเสียงหลังจาก pitch
Compression	ปรับแต่งพลวัต	Streaming/broadcasting
Noise suppression	ลบเสียงเอาท์พุต	เสมอมีประโยชน์

สำหรับการสำรวจพรีเซ็ต effect เฉพาะ หน้า voice effects มีรายการที่สมบูรณ์ของสิ่งที่ VoxBooster รวม

การเปรียบเทียบเครื่องมือ Vocal Pitch Changer

หากคุณกำลังประเมินตัวเลือก นี่คือการเปรียบเทียบที่ตรงไปตรงมาของเครื่องมือหลักในพื้นที่นี้:

เครื่องมือ	Realtime?	ควบคุม Formant?	Mic เสมือน?	ความล่าช้า	ราคา
VoxBooster	ใช่	ใช่ (อิสระ)	ใช่ (low-latency audio capture)	<10 ms	ทดลองใช้ + ชำระเงิน
Voicemod	ใช่	จำกัด	ใช่	~15–25 ms	Freemium
MorphVOX	ใช่	พื้นฐาน	ใช่	~20 ms	ทดลองใช้ + ชำระเงิน
Clownfish	ใช่	ไม่	ใช่	ตัวแปร	ฟรี
DAW + plugin	ใช่	ขึ้นอยู่กับ Plugin	ผ่าน loopback	5–40 ms	แตกต่าง

DAW (เช่น Reaper หรือ REAPER Lite) ที่มี plugin pitch คุณภาพสูงให้ความยืดหยุ่นสูงสุด แต่ต้องการการตั้งค่าที่มีนัยสำคัญ — การจัดเส้นทางผ่านสายแบบเสมือน การจัดการการกำหนดค่าเซสชัน การเรียกใช้ DAW เต็มรูปแบบในพื้นหลัง สำหรับสตรีมเมอร์และเกมเมอร์ที่ต้องการการตั้งค่าอย่างรวดเร็วและ hotkeys ที่เชื่อถือได้ ซอฟต์แวร์ voice-changer เฉพาะเป็นตัวเลือกที่ปฏิบัติมากขึ้น

ปัญหาทั่วไปและแก้ไข

Pitch shift ฟังดีโดยเฉพาะ แต่เพื่อน Discord ของฉันได้ยิน artifacts Discord ใช้ noise suppression ของตัวเอง (ตามเกณฑ์) สิ่งนี้สามารถโต้ตอบกับเสียง pitch-shifted และเพิ่มสิ่งแปลกปลอมของตัวเอง ปิดใช้งานการประมวลผลเสียงเพื่อให้ Discord (Settings > Voice > Advanced > Noise Suppression > None) และใช้ noise suppression ที่สร้างขึ้นของ VoxBooster

Pitch เปลี่ยน แต่เสียงฟังโพรงหรือ phasey Phase vocoder smearing — ลองลดจำนวน pitch shift เล็กน้อยหรือสลับเป็นโหมดคุณภาพที่แตกต่าง หน้าต่าง FFT ที่ใหญ่กว่า (โหมดความล่าช้าสูง) มักแก้ปัญหานี้ในสระที่ยาวนาน

เสียงของฉันลึกขึ้น แต่ทุกคนยังสามารถบอกว่าเป็นฉัน Pitch shift เพียงอย่างเดียวจึงไม่เปลี่ยนรูปแบบคำพูด cadence หรือ accent สำหรับผลลัพธ์ที่น่าจดจำน้อยกว่า ให้รวม pitch shift กับการแก้ไข formant และ reverb เบา ผู้ใช้บางคนยังแก้ไข speech rhythm อย่างมีจำเจ

มี echo หรือ feedback การตรวจสอบของคุณอาจเปิดใช้งานบนเอาต์พุตเสมือน ปิดใช้งาน listen to this device บน mic เสมือน VoxBooster ในคุณสมบัติเสียง Windows และใช้การตรวจสอบภายใน VoxBooster (ไอคอน headphone)

คำถามที่พบบ่อย

เครื่องเปลี่ยนระดับเสียง vocal คืออะไร?

เครื่องเปลี่ยนระดับเสียง vocal คือซอฟต์แวร์ที่เปลี่ยนความถี่พื้นฐานของเสียงของคุณขึ้นหรือลงแบบเรียลไทม์ โดยไม่เปลี่ยนความเร็วในการเล่น มันทำงานโดยการวิเคราะห์เสียงของคุณ ย้ายแต่ละส่วนประกอบความถี่ และส่งออกผลลัพธ์ด้วยความล่าช้าน้อยที่สุด — โดยทั่วไปต่ำกว่า 10 มิลลิวินาทีในเครื่องมือคุณภาพสูง

ฉันต้องการเซมิโทนเท่าใดจึงจะฟังดูเหมือนคนอื่น?

การเปลี่ยนลง 3 ถึง 5 เซมิโทนทำให้เสียงลึกขึ้น 4 ถึง 6 เซมิโทนขึ้นให้เสียงสูงกว่าและเบากว่า การเปลี่ยนแปลงที่มากกว่า 8 เซมิโทนมักจะฟังดูเหมือนหุ่นยนต์เว้นแต่คุณจะปรับโฟร์แมนต์ด้วย ผลลัพธ์ที่น่าเชื่อถือมากที่สุดอยู่ในช่วง 2 ถึง 6 เซมิโทน

การเปลี่ยนระดับเสียงทำงานได้โดยไม่มีไมโครโฟนเสมือนหรือไม่?

ซอฟต์แวร์สามารถประมวลผลเสียงภายในได้ แต่เพื่อใช้ใน Discord เกม หรือแอปสตรีมมิง คุณต้องมีอุปกรณ์เสียงเสมือน VoxBooster ติดตั้งไมโครโฟนเสมือน low-latency audio capture มาตรฐานที่แอปใดๆ เห็นเป็นอินพุตปกติ — ไม่จำเป็นต้องมีไดรเวอร์เคอร์เนล

การเปลี่ยนระดับเสียงแบบเรียลไทม์จะทำให้ฉันถูกแบนในเกมหรือไม่?

VoxBooster ใช้ low-latency audio capture และลงทะเบียนเป็นไมโครโฟนเสมือนปกติ ดังนั้นระบบต้านโกงจึงไม่เห็นอะไรที่ผิดปกติ ไม่มีไดรเวอร์ระดับเคอร์เนลติดตั้ง ความเสี่ยงโดยพื้นฐานเป็นศูนย์ แม้ว่านโยบายเกมแต่ละรายการเกี่ยวกับการปรับเปลี่ยนเสียงอาจแตกต่างกัน

การแก้ไขโฟร์แมนต์คืออะไรและฉันต้องการหรือไม่?

การแก้ไขโฟร์แมนต์จะปรับความสั่นพ้องของ vocal tract (สีเสียงของเสียง) โดยอิสระจากระดับเสียง โดยไม่ต้องแก้ไข การเปลี่ยนระดับเสียงขึ้นทำให้คุณฟังดูเหมือนกระรอก การเปลี่ยนลงทำให้คุณฟังดูไม่เป็นธรรมชาติและหนาวเย็น การเปิดใช้งาน formant linking จะให้ผลลัพธ์ที่เป็นธรรมชาติและมนุษย์มากขึ้น

ฉันจะลดความล่าช้าเมื่อเปลี่ยนระดับเสียงแบบเรียลไทม์ได้อย่างไร?

ความล่าช้ามาจากขนาดหน้าต่างการวิเคราะห์ (ใหญ่กว่า = ปราศจากสิ่งแปลกปลอม แต่ช้ากว่า) ขนาดบัฟเฟอร์ และค่าใช้จ่าย driver ใช้อินเทอร์เฟซเสียงเฉพาะหรือไดรเวอร์ low-latency audio capture ของเมนบอร์ด รักษาบัฟเฟอร์ VoxBooster ไว้ที่ 128 หรือ 256 ตัวอย่าง และปิดซอฟต์แวร์เสียงหนักอื่นๆ

ฉันสามารถเปลี่ยนระดับเสียงใน Discord โดยไม่มีแอปแยกต่างหากได้หรือไม่?

Discord เองไม่มีฟีเจอร์การเปลี่ยนระดับเสียง คุณต้องใช้ซอฟต์แวร์เฉพาะเช่น VoxBooster ซึ่งจัดเส้นทางเสียงที่ประมวลผลผ่านไมโครโฟนเสมือนที่ Discord เลือกเป็นอินพุต การตั้งค่าใช้เวลาประมาณสองนาที

บทสรุป

การเปลี่ยนระดับเสียงแบบเรียลไทม์เป็นปัญหาที่ได้รับการแก้ไขจากมุมมองทางวิศวกรรม — อัลกอริธึมมีความสุกุม และเข้าใจดี สิ่งที่แยกเครื่องมือที่ดีจากเครื่องมือธรรมชาติคือคุณภาพการใช้งาน: phase coherence handling formant latency management และความราบรื่นของการจัดเส้นทางเสียงเสมือนทำงานกับแอปที่คุณใช้จริง

การทำความเข้าใจพื้นฐาน — semitone เป็นหน่วยที่ถูกต้อง formant เป็นอุปกรณ์เสริมต่อ pitch ขนาดหน้าต่างเป็น latency/quality tradeoff — ให้คำศัพท์แก่คุณในการปรับแต่งการตั้งค่าของคุณอย่างชาญฉลาดมากกว่าเพียงหมุนหมวดมนจนกว่าบางสิ่งบางอย่างจะฟังยอมรับได้

VoxBooster รวมเอนจิน pitch phase-vocoder กับการควบคุม formant อิสระ ไมโครโฟนเสมือน low-latency audio capture และความล่าช้า sub-10 ms ในแพคเกจที่ต้องใช้เวลาประมาณสองนาทีในการตั้งค่า ทดลองใช้ฟรี 3 วันครอบคลุมทุกฟีเจอร์ เพื่อให้คุณสามารถทดสอบการตั้งค่า pitch ทั้งหมดและพรีเซ็ตก่อนตัดสินใจ

ดาวน์โหลด VoxBooster — ทดลองใช้ฟรี 3 วัน Windows 10/11