คำแนะนำการสร้างสรรค์เสียง Erwin Smith

ผู้บัญชาการ Erwin Smith บรรยายเสียงที่มีพลังพลวัตที่สุดในการโจมตีบน Titan โดยมีเสียงที่รู้สึกเหมือนพลังธรรมชาติ — ควบคุมได้ดีดังสนั่นและสามารถรวบรวมหลายพันคนเข้าสู่ความตายที่แน่นอน ไม่ว่าคุณต้องการสร้างสรรค์ความเข้มข้น “เราให้หัวใจของเรา!” สำหรับ Roleplay Discord กิจกรรม cosplay การสตรีมหรือเนื้อหาเสียง AI คำแนะนำนี้แยกรายละเอียดการวิเคราะห์ทางอักษรศาสตร์เสียงที่สมบูรณ์ของเสียง Erwin แผนที่การตั้งค่า DSP เฉพาะครอบคลุมบทเรียนการฝึกอบรมทางกายภาพและเดินผ่านเวิร์กโฟลว์การจำลองเสียง AI บน Windows”

TL;DR

เสียง Erwin เป็น baritone ต่ำที่ควบคุมได้ด้วยส่วนสะท้อนอกที่ยอดเยี่ยมความเร็วที่มีเจตนาและช่วงแรงดลนระเบิดในวลีสำคัญ — ไม่ใช่กลอุบายเสียงตัวละครแต่เป็นทักษะการแสดงที่มีวินัย
การดับเสียงภาษาญี่ปุ่น (Daisuke Ono) นั่งอยู่ที่ประมาณ 100–120 Hz ฐานที่มีการออกเสียงพยัญชนะแบบคม; การดับเสียงภาษาอังกฤษ (J. Michael Tatum) อบอุ่นกว่าและเต็มไปด้วยเล็กน้อยที่ 105–125 Hz
การตั้งค่า DSP: −2 ถึง −4 semitone เปลี่ยนระดับเสียงการเน้นที่ formant อกเบา ๆ การบีบอัดอพยพขนาดกลางพร้อมการโจมตีที่รวดเร็วและการปล่อยตัวช้า
บทเรียนทางกายภาพ — หายใจลงกรงหัวใจการยืดนอตการบิน การบิน ฝึกฝนอย่างเต็มเหนี่ยว — สะพาน ช่องว่างที่ DSP ไม่สามารถครอบคลุมได้
การจำลองเสียง AI สามารถจัดการกับอักษรเสียงแบบละเอียดอ่อนที่การเปลี่ยนระดับเสียงเพียงอย่างเดียวไม่สามารถจำลองซ้ำได้โดยมีเวลาแฝงต่ำกว่า 300ms บน GPU คลาสกลาง
VoxBooster บน Windows รองรับการนำเข้าโมเดล AI กำหนดเส้นทาง low-latency audio capture และการรวมศูนย์ Discord/OBS ที่ไม่ต้องใช้ตัวควบคุมเคอร์เนล

ผู้บัญชาการ Erwin Smith คือใคร?

ผู้บัญชาการ Erwin Smith เป็นผู้บัญชาการคนที่ 13 ของ Survey Corps ใน Attack on Titan ซีรี่ย์การ์ตูนโดย Hajime Isayama และการดัดแปลงอนิเมะ Wit Studio / MAPPA เขาถูกกำหนดโดยความขัดแย้ง: ความโหดร้ายเชิงกลยุทธ์ที่ไม่สั่นคลอนรวมกับเมตตาแท้จริงสำหรับทหารที่ติดตามเขา ปราศรัยของเขา — โดยเฉพาะการชาร์จบน Titan ของสัตว์ร้ายในฤดู 3 — เป็นช่วงเวลาที่ค่อนข้างมากทางอารมณ์ในซีรี่ย์นี้เพราะเสียงของเขาทำให้คุณเชื่อถือในภารกิจแม้เมื่อคณิตศาสตร์มีความชัดเจนว่าเป็นมรณศีล

ความเชื่อถือนั้นไม่ได้เป็นเรื่องบังเอิญ ทั้งนักแสดงเสียงญี่ปุ่น Daisuke Ono และนักแสดงดับเสียงภาษาอังกฤษ J. Michael Tatum สร้างเสียง Erwin รอบตัวเลือกการแสดงเฉพาะที่แปลเป็นคุณสมบัติทางอักษรศาสตร์เสียงที่สามารถระบุได้ที่คุณสามารถวิเคราะห์ฝึกและจำลองได้

การวิเคราะห์ทางอักษรศาสตร์เสียงของเสียง Erwin

ก่อนที่จะสัมผัสการตั้งค่าซอฟต์แวร์ใด ๆ การทำความเข้าใจสิ่งที่คุณพยายามสร้างสรรค์ซ้ำจะป้องกันไม่ให้คุณไล่ตามพารามิเตอร์ที่ผิด

ช่วงพื้นฐานและตำแหน่งอก

เสียงพูดพื้นฐาน Erwin นั่งอยู่ในช่วง baritone ต่ำ — ประมาณ 100–120 Hz ในการแสดง Daisuke Ono ภาษาญี่ปุ่น และ 105–125 Hz ในเวอร์ชัน J. Michael Tatum ภาษาอังกฤษ นี่ไม่ใช่เสียง bass สุดขั้ว พลังไม่ได้มาจากความถี่ใต้ดิน; มันมาจากคำพูดเสียงและตำแหน่ง

ความแตกต่างที่สำคัญ: Erwin ส่งออกจากตำแหน่งอกต่ำที่ผ่อนคลายมากกว่าลำคออัดแน่น นี่จะผลิตพื้นฐานกลมและเต็มไปด้วยโอเวอร์โทนที่สะอาดแทนที่จะเป็นเสียงแหวกแนวและคับแคบที่พยายาม “เสียงลึก” ที่บังคับจะสร้างขึ้น หากพยายามของคุณฟังเหมือนตึงเครียดหรือถูกบังคับคุณกำลังทำงานจากลำคอมากกว่าอก

การออกเสียงที่มีเจตนาและความเร็ว

Erwin พูดด้วยการควบคุมที่มีสติสำหรับทุกคำในฉากบทสนทนา การออกเสียงของเขาชัดเจน — พยัญชนะสะอาดและออกเสียงอย่างเต็มที่ไม่ถูกกลืน ความเร็วของเขามีเจตนา: ช้ากว่าพูดโดยธรรมชาติในช่วงเวลาที่มีกลยุทธ์โดยมีการเน้นน้ำหนักบทเพลงที่ชัดเจนในคำนามสำคัญและคำสั่ง

รูปแบบการออกเสียงนี้เป็นหนึ่งในด้านที่ยากที่สุดในการจับภาพเพราะมันต้องการวินัยการแสดงที่มีสติไม่ใช่แค่การประมวลผลเสียง ซอฟต์แวร์สามารถเปลี่ยนระดับเสียงของคุณได้; ไม่สามารถใส่การหยุดชั่วยนิวัก millisecond ก่อน “มนุษยชาติ” หรือการลดลงของปริมาณเสียงที่ Ono ใช้อย่างมีผลต่อจุดสูงสุดของการเรียกหา-cry ของ Erwin

ช่วงแรงดล Rally Cry

ลำดับที่กำหนดเสียง — billed ชาร์จในฤดู 3 ตอน 17 — สาธิตช่วงแรงดลที่พิเศษ Erwin เริ่มต้นที่ forte ที่ควบคุมได้สร้างการวิวฒนาอย่างระมัดระวังผ่าน crescendo ที่บีบอัดจังหวะของประโยคแล้วปล่อยออกเป็น forte เต็มเสียงบน “เราให้หัวใจของเรา!” โดยที่เสียงเปิดขึ้นและขยายออกมากกว่าการโก่งตัว

นี่คือตรงกันข้ามกับการกรีดร้อง ปริมาณเสียงเพิ่มขึ้นในขณะที่ความตึงเครียดลดลง — อกเปิดการส่งออกขยายตัวเสียงเต็มไปด้วยมากกว่าบางกว่า การบีบอัดหรือการจำกัดใด ๆ ในห่วงโซ่การประมวลผลของคุณต้องการการโจมตีที่รวดเร็ว / ปล่อยตัวช้าเพื่อรักษาการขยายแรงดลนี้มากกว่าการทำให้ราบเรียบ

การตั้งค่า DSP สำหรับเอฟเฟกต์เสียง Erwin

การประมวลผล DSP เพียงอย่างเดียวจะพาคุณเข้าสู่อาณาเขต Erwin อย่างรวดเร็วโดยไม่ต้องการการฝึกอบรมโมเดล การตั้งค่าเหล่านี้ทำงานในตัวแปลงเสียง real-time Windows ที่รองรับการเปลี่ยนระดับเสียง EQ และการบีบอัด

เปลี่ยนระดับเสียง

ประเภทเสียงพูดเริ่มต้น	Semitone เป้าหมาย
Tenor (ชายทั่วไป)	−3 ถึง −4 semitone
Baritone (ชายทั่วไป)	−1 ถึง −2 semitone
Bass (ธรรมชาติ)	0 ถึง −1 semitone
Soprano หญิง	−9 ถึง −11 semitone
Mezzo หญิง	−7 ถึง −9 semitone

ใช้อัลกอริธึมการเปลี่ยนระดับเสียงที่มีคุณภาพสูง — โหมดการรักษาไว้ของ formant ให้ผลลัพธ์ที่เป็นธรรมชาติมากขึ้นกว่าการสลับพื้นฐานของเสียงซึ่งสร้างสิ่งประดิษฐ์ chipmunk-reversal ในการเปลี่ยนขนาดใหญ่

การกำหนดเป้าหมาย Formant

เปิดใช้งานการเน้นของ formant อกหรือค่าตั้งค่า “male voice” ก่อนหากซอฟต์แวร์ของคุณเสนอ เป้าหมายคือการลดลงเล็กน้อยของ formant แรก (F1) และการลดลงต่ำกว่าของ formant ที่สอง (F2) ซึ่งจะทำให้ส่วนสะท้อนเสียง thickens และเพิ่ม “อกหนัก” ลักษณะเฉพาะให้เสียง

หากคุณมี EQ ผลบัญญัติพารามิเตอร์ที่มีให้ใช้ให้ใช้กำลังผลักดัน +2 ถึง +3 dB ที่ประมาณ 150–250 Hz (ส่วนอก) การตัด −1 dB เบา ๆ ที่ประมาณ 3–4 kHz (ลดความหยาบคาย) และการม้วนความถี่สูงเบา ๆ ข้างบน 10 kHz ซึ่งรักษาเสียงให้อบอุ่นและมีอำนาจมากกว่าหยาบหรือสว่าง

การบีบอัด

เสียง Erwin มีช่วงแรงดลแคบในพูดสงบ — อำนาจหมายถึงการควบคุม ใช้เครื่องบีบอัดที่มี:

อัตราส่วน: 3:1 ถึง 4:1
โจมตี: 5–10 ms (เร็วพอที่จะจับแต่งหน้าโดยไม่ฆ่า transients)
ปล่อย: 100–200 ms (ช้าพอที่จะรักษาการขยายแรงดลบนวลี)
เกณฑ์: ตั้งค่าเพื่อให้การลดลงของการรับปะสิทธิ์ทำให้เพดาน ทำให้พูดปกติส่วนใหญ่ไม่ได้รับการประมวลผล
ค่าติดหนึ่ง: +1 ถึง +2 dB หลังการบีบอัดเพื่อบูรณะการแสดงตน

หลีกเลี่ยงการบีบอัดมากเกินไป เสียง Erwin ใช้ช่วงแรงดลของมันเพื่อกำหนดผล เสียงที่บีบอัดมากจะสูญเสียความหลากหลายเชิงกลยุทธ์ที่ทำให้ตัวละครรู้สึกว่าคำนวณมากกว่าหุ่นยนต์

ตัวเลือก: Presence Boost

กำลังดันเบา ๆ ที่ 1–2 kHz เพิ่ม “การส่งออก” — คุณภาพของเสียงที่แบกเสียงใหญ่ชนคนมากมายทั้งบริเวณ ผู้บัญชาการทหาร และผู้พูดที่ได้รับการฝึกอบรมทั้งหมดพัฒนาสิ่งนี้ผ่านการวางตำแหน่งคำพูด; ชั้นเบา ๆ +1.5 dB ที่ 1 kHz ประมาณเป็นอิเล็กทรอนิกส์

บทเรียนการฝึกอบรมทางกายภาพ

DSP ปิดช่องว่าง แต่ไม่สามารถแทนที่คุณภาพของเสียงที่มาจากเทคนิคที่เหมาะสม บทเรียนเหล่านี้โดยตรงพัฒนาคำพูดสะท้อนเสียงกรงหัวใจการควบคุมการหายใจและการออกเสียงที่กำหนดสไตล์การแสดง Erwin

หายใจลงกรงหัวใจ

ปริมาณ Erwin มาจากการสนับสนุนการหายใจไม่ใช่ความตึงเครียดลำคอ นอนลงบนหลังของคุณวางมือหนึ่งบนอกและมือหนึ่งบนท้อง หายใจเข้าช้า ๆ ผลักมือทั้งสองขึ้น สิ่งนี้เปิดใช้งานรูปแบบการหายใจที่ได้รับการสนับสนุนจากกว่างหนาม ฝึกพูดคำพูดที่ยืดหลวก (“AH,” “OH”) ในขณะที่รักษาความรู้สึกของร่างกายต่ำนี้ เป้าหมายคือการรู้สึกการสั่นไหวในกระดูกอกของคุณมากกว่าลำคอของคุณ

ระยะเวลาการบิน: 10 นาทีต่อวันนานสองสัปดาห์เพื่อสร้างรูปแบบหน่วยความจำการผ่อนคลาย

บทเรียนการยืด Vowel

นำสายการแสดงสัญลักษณ์ Erwin — “ถ้าคุณไว้ใจฉันตามตัวฉัน!” — และฝึกฝนกับความเร็วครึ่งหนึ่งปล่อยเวลาแต่ละคำที่ยืดเสียงสำหรับเวลาธรรมชาติสองเท่า สิ่งนี้บังคับให้ระบบรถไฟของคุณเข้าไปในตำแหน่งเปิดและเต็มไปด้วยแทนที่จะเป็นการลดลงของคำพูดการพูดสำหรับพูดพูด หลังจากรุ่นช้ากลับรู้สึกสะดวกให้กลับไปที่ความเร็วปกติ เปิดมักจะนำไปสู่

การส่งออก Sustain

ยืนหันหน้าไปยังผนังที่ระยะห้ามิเตอร์ พูดบรรยาย Erwin ที่ระดับปริมาณเสียงสนทนา — ไม่ดัง — ด้วยความตั้งใจในการทำให้เสียงไปถึงผนังอย่างชัดเจน สิ่งนี้พัฒนาตำแหน่งคำพูดสะท้อนเสียงที่ทำให้เสียงแบกไม่จำเป็นต้องร้องไห้ค่อย ๆ เพิ่มขึ้นเป็นสิบมิเตอร์ การบิน สร้างคำพูดเด้นกลับหน้าคุณภาพมากกว่าความตึงเครียดของการกรีดร้อง

บทเรียน Phrase Architecture

Erwin สร้างแรงดันผ่านการทำซ้ำและการซ้อนกันของจังหวะ ระบุรูปแบบเชิงโครงสร้างในสุนทรพจน์ของการจับเขา: คำให้การ → เข้มข้น → ปล่อย ฝึกฝนการแสดงวลีสามประโยคใด ๆ โดยใช้สถาปัตยกรรมนี้โดยมีความเร็วที่ชัดเจนในจังหวะสุดท้ายก่อนปล่อย สิ่งนี้สร้างสัญชาตญาณการแสดงที่ซอฟต์แวร์ไม่สามารถแทรก

เวิร์กโฟลว์การจำลองเสียง AI

สำหรับความพึงพอใจสูงสุด Erwin ประทับเสียง การจำลองเสียง AI จะจับ timbre เฉพาะรูปแบบคำพูดสะท้อนเสียงและการวัด microarticulations ที่เพียงการเปลี่ยนระดับเสียงไม่สามารถจำลองได้

การเตรียมการเสียงที่มาที่มา

รวบรวม 15–30 นาทีของบทสนทนา Erwin ที่สะอาด ข้อกำหนดวิกฤตคือความแยกทราคเพลงอพยพ OST ไหลเข้าไปในบันทึกฉากจำนวนมากและการฝึกอบรมบนเสียงที่ปนเปื้อนทำให้คุณภาพโมเดลเสื่อมสภาพอย่างเห็นได้ชัด

สำหรับเสียง Daisuke Ono ภาษาญี่ปุ่นบันทึกบทละครแบบแยกหรือรอบเทคเสียงสะอาดจากรุ่น Blu-ray ให้แหล่งที่มาสะอาดที่สุด สำหรับเสียง J. Michael Tatum ภาษาอังกฤษบันทึกการดับเสียงแบบแยกโดยไม่มีเสียงเสียง Japaneseให้ความแยกที่ดีที่สุด พื้นที่เก็บเสียงชุมชนมักมีเวอร์ชันก่อนแยก

แบ่งเสียงออกเป็นคลิปที่ครอบคลุมช่วงอารมณ์ Erwin: บทสนทนาเชิงกลยุทธ์เงียบอำนาจคำสั่ง modulate และเข้มข้นการเรียกหา-cry ยอด โมเดลที่ฝึกฝนเพียงเสียงแต่งตัวจะมีปัญหาในการจำลองแรงดลเรียกซ้ำโดยไม่บิดเบือน

Preprocessing

ก่อนการฝึกอบรม:

Trim ความเงียบที่ขอบเขตคลิป (ปล่อยเวลาการหายใจตามธรรมชาติ 0.2–0.5 s)
ทำให้ปกติ−18 LUFS integrated loudness
ตัวกรองผ่านสูงที่ 80 Hz เพื่อลบเสียงกึ่งหึ่งในห้อง
ตรวจสอบการรั่วไหลของเพลงที่เหลือโดยใช้การวิเคราะห์สเปกตรัมและทิ้งคลิปที่ปนเปื้อน

การฝึกอบรมโมเดลและการนำเข้า

ฝึกอบรมโมเดลผ่านเครื่องมือการแปลงเสียง AI ที่รองรับการนำเข้าโมเดลแบบกำหนดเอง การทำงานของการฝึกอบรมปกติที่ 50.000–200.000 ขั้นตอนขึ้นอยู่กับปริมาณข้อมูล; 15–20 นาทีของเสียงสะอาดโดยทั่วไปจะบรรลุคุณภาพที่ใช้งานได้ที่ 50.000–80.000 ขั้นตอนและคุณภาพยอดเยี่ยมใกล้ 150.000 ขั้นตอน

หลังจากการฝึกแล้วให้ส่งออกโมเดลในรูปแบบดั้งเดิมของเครื่องมือ VoxBooster บน Windows รองรับการนำเข้าโมเดลเสียง AI โดยตรง — วางไฟล์โมเดลลงใน Models ภายในรายการข้อมูล VoxBooster เริ่มต้นแอปพลิเคชันใหม่และจะปรากฏในรายการแบบดรอปดาวน์ของเสียง ไม่มีสภาพแวดล้อม Python ไม่มีการตั้งค่าด้วยตัวเอง ไม่มีตัวควบคุมเคอร์เนล ขนาดเวลาแฝงต่ำกว่า 300ms บน GPU KLASS GTX 1060 ค่อนข้างเร็วพอสำหรับการสนทนา Discord สดเสียบ

การรวม DSP และการแปลง AI

สำหรับผลลัพธ์ที่ดีที่สุดให้ใช้การตั้งค่าระดับเสียงและ EQ DSP ที่อธิบายไว้ข้างต้นเป็นการประมวลผลก่อนลำดับการแปลง AI ของเสียง สิ่งนี้จะทำให้เสียงเข้าสู่การป้อนข้อมูลของคุณเข้าใกล้ช่วง Erwin ลดระยะการแปลงที่โมเดลจะต้องสะพานข้ามและปรับปรุง naturalness ของการส่งออก ประตูเสียง 8–10 dB ก่อนขั้นตอนการแปลงจะลดการรั่วไหลของเสียง Ambient ที่อาจเปลี่ยนโมเดล AI เป็น timbre bizzare

ตั้งค่าสำหรับ Discord และ OBS

การตั้งค่า Discord

ติดตั้ง VoxBooster และตั้งค่าการตั้งค่า Erwin ของคุณ (chuỗi DSP หรือโมเดล AI โหลดและเลือก)
เปิด Discord → การตั้งค่า → เสียงและวิดีโอ
ภายใต้อุปกรณ์อินพุตให้เลือก “VoxBooster Virtual Microphone”
ปิดการใช้งานการปรับปรุงเสียงแบบสร้างในแบบและการยกเลิกการสะท้อนแสง — ขั้นตอนวิธีเหล่านี้ขัดแย้งกับการแปลงเสียง real-time และนำเสนอสิ่งประดิษฐ์ระยะที่ลด output
ตั้งค่าความไว อินพุตเป็นอุปกรณ์ควบคุมด้วยตนเองมากกว่าอัตโนมัติโดยมีเกณฑ์ตั้งค่าภายใต้ระดับเสียงพูดที่ Erwin คาดการณ์ไว้
ทดสอบในเซิร์ฟเวอร์ส่วนตัวหรือเบิ้ล Test Bot ของ Discord ก่อนใช้ในการโทร

การตั้งค่า OBS

ใน OBS ให้เพิ่มแหล่งที่มาของ Capture ของอินพุตเสียง
เลือก “VoxBooster Virtual Microphone” เป็นอุปกรณ์
ในแถบผสมเสียงให้ใช้ตัวกรองประตูเสียง (เกณฑ์ปิด: −50 dB เกณฑ์เปิด: −40 dB) เพื่อป้องกันการรั่วไหลในช่วงความเงียบ
ใช้ตัวกรองคำพูดเล็ก ๆ หรือจำลองห้องหากคุณต้องการคุณภาพ “คำสั่งที่สะท้อนแสง” จากฉากขึ้นเล็ก Erwin — pre-delay สั้น (15–20 ms) และขนาดห้องขนาดเล็กทำงานโดยไม่ทำให้เสียง muddied
ตรวจสอบผ่านหูฟังในระหว่างการทดสอบลำดับเพื่อยืนยันการส่งออก matchs ความตั้งใจของคุณก่อน go live

การเปรียบเทียบ: สไตล์การแสดง Dub ญี่ปุ่นและ vs English

ลักษณะเฉพาะ	Daisuke Ono (JP)	J. Michael Tatum (EN)
ช่วงพื้นฐาน	~100–120 Hz	~105–125 Hz
คุณภาพ Vowel	ปิดมากขึ้นถูกต้อง	เต็มไปด้วยมากขึ้นกลม
ความคมชัดของ consonant	Crisper เพิ่มเติมทางการทหาร	นุ่มสดใจเล็ก ๆ น้อย ๆ
สีสาย Emotional	รถถัง Authority	Gravitas Warmer
ประวัติ Cry Rallye	หนักออกไป	ขยายและพล่อยขึ้น
ความเร็ว	เล็กน้อยเร็วขึ้น	Deliberate เล็กน้อยขึ้น
DSP Pitch Offset	−3 ถึง −4 semitone (hầu hết nam)	−2 ถึง −3 semitone (hầu hết nam)

ไม่มีใครดีกว่า — พวกเขาคือการตีความการแสดงที่แตกต่างกันของตัวละครเดียวกัน เวอร์ชัน Dub ภาษาอังกฤษมักเข้าถึงได้มากขึ้นสำหรับชุมชน Discord และการส่งออกเว็บ Phương; รุ่นญี่ปุ่นมีขอบทางการทหารที่แข็งกว่าที่ชุมชน cosplay และ competitive อาจจะชอบ

การใช้เสียง Erwin สำหรับการส่งออกและ Roleplay

นอกเหนือจากการสร้างสรรค์ทางเทคนิคเสียง Erwin ทำงานในบริบท comity หลายประการ:

ประตูการ Roleplay Survey Corps: อำนาจคำสั่งโครงสร้างของการแสดงของ Erwin เข้ากันได้อย่างสมบูรณ์กับเซิร์ฟเวอร์ Discord ที่ใช้ชุด AOT แนว เสียงจะสร้างความเห็นของตัวละครทันทีโดยไม่จำเป็นต้องมีบริบทภาพ

เนื้อหาปฏิกิริยา Streaming: วลี “เราให้หัวใจของเรา!” เป็นหนึ่งในช่วงเวลาที่ยินดีเป็นปฏิกิริยาในประวัติศาสตร์ anime ธัญชาติของปฏิกิริยาที่ประมวลผลของการขึ้นเหนือฉากดั้งเดิมสร้างค่ามันเฉพาะเพื่อผู้ชมที่คุ้นเคยกับ AOT

เซสชั่น Tabletop RPG: สไตล์ Erwin pads องค์ประกอบเรียบร้อยถึงอาจารย์ทหาร ลูกแม่ที่หลากหลายหรือ NPC ใด ๆ ที่ต้องการ gravitas ที่มีอำนาจ ความเร็วที่วัดได้และการออกเสียงตั้งใจอ่านเป็น “ตัวละครที่สำคัญ” ทั่วการตั้งค่าใด ๆ

เหตุการณ์ Cosplay และฟิบตา: ประทับเสียงสด จะเป็นหนึ่งในชิ้นส่วนที่ยากจำของ cosplay ตัวละครใด ๆ ด้วยการตั้งค่า DSP คา Dial ผ่าน VoxBooster คุณสามารถเรียกใช้ประทับในแล็ปท็อป Windows โดยไม่มีการแบกฮาร์ดแวร์เสียงแต่งเฉพาะ

จริยธรรมและทำให้อนุมัติเนื้อหา

Voicepressions ของตัวละคร anime ไม่ได้โครง ผู้ใช้ไม่ใช่ตำแหน่งการใช้ประแบบประเพณีที่ถือวางในชุมชนกันกระเหม่ง สำหรับการใช้งานแบบโต้ตอบสด — Discord การสนทนาเซสชั่นเล่นเกมเหตุการณ์ conv — มีการศึกษาจริยธรรมตัวตนชัดเจนเมื่อบริบทเรียกร้อง (จะไม่มีเบิ้ลแฝงตัวตนผ้อง)

สำหรับเนื้อหาเข้ากันได้ หลีกเลี่ยงการสร้างเนื้อหาที่อาจเข้าใจผิดสำหรับวัสดุทั่วไปหรือที่แสดงรูปตัวละครให้หลากหลายข้อความกับแหล่ง workจ้ างใด ๆ ในบริบทที่อาจหลอกล่วง nonguise ผู้ชม

สำหรับการใช้งานเชิงพาณิชย์ใด ๆ ของเนื้อหาเสียงที่ mirror ตรงประสิทธิสรุปการแสดงที่แท้จริงของ Daisuke Ono หรือ J. Michael Tatum โปรดปรึกษากรอบไมล์ป้าย ตัวละครและสิทธิ์ aktor เสียงที่เกี่ยวข้องก่อนเผยแพร่ พื้นที่กันหญิงสร้างสรรค์คณะใหญ่; ขอบเขตประเพณีเรียกร้องความเอื้อเฟื้อยิ่งขึ้น

คำถามที่พบบ่อย

อะไรที่ทำให้เสียง Erwin Smith แตกต่างโดยอักษรศาสตร์เสียงจากตัวละครอื่น ๆ ของ AOT?

เสียง Erwin นั่งอยู่ในช่วง baritone ต่ำที่ควบคุมได้ดีกับการออกแบบเสียงที่ยอดเยี่ยมและการเสียงที่น้อยที่สุด ต่างจากความตึงเครียด hoarse ของ Levi หรือความเข้มข้นดิบของ Eren Erwin ส่งออกอำนาจที่มีเจตนา — แต่ละคำจะลงจอด ด้วยน้ำหนักเชิงกลยุทธ์ และส่วนสะท้อนมาจากตำแหน่งอกไม่ใช่ความตึงเครียดลำคอ

ฉันต้องเปลี่ยน semitone กี่อันเพื่อให้ฟังเหมือน Erwin?

เสียงชายส่วนใหญ่ต้องการการเปลี่ยน −2 ถึง −4 semitone เพื่อเข้าถึงช่วงพื้นฐานของ Erwin การแสดง Daisuke Ono ภาษาญี่ปุ่นนั่งอยู่ที่ประมาณ 100–120 Hz พื้นฐาน; การดับเสียง J. Michael Tatum ภาษาอังกฤษจะอบอุ่นกว่าเล็กน้อยที่ 105–125 Hz ผู้หญิงเปลี่ยนสำหรับ Erwin มักต้องการ −8 ถึง −10 semitone รวมกับการกำหนดเป้าหมาย formant อก

ฉันสามารถใช้ mod เสียง Erwin Smith บน Discord ได้หรือไม่โดยไม่มีตัวควบคุมเคอร์เนล?

ใช่. VoxBooster กำหนดเส้นทางเสียงผ่าน API Windows low-latency audio capture ทั้งหมดโดยไม่มีตัวควบคุมเคอร์เนลดังนั้นจึงปลอดภัยเคียงข้างระบบป้องกันการโกง บน Discord เพียงแค่เลือก VoxBooster Virtual Microphone เป็นอุปกรณ์อินพุตในการตั้งค่าเสียงและวิดีโอ

ฉันต้องมีเสียงที่บริสุทธิ์มากแค่ไหนเพื่อฝึกอบรมโมเดลเสียง AI ของ Erwin?

โมเดลที่ใช้งานได้ต้องใช้เวลา 15–30 นาทีของการพูดที่แยกออกมาแบบสะอาด — ไม่มีดนตรีพื้นหลังหรือเสียงประสิทธิ์ AOT OST tracks ไหลเข้าไปในการบันทึกฉากจำนวนมากดังนั้นการหาแหล่งที่มาบันทึกการดับเสียงแยกหรือการขูดเสียงสะอาดจึงเป็นสิ่งสำคัญ ข้อมูลเพิ่มเติมที่ครอบคลุมทั้งความเงียบที่วัดได้ของ Erwin และความเข้มข้นของการเรียกหารวบ-cry ที่เต็มไปด้วยจะสร้างโมเดลที่หลากหลายมากขึ้น

เป็นการจำลองเสียง Erwin ตามกฎหมายสำหรับการสตรีมส่วนบุคคลและการใช้งาน Discord?

สำหรับการใช้งานแฟนที่ไม่ใช่เชิงพาณิชย์ — การสตรีม การเล่นเกม Roleplay Discord — การบังคับใช้กับเสียงลักษณะเต็มตัวของตัวละครเกมประมาณน้อย สำหรับโครงการเชิงพาณิชย์เนื้อหาที่ทำให้เกิดรายได้หรือผลิตภัณฑ์ใด ๆ โปรดตรวจสอบแนวทางใบอนุญาตตัวละครของ Wit Studio MAPPA และ Funimation/Crunchyroll ก่อนเผยแพร่

ความแตกต่างระหว่างบทเรียนการฝึกอบรมและการตั้งค่า DSP สำหรับการสร้างสรรค์เสียงคืออะไร?

การตั้งค่า DSP (ปรับการเปลี่ยนระดับเสียง การบีบอัด EQ) ใช้การแปลงอิเล็กทรอนิกส์กับเสียงของคุณในซอฟต์แวร์ บทเรียนการฝึกอบรมคือการออกกำลังกายเสียงที่เปลี่ยนรูปคืนมูลของคุณ — การหายใจในกรงหัวใจ การยืดนอตการบิน การบิน ฝึกฝนอย่างเต็มเหนี่ยว ผลลัพธ์ที่ดีที่สุดรวมทั้งสองอย่าง: การบิน นำเสียงธรรมชาติของคุณเข้าใกล้เป้าหมายมากขึ้น DSP ครอบคลุมช่องว่างที่เหลือ

การจำลองเสียง AI ต้องการการใช้ GPU สำหรับการใช้งาน real-time หรือไม่?

สำหรับการแปลงเสียง AI real-time GPU (GTX 1060 หรือดีกว่า) จะลดขนาดเวลาแฝงลงไปจำนวน 300ms ซึ่งเป็นเกณฑ์ปฏิบัติสำหรับการใช้งานสด การอนุมานเฉพาะ CPU เพิ่ม 500–800 ms ทำให้มันจึงใช้ได้เฉพาะกับวินัยการพูดแบบดัน-เพื่อคุย การสร้างข้อความเป็นเสียงสำหรับคลิปและ voiceovers ทำงานได้ดีบน CPU เพราะการเล่นสดไม่จำเป็น

การรักษา Erwin เสียง Smith เป็นจำนวนมากเป็นทักษะการแสดงเช่นการบิน เทคนิค การตั้งค่า DSP ช่วยให้คุณเป็นพื้นฐานความถี่; ตัดสินใจการบิน ให้คุณเทคนิคทางกายภาพที่ทำให้ประทับรู้สึกอยู่อาศัยแทนการประมวลผล สำหรับตัวละครเสียงเต็มโปร — microexpressions ในการแสดง Ono ส่วนสะท้อนเสียงเฉพาะในประสิทธิการแสดง Tatum — การจำลองเสียง AI ปิดที่มีขนาดสุดท้ายไม่มีพารามิเตอร์ใด ๆ สามารถ cách เลียนแบบ หากคุณต้องการไปนอกเหนือประทับตัวละครเดี่ยวโปรดตรวจสอบคำแนะนำ anime voice changer ครอบคลุมเวิร์กโฟลว์กว้างขึ้นและเสม epic narrator voice ใช้วิธีอาการเกี่ยวข้องสำหรับการสร้าง การแพร่กระจายหัวใจและชอบอำนาจ ตัวจากเศษศิษย์

เริ่มการทดลองใช้ฟรีของ VoxBooster — Windows 10/11 ไม่มีตัวควบคุมเคอร์เนล AI cloning ต่ำกว่า 300ms low-latency audio capture ฉาย ฟรีสำหรับ 3 วันจากนั้นจาก $6.99/เดือน