ตัวเปลี่ยนเสียง + Runway Act-One: เวิร์กโฟลว์ที่สมบูรณ์สำหรับภาพยนตร์สั้น AI
คุณสมบัติ Act-One ของ Runway ML ได้เปลี่ยนสิ่งที่ผู้สร้างโซโล่สามารถบรรลุได้ บันทึกวิดีโอของคุณแสดง ฉาก — เพียงกล้องโทรศัพท์และแสงสลวยธรรมชาติ — และ Act-One แมปการแสดงใบหน้าของคุณลงบนตัวละครใด ๆ ในวิดีโอที่สร้างขึ้น ส่วนที่ขาดหายไปสำหรับผู้สร้างภาพยนตร์ indie มากที่สุดคือเสียง: Act-One จัดการใบหน้า แต่เสียงที่ออกมาจากปากคุณยังคงฟังเหมือนคุณ
ตัวเปลี่ยนเสียงแบบเรียลไทม์ปิดช่องว่างนั้น บันทึกวิดีโออ้างอิงของคุณโดยแปลงเสียงแล้ว และคลิปผลลัพธ์จะมีเสียงตัวละครฝังไว้ — ไม่มีการประมวลผลหลัง ไม่มีเซชันแล้ว
คำแนะนำนี้เดินผ่านเวิร์กโฟลว์ที่สมบูรณ์: การเลือกตั้งค่าเบื้องต้นตามต้นแบบตัวละคร การตั้งค่าห่วงโซ่เสียงเพื่อให้ Runway จับภาพได้อย่างสะอาด และประกอบทุกอย่างในตัวแก้ไขวิดีโอสำหรับการแจกจ่าย
TL;DR
- Runway Act-One อ่านการเคลื่อนไหวใบหน้าจากวิดีโออ้างอิงและแมปไปยังตัวละครที่สร้างขึ้น
- ตัวเปลี่ยนเสียงแบบเรียลไทม์ที่ทำงานผ่านไมโครโฟนเสมือนช่วยให้คุณบันทึกวิดีโออ้างอิงด้วยเสียงตัวละครที่นำไปใช้แล้ว
- เสียงจากการบันทึกอ้างอิงของคุณจะกลายเป็นเสียงโต้ตอบสุดท้าย — Act-One ไม่สัมผัสเสียง
- จับคู่ตั้งค่าเบื้องต้นเสียงของคุณกับต้นแบบตัวละครของคุณก่อนที่คุณจะบันทึก
- ไมโครโฟนเสมือน low-latency audio capture ของ VoxBooster ได้รับการยอมรับจาก OBS ซอฟต์แวร์เว็บแคม และตัวบันทึกหน้าจอโดยไม่ต้องติดตั้งไดรเวอร์
- การประกอบสุดท้ายตรงไปตรงมา: นำเข้าผลลัพธ์วิดีโอ Act-One ซิงค์เสียงที่ประมวลผล ระดับสี และส่งออก
Runway Act-One คืออะไร
Runway ML เป็นแพลตฟอร์ม AI กำหนดที่ใช้โดยผู้สร้างภาพยนตร์ สตูดิโอ VFX และผู้สร้างเนื้อหาสำหรับงานสร้างวิดีโอและแก้ไข Act-One เป็นคุณสมบัติเฉพาะที่ดำเนินการถ่ายโอนการเคลื่อนไหวใบหน้า: วิเคราะห์วิดีโออ้างอิงของนักแสดงมนุษย์และ drives การเคลื่อนไหวใบหน้าของตัวละครในคลิปผลลัพธ์ที่สร้างขึ้น
เวิร์กโฟลว์นี้แตกต่างจากข้อความ-เป็นวิดีโอบริสุทธิ์ แทนที่จะอธิบายการเคลื่อนไหวในพรอมต์ คุณจึงเป็นรูปธรรม ลักษณ์ยกของคุณ ลิปซิงค์ และการเอียงศีรษะกลายเป็นการแสดงออกของตัวละคร สิ่งนี้ทำให้เกิดภาพเคลื่อนไหวที่เป็นธรรมชาติและมีความเชื่อมโยงทางอารมณ์มากขึ้นกว่าการสร้างแบบพรอมต์เท่านั้น เนื่องจากแหล่งที่มาของความจริงคือข้อมูลประสิทธิการณ์ของมนุษย์ที่แท้จริง
Act-One เข้าร่วมกับชุดเครื่องมือที่กว้างขึ้น — รวมถึง Runway Gen-4 เครื่องมือหน้าจอสีเขียว และการวาดภาพใหม่ —ที่ร่วมกันทำงานเป็นท่อสายผลิตการผลิตที่สมบูรณ์สำหรับภาพยนตร์ที่มีความช่วยเหลือจาก AI
เหตุใดเสียงจึงเป็นชั้นที่มองข้าม
เมื่อผู้สร้างเนื้อหาครั้งแรกพยายาม Act-One ผลลัพธ์โดยทั่วไปจะมีความประทับใจทางภาพ แต่รบกวนโดยเสียง ใบหน้าตัวละครเคลื่อนไหวด้วยความเป็นตัวละครของนักแสดง แต่เสียงที่บันทึกไว้นั้นดิบ — ทิมเบอร์มนุษย์ตามธรรมชาติ ไม่มีการแปลง — และวางไว้ใต้วิดีโอที่สร้างขึ้น การหยุดชะงักนั้นทันที
การแก้ไขแบบธรรมชาติคือการประมวลผลเสียงหลังการผลิต: บันทึกสะอาด จากนั้นเรียกใช้เสียงผ่านเอฟเฟกต์ตรรมชาติ นี่ทำงาน แต่มันสร้างปัญหาการซิงโครไนซ์ Lip sync ใน Act-One ขึ้นอยู่กับวิดีโออ้างอิง หากคุณบันทึกการแสดงที่ละเอียด จากนั้นเพิ่มการประมวลผลเสียงหนักตรรมชาติ — การยืดเสียง การเพิ่ม formant-shift — การเคลื่อนไหวของปากบนตัวละครจะไม่ตรงกับเสียงที่ประมวลผลอีกต่อไป
การบันทึกด้วยตัวเปลี่ยนเสียงที่นำไปใช้ในเวลาจริงแก้ปัญหานี้ คุณได้ยินเสียงที่แปลงไปแล้วในหูฟังของคุณขณะแสดง ซึ่งจึงทำให้การเคลื่อนไหวของปากและจังหวะของคุณสอดคล้องกับเสียงที่ประมวลผล Act-One จับการเคลื่อนไหวที่ปรับ Result คือ lip sync ที่แคบกว่าในผลลัพธ์ที่สร้างขึ้น
Runway Act-One อ่านวิดีโออ้างอิงอย่างไร
การทำความเข้าใจรูปแบบอินพุตช่วยให้คุณบันทึก footage อ้างอิงที่ดีขึ้น
Act-One ดำเนินการตามด้วยใบหน้าบนคลิปอ้างอิง มันคาดหวัง:
- มุมด้านหน้าหรือเกือบด้านหน้า — โปรไฟล์ลดความแม่นยำลงอย่างมาก เป้าหมายสำหรับใบหน้าของคุณกึ่งกลางในกรอบ กล้องที่ระดับตา
- การส่องสว่างที่สม่ำเสมอ — เงาที่รุนแรงข้ามจมูกหรือตาจะขัดขวางการตรวจหา landmark แสงด้านหน้ามีมากเหลือเฟือ (แสงแหวน แสงหน้าต่าง) เหมาะสำหรับ
- การเคลื่อนไหวพื้นหลังขั้นต่ำ — บุคคลเดินด้านหลังคุณหรือวัตถุเคลื่อนไหวสามารถสับสนตามด้วย
- ความสามารถในการมองเห็นตัวอักษรที่ชัดเจน — หนวดและไมโครโฟนหน้าปากลดระดับความสัตยสูตรของ lip sync
- 720p หรือสูงกว่า 24fps หรือ 30fps — ความละเอียดต่ำลงจะลดความแม่นยำการติดตาม
- ตู้ MP4 — เชื่อถือได้มากที่สุดสำหรับไปป์ไลน์การอัพโหลด MOV ยังทำงานด้วย
- ต่ำกว่า 30 วินาทีต่อ shot — Act-One ประมวลผลอย่างมีประสิทธิที่ความยาวนี้; ยาวกว่าคลิปเป็นไปได้แต่ให้เวลาคิวการสร้างมากขึ้น
เสียงในวิดีโออ้างอิงไม่ได้วิเคราะห์โดย Act-One นั้นเอง การสร้างจะขับเคลื่อนอย่างสมบูรณ์ด้วยข้อมูลภาพ นี่หมายความว่าการส่งออกของตัวเปลี่ยนเสียงในเสียง trackyour ไม่มีเอฟเฟกต์ศูนย์ต่อคุณภาพของภาพเคลื่อนไหวใบหน้า — ทั้งสองชั้นนั้นเป็นอิสระโดยสิ้นเชิง
ตัวละครต้นแบบและการจับคู่ตั้งค่าเบื้องต้นเสียง
ภาพยนตร์ Act-One ที่เข้มแข็งที่สุดมีความเหมือนกันเสียง: เสียงตรงกับตัวละครก่อนที่บรรทัดโต้ตอบเดี่ยวจะถูกเขียน นี่คือคำแนะนำการจับคู่ที่ใช้ได้จริง
| ต้นแบบตัวละคร | การบำรุงรักษาเสียงที่แนะนำ | หมายเหตุ |
|---|---|---|
| สงครามข้อแขนเกราะ / อัศวิน | Pitch ลง 3-5 semitone + reverb ห้องไฟ | เพิ่มน้ำหนัก reverb เลียนแบบการสั่นพ้องของหมวก |
| สิ่งมีชีวิตหลอกลวง / ธรรมชาติ | การมอดูเลตเสียงช้า + formant ขึ้น | สร้างพื้นผิวที่ไม่สวสติจิต มิใช่ของโลกนี้ |
| หุ่นยนต์ / การก่อสร้าง AI | Vocoder แข็ง หรือตั้งค่าเบื้องต้น bit-crush | ทำงานดีที่สุดที่มีการส่งมอบที่เรียบ จงใจ |
| ความชั่วร้ายโบราณ / วายร้าย | Pitch ลงหนัก + วงจร suttle | Chorus เพิ่มความรู้สึกของหลายเสียง |
| วีรบุรุษหนุ่ม / ผู้ถูกเลือก | Pitch ขึ้นเล็กน้อย + การประมวลผลขั้นต่ำ | ความรักษาช่วงอารมณ์; อย่าประมวลผลเกินไป |
| ทูตพฤหัสบดี | Formant shift + ความกว้าง stereo ไฟ | ความสมบูรณ์ของวาจาปลอดภัยระหว่างการฟังดูไม่ใช่มนุษย์ |
| ผู้บอกเล่า / นายทำนาย | Pitch ลง 2 semitone + ความยาว reverb ยาว | ตัวหนังสารคดีที่ยิ่งใหญ่ |
ตารางเป็นจุดเริ่มต้น ไม่ใช่กฎ ผสมตั้งค่าเบื้องต้นและวางใจหูของคุณระหว่างการแสดง หากเสียงรู้สึกถูกต้องผ่านหูฟังของคุณระหว่างที่คุณแสดง มันจะรู้สึกถูกต้องในภาพยนตร์สุดท้าย
การตั้งค่าห่วงโซ่เสียง
เป้าหมายคือเสียงที่ประมวลผลเส้นทางไปยังซอฟต์แวร์บันทึกของคุณ (สำหรับ trackaudio วิดีโออ้างอิง) และหูฟังการตรวจสอบของคุณ (เพื่อให้คุณได้ยินตัวเองในอักขระขณะแสดง)
ขั้นตอนที่ 1 — ติดตั้งและกำหนดค่าตัวเปลี่ยนเสียง
ติดตั้ง VoxBooster บน Windows 10 หรือ 11 ไม่จำเป็นต้องใช้ไดรเวอร์เคอร์เนล — ไมโครโฟนเสมือน low-latency audio capture ปรากฏในการตั้งค่าเสียง Windows เป็นอุปกรณ์อินพุตมาตรฐานภายในสองสามวินาทีจากการเปิดตัวครั้งแรก
เปิด VoxBooster เลือกไมโครโฟนของคุณเป็นแหล่งอินพุต และเลือกตั้งค่าเบื้องต้นจากตารางต้นแบบด้านบน ตรวจสอบว่าเสียงไปยัง VoxBooster Virtual Mic ในตัวเลือกผลลัพธ์
ขั้นตอนที่ 2 — ตั้งค่าการตรวจสอบ
ในการตั้งค่า VoxBooster ให้เปิดใช้งานการตรวจสอบหูฟัง ตอนนี้คุณควรได้ยินเสียงที่เปลี่ยนแปลงในเวลาจริงผ่านหูฟังของคุณ ความล่าช้าสำหรับตั้งค่าเบื้องต้น DSP น้อยกว่า 20ms — ไม่สามารถรับรู้ได้ระหว่างการแสดง โหมดการสหายลายน้ำ AI voice cloning เพิ่มหน้าต่างการประมวลผลสั้น (ต่ำกว่า 300ms end-to-end) ซึ่งผู้แสดงบางคนอาจรู้สึกสับสนเล็กน้อยในตอนแรก ; แบบฝึกหัดไม่กี่บรรทัดก่อน shot
ขั้นตอนที่ 3 — กำหนดค่าซอฟต์แวร์บันทึก
เปิดตัวบันทึกหน้าจอหรือแอปเว็บแคมของคุณ (OBS Windows Camera Loom หรือคล้ายกัน) ในการตั้งค่าการป้อนเสียง เลือก VoxBooster Virtual Mic แทนไมโครโฟนของคุณ นี่ช่วยให้การบันทึกจับเสียงที่ประมวลผล ไม่ใช่อินพุตดิบ
หากคุณใช้ OBS:
- ในแหล่ง ให้เพิ่มแหล่งจับเสียงอินพุท
- ในคุณสมบัติแหล่ง เลือก VoxBooster Virtual Mic จากดรอปดาวน์อุปกรณ์
- เพิ่มแหล่ง Capture Device Video ชี้ไปที่เว็บแคมของคุณ
- เริ่มการบันทึก ทั้งสองสตรีมเขียนไปยังไฟล์ผลลัพธ์เดียวกัน
ขั้นตอนที่ 4 — บันทึกภาพยิงอ้างอิง
ให้ยิง ช่วง — 10 ถึง 25 วินาที คือจุดหวานสำหรับ Act-One แสดงเป็นธรรมชาติ รักษาการติดต่อสายตาด้วยเลนส์กล้อง พูดบทสนทนาพร้อมความทุ่มเท ทั้งหมด Act-One อ่านความเข้มข้นของอารมณ์ผ่านการเคลื่อนไหวกล้ามเนื้อใบหน้า
หลังจากบันทึก ตรวจสอบไฟล์ผลลัพธ์: track เสียงต้อง กี่เรื่องหาเสียง ไม่ใช่ feed microphone ดิบ วางไฟล์กลับในหน่วยแสดง ก่อนการอัพโหลดไปยัง Runway
การอัพโหลดไปยัง Runway Act-One และการสร้างเสียงผลลัพธ์
ลงชื่อเข้าใช้บัญชี Runway ของคุณและนำทางไปยังคุณสมบัติ Act-One อินเตอร์เฟซขอสองอินพุต:
- วิดีโออ้างอิง — ภาพยิงประสิทธิการณ์บันทึกของคุณพร้อมเสียงที่ประมวลผล
- ตัวละครแหล่ง — ภาพที่สร้างจาก Gen-4 อักษรที่อัพโหลด หรือผลลัพธ์ที่สร้างไว้ก่อนหน้านี้
อัพโหลดวิดีโออ้างอิง Act-One ทำให้ข้อมูลการเคลื่อนไหวใบหน้าในการผ่านการวิเคราะห์ของมัน จากนั้นเลือกหรือสร้างตัวละครของคุณ กำหนดค่าการตั้งค่าการสร้าง (อัตราส่วนลักษณ์ แนวทางรูปแบบ ความต้องการลำดับคำใด ๆ สำหรับสภาพแวดล้อมฉาก)
ส่งการสร้าง ระยะเวลาคิวแตกต่างกันไปตามแผนและการโหลดแพลตฟอร์ม ในขณะที่รอ คุณสามารถเตรียมทรัพยากรหลังการผลิต: องค์ประกอบเอกสารฉาก การ์ดชื่อ หรือทรัพยากรเพลงใด ๆ
เมื่อดาวน์โหลดคลิปผลลัพธ์ มันมีวิดีโอตัวละครที่นำเสนอโดยการแสดงของคุณ เสียงในไฟล์ที่ดาวน์โหลดอาจนิ่ง หรืออาจมีเสียงอ้างอิงของคุณผ่านการขึ้นอยู่กับเวอร์ชัน pipeline Runway ไม่ว่าจะเป็นกรณีใด ขั้นตอนต่อไปคือตัวแก้ไขวิดีโอ ซึ่งคุณจะประกอบโครงสร้างสัมพัทธ์สุดท้าย
ประกอบหลังการผลิต
เปิดตัวแก้ไขวิดีโอของคุณ (DaVinci Resolve Premiere Pro CapCut หรือ NLE ใด ๆ) สร้างโครงการใหม่ที่ตรงกับ specs ผลลัพธ์เป้าหมายของคุณ (โดยปกติ 1920×1080 หรือ 1080×1920 สำหรับแนวตั้ง 24fps)
การจัดวาง track:
| Track | เนื้อหา |
|---|---|
| V1 | วิดีโอตัวละครที่สร้างโดย Act-One |
| V2 | แผ่นพื้นหลังหรือวิดีโอสภาพแวดล้อม |
| A1 | เสียงที่ประมวลผลจากการบันทึกอ้างอิง |
| A2 | เพลง / เสียงรอบข้าง |
| A3 | ชั้น SFX ตัวเลือก |
ซิงค์เสียงที่ประมวลผลจากการบันทึกอ้างอิงของคุณกับวิดีโอตัวละครใน V1 เนื่องจากคุณบันทึกเสียงและวิดีโอพร้อมกันในภาพยิงอ้างอิง การซิงค์ก็แย่มาก — คุณไม่ควรปรับด้วยตนเองเว้นแต่ไปป์ไลน์การอัพโหลดจะตัด ไม่กี่เฟรม
เพิ่มแผ่น สี grade ตัวละครคลิปให้ตรงกัน และผสมเสียง ส่งออกที่ H.264 หรือ H.265 สำหรับการอัพโหลดไปยัง YouTube TikTok หรือ Instagram
ปัญหาทั่วไปและการแก้ไข
ผลลัพธ์ Act-One มีการเคลื่อนไหวใบหน้าที่กำบัง หรือต่างออกไป โดยปกติเกิดจากปัญหาการติดตามในวิดีโออ้างอิง ตรวจสอบความสม่ำเสมอของการส่องสว่างและตรวจสอบว่าไม่มีเงาที่รุนแรงข้ามใบหน้า บันทึกซ้ำด้วยแหล่งแสงที่นุ่มนวล
Lip sync ลอยในวิดีโอที่สร้างขึ้น ยืนยันว่าเสียงและวิดีโออ้างอิงของคุณบันทึกพร้อมกันและซิงค์ก่อนการอัพโหลด การลอยในไฟล์แหล่ง จะขยายในผลลัพธ์ หากคุณบันทึกเสียงแยกต่างหากและรวมเข้า ให้ แน่ใจว่าการผสานขั้นไป ฟ้องแม่นยำกรอบ
ตัวเปลี่ยนเสียงเพิ่มความล่าช้าที่ได้รับการสังเกตในระหว่างการแสดง ตั้งค่าเบื้องต้น DSP ทำงาน ต่ำกว่า 20ms และโดยพื้นฐานแล้วไม่สามารถรับรู้ได้ หากคุณสังเกตเห็นหน่วงเวลา ตรวจสอบว่าขนาดบัฟเฟอร์อินเตอร์เฟซเสียงของคุณได้รับการตั้งค่าสูงเกินไป — ลดบัฟเฟอร์ low-latency audio capture ในซอฟต์แวร์บันทึกเป็น 128 หรือ 256 ตัวอย่าง
เสียงที่ประมวลผลฟังเหมือนถูกบีบอัดมากเกินไปหรือบิดเบี้ยวในคลิปสุดท้าย Gain staging ของตัวเปลี่ยนเสียงของคุณอาจร้อนเกินไป ลดระดับเสียงใน VoxBooster จนกว่าจุดสูงสุดของสัญญาณประมาณ -6 dBFS นี่จะทำให้มีห้องสำหรับการประมวลผลเสียงของตัวแก้ไขวิดีโอ
Act-One ไม่ยอมรับวิดีโออ้างอิงที่อัพโหลด ตรวจสอบว่าไฟล์เป็น MP4 (H.264) ความละเอียดขั้นต่ำ 720p และระยะเวลา ต่ำกว่าขีด จำกัด ที่จัดทำเอกสารของแพคเกจ Runway ของคุณ ทำให้อักษรอีกครั้งด้วย HandBrake หากซอฟต์แวร์การบันทึกแบบดั้งเดิมทำให้ตู้ที่ผิดปกติ
รายการตรวจสอบการผลิตที่สมบูรณ์
ใช้รายการนี้ต่อฉากก่อนการอัพโหลดไปยัง Runway
- ตั้งค่าเบื้องต้นเลือกและแสดงความเป็นอักษร
- การตรวจสอบหูฟัง (ได้ยินเสียงที่แปลงแล้ว)
- ซอฟต์แวร์บันทึกตั้งค่า ไปยัง VoxBooster Virtual Mic อินพุท
- แสงตรวจสอบ — เท่าเทียม เผ่า ไม่มีเงาที่รุนแรงบนใบหน้า
- พื้นหลังชัดเจน — ไม่มีวัตถุเคลื่อนไหว
- ทดสอบภาพยิงบันทึกและวางไฟล์กลับ — เสียงได้รับการประมวลผล ไม่ดิบ
- ระยะเวลาภาพยิง ต่ำกว่า 30 วินาที
- ไฟล์ส่งออก เป็น MP4 H.264 720p ขั้นต่ำ
- ไฟล์เล่นถูกต้องในตัวเล่นสื่อ ก่อนการอัพโหลด Runway
ขนาดเป็นภาพยนตร์สั้นฉากหลาย
ผู้สร้างภาพยนตร์ AI indie มักเจอบันไดเดียวกัน: คลิปทดสอบแรก ดูดี แต่การผลิต 3-ถึง-5 นาที สั้น ที่อย่างไรก็ตามต้องการสม่ำเสมอข้าม หลายคลิป ปฏิบัติกี่นาดช่วย
ความสม่ำเสมอของเสียงตัวละคร — บันทึกกำหนด ก่อนการผลิตเริ่มต้น ทุกภาพยิงสำหรับตัวละครจะใช้เหมือนกัน ตั้งค่าเบื้องต้นและการตั้งค่าเกน นอกจากนี้ยังมีการเปลี่ยนแปลงในจำนวนการเปลี่ยน pitch จะเห็นได้ชัดเจนข้าม
ความสม่ำเสมอของวิดีโออ้างอิง — ใช้ตำแหน่งกล้องเลนส์และการตั้งค่าแสงเดียวกัน สำหรับแต่ละภาพยิง ที่มีตัวละครเดียวกัน Act-One จะสร้างลักษณะใบหน้าที่สม่ำเสมอมากขึ้นข้างต่อคลิป
การประมวลผล Batch — บันทึกภาพยิงทั้งหมดในเซสชั่นเดียวหากทำได้ สภาพแวดล้อมเสียงสม่ำเสมอ (ห้องเดียวกันตำแหน่งไมโครโฟน เดียวกัน) เก็บรักษาเสียง ความสม่ำเสมอ
ผสมเสียง — เพราะว่าบทสนทนาการประมวลผลด้วยตั้งค่า นั้นตั้งค่า EQ และการบีบอัด ต้องการการตั้งค่าเพียงครั้งเดียว ระดับ A1 bus และนำไปใช้สม่ำเสมอเพื่อฉากทั้งหมด
บันทึกของ Runway เอง และแสดง ชุมชน (runwayml.com) ตัวอย่างข้อเสนอของ Act-One โครงการที่เพิ่มเติม Runway ในฐานะที่บริษัท คนเดียวกัน ครอบ อย่างละเอียด บน Wikipedia รวมทั้ง ประวัติพัฒนา และ ทบบริบทของการวิจัยลง รหัสการเทคนิคการถ่ายโอนที่ใช้ใน Act-One