บรรณาธิการวิดีโอที่บรรยายงานของตนเองรู้จังหวะ: บันทึกส่วนหนึ่ง ค้นหาสิ่งกีดขวางในนาทีที่เจ็ด บันทึกส่วนทั้งหมดใหม่ ซิงค์การถ่ายทำซ้ำ ดำเนินการต่อ Toolchain รอบ Adobe Premiere Pro ได้พัฒนาไปแล้ว - แต่ลูปการบันทึกบรรยายนั้นยังไม่ได้ ไกด์นี้ครอบคลุมวิธีที่ voice changer ที่ใช้ low-latency audio capture ถูกบรรจุลงในขั้นตอนการทำงาน Premiere Pro จริง: การจับเสียงบรรยายโดยตรงผ่านไมโครโฟนเสมือน การใช้ AI cloning เพื่อแพตช์บรรพ เดี่ยวโดยไม่มีเซสชั่นสตูดิโอ การสร้าง voiceover หลายภาษาจากไทม์ไลน์เดียวกัน และการเชื่อมต่อการถอดเสียง Whisper เข้าไปในแผงคำบรรยาย Premiere”
นี่เป็นเอกสารขั้นตอนการทำงานการผลิตที่มีจุดประสงค์เพื่อบรรณาธิการ ไม่ใช่การสาธิตผู้บริโภค
TL;DR
- ไมโครโฟนเสมือน low-latency audio capture ให้ Premiere Pro บันทึกเสียงที่ประมวลผลแล้วโดยตรง - ไม่ต้องเดินสายใหม่ ไม่ต้องบันทึกภายนอก
- AI voice cloning ครอบคลุมการบันทึกบรรพ เดี่ยวใหม่ วางแฟ้ม WAV ที่ได้รับการแก้ไขลงบนแทร็กบรรยายและผสมกับ clip gain
- ส่วนหลายภาษาวางเรียงบนแทร็กเสียงแยกต่างหาก เปิด/ปิดเสียงเพื่อสร้างการส่งออก per-locale จากลำดับเดียว
- การถอดเสียง Whisper ส่งออกเป็น SRT และนำเข้าโดยตรงไปยังแผงคำบรรยาย Premiere
- ความล่าช้าของการประมวลผล sub-300ms ไม่สามารถรับรู้ได้ในระหว่างการบันทึกบรรยาย รูปคลื่นที่เขียนลงดิสก์นั้นถูกต้อง
เหตุใดลูปบรรยายมาตรฐานจึงไม่มีประสิทธิภาพ
การตั้งค่าบรรยายของ Premiere Pro เริ่มต้นคือ ไมโครโฟน USB ใบไม้ของระบบอินพุตเสียง Premiere ตั้งไว้ที่ไมโครโฟนนั้น เครื่องมือบันทึกเสียง Voiceover เปิด บันทึก ปัญหาปรากฏในการผลิต
สิ่งกีดขวางในนาทีที่เจ็ดหมายถึงการบันทึกส่วนรอบข้างใหม่เพื่อรักษาระดับสีไม้ห้องที่สอดคล้องกัน ลูกค้าต้องการเวอร์ชันภาษาที่สอง พอพูดเพชรป่วยในวันก่อนการส่งมอบ แต่ละรายการต้องกำหนดเวลาการใช้สตูดิโอหรือเซสชั่นบันทึกอื่น - สำหรับสิ่งที่มักจะเพียงแค่ 30 วินาทีของเสียงที่ได้รับการแก้ไข
ชั้น voice changer ไม่ได้กำจัดไมโครโฟน แต่มันเพิ่มความสามารถสองประการที่บีบอัดลูปนี้อย่างมีนัยสำคัญ การประมวลผล real-time ในเวลาบันทึก (ดังนั้นสิ่งที่ Premiere จับได้นั้นอยู่แล้วคือเสียงเป้าหมาย ไม่ใช่ raw take ที่ต้องการการประมวลผลหลังการผลิต) และ AI cloning สำหรับแพทช์ระดับบรรพ ที่ทำให้เกิด tonally ที่สอดคล้องกับเซสชั่นบันทึกเดิม
วิธีที่ low-latency audio capture เชื่อมต่อ Voice Changer กับ Premiere Pro
Adobe Premiere Pro เข้าถึงอินพุตเสียงผ่าน Windows Audio Session API (low-latency audio capture) อุปกรณ์ใดๆ ที่ Windows ลงทะเบียนเป็นอินพุตเสียง - ไมโครโฟนทางกายภาพ อินเตอร์เฟซ USB หรืออุปกรณ์เสียงเสมือน - ปรากฏในการตั้งค่าฮาร์ดแวร์ Premiere ที่เหมือนกัน
Voice changer ที่เข้ากันได้กับ low-latency audio capture สร้างจุดสิ้นสุดไมโครโฟนเสมือนในกราฟเสียง Windows ไปป์ไลน์การประมวลผลคือ
ไมโครโฟนกายภาพ → การประมวลผล voice changer → จุดสิ้นสุด ไมโครโฟนเสมือน → low-latency audio capture → แทร็กเสียง Premiere Pro
เพื่อกำหนดค่านี้ใน Premiere Pro:
- เปิด Edit > Preferences > Audio Hardware
- ภายใต้ Default Input เลือกไมโครโฟนเสมือนที่ voice changer ลงทะเบียน
- เปิดแผง Voiceover Record (Window > Voiceover Record) และยืนยันว่าระดับอินพุตกำลังอ่าน
ไมโครโฟนเสมือนทำหน้าที่เหมือนกับไมโครโฟนทางกายภาพจากมุมมองของ Premiere ไม่จำเป็นต้องมีการติดตั้งปลั๊กอินภายใน Premiere
ไมโครโฟนเสมือน low-latency audio capture ของ VoxBooster คือการใช้งานหนึ่งที่ตามรูปแบบนี้ - ทำงานในโหมดผู้ใช้โดยไม่มีไดรเวอร์เคอร์เนล และรองรับอัตราตัวอย่าง 44.1 kHz และ 48 kHz ซึ่งทั้งสองอย่างถูก Premiere ยอมรับ ความล่าช้าของการประมวลผล sub-300ms หมายความว่าผู้อ่านจาก teleprompter หรือสคริปต์ไม่ได้รับรู้ความล่าช้าในการตรวจสอบ
AI Voice Cloning สำหรับการบันทึกแพทช์บรรยาย
งานที่ใช้เวลามากที่สุดในการแก้ไขบรรยายไม่ใช่การบันทึกเบื้องต้น - นั่นคือแพทช์ คำเดียวที่ออกเสียงผิด ในส่วนที่สะอาดอื่น ๆ ต้องการให้บันทึกส่วนใหม่ (เพื่อความสอดคล้องของ room-tone) หรือศัลยกรรม crossfade รายละเอียด ที่มักจะฟังได้ไม่ถูกต้องในจุด edit
AI voice cloning แก้ปัญหานี้ในระดับบรรพ
- ฝึกอบรมแบบจำลองเสียงครั้งหนึ่ง ในเซสชั่นบันทึกเดิม (โดยทั่วไป 5-10 นาทีของเสียงสะอาด)
- เมื่อต้องการแพทช์ พิมพ์ประโยคที่ได้รับการแก้ไขในอินเตอร์เฟซ TTS/cloning และส่งออกเป็น WAV
- วาง WAV ลงบนแทร็กบรรยายใน Premiere ตัดให้แทนที่เพียงคลิปปัญหา
- ปรับ clip gain ±1-2 dB หากระดับ RMS แตกต่างจากคลิปรอบ ๆ เล็กน้อย
เนื่องจากเอาต์พุตการโคลนมาจากเสียงต้นทางเดียวกับการบันทึกเดิม ความตรงกันของ timbre จึงใกล้เคียงพอที่ปรับ clip-level gain - ไม่ใช่ matching EQ ที่ซับซ้อน - มักจะเป็นทั้งหมดที่แยกแพทช์ออกจากวัสดุโดยรอบ วิธีการนี้ดีที่สุดเมื่อการบันทึกเดิมทำในห้องที่ได้รับการปฏิบัติพร้อมตำแหน่งไมโครโฟนที่สอดคล้องกัน room tone ที่เปลี่ยนแปลงอย่างมากในแบบจำลองต้นทางจะถูกนำไปยังการโคลน
ข้อ จำกัด ในการปฏิบัติ การโคลนจัดการ แทนที่ บรรพ ที่บันทึกไว้ได้ดี มันไม่เพิ่มข้อมูลใหม่ให้กับการส่งมอบ - บรรยากาศทางอารมณ์ การจ่ายเวลา ความเน้น - ไม่อยู่ในวัสดุต้นทาง สำหรับบรรยายที่เป็นข้อมูลเป็นส่วนใหญ่และการส่งมอบแม้แต่ (explainer บริษัท voiceover บทช่วยสอน วิดีโอเอกสาร) นี่แทบจะไม่มีข้อ จำกัด
Voiceover หลายภาษาโดยไม่ต้องเช่าตัวแทนใหม่
การผลิตเวอร์ชันนานาชาติของวิดีโอ โดยปกติหมายถึงการประสานงานแทลเลนต์เสียงแยกต่างหากสำหรับแต่ละภาษา การรักษาคุณภาพเซสชั่นที่สอดคล้องกันทั่วสภาพแวดล้อมการบันทึกที่แตกต่างกัน และการ re-editing เวลาเมื่อสคริปต์ที่แปลนั้นยาวหรือสั้นกว่าต้นฉบับ
วิธีการ Premiere Pro ที่มีโครงสร้างพร้อมกับการเสริมงานเสียงด้วย AI นั้นบีบอัดสิ่งนี้
การจัดวาง Trek สำหรับ Sequence หลายภาษา
ในลำดับ Premiere ครั้งเดียว สร้างแทร็กเสียงหนึ่งอัน per locale
| Trek | เนื้อหา |
|---|---|
| A1 | บรรยายเดิม (EN) - master |
| A2 | Voiceover ES |
| A3 | Voiceover PT-BR |
| A4 | Voiceover DE |
| A5 | Music / SFX (shared) |
แต่ละแทร็กภาษา ปิดเสียงตามค่าเริ่มต้น เมื่อส่งออก deliverable ที่ระบุ locale ให้เปิดเสียงแทร็กภาษาเป้าหมาย ปิดเสียง A1 และส่งออก Music และ SFX บน A5 ยังคงแบ่งปัน
การบันทึกแต่ละผ่านภาษา
สำหรับผ่านภาษาที่บันทึกโดยใช้แบบจำลองเสียงที่สอดคล้องกัน
- ใช้ preset hiệu ứง giọng nói เดียวกันในการบันทึกภาษาทั้งหมดเพื่อให้ลักษณะ tonal ยังคงสอดคล้องกัน
- บันทึกที่ระดับ gain เดียวกับเซสชั่นบันทึกเดิม (ตรวจสอบด้วย clip อ้างอิงก่อนเริ่ม)
- เก็บแต่ละผ่านในถังรถ Premiere แยกต่างหากที่จัดระเบียบตามภาษา เพื่อหลีกเลี่ยงความสับสนของแทร็ก
การปรับเวลา
สคริปต์ที่แปลโดยปกติจะเรียกใช้ 10-20% นานกว่าหรือสั้นกว่าต้นฉบับภาษาอังกฤษ สองวิธีการ
- Stretch/compress ด้วย Time Remapping: เครื่องมือ rate stretch ของ Premiere บนคลิปเสียงแต่ละอัน จัดการ ±15% โดยไม่มี artifacts ที่มองเห็นได้ในบรรยาย
- Re-edit cut: เร็วกว่า แต่ต้องแตะเวลาวิดีโอ; เป็นได้เฉพาะในส่วนที่ picture cut มีความยืดหยุ่น
Auto-Caption Whisper และแผงคำบรรยาย Premiere
แบบจำลอง Whisper ของ OpenAI สร้างการถอดเสียงที่ถูกต้องรวมถึงเวลา ซึ่งสามารถให้ ห้องบรรยายแผง Premiere ได้โดยตรง
ขั้นตอนการทำงาน
- ส่งออกการผสมบรรยายสุดท้าย เป็น WAV 16 บิต (Premiere: File > Export > Media audio-only)
- เรียกใช้ Whisper บน WAV ที่ส่งออก - โมเดล
large-v3สร้างความแม่นยำพร้อม-caption บนบรรยายที่ชัดเจน - ส่งออกเป็น SRT (
--output_format srtใน CLI) - นำเข้าไปยัง Premiere: File > Import เลือกไฟล์ SRT Premiere ถือว่ามันเป็นแทร็กคำบรรยาย
- วางลงบนแทร็กคำบรรยาย และจัดตำแหน่งให้กับจุด in ลำดับ
แทร็กคำบรรยายจะซิงค์กับการแก้ไขที่ทำบนวิดีโอพื้นฐาน - หากคลิปบรรยายถูกตัดหรือปรับตำแหน่งใหม่ แทร็กคำบรรยายจะเคลื่อนไหวกับมัน
การจัดการศัพท์เฉพาะทาง
Whisper บางครั้งไม่รู้จักชื่อเครื่องหมาย ชื่อสินค้า และ คำศัพท์เฉพาะลักษณะเด่น การแก้ไขที่ใช้ได้คือการตรวจสอบสองครั้ง: เรียกใช้ SRT ผ่านสคริปต์ find-replace ง่าย ๆ สำหรับการ misrecognitions ที่ทราบก่อนนำเข้าไปยัง Premiere ซึ่งใช้เวลาน้อยกว่า 5 นาทีสำหรับสคริปต์ explainer มาตรฐาน และหลีกเลี่ยงการแก้ไขคำบรรยาย mid-edit ต่อมา
คำบรรยายหลายภาษา
โมเดลหลายภาษา Whisper สามารถถอดเสียงและแปลในการส่งผ่านครั้งเดียวโดยใช้ธง --task translate สำหรับการส่งมอบแบบมืออาชีพ ให้ถือว่าผลลัพธ์เป็นแบบร่าง และมอบหมายผู้ตรวจสอบเจ้าของภาษากำเนิดให้กับแต่ละไฟล์ SRT locale ก่อนขั้นตอนนำเข้า Premiere
เปรียบเทียบ การบันทึกแนวทางสำหรับบรรยาย Premiere
| วิธี | สตูดิโอที่จำเป็น | ประสิทธิภาพแพทช์ | ต้นทุนหลายภาษา | ขั้นตอนคำบรรยาย |
|---|---|---|---|---|
| ไลฟ์ผู้บรรยาย แต่ละเซสชั่น | ใช่ | ต่ำ - เต็มรูป re-record | สูง - talent ต่อภาษา | Manual หรือ Speech-to-Text |
| Pre-recorded TTS ไม่มีแบบจำลองเสียง | ไม่ใช่ | Medium - retype และ render | Medium - re-render ต่อภาษา | Automated จากสคริปต์ |
| AI voice cloning + low-latency audio capture mic | ไม่ใช่ | สูง - line-level patches | ต่ำ - แบบจำลองหนึ่ง ทุกภาษา | Whisper → SRT → caption track |
| Outsourced dubbing studio | ใช่ | ต่ำ - การประสานงานภายนอก | สูง - ต้นทุนต่อภาษา | Provided โดยสตูดิโอ |
แนวทาง AI cloning + low-latency audio capture ไม่แทนที่ talent สำหรับเนื้อหา delivery-sensitive (บรรยายสารคดี pieces ทางอารมณ์ character voice work) สำหรับวิดีโอข้อมูล - บทช่วยสอน training บริษัท demo สินค้า เอกสาร - การแลกเปลี่ยน ของความยืดหยุ่นลด ในการส่งมอบต่อ significantly ต่ำ retake overhead นั้นดี
Noise Suppression สำหรับแทร็กบรรยายสะอาด
การบันทึกบรรยายในสำนักงานที่บ้านหรือสภาพแวดล้อม acoustics ไม่ดี หมายความว่าการจับภาพดิบโดยปกติประกอบด้วย HVAC hum keyboard clatter หรือ room noise สิ่งเหล่านี้ลดคุณภาพความแม่นยำ Speech to Text ของ Premiere และเพิ่มเวลาแก้ไขคำบรรยาย
Noise suppression ที่ใช้ที่ชั้น voice changer ประมวลผลเสียงก่อนที่ Premiere จะบันทึก รูปคลื่นผลลัพธ์บน timeline ถูกทำความสะอาดแล้ว ก่อให้เกิดขั้นตอน denoise หลังการผลิต และปรับปรุงความแม่นยำของการถอดเสียง Whisper บนการผสมที่ส่งออก
ความแตกต่างที่ใช้ได้จริง แทร็กบรรยายที่มี noise floor ต่ำกว่า -60 dBFS ไม่ต้อง treatment เพิ่มเติมใน Premiere แทร็กที่มี room noise ที่ -40 dBFS ต้องการผ่าน denoise ซึ่งเพิ่มขั้นตอนการประมวลผลและบางครั้งแนะนำ artifacts ที่ต้องการ clip-level inspection
การตั้งค่า VoxBooster เป็นอุปกรณ์ Input ของ Premiere Pro
ไมโครโฟนเสมือน low-latency audio capture ของ VoxBooster บูรณาการกับ Premiere Pro ตามเส้นทาง routing เสียง Windows มาตรฐาน การกำหนดค่าคือ
- ใน VoxBooster ตั้งไมโครโฟนทางกายภาพเป็นแหล่ง input และ เปิดใช้งาน processing ที่ต้องการ (noise suppression voice effects หรือ AI cloning ในโหมด pass-through)
- ใน Premiere Pro นำทาง ไป Edit > Preferences > Audio Hardware และเลือก VoxBooster Virtual Mic เป็น Default Input
- ยืนยันด้วยการบันทึกทดสอบในแผง Voiceover Record
สำหรับขั้นตอนการทำงานที่เน้นบรรยาย การกำหนดค่าทั่วไป คือ noise suppression ทำงาน voice effects ปิด AI cloning ปิด - ใช้เครื่องมือเป็นหลักสำหรับเส้นทาง low-latency audio capture สะอาดและชั้น denoising AI cloning เปิดใช้งานสำหรับการบันทึกแพทช์บรรพ จากบรรพ ที่ระบุหลังเซสชั่นหลัก
เริ่มต้นที่ $6.99/เดือน VoxBooster ทำงานบน Windows 10 และ Windows 11 โดยไม่มีไดรเวอร์เคอร์เนล
ข้อผิดพลาดในการทำงานทั่วไปและวิธีหลีกเลี่ยง
Confusion ของ monitoring latency versus recorded latency: เสียงที่คุณได้ยินในหูฟังในระหว่างการบันทึกมีการเพิ่มความล่าช้า รูปคลื่นที่ Premiere เขียนลงดิสก์ไม่รวมการตรวจสอบความล่าช้า - มันจับสตรีม processed อย่างถูกต้อง อย่าเพิ่มชดเชย latency ที่เป็นเทียมในการตั้งค่าเสียง Premiere โดยยึดตามสิ่งที่คุณได้ยินในหูฟัง
Mismatched sample rates: หากตั้ง voice changer ที่ 44.1 kHz และลำดับ Premiere ที่ 48 kHz Premiere จะ resample บน import ตั้งทั้งสองไว้ที่ 48 kHz เพื่อหลีกเลี่ยง resampling จากแทร็กบรรยาย
Clip gain versus sequence gain สำหรับแพทช์ blending: ใช้การปรับ gain ที่ระดับคลิป (คลิกขวา > Audio Gain ใน Premiere) แทนที่จะอยู่บน track ดังนั้น master track fader จึงยังคงสะอาดสำหรับการควบคุมระดับ export
SRT caption timing drift: Timestamp ของ Whisper อ้างอิงจากต้นทางเวลาของไฟล์เสียง หากเสียงที่ส่งออกเริ่มต้นที่ non-zero timecode offset import SRT ใน Premiere เพื่อจับคู่ in-point ลำดับ ไม่ใช่ 00:00:00:00
ทรัพยากรภายนอก
- เอกสารอย่างเป็นทางการของ Adobe Premiere Pro
- Adobe Video & Audio tutorials - Creator resources
- Adobe Premiere Pro บน Wikipedia
Frequently Asked Questions
Voice changer แบบ real-time เชื่อมต่อกับ Adobe Premiere Pro อย่างไร Voice changer ที่เข้ากันได้กับ low-latency audio capture จะเปิดเผยไมโครโฟนเสมือนที่ Windows ลงทะเบียนเป็นอินพุตเสียงมาตรฐาน Premiere Pro จะเห็นมันใน Hardware Preferences > Audio Hardware และคุณสามารถเลือกมันเป็นอุปกรณ์อินพุตเริ่มต้น ไม่จำเป็นต้องมีปลั๊กอิน หรือสะพานเพิ่มเติม
ฉันสามารถใช้ AI voice cloning เพื่อแก้ไขบรรพ บรรยายได้โดยไม่ต้องถ่ายแบบซ้ำหรือไม่ ได้ บันทึกบรรยายที่ได้รับการแก้ไขโดยใช้แบบจำลองเสียงที่โคลน ส่งออกเป็น WAV และวางลงบนแทร็กบรรยายที่มีอยู่ เนื่องจากเสียงที่โคลนตรงกับการบันทึกต้นทางของคุณในเชิงระดับเสียง บรรณาธิการมักต้องการเพียงการปรับ gain ระดับคลิปเล็กน้อยเพื่อผสมเข้าด้วยกัน
ความล่าช้า ของการประมวลผลเสียงมีผลต่อคุณภาพการบันทึก voiceover ของ Premiere Pro หรือไม่ สำหรับการบันทึกเสียงพูดลงในแทร็กเสียงของ Premiere ความล่าช้า round-trip ต่ำกว่า 300ms นั้นไม่สามารถรับรู้ได้โดยผู้อ่านสคริปต์ ไฟล์ที่บันทึกจะบันทึกเสียงที่ประมวลผลแล้วอย่างถูกต้อง ดังนั้นความล่าช้าจึงมีผลต่อประสบการณ์การตรวจสอบเท่านั้น ไม่ใช่รูปคลื่นผลลัพธ์
ฉันเชื่อมต่อ auto-caption ของ Whisper กับแผงคำบรรยาย Premiere Pro ได้อย่างไร ส่งออกการถอดเสียง Whisper เป็นไฟล์ SRT จากนั้นนำเข้าผ่าน File > Import ใน Premiere Pro และวางไว้บนแทร็กคำบรรยาย หรืออีกวิธีหนึ่ง ใช้ฟีเจอร์ Speech to Text ในตัวของ Premiere พร้อมกับการถอดเสียงที่ทำความสะอาดแล้ว - การรวมทั้งสองช่วยประหยัดเวลาแก้ไขสำหรับศัพท์เฉพาะทางหรือเครื่องหมายการค้า
ไดรเวอร์ไมโครโฟนเสมือนต้องการสิทธิ์ระดับเคอร์เนลที่ขัดแย้งกับ Premiere หรือไม่ อุปกรณ์เสียงเสมือนที่ใช้ low-latency audio capture สมัยใหม่ทำงานในโหมดผู้ใช้และไม่ต้องการไดรเวอร์เคอร์เนล พวกเขาปรากฏใน Premiere Pro เป็นฮาร์ดแวร์เสียงธรรมชาติ ไม่มีข้อขัดแย้งกับ Premiere เซสชั่นเสียง Windows หรือ DAW อื่นที่ทำงานพร้อมกัน
วิธีที่ดีที่สุดสำหรับการ voiceover หลายภาษาใน Premiere Pro คืออะไร บันทึกแต่ละผ่านภาษาตามลำดับโดยใช้แบบจำลองเสียงเดียวกัน รักษาตำแหน่งไมโครโฟนและการตั้งค่าห้องเดียวกัน นำเข้า WAV ทั้งหมดลงในลำดับ Premiere วางแต่ละภาษาบนแทร็กเสียงแยกต่างหาก และเปิด/ปิดเสียงแทร็กเพื่อดูตัวอย่างการตัดภาษาแยกก่อนการ render ส่งออกสำหรับ locale ที่ระบุ
ฉันสามารถใช้ voice effects เพื่อการจับคู่ tone ระหว่างเซสชั่นการบันทึกที่แตกต่างกันได้หรือไม่ ได้ เอฟเฟกต์ pitch และ room-correction สามารถทำให้เซสชั่นสองเซสชั่นที่บันทึกไว้ในสภาพแวดล้อมอะคูสติกที่แตกต่างกันเข้ามาใกล้กันมากขึ้น ใช้เอฟเฟกต์บนคลิปเซสชั่นเก่าเพื่อให้ tone ของมันเข้าใกล้การบันทึกล่าสุด ลดความไม่สอดคล้องของเสียงที่มักปรากฏที่ edit cuts