Substack ได้เปลี่ยนการเขียนจดหมายข่าวให้เป็นกระแสรายได้ที่แท้จริงสำหรับเขียนผู้อิสระหลายพัน ฟีเจอร์ Substack Podcast ขยายแบบจำลองนั้นเป็นเสียง — แต่นักเขียนส่วนใหญ่ยังคงถือว่ามันเป็นหลังความคิด: บันทึกที่ไมโครโฟนแล็ปท็อปของคุณ อัพโหลด เสร็จ
ช่องว่างนั้นเป็นโอกาส นักเขียนที่ลงทุนในการบรรยายเสียงคุณภาพการออกอากาศ เสียงผู้บรรยายเสียง AI ที่สอดคล้องกัน และถอดเสียงที่ล็อกไว้เป็นสิทธิพิเศษระดับชำระเงิน กำลังสร้างผลิตภัณฑ์เสียง ไม่ใช่แค่ไฟล์เสียง คำแนะนำนี้จะอธิบายเวิร์กโฟลว์ทางเทคนิคเต็มรูปแบบ
TL;DR
รวมการตั้งค่า DSP การออกอากาศ (EQ + การบีบอัด + บันชิ่งเสียง) กับโมเดลผู้บรรยายเสียง AI ที่ฝึกอบรมจากเสียงของคุณเอง ใช้ Whisper สำหรับถอดเสียงที่ล็อกไว้หลังการสมัครสมาชิกที่ชำระเงิน และปรับใช้ soundboard สำหรับการแนะนำและ outro ที่ระบุตราสินค้าที่สอดคล้องกัน ผลที่ได้คือผลิตภัณฑ์เสียงมืออาชีพที่มีเหตุผลในการสมัครสมาชิก และลดการสูญเสียผู้ฟัง
ทำไมคุณภาพเสียงจึงส่งผลต่อการแปลงค่า Substack โดยตรง
ช่องส่วนการแปลงค่าจ่ายของ Substack ขึ้นอยู่กับมูลค่าที่รับรู้ ผู้ฟังที่สังเกตเห็นเสียงห้องสะท้อน คำรามพื้นหลัง หรือระดับปริมาณเสียงที่ไม่สอดคล้องกันสร้างความประทับใจ — ความประทับใจนั้นถ่ายโอนไปยังคุณภาพของการเขียน แม้ว่าการเขียนนั้นยอดเยี่ยม
การวิจัยเกี่ยวกับพฤติกรรมผู้ฟังพอดแคสต์อย่างสม่ำเสมอแสดงให้เห็นว่าคุณภาพเสียงเป็นเหตุผลหลักที่ผู้ฟังละทิ้งสดในวินาทีแรกที่ 60 สำหรับนักเขียน Substack ที่พยายามแปลงผู้อ่านฟรีเป็นผู้ติดตามที่ชำระเงิน วินาทีที่ 60 นั้นในระหว่างตัวอย่างการบรรยายเสียงเป็นที่ราคาแพงมาก
เสียงสะอาดแสดงถึงความเป็นมืออาชีพ ความเป็นมืออาชีพแสดงถึงมูลค่าที่ควรจ่าย
สี่องค์ประกอบของเวิร์กโฟลว์เสียง Substack มืออาชีพ
การตั้งค่าการผลิตเสียงที่มั่นคงสำหรับ Substack Podcast มีสี่ส่วนที่แตกต่าง:
- การประมวลผล DSP การออกอากาศ — EQ ความบีบอัด และการลดเสียงรบกวนแบบเรียลไทม์ที่ใช้กับสัญญาณไมโครโฟนของคุณในระหว่างการบันทึก
- เสียงผู้บรรยายที่สอดคล้องกัน — การโคลนเสียง AI ที่ให้ทุกเรียงความด้วยตัวเหมือนที่รู้จัก แม้ว่าจะบันทึกเป็นสัปดาห์ที่หลากหลาย
- ถอดเสียง Whisper — การสร้างข้อความอัตโนมัติจากไฟล์เสียงของคุณ ใช้ได้เป็นเนื้อหาระดับชำระเงิน
- คลิป soundboard ที่ระบุตราสินค้า — intro outro และ stinger ส่วนสร้างตัวตนตราสินค้าเสียง
ไม่มีของเหล่านี้ที่ต้องการสตูดิโอมืออาชีพ ทั้งสี่ทำงานบนแล็ปท็อป Windows 10 หรือ 11
ตั้งค่า DSP คุณภาพการออกอากาศสำหรับการบรรยาย
เสียงมาตรฐานสำหรับการบรรยายเรียงความนั่งอยู่ในพื้นที่โซนิกที่เฉพาะเจาะจง: ชัดเจน อบอุ่น ไม่เหน็ดเหนื่อยกว่า 20 นาที ที่มีพลวัตที่ควบคุม นั่นแตกต่างจากการสนทนาเสียงเกมมิ่ง (ที่ความปรากฏจำเป็นมากกว่าความอบอุ่น) หรือการสัมภาษณ์พอดแคสต์ (ที่ปรากฏปรากฏของห้องสามารถเพิ่มพลังงาน)
เป้าหมาย EQ การบรรยาย
ในเชนของคุณคุณมี ยืมฟังก์ชั่นนี้ EQ:
- ผ่าน-สูงที่ 90-100 Hz — ลบ sub-bass grumble และการสั่นสะเทือนตาราง ผู้ฟังบน earbuds หรือลำโพงแล็ปท็อปไม่สามารถสร้างซ้ำด้านล่าง 100 Hz
- ตัดเบาที่ 200-300 Hz — ลดสัญญาณรบกวนบ็อกซ์ทั่วไปของห้องที่ไม่ได้ปรุงแต่ง
- เงายกตัวอักษรที่ 2-3 kHz (+1 ถึง +2 dB) — เก็บพยัญชนะที่มีความเข้าใจบนลำโพงขนาดเล็ก
- ชั้นเก็บข้อมูลอากาศนุ่มที่ 10 kHz (+1 dB) — เพิ่มจุดแล่นที่ละเอียดโดยไม่ต้องขรุขระ
การบีบอัดสำหรับปริมาณเสียงที่สอดคล้องกัน
การบรรยายได้รับประโยชน์จากการบีบอัดที่หนักกว่าการพูดคุยสนทนา เนื่องจากคุณกำลังอ่านจากบท — พลวัตนั้นคาดการณ์ได้มากกว่า และปริมาณเสียงที่สอดคล้องกันมีความสำคัญมากกว่าการเปลี่ยนแปลงของหายใจตามธรรมชาติ
ตั้งค่า compressor ของคุณเป็น:
- เกณฑ์: -20 dBFS
- อัตราส่วน: 4:1 ถึง 6:1
- การโจมตี: 10 ms (เร็วพอที่จะจับพยัญชนะหนัก)
- ปล่อย: 120-150 ms
นี่เก็บเสียงของคุณที่ความหนักที่รับรู้ได้อย่างสอดคล้องกันในการบรรยายทั้ง 30 นาทีโดยไม่ปั้นที่ชัดเจน
Noise Gate
หากคุณกำลังบันทึกในสำนักงานที่บ้าน noise gate เป็นสิ่งจำเป็น เกณฑ์ -45 ถึง -50 dBFS ที่มี hold 30 ms กำจัดการแคตรัดแป้นพิมพ์ ของเสียง HVAC และการจราจรพื้นหลังระหว่างประโยค — สูตรที่ทำให้การบันทึกที่บ้านฟังเหมือนนักการแสดง
การตั้งค่า DSP การออกอากาศของ VoxBooster ครอบคลุมทั้งเชนนี้ในหนึ่งคลิก ด้วยอุปกรณ์เสียงเสมือนที่กำหนดเส้นทางเสียงที่ประมวลผลแล้วลงไปที่ Audacity Adobe Audition หรืออุปกรณ์บันทึกใด ๆ ที่คุณใช้ เนื่องจากมันใช้โหมดจับเสียงแบบเอกสิทธิ์ความล่าช้าต่ำ ไม่มีขั้นตอนการแปลงพิเศษระหว่างไมโครโฟนและเครื่องบันทึกของคุณ — เก็บเส้นทางสัญญาณสั้น ๆ และความล่าช้าต่ำกว่า 20 ms
AI Narrator Cloning สำหรับตัวตนเสียงที่สอดคล้องกัน
นี่คือปัญหาที่ไม่มีการตั้งค่า DSP ใดที่สามารถแก้ไขได้: เสียงของคุณเปลี่ยนแปลง มันเปลี่ยนแปลงวันต่อวันตามการนอนหลับ การให้น้ำ และอารมณ์ มันเปลี่ยนแปลงปีต่อปีเมื่อคุณแก่ขึ้น และมันเปลี่ยนแปลงเซสชันต่อเซสชันตามว่าคุณบันทึกเวลา 7 หรือ 10 นาฬิกา
สำหรับนักเขียน Substack ที่มี back-catalog 200 เรียงความ ความไม่สอดคล้องนั้นหมายความว่าเรียงความจากปี 2023 ฟังแตกต่างอย่างเห็นได้ชัดจากสิ่งที่บันทึกสัปดาห์ที่แล้ว ผู้ติดตามจ่ายใจม่ายที่ binge-watch บนที่เก็บข้อมูลของคุณได้ยินการลอยตัวนั้น
โมเดลผู้บรรยายเสียง AI ที่ฝึกอบรมจากเสียงของคุณเองจะกำจัดการลอยตัวนี้ คุณฝึกโมเดลหนึ่งครั้งในการบันทึก 30-60 นาทีสะอาดของการพูดของคุณเอง — ในอุดมคตินั้นเป็นส่วนผสมของการอ่านและบท ฟุตบล โมเดลเรียนรู้ timbre คุณลักษณะสัญญาณรบกวนของคุณ และรูปแบบการพูด prosodic ทั่วไป
จากจุดนั้นไป คุณสามารถบรรยายเรียงความใด ๆ และโมเดล resyntesizes ด้วยตัวตนเสียงที่สอดคล้องกันของคุณ โมเดลไม่เปลี่ยนคำของคุณหรือจังหวะของคุณ — มันจัดการเสียงคุณลักษณะของคุณ ดังนั้นทุกฉบับในที่เก็บข้อมูลของคุณฟังว่าบันทึกในวันเดียวกันโดยบุคคลเดียวกัน
ใน VoxBooster โมดูล Voice Clone จัดการฝึกอบรมและการอนุมาน นี้ผลลัพธ์จะกำหนดเส้นทางผ่านอุปกรณ์เสียงเสมือนเดียวกับชุดของคุณคุณ ดังนั้นเวิร์กโฟลว์บันทึกของคุณจึงไม่เปลี่ยน — คุณเพียงแต่บันทึกผ่านผลลัพธ์ผู้บรรยายที่ประมวลผลแล้ว
สิ่งนี้มีคุณค่าอย่างยิ่งสำหรับนักเขียน:
- เผยแพร่หลายครั้งต่อสัปดาห์ (ความเหนื่อยเสียงเป็นจริง)
- สร้างไปสู่ที่เก็บข้อมูลจ่ายขนาดใหญ่
- ต้องการ batch-record เรียงความมากมายในเซสชันเดียวโดยไม่มีการเปลี่ยนแปลงเสียงที่ชัดเจน
ถอดเสียง Whisper เป็นสิทธิพิเศษระดับชำระเงิน
Substack อนุญาตให้นักเขียนล็อกเนื้อหาเฉพาะไว้หลังการสมัครสมาชิกที่ชำระเงิน นักเขียนส่วนใหญ่ใช้สิ่งนี้สำหรับเรียงความข้อความรูปแบบยาว มุมที่น่าสนใจเพิ่มเติมคือการล็อกถอดเสียงการบรรยายเสียงหลังระดับชำระเงิน
โครงสร้างใช้งานได้ดังนี้:
- ระดับฟรี: การบรรยายเสียงของเรียงความมีอยู่สำหรับสาธารณะ
- ระดับชำระเงิน: ถอดเสียงข้อความเต็มรูปแบบของการบรรยายเสียง บวก timestamps มีอยู่พร้อมกับเสียง
นี่สร้างค่าที่สามารถส่งมอบได้ที่มีเหตุผลการสมัครสมาชิกที่ชำระเงิน — เอกสารข้อความที่สามารถค้นหาได้ สามารถอ้างอิง — ขณะที่ทำให้เสียงตัวเองเป็นเครื่องมือค้นพบกว้าง ๆ
Whisper (โมเดลถอดเสียง open-source ของ OpenAI) ทำงานในพื้นที่บน Windows และสร้างถอดเสียงที่แม่นยำเป็นพิเศษจากไฟล์เสียงของคุณ สำหรับการบรรยายส่วนใหญ่ ถอดเสียงต้องการการแก้ไขแบบง่าย: การแก้ไขคำนามเฉพาะ เพิ่มตัวแบ่งย่อหน้า และลบคำเติม
เวิร์กโฟลว์ในทางปฏิบัติ:
- บันทึกการบรรยายผ่านอุปกรณ์เสียงเสมือนของ VoxBooster
- ส่งออกไฟล์ WAV จากซอฟต์แวร์บันทึกของคุณ
- เรียกใช้ WAV ผ่านการใช้งาน Whisper ในพื้นที่
- แก้ไขถอดเสียงที่สร้างขึ้น
- โพสต์เสียงเป็นเนื้อหาฟรี ถอดเสียงเป็นบ่อยครั้งระดับชำระเงิน
นี่สร้างการเรียกเชิญอัพเกรดตามธรรมชาติ: ผู้อ่านฟรีที่ต้องการค้นหาหรืออ้างอิงเรียงความของคุณจำเป็นต้องชำระเงิน ถอดเสียงยังทำหน้าที่เป็นเนื้อหาการเข้าถึงสำหรับผู้ติดตามหูหนวกหรือหูอ่อน — การปรับปรุงผลิตภัณฑ์ที่แท้จริง ไม่ใช่แค่กลยุทธ์ paywall
Soundboard Intro Outro และ Section Stinger
ตัวตนตราสินค้าเสียงสร้างขึ้นผ่านการทำซ้ำ Podcaster ที่ประสบความสำเร็จรู้ว่าผู้ฟังเชื่อมโยงรายการกับเสียงเปิดของมัน — เพลง voice tag เนื้อมึของเทพจำเพาะของ intro เขียนผู้อิสระที่บรรยายเรียงความสามารถสร้างความสมาชิกเดียวกันได้
การตั้งค่า soundboard ขั้นต่ำสำหรับการบรรยาย Substack ต้อง:
- Intro sting (5-10 วินาที): คลิปเพลงหรือ voice tag สั้นที่เล่นก่อนการบรรยายแต่ละครั้ง “คุณกำลังฟัง [ชื่อสิ่งพิมพ์]” คลิปเดียวกัน ทุกครั้ง
- Outro (10-15 วินาที): เครดิตปิดด้วยการเรียกร้องการดำเนิน “ติดตามสำหรับการบรรยายเสียงประจำสัปดาห์ ลิงก์ในคำอธิบาย”
- Section stinger (2-3 วินาที): คลิปเสียงเป็นกลางสั้นเพื่อส่งสัญญาณการเปลี่ยนแปลงระหว่างส่วนหลักในเรียงความยาวนาน — เทียบเท่าเสียงของกฎแนวนอน
คลิปเหล่านี้อาศัยอยู่ใน soundboard ของคุณและทริกผ่านปุ่มลัดแป้นพิมพ์ในระหว่างการบันทึก capture บันทึกทั้งเสียงของคุณและ soundboard ผ่านอุปกรณ์เสียงเสมือนเดียวกัน — ไม่จำเป็นสำหรับขั้นตอนผสมแยกต่างหาก
เวิร์กโฟลว์นี้เขียนในรายละเอียดในคำแนะนำของเรา
เปรียบเทียบ: วิธีการผลิตเสียงสำหรับนักเขียน Substack
| วิธีการ | คุณภาพ | ความสอดคล้อง | เวลาตั้งค่า | ต้นทุน |
|---|---|---|---|---|
| ไมก์โดยตรง-อัพโหลด | มือสมัครเล่น | ตัวแปร | ขั้นต่ำ | ฟรี |
| DAW ที่มีการประมวลผลด้วยตนเอง | ดี | ตัวแปร | สูง | $0-$100+/เดือน |
| ตัวประมวลผลเสียงฮาร์ดแวร์ | ดี | ความสอดคล้อง | ปานกลาง | $200-$500 ล่วงหน้า |
| DSP ซอฟต์แวร์ (เช่น VoxBooster) | การออกอากาศ | ความสอดคล้อง | ต่ำ | $6.99/เดือน |
| DSP ซอฟต์แวร์ + AI โคลน | การออกอากาศ | สูง | ต่ำ-ปานกลาง | $6.99/เดือน |
วิธี DSP ซอฟต์แวร์ที่มีการโคลน AI มีความสอดคล้องกันของคุณภาพการออกอากาศที่มีต้นทุนและความซับซ้อนลดลงอย่างมีนัยสำคัญ เมื่อเทียบกับทางเลือกฮาร์ดแวร์ โดยไม่ต้องใช้ความรู้ DAW
ส่วนเสริม SEO: เสียงทำให้จดหมายข่าวของคุณสามารถค้นหาได้มากขึ้น
บ่อยของ Substack ที่มีการบรรยายเสียงปรากฏในไดเรกทอรี่พอดแคสต์ — Apple Podcasts Spotify และคนอื่น ๆ ดึงจากฟีด RSS ของ Substack นี่หมายความว่าเรียงความของคุณสามารถค้นหาได้โดยบุคคลที่ไม่เยี่ยมชม Substack โดยตรงเลย
เรียงความเดี่ยวที่สัญญาดีสามารถดึงการจราจรค้นหาจากแอปพอดแคสต์หลายเดือนหลังจากการเผยแพร่ นักเขียนที่บรรยายแต่ละปัญหาสามารถเรียกใช้ช่องทางค้นหาแบบคู่ขนานสองช่อง: การค้นหา Substack และการค้นหาพอดแคสต์
ถอดเสียง Whisper ที่ฝังตัวเป็นข้อความในโพสต์ Substack ยังทำให้เนื้อหาสามารถจัดทำดัชนีโดย Google ได้ เนื้อหาที่อิงเสียงนั้นมีชื่อเสียงที่ยากต่อการจัดทำดัชนีโดยเครื่องมือค้นหา — Whisper แก้ไขปัญหานี้อย่างสมบูรณ์
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการรวมเครื่องมือเสียงเข้าในการตั้งค่า podcasting ที่สมบูรณ์ โปรดดูคำแนะนำของเรา
ตั้งค่า VoxBooster สำหรับเวิร์กโฟลว์ Substack
การตั้งค่าที่สมบูรณ์ใช้เวลาประมาณ 20 นาที:
- ติดตั้ง VoxBooster บน Windows 10 หรือ 11 — ไม่มีตัวควบคุมเคอร์เนล ไม่จำเป็นต้องรีสตาร์ทระบบ
- เลือกการตั้งค่า DSP การบรรยายการออกอากาศ (หรือสร้างของคุณเองจากชุดอักขระ/compresor/gate ที่อธิบายไว้ข้างต้น)
- ตั้งอุปกรณ์เสียงเสมือน VoxBooster เป็นการป้อนข้อมูลไมโครโฟนในซอฟต์แวร์บันทึกของคุณ
- (ตัวเลือก) ฝึกอบรมโมเดล Voice Clone บน 30-60 นาทีการบันทึกสะอาดของเสียงของคุณเอง
- ตั้งค่า soundboard ของคุณด้วย intro sting outro และ section stinger
- บันทึกเรียงความแรกของคุณ — ระดับการทดสอบ ตรวจสอบเอาท์พุท headphone monitoring
- ส่งออกเป็น WAV รันผ่าน Whisper แก้ไขถอดเสียง
- เผยแพร่เสียงฟรี ถอดเสียงชำระเงิน
ผู้ติดตามจะสังเกตเห็นความแตกต่าง สำคัญกว่านั้น พวกเขาจะยังคงจ่ายเพื่อสังเกตเห็นมัน
FAQ
ฉันต้องการไมโครโฟนมืออาชีพเพื่อเผยแพร่บน Substack Podcast หรือไม่ ไมโครโฟน USB ที่สมควร (Blue Yeti, HyperX QuadCast หรือคล้ายกัน) ก็เพียงพอแล้ว ปัจจัยที่สำคัญกว่านั้นคือระบบเสียงของห้องที่สอดคล้องกัน การประมวลผล DSP คุณภาพการออกอากาศจัดการการบีบอัด การบันชิ่งเสียงรบกวน และ EQ แบบเรียลไทม์ ดังนั้นไมโครโฟนระดับกลางสามารถส่งออกเสียงระดับพอดแคสต์ได้โดยไม่มีห้องบันทึกที่ปรุงแต่ง
ฉันสามารถใช้ AI voice cloning เพื่อบรรยายเรียงความ Substack ของฉันได้หรือไม่ ใช่ การฝึกโมเดลผู้บรรยายเสียง AI ที่กำหนดเองบน 30-60 นาทีของเสียงของคุณเองจะสร้างตัวตนเสียงที่สอดคล้องกันสำหรับแต่ละฉบับ คุณเขียน โมเดลบรรยาย — timbre ที่สอดคล้องกัน การจัดวางที่สอดคล้องกัน ผู้ติดตามรู้จักเสียงของคุณแม้ว่าคุณจะบันทึกเรียงความยี่สิบเรื่องในสิ่งหนึ่งในช่วงบ่ายวันเดียว
การถอดเสียง Whisper ช่วยสร้างรายได้ Substack อย่างไร Whisper สร้างถอดเสียงที่แม่นยำซึ่งคุณสามารถล็อกไว้หลังการสมัครสมาชิกที่ชำระเงิน — ให้เสียงแก่ผู้อ่านฟรี แต่สงวนถอดเสียงข้อความเต็มรูปแบบสำหรับผู้ติดตามที่ชำระเงิน นอกจากนี้ยังทำให้เนื้อหาเสียงของคุณสามารถค้นหาได้และเข้าถึงได้สำหรับผู้ชมหูหนวกหรือหูอ่อน
Intro Soundboard คืออะไรและเหตุใดจึงสำคัญต่อจดหมายข่าว Intro soundboard คือคลิปเสียงสั้นที่ระบุตราสินค้า (jingle, voice tag หรือ musical sting) ที่เล่นที่จุดเริ่มต้นของการบรรยายเสียงแต่ละครั้ง มันสร้างความรู้จักตราสินค้าเสียงและส่งสัญญาณให้กับผู้ติดตามว่าฉบับใหม่ได้ถูกเปิดตัว — เช่นเดียวกับที่ jingle พอดแคสต์ฝึกผู้ฟังให้ให้ความสนใจ
การประมวลผลเสียงเพิ่มความล่าช้าที่ชัดเจนให้กับการบันทึกหรือไม่ การประมวลผล DSP แบบเรียลไทม์ผ่านโหมดจับเสียงแบบเอกสิทธิ์ความล่าช้าต่ำจะเพิ่มความล่าช้า 10-20 ms — ซึ่งไม่ดูเป็นธรรมชาติในระหว่างการบันทึกการบรรยาย สำหรับเรียงความที่บันทึกไว้ล่วงหน้า (เวิร์กโฟลว์ Substack มาตรฐาน) คุณบันทึกผ่านอุปกรณ์เสียงเสมือน และส่งออก ดังนั้นความล่าช้าจึงไม่เกี่ยวข้องกับผู้ฟังขั้นสุดท้าย
Substack Podcast เป็นเพียงสำหรับเนื้อหาพูดแบบยาวเท่านั้นหรือไม่ ไม่ การบรรยายรูปแบบสั้นของเรียงความ 3-5 นาทีสรุปสั้น ๆ ดำเนินการได้ดีเป็นเนื้อหาตัวอย่างฟรี ขับเคลื่อนการแปลงค่าที่ชำระเงิน การเจาะลึก (15-40 นาทีด้วยถอดเสียง Whisper ใช้งานได้เป็นตอนแฟลกชิประดับชำระเงิน ผสมรูปแบบทั้งสองเพื่อสร้างเชิงซ้ำการแปลงภายในสิ่งพิมพ์ของคุณ
VoxBooster ต้องใช้เวอร์ชัน Windows ใดสำหรับเวิร์กโฟลว์พอดแคสต์ VoxBooster ทำงานบน Windows 10 และ Windows 11 โหมดจับเสียงแบบเอกสิทธิ์ความล่าช้าต่ำ — จำเป็นสำหรับการกำหนดเส้นทางเสียงความล่าช้าต่ำสุด — พร้อมใช้งานในทั้งสอง ไม่มีตัวควบคุมเคอร์เนลติดตั้ง ดังนั้นจึงไม่มีปัญหาการเข้ากันได้กับซอฟต์แวร์ DAW หรือ OBS ที่คุณอาจใช้