Voice Changer สำหรับการสร้างรายได้ Podcast Substack

Substack ได้เปลี่ยนการเขียนจดหมายข่าวให้เป็นกระแสรายได้ที่แท้จริงสำหรับเขียนผู้อิสระหลายพัน ฟีเจอร์ Substack Podcast ขยายแบบจำลองนั้นเป็นเสียง — แต่นักเขียนส่วนใหญ่ยังคงถือว่ามันเป็นหลังความคิด: บันทึกที่ไมโครโฟนแล็ปท็อปของคุณ อัพโหลด เสร็จ

ช่องว่างนั้นเป็นโอกาส นักเขียนที่ลงทุนในการบรรยายเสียงคุณภาพการออกอากาศ เสียงผู้บรรยายเสียง AI ที่สอดคล้องกัน และถอดเสียงที่ล็อกไว้เป็นสิทธิพิเศษระดับชำระเงิน กำลังสร้างผลิตภัณฑ์เสียง ไม่ใช่แค่ไฟล์เสียง คำแนะนำนี้จะอธิบายเวิร์กโฟลว์ทางเทคนิคเต็มรูปแบบ

TL;DR

รวมการตั้งค่า DSP การออกอากาศ (EQ + การบีบอัด + บันชิ่งเสียง) กับโมเดลผู้บรรยายเสียง AI ที่ฝึกอบรมจากเสียงของคุณเอง ใช้ Whisper สำหรับถอดเสียงที่ล็อกไว้หลังการสมัครสมาชิกที่ชำระเงิน และปรับใช้ soundboard สำหรับการแนะนำและ outro ที่ระบุตราสินค้าที่สอดคล้องกัน ผลที่ได้คือผลิตภัณฑ์เสียงมืออาชีพที่มีเหตุผลในการสมัครสมาชิก และลดการสูญเสียผู้ฟัง

ทำไมคุณภาพเสียงจึงส่งผลต่อการแปลงค่า Substack โดยตรง

ช่องส่วนการแปลงค่าจ่ายของ Substack ขึ้นอยู่กับมูลค่าที่รับรู้ ผู้ฟังที่สังเกตเห็นเสียงห้องสะท้อน คำรามพื้นหลัง หรือระดับปริมาณเสียงที่ไม่สอดคล้องกันสร้างความประทับใจ — ความประทับใจนั้นถ่ายโอนไปยังคุณภาพของการเขียน แม้ว่าการเขียนนั้นยอดเยี่ยม

การวิจัยเกี่ยวกับพฤติกรรมผู้ฟังพอดแคสต์อย่างสม่ำเสมอแสดงให้เห็นว่าคุณภาพเสียงเป็นเหตุผลหลักที่ผู้ฟังละทิ้งสดในวินาทีแรกที่ 60 สำหรับนักเขียน Substack ที่พยายามแปลงผู้อ่านฟรีเป็นผู้ติดตามที่ชำระเงิน วินาทีที่ 60 นั้นในระหว่างตัวอย่างการบรรยายเสียงเป็นที่ราคาแพงมาก

เสียงสะอาดแสดงถึงความเป็นมืออาชีพ ความเป็นมืออาชีพแสดงถึงมูลค่าที่ควรจ่าย

สี่องค์ประกอบของเวิร์กโฟลว์เสียง Substack มืออาชีพ

การตั้งค่าการผลิตเสียงที่มั่นคงสำหรับ Substack Podcast มีสี่ส่วนที่แตกต่าง:

การประมวลผล DSP การออกอากาศ — EQ ความบีบอัด และการลดเสียงรบกวนแบบเรียลไทม์ที่ใช้กับสัญญาณไมโครโฟนของคุณในระหว่างการบันทึก
เสียงผู้บรรยายที่สอดคล้องกัน — การโคลนเสียง AI ที่ให้ทุกเรียงความด้วยตัวเหมือนที่รู้จัก แม้ว่าจะบันทึกเป็นสัปดาห์ที่หลากหลาย
ถอดเสียง Whisper — การสร้างข้อความอัตโนมัติจากไฟล์เสียงของคุณ ใช้ได้เป็นเนื้อหาระดับชำระเงิน
คลิป soundboard ที่ระบุตราสินค้า — intro outro และ stinger ส่วนสร้างตัวตนตราสินค้าเสียง

ไม่มีของเหล่านี้ที่ต้องการสตูดิโอมืออาชีพ ทั้งสี่ทำงานบนแล็ปท็อป Windows 10 หรือ 11

ตั้งค่า DSP คุณภาพการออกอากาศสำหรับการบรรยาย

เสียงมาตรฐานสำหรับการบรรยายเรียงความนั่งอยู่ในพื้นที่โซนิกที่เฉพาะเจาะจง: ชัดเจน อบอุ่น ไม่เหน็ดเหนื่อยกว่า 20 นาที ที่มีพลวัตที่ควบคุม นั่นแตกต่างจากการสนทนาเสียงเกมมิ่ง (ที่ความปรากฏจำเป็นมากกว่าความอบอุ่น) หรือการสัมภาษณ์พอดแคสต์ (ที่ปรากฏปรากฏของห้องสามารถเพิ่มพลังงาน)

เป้าหมาย EQ การบรรยาย

ในเชนของคุณคุณมี ยืมฟังก์ชั่นนี้ EQ:

ผ่าน-สูงที่ 90-100 Hz — ลบ sub-bass grumble และการสั่นสะเทือนตาราง ผู้ฟังบน earbuds หรือลำโพงแล็ปท็อปไม่สามารถสร้างซ้ำด้านล่าง 100 Hz
ตัดเบาที่ 200-300 Hz — ลดสัญญาณรบกวนบ็อกซ์ทั่วไปของห้องที่ไม่ได้ปรุงแต่ง
เงายกตัวอักษรที่ 2-3 kHz (+1 ถึง +2 dB) — เก็บพยัญชนะที่มีความเข้าใจบนลำโพงขนาดเล็ก
ชั้นเก็บข้อมูลอากาศนุ่มที่ 10 kHz (+1 dB) — เพิ่มจุดแล่นที่ละเอียดโดยไม่ต้องขรุขระ

การบีบอัดสำหรับปริมาณเสียงที่สอดคล้องกัน

การบรรยายได้รับประโยชน์จากการบีบอัดที่หนักกว่าการพูดคุยสนทนา เนื่องจากคุณกำลังอ่านจากบท — พลวัตนั้นคาดการณ์ได้มากกว่า และปริมาณเสียงที่สอดคล้องกันมีความสำคัญมากกว่าการเปลี่ยนแปลงของหายใจตามธรรมชาติ

ตั้งค่า compressor ของคุณเป็น:

เกณฑ์: -20 dBFS
อัตราส่วน: 4:1 ถึง 6:1
การโจมตี: 10 ms (เร็วพอที่จะจับพยัญชนะหนัก)
ปล่อย: 120-150 ms

นี่เก็บเสียงของคุณที่ความหนักที่รับรู้ได้อย่างสอดคล้องกันในการบรรยายทั้ง 30 นาทีโดยไม่ปั้นที่ชัดเจน

Noise Gate

หากคุณกำลังบันทึกในสำนักงานที่บ้าน noise gate เป็นสิ่งจำเป็น เกณฑ์ -45 ถึง -50 dBFS ที่มี hold 30 ms กำจัดการแคตรัดแป้นพิมพ์ ของเสียง HVAC และการจราจรพื้นหลังระหว่างประโยค — สูตรที่ทำให้การบันทึกที่บ้านฟังเหมือนนักการแสดง

การตั้งค่า DSP การออกอากาศของ VoxBooster ครอบคลุมทั้งเชนนี้ในหนึ่งคลิก ด้วยอุปกรณ์เสียงเสมือนที่กำหนดเส้นทางเสียงที่ประมวลผลแล้วลงไปที่ Audacity Adobe Audition หรืออุปกรณ์บันทึกใด ๆ ที่คุณใช้ เนื่องจากมันใช้โหมดจับเสียงแบบเอกสิทธิ์ความล่าช้าต่ำ ไม่มีขั้นตอนการแปลงพิเศษระหว่างไมโครโฟนและเครื่องบันทึกของคุณ — เก็บเส้นทางสัญญาณสั้น ๆ และความล่าช้าต่ำกว่า 20 ms

AI Narrator Cloning สำหรับตัวตนเสียงที่สอดคล้องกัน

นี่คือปัญหาที่ไม่มีการตั้งค่า DSP ใดที่สามารถแก้ไขได้: เสียงของคุณเปลี่ยนแปลง มันเปลี่ยนแปลงวันต่อวันตามการนอนหลับ การให้น้ำ และอารมณ์ มันเปลี่ยนแปลงปีต่อปีเมื่อคุณแก่ขึ้น และมันเปลี่ยนแปลงเซสชันต่อเซสชันตามว่าคุณบันทึกเวลา 7 หรือ 10 นาฬิกา

สำหรับนักเขียน Substack ที่มี back-catalog 200 เรียงความ ความไม่สอดคล้องนั้นหมายความว่าเรียงความจากปี 2023 ฟังแตกต่างอย่างเห็นได้ชัดจากสิ่งที่บันทึกสัปดาห์ที่แล้ว ผู้ติดตามจ่ายใจม่ายที่ binge-watch บนที่เก็บข้อมูลของคุณได้ยินการลอยตัวนั้น

โมเดลผู้บรรยายเสียง AI ที่ฝึกอบรมจากเสียงของคุณเองจะกำจัดการลอยตัวนี้ คุณฝึกโมเดลหนึ่งครั้งในการบันทึก 30-60 นาทีสะอาดของการพูดของคุณเอง — ในอุดมคตินั้นเป็นส่วนผสมของการอ่านและบท ฟุตบล โมเดลเรียนรู้ timbre คุณลักษณะสัญญาณรบกวนของคุณ และรูปแบบการพูด prosodic ทั่วไป

จากจุดนั้นไป คุณสามารถบรรยายเรียงความใด ๆ และโมเดล resyntesizes ด้วยตัวตนเสียงที่สอดคล้องกันของคุณ โมเดลไม่เปลี่ยนคำของคุณหรือจังหวะของคุณ — มันจัดการเสียงคุณลักษณะของคุณ ดังนั้นทุกฉบับในที่เก็บข้อมูลของคุณฟังว่าบันทึกในวันเดียวกันโดยบุคคลเดียวกัน

ใน VoxBooster โมดูล Voice Clone จัดการฝึกอบรมและการอนุมาน นี้ผลลัพธ์จะกำหนดเส้นทางผ่านอุปกรณ์เสียงเสมือนเดียวกับชุดของคุณคุณ ดังนั้นเวิร์กโฟลว์บันทึกของคุณจึงไม่เปลี่ยน — คุณเพียงแต่บันทึกผ่านผลลัพธ์ผู้บรรยายที่ประมวลผลแล้ว

สิ่งนี้มีคุณค่าอย่างยิ่งสำหรับนักเขียน:

เผยแพร่หลายครั้งต่อสัปดาห์ (ความเหนื่อยเสียงเป็นจริง)
สร้างไปสู่ที่เก็บข้อมูลจ่ายขนาดใหญ่
ต้องการ batch-record เรียงความมากมายในเซสชันเดียวโดยไม่มีการเปลี่ยนแปลงเสียงที่ชัดเจน

ถอดเสียง Whisper เป็นสิทธิพิเศษระดับชำระเงิน

Substack อนุญาตให้นักเขียนล็อกเนื้อหาเฉพาะไว้หลังการสมัครสมาชิกที่ชำระเงิน นักเขียนส่วนใหญ่ใช้สิ่งนี้สำหรับเรียงความข้อความรูปแบบยาว มุมที่น่าสนใจเพิ่มเติมคือการล็อกถอดเสียงการบรรยายเสียงหลังระดับชำระเงิน

โครงสร้างใช้งานได้ดังนี้:

ระดับฟรี: การบรรยายเสียงของเรียงความมีอยู่สำหรับสาธารณะ
ระดับชำระเงิน: ถอดเสียงข้อความเต็มรูปแบบของการบรรยายเสียง บวก timestamps มีอยู่พร้อมกับเสียง

นี่สร้างค่าที่สามารถส่งมอบได้ที่มีเหตุผลการสมัครสมาชิกที่ชำระเงิน — เอกสารข้อความที่สามารถค้นหาได้ สามารถอ้างอิง — ขณะที่ทำให้เสียงตัวเองเป็นเครื่องมือค้นพบกว้าง ๆ

Whisper (โมเดลถอดเสียง open-source ของ OpenAI) ทำงานในพื้นที่บน Windows และสร้างถอดเสียงที่แม่นยำเป็นพิเศษจากไฟล์เสียงของคุณ สำหรับการบรรยายส่วนใหญ่ ถอดเสียงต้องการการแก้ไขแบบง่าย: การแก้ไขคำนามเฉพาะ เพิ่มตัวแบ่งย่อหน้า และลบคำเติม

เวิร์กโฟลว์ในทางปฏิบัติ:

บันทึกการบรรยายผ่านอุปกรณ์เสียงเสมือนของ VoxBooster
ส่งออกไฟล์ WAV จากซอฟต์แวร์บันทึกของคุณ
เรียกใช้ WAV ผ่านการใช้งาน Whisper ในพื้นที่
แก้ไขถอดเสียงที่สร้างขึ้น
โพสต์เสียงเป็นเนื้อหาฟรี ถอดเสียงเป็นบ่อยครั้งระดับชำระเงิน

นี่สร้างการเรียกเชิญอัพเกรดตามธรรมชาติ: ผู้อ่านฟรีที่ต้องการค้นหาหรืออ้างอิงเรียงความของคุณจำเป็นต้องชำระเงิน ถอดเสียงยังทำหน้าที่เป็นเนื้อหาการเข้าถึงสำหรับผู้ติดตามหูหนวกหรือหูอ่อน — การปรับปรุงผลิตภัณฑ์ที่แท้จริง ไม่ใช่แค่กลยุทธ์ paywall

Soundboard Intro Outro และ Section Stinger

ตัวตนตราสินค้าเสียงสร้างขึ้นผ่านการทำซ้ำ Podcaster ที่ประสบความสำเร็จรู้ว่าผู้ฟังเชื่อมโยงรายการกับเสียงเปิดของมัน — เพลง voice tag เนื้อมึของเทพจำเพาะของ intro เขียนผู้อิสระที่บรรยายเรียงความสามารถสร้างความสมาชิกเดียวกันได้

การตั้งค่า soundboard ขั้นต่ำสำหรับการบรรยาย Substack ต้อง:

Intro sting (5-10 วินาที): คลิปเพลงหรือ voice tag สั้นที่เล่นก่อนการบรรยายแต่ละครั้ง “คุณกำลังฟัง [ชื่อสิ่งพิมพ์]” คลิปเดียวกัน ทุกครั้ง
Outro (10-15 วินาที): เครดิตปิดด้วยการเรียกร้องการดำเนิน “ติดตามสำหรับการบรรยายเสียงประจำสัปดาห์ ลิงก์ในคำอธิบาย”
Section stinger (2-3 วินาที): คลิปเสียงเป็นกลางสั้นเพื่อส่งสัญญาณการเปลี่ยนแปลงระหว่างส่วนหลักในเรียงความยาวนาน — เทียบเท่าเสียงของกฎแนวนอน

คลิปเหล่านี้อาศัยอยู่ใน soundboard ของคุณและทริกผ่านปุ่มลัดแป้นพิมพ์ในระหว่างการบันทึก capture บันทึกทั้งเสียงของคุณและ soundboard ผ่านอุปกรณ์เสียงเสมือนเดียวกัน — ไม่จำเป็นสำหรับขั้นตอนผสมแยกต่างหาก

เวิร์กโฟลว์นี้เขียนในรายละเอียดในคำแนะนำของเรา

เปรียบเทียบ: วิธีการผลิตเสียงสำหรับนักเขียน Substack

วิธีการ	คุณภาพ	ความสอดคล้อง	เวลาตั้งค่า	ต้นทุน
ไมก์โดยตรง-อัพโหลด	มือสมัครเล่น	ตัวแปร	ขั้นต่ำ	ฟรี
DAW ที่มีการประมวลผลด้วยตนเอง	ดี	ตัวแปร	สูง	$0-$100+/เดือน
ตัวประมวลผลเสียงฮาร์ดแวร์	ดี	ความสอดคล้อง	ปานกลาง	$200-$500 ล่วงหน้า
DSP ซอฟต์แวร์ (เช่น VoxBooster)	การออกอากาศ	ความสอดคล้อง	ต่ำ	$6.99/เดือน
DSP ซอฟต์แวร์ + AI โคลน	การออกอากาศ	สูง	ต่ำ-ปานกลาง	$6.99/เดือน

วิธี DSP ซอฟต์แวร์ที่มีการโคลน AI มีความสอดคล้องกันของคุณภาพการออกอากาศที่มีต้นทุนและความซับซ้อนลดลงอย่างมีนัยสำคัญ เมื่อเทียบกับทางเลือกฮาร์ดแวร์ โดยไม่ต้องใช้ความรู้ DAW

ส่วนเสริม SEO: เสียงทำให้จดหมายข่าวของคุณสามารถค้นหาได้มากขึ้น

บ่อยของ Substack ที่มีการบรรยายเสียงปรากฏในไดเรกทอรี่พอดแคสต์ — Apple Podcasts Spotify และคนอื่น ๆ ดึงจากฟีด RSS ของ Substack นี่หมายความว่าเรียงความของคุณสามารถค้นหาได้โดยบุคคลที่ไม่เยี่ยมชม Substack โดยตรงเลย

เรียงความเดี่ยวที่สัญญาดีสามารถดึงการจราจรค้นหาจากแอปพอดแคสต์หลายเดือนหลังจากการเผยแพร่ นักเขียนที่บรรยายแต่ละปัญหาสามารถเรียกใช้ช่องทางค้นหาแบบคู่ขนานสองช่อง: การค้นหา Substack และการค้นหาพอดแคสต์

ถอดเสียง Whisper ที่ฝังตัวเป็นข้อความในโพสต์ Substack ยังทำให้เนื้อหาสามารถจัดทำดัชนีโดย Google ได้ เนื้อหาที่อิงเสียงนั้นมีชื่อเสียงที่ยากต่อการจัดทำดัชนีโดยเครื่องมือค้นหา — Whisper แก้ไขปัญหานี้อย่างสมบูรณ์

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการรวมเครื่องมือเสียงเข้าในการตั้งค่า podcasting ที่สมบูรณ์ โปรดดูคำแนะนำของเรา

ตั้งค่า VoxBooster สำหรับเวิร์กโฟลว์ Substack

การตั้งค่าที่สมบูรณ์ใช้เวลาประมาณ 20 นาที:

ติดตั้ง VoxBooster บน Windows 10 หรือ 11 — ไม่มีตัวควบคุมเคอร์เนล ไม่จำเป็นต้องรีสตาร์ทระบบ
เลือกการตั้งค่า DSP การบรรยายการออกอากาศ (หรือสร้างของคุณเองจากชุดอักขระ/compresor/gate ที่อธิบายไว้ข้างต้น)
ตั้งอุปกรณ์เสียงเสมือน VoxBooster เป็นการป้อนข้อมูลไมโครโฟนในซอฟต์แวร์บันทึกของคุณ
(ตัวเลือก) ฝึกอบรมโมเดล Voice Clone บน 30-60 นาทีการบันทึกสะอาดของเสียงของคุณเอง
ตั้งค่า soundboard ของคุณด้วย intro sting outro และ section stinger
บันทึกเรียงความแรกของคุณ — ระดับการทดสอบ ตรวจสอบเอาท์พุท headphone monitoring
ส่งออกเป็น WAV รันผ่าน Whisper แก้ไขถอดเสียง
เผยแพร่เสียงฟรี ถอดเสียงชำระเงิน

ผู้ติดตามจะสังเกตเห็นความแตกต่าง สำคัญกว่านั้น พวกเขาจะยังคงจ่ายเพื่อสังเกตเห็นมัน

FAQ

ฉันต้องการไมโครโฟนมืออาชีพเพื่อเผยแพร่บน Substack Podcast หรือไม่ ไมโครโฟน USB ที่สมควร (Blue Yeti, HyperX QuadCast หรือคล้ายกัน) ก็เพียงพอแล้ว ปัจจัยที่สำคัญกว่านั้นคือระบบเสียงของห้องที่สอดคล้องกัน การประมวลผล DSP คุณภาพการออกอากาศจัดการการบีบอัด การบันชิ่งเสียงรบกวน และ EQ แบบเรียลไทม์ ดังนั้นไมโครโฟนระดับกลางสามารถส่งออกเสียงระดับพอดแคสต์ได้โดยไม่มีห้องบันทึกที่ปรุงแต่ง

ฉันสามารถใช้ AI voice cloning เพื่อบรรยายเรียงความ Substack ของฉันได้หรือไม่ ใช่ การฝึกโมเดลผู้บรรยายเสียง AI ที่กำหนดเองบน 30-60 นาทีของเสียงของคุณเองจะสร้างตัวตนเสียงที่สอดคล้องกันสำหรับแต่ละฉบับ คุณเขียน โมเดลบรรยาย — timbre ที่สอดคล้องกัน การจัดวางที่สอดคล้องกัน ผู้ติดตามรู้จักเสียงของคุณแม้ว่าคุณจะบันทึกเรียงความยี่สิบเรื่องในสิ่งหนึ่งในช่วงบ่ายวันเดียว

การถอดเสียง Whisper ช่วยสร้างรายได้ Substack อย่างไร Whisper สร้างถอดเสียงที่แม่นยำซึ่งคุณสามารถล็อกไว้หลังการสมัครสมาชิกที่ชำระเงิน — ให้เสียงแก่ผู้อ่านฟรี แต่สงวนถอดเสียงข้อความเต็มรูปแบบสำหรับผู้ติดตามที่ชำระเงิน นอกจากนี้ยังทำให้เนื้อหาเสียงของคุณสามารถค้นหาได้และเข้าถึงได้สำหรับผู้ชมหูหนวกหรือหูอ่อน

Intro Soundboard คืออะไรและเหตุใดจึงสำคัญต่อจดหมายข่าว Intro soundboard คือคลิปเสียงสั้นที่ระบุตราสินค้า (jingle, voice tag หรือ musical sting) ที่เล่นที่จุดเริ่มต้นของการบรรยายเสียงแต่ละครั้ง มันสร้างความรู้จักตราสินค้าเสียงและส่งสัญญาณให้กับผู้ติดตามว่าฉบับใหม่ได้ถูกเปิดตัว — เช่นเดียวกับที่ jingle พอดแคสต์ฝึกผู้ฟังให้ให้ความสนใจ

การประมวลผลเสียงเพิ่มความล่าช้าที่ชัดเจนให้กับการบันทึกหรือไม่ การประมวลผล DSP แบบเรียลไทม์ผ่านโหมดจับเสียงแบบเอกสิทธิ์ความล่าช้าต่ำจะเพิ่มความล่าช้า 10-20 ms — ซึ่งไม่ดูเป็นธรรมชาติในระหว่างการบันทึกการบรรยาย สำหรับเรียงความที่บันทึกไว้ล่วงหน้า (เวิร์กโฟลว์ Substack มาตรฐาน) คุณบันทึกผ่านอุปกรณ์เสียงเสมือน และส่งออก ดังนั้นความล่าช้าจึงไม่เกี่ยวข้องกับผู้ฟังขั้นสุดท้าย

Substack Podcast เป็นเพียงสำหรับเนื้อหาพูดแบบยาวเท่านั้นหรือไม่ ไม่ การบรรยายรูปแบบสั้นของเรียงความ 3-5 นาทีสรุปสั้น ๆ ดำเนินการได้ดีเป็นเนื้อหาตัวอย่างฟรี ขับเคลื่อนการแปลงค่าที่ชำระเงิน การเจาะลึก (15-40 นาทีด้วยถอดเสียง Whisper ใช้งานได้เป็นตอนแฟลกชิประดับชำระเงิน ผสมรูปแบบทั้งสองเพื่อสร้างเชิงซ้ำการแปลงภายในสิ่งพิมพ์ของคุณ

VoxBooster ต้องใช้เวอร์ชัน Windows ใดสำหรับเวิร์กโฟลว์พอดแคสต์ VoxBooster ทำงานบน Windows 10 และ Windows 11 โหมดจับเสียงแบบเอกสิทธิ์ความล่าช้าต่ำ — จำเป็นสำหรับการกำหนดเส้นทางเสียงความล่าช้าต่ำสุด — พร้อมใช้งานในทั้งสอง ไม่มีตัวควบคุมเคอร์เนลติดตั้ง ดังนั้นจึงไม่มีปัญหาการเข้ากันได้กับซอฟต์แวร์ DAW หรือ OBS ที่คุณอาจใช้