Spectacles 6 ของ Snap แสดงถึงขั้นตอนต่อไปในการเดิมพันของบริษัทบนแว่นตา AR สำหรับผู้บริโภค — ฮาร์ดแวร์ที่คาดว่าไว้ว่างสำหรับนักพัฒนา Lens Studio ที่ต้องการสร้าง ทดสอบ และแสดง ประสบการณ์ที่นำพาใจจากฟอร์มแฟคเตอร์ที่สวมใส่ได้ ไม่ว่าคุณจะอธิบายการนำเข้า Lens ผลิตวิดีโอสาธิต หรือสตรีมการแสดงผู้สร้างสดบน OBS ชั้นเสียงมีความสำคัญเท่ากับสิ่งที่มองเห็น
คู่มือนี้มีไว้สำหรับนักพัฒนา Lens และผู้สร้างเนื้อหา AR บน Windows โดยครอบคลุมวิธีการใช้เครื่องมือเสียงในเวิร์กโฟลว์ Snap Spectacles 6 ภาพฮาร์ดแวร์ที่สำคัญ และที่ซึ่งตัวเปลี่ยนเสียงเพิ่มค่าจริงเทียบกับสถานที่ที่ไม่
TL;DR
| กรณีการใช้งาน | บทบาทของตัวเปลี่ยนเสียง |
|---|---|
| การบรรยาย Lens Studio walkthrough | บุคลิกภาพแบรนด์ที่สม่ำเสมอตลอดเซสชัน |
| ผลิตภัณฑ์วิดีโอสาธิต | เสียงตัวละครสำหรับการโต้ตอบของผู้ใช้แบบจำลอง |
| การสตรีม OBS ของประสบการณ์ Lens | การขึ้นเส้นทาง low-latency audio capture ความล่าช้าต่ำ ไม่จำเป็นต้องใช้สายเสียงเสมือน |
| การแสดง/การโทรสาธารณชน | การแยกบุคลิกภาพระหว่างเสียงจริงและเสียงผู้นำเสนอ |
| เสียงฮาร์ดแวร์ Spectacles 6 โดยตรง | ไม่สามารถใช้ได้ — การประมวลผลเกิดขึ้นบน Windows ไม่ใช่บนอุปกรณ์ |
Snap Spectacles 6 คืออะไร
Snap ได้ทำซ้ำแว่นตา AR ภายใต้แบรนด์ Spectacles ตั้งแต่ปี 2020 แต่ละรุ่นได้เข้าใกล้แพลตฟอร์ม AR พร้อมสำหรับนักพัฒนามากขึ้น — เลนส์เหลื่อมทับเนื้อหาดิจิทัลบนโลกแห่งความเป็นจริง การติดตามท่าทาง และการรวมตัวที่แน่นสำหรับ Lens Studio สภาแวดล้อมการเขียนโปรแกรมภาพสำหรับประสบการณ์ AR
รุ่นที่หกเป็น ฮาร์ดแวร์ที่คาดว่า ตั้งแต่กลางปี 2026 Snap ได้ปล่อยหน่วยการพัฒนาให้กับผู้สร้าง Lens โดยมีภาพถ่ายที่แบ่งปันสาธารณะแสดงลักษณะ waveguide แสง ที่ดีขึ้น อายุการใช้งานแบตเตอรี่ที่นาน และเฟรมโปรไฟล์ที่ต่ำกว่าเมื่อเทียบกับหน่วยการพัฒนารุ่นสี่ ไม่มีการยืนยันอย่างเป็นทางการเกี่ยวกับไทม์ไลน์การเปิดตัวผู้บริโภค
สำหรับวัตถุประสงค์ของคู่มือนี้ จุดที่เกี่ยวข้องคือ: Spectacles 6 เชื่อมต่อกับพีซี Windows ผ่านโซ่เครื่องมือการพัฒนา Snap และเนื้อหาที่คุณสร้าง — การบรรยาย วิดีโอสาธิต การสตรีมการแสดง — ทำงานผ่านการจับเสียง Windows มาตรฐาน นั่นคือสิ่งที่เครื่องมือเสียงอาศัยอยู่
เวิร์กโฟลว์ผู้สร้างเนื้อหา AR ของ Snap ที่เครื่องมือเสียงเชื่อมต่อเข้า
นักพัฒนา Lens Studio มักจะทำงานในโหมดการผลิตที่แตกต่างกันหลายโหมด:
การทดสอบในตัวแก้ไข คุณสร้าง Lens ใน Lens Studio บน Windows ดูตัวอย่างบนท่าชมวิว และบันทึกคลิปการจับภาพหน้าจออย่างสั้น ๆ เพื่อจดหมายเหตุพฤติกรรม การบรรยายที่นี่มักไม่เป็นทางการ — คุณอธิบายให้เพื่อนร่วมงานหรือไคลเอนต์ว่า Lens ทำสิ่งใด
ผลิตภัณฑ์วิดีโอสาธิต คุณสร้างวิดีโออักเสบการชี้แนะแบบขัดเกลา: การบรรยายสคริปต์ อาจเป็นเสียงตัวละครหลายเสียงจำลองวิธีการที่ผู้ใช้อาจมีปฏิสัมพันธ์กับประสบการณ์ AR นี่อยู่ในโปรไฟล์ผู้สร้าง Snap ไซต์แกลเลอรี่ หรือ YouTube
การสตรีมการแสดง OBS คุณสตรีมการสาธิต Lens สด — ไม่ว่าจะเป็นผู้ชมการทดสอบ ที่เหตุการณ์การพัฒนา หรือกับชุมชนของผู้เพื่อมี AR OBS จับภาพมุมมอง Spectacles ของคุณ (สะท้อนไปยังพีซี) และไมโครโฟนของคุณพร้อมกัน
การเรียกชุมชนผู้สร้าง คุณเข้าร่วมสายเสียงการสร้าง Lens Snap หรือพื้นที่หุ้นส่วน Snap ที่ซึ่งคุณพูดคุยการออกแบบ Lens สดกับนักพัฒนารายอื่น
ตัวเปลี่ยนเสียงเพิ่มค่าในโหมดที่สองและสามมากที่สุด ความสม่ำเสมอของการบรรยายและการทำงานบุคลิกภาพสด เป็นกรณีการใช้งานหลัก
ทำไมความสม่ำเสมอของเสียงถึงสำคัญสำหรับเนื้อหาการแสดง Lens
ประสบการณ์ Lens ออกแบบมาให้ดูหมดสติจากดั้งเดิม เมื่อคุณผลิตเนื้อหาสาธิต เสียงคุณภาพที่ไม่ตรงกันหรือรูปแบบการบรรยายที่ไม่สม่ำเสมอในวิดีโอทำให้ความประทับใจมืออาชีพที่ภาพสร้าง
ปัญหาที่เฉพาะเจาะจงขึ้นมา:
การเปลี่ยนแปลงจากเซสชันหนึ่งไปยังเซสชันอื่น หากคุณบันทึกการสาธิต Lens ในช่วงหลายสัปดาห์ เสียงจริงของคุณจะแตกต่างกันไปตามอะคูสติก ห้อง การเลื่อน ตำแหน่งไมโครโฟน เสียงอยู่รอบค่อย และเมื่อเหนื่อยคุณ บุคลิกภาพเสียงที่ประมวลผลผ่านแบบจำลองที่สม่ำเสมอจะกำจัดการเปลี่ยนแปลงส่วนใหญ่
การสร้างแบบจำลองอักขระหลายตัว การสาธิต Lens บางรายมีประสิทธิภาพมากที่สุดในการอธิบายโดยการจำลองผู้ใช้ที่มีปฏิสัมพันธ์กับประสบการณ์ — เสียงผู้บรรยายและเสียง “ผู้ใช้” ด้วยไมโครโฟนเดียว และตัวเปลี่ยนเสียงพร้อมพรีเซ็ตที่บันทึกไว้ คุณสามารถสลับระหว่างทั้งสองในหลังนี้หรือแม้กระทั่งการบันทึกกลาง
เสียงผู้นำเสนอเทียบกับเสียงนักพัฒนา นักพัฒนา AR มักมีความสามารถทางเทคนิคที่ดีเยี่ยมและรู้สึกไม่สบายใจที่อยู่หน้ากล้องหรือไมโครโฟน การผ่านการประมวลผลเสียงแสง — ปราบปรามเสียง ความเสถียรของระดับเสียงแสง — สามารถปิดช่องว่างระหว่างการบรรยายนักพัฒนาดิบและการส่งมอบผู้สร้างเนื้อหาที่ประตูดูเทียมโดยไม่ดูแลเทียม
OBS + low-latency audio capture: การตั้งค่าทางเทคนิคสำหรับการสตรีมการสาธิต Lens
เมื่อคุณสตรีมประสบการณ์ Lens บน OBS คุณมักจะจับ:
- ภูมิภาคหรือหน้าต่างหน้าจอแสดงมุมมอง Spectacles ของคุณ (สะท้อนผ่านเครื่องมือพีซีของ Snap)
- ไมโครโฟนของคุณสำหรับความเห็นแบบสด
- ตัวเลือก เสียงระบบจาก Lens Studio
สัญญาณไมโครโฟนคือที่ขึ้นเส้นทาง low-latency audio capture สำคัญ low-latency audio capture (Windows Audio Session API) คือ อินเทอร์เฟซเสียงระดับต่ำที่นั่งระหว่างฮาร์ดแวร์ไมโครโฟนของคุณและแอปพลิเคชัน ตัวเปลี่ยนเสียงที่ตะขออยู่ low-latency audio capture ประมวลผลเสียงของคุณก่อนที่ OBS จะเห็น — OBS จับอุปกรณ์ไมโครโฟนจริงของคุณและได้รับสัญญาณที่เปลี่ยนแปลงแล้ว
นี่แตกต่างกันจากแนวทางไมโครโฟนเสมือน: ไม่มี VB-CABLE ที่ติดตั้ง ไม่มีอุปกรณ์เสียงรองเพื่อให้ทำเครื่องหมายผ่านการอัปเดต OBS ไม่มีขั้นตอนพิเศษเมื่อคุณเพิ่มโปรไฟล์ฉาก OBS ใหม่สำหรับโครงการ Lens ใหม่
การรวม low-latency audio capture ระดับ VoxBooster หมายถึงการตั้งค่าฉาก OBS ของคุณยังคงมีเสถียรภาพ คุณตั้งค่าไมโครโฟนหนึ่งครั้ง OBS และบุคลิกภาพเสียงของคุณจะอยู่ที่นั่นเมื่อใดก็ตามที่คุณเปิดตัว
สำหรับความล่าช้า end-to-end ต่ำกว่า 300ms — เกณฑ์ด้านล่างซึ่งผู้ชมจะรับรู้เสียงว่าเป็นสินค้าที่มีการคาดหวังกับพื้นที่ Spectacles ของคุณ — การขึ้นเส้นทาง low-latency audio capture ที่มีการประมวลผล AI ในพื้นที่คือสถาปัตยกรรมที่ถูกต้อง การประมวลผลเสียงที่มีการขึ้นเส้นทางเครือข่ายเพิ่มความล่าช้าที่เร็วเกินไปเกินกว่าเกณฑ์นั้น โดยเฉพาะเมื่อ OBS รวมโอเวอร์เฮด
เปรียบเทียบ: วิธีการเสียงสำหรับผู้สร้างเนื้อหา AR ของ Snap
| วิธี | ความล่าช้า | ความสม่ำเสมอ | ความซับซ้อนของการตั้งค่า | ที่ดีที่สุดสำหรับ |
|---|---|---|---|---|
| Raw microphone (no processing) | Zero | Varies by session | None | Quick internal dev clips |
| Hardware reverb/pitch pedal | Low | Moderate | Physical setup | Character voice live streams |
| Software pitch shift only | Very low | Good | Low | Subtle delivery improvement |
| AI voice persona (local) | Sub-300ms | Excellent | Medium | Demo videos, public streams |
| AI voice persona (cloud API) | 500ms-2s | Excellent | High | Post-production only |
| Text-to-speech pre-recorded | Zero (offline) | Perfect | High | Scripted narration only |
สำหรับการสตรีมสด OBS ของการสาธิต Lens การประมวลผล AI ในพื้นที่พร้อมการขึ้นเส้นทาง low-latency audio capture ตีความหาเลาะ: ความสม่ำเสมอที่ดี ความล่าช้าที่ยอมรับได้ และไม่มีการพึ่งพาเมฆที่อาจนำเข้าการหยุดชะงักกลาง
การตั้งค่าบุคลิกภาพเสียงสำหรับการบรรยาย Lens Studio
เวิร์กโฟลว์ตรงไปตรงมาบน Windows 10/11:
ขั้นตอน 1 — บันทึกตัวอย่างเสียง สามถึงห้านาทีของการพูดคุยสะอาดในรูปแบบการบรรยายปกติของคุณให้อยู่เหนือแบบจำลองเสียง AI สำหรับบุคลิกภาพที่มีเสถียรภาพ ห้องเงียบและไมโครโฟนระดับกลางเพียงพอ; การแยกตัวป้องกันไม่จำเป็น
ขั้นตอน 2 — สร้างและตั้งชื่อบุคลิกภาพ ระบุว่าบางสิ่งบางอย่างที่เกี่ยวข้องกับแบรนด์ Lens หรือโครงการของคุณ คุณจะโหลดโปรไฟล์นี้เหมือนกันสำหรับเซสชันการบันทึกในอนาคตทุกครั้ง ดังนั้นการตั้งชื่อจึงควรทำให้มีการรับรู้ตรงไปตรงมาหกเดือนจากนี้ไป
ขั้นตอน 3 — ตั้งค่าการขึ้นเส้นทาง low-latency audio capture ในการตั้งค่าตัวเปลี่ยนเสียงของคุณ ให้ตั้งค่าอินพุตไปยังไมโครโฟนทางกายภาพของคุณและยืนยันว่ามันกำลังทำงานในโหมดใช้ร่วม low-latency audio capture ไม่จำเป็นต้องใช้ซอฟต์แวร์เพิ่มเติม
ขั้นตอน 4 — ยืนยันใน OBS ในการตั้งค่าเสียง OBS อุปกรณ์ไมโครโฟนจริงของคุณควรได้รับเลือก — ไม่ใช่อุปกรณ์เสมือน พูดและยืนยันว่าเสียงที่เปลี่ยนแปลงปรากฏในมิเตอร์เสียง OBS ใช้ผลลัพธ์การตรวจสอบเสียง OBS เพื่อดูตัวอย่างก่อนการสตรีมสด
ขั้นตอน 5 — ตั้งค่าประตูเสียงรบกวนใน OBS แม้กระทั่งเมื่อปราบปรามเสียงที่ดีในตัวเปลี่ยนเสียง ตัวกรองประตูเสียงรบกวนใน OBS (เกณฑ์รอบ -40 dB) ปัญหาการหลุดออกของเสียงห้องพื้นหลังลงในการสตรีมระหว่างประโยค
การทำให้เสียงเป็นลวงตาแบบ AI สำหรับการสาธิต Lens หลายตัวอักษร
เทคนิคที่ใช้ไม่เพียงพอในการผลิตการสาธิต Lens อันหนึ่ง: การสร้างโปรไฟล์เสียงที่แตกต่างกันสำหรับ “ตัวอักษร” ที่แตกต่างกันในการจำลองประสบการณ์ของคุณ
พิจารณา Lens ที่วาง hologram ผู้ช่วย AI ในห้องครัวของผู้ใช้ วิดีโอการสาธิตของคุณเป็นเสมือน หากแสดงปฏิสัมพันธ์แบบจำลอง — “ผู้ใช้” ที่ถามผู้ช่วยคำถาม ผู้ช่วยตอบสนอง ด้วยสองบุคลิกภาพเสียงที่บันทึกไว้และสคริปต์การบันทึก คุณสามารถสร้างการสาธิตด้วยไมโครโฟนเดียวและการถ่ายเดียว สลับโปรไฟล์ที่จุดตัดในการแก้ไข
ข้อ จำกัด หลัก: การทำให้เสียงเป็นลวงตาแบบ AI สร้างบุคลิกภาพจากเสียงของคุณเป็นวัสดุอ้างอิง เอาต์พุตฟังเหมือนรุ่นที่ประมวลผลของคุณ — ตัวอักษรเสียงที่แตกต่าง แต่ยังสะท้อนช่วงเสียงและจังหวะของคุณ มันไม่สังเคราะห์เสียงโดยอำเภอใจ สำหรับงานการสาธิต Lens นี่มักจะเรียบร้อย; เป้าหมายคือความชัดเจนของการบรรยาย ไม่ใช่การจำลอง
Spectacles 6 ไม่เปลี่ยนแปลงเวิร์กโฟลว์นี้
ฮาร์ดแวร์ Spectacles 6 ที่คาดว่าทำงาน Snap OS ของตัวเองบน SoC ของตัวเอง ไม่เปิดเผย API เสียงสำหรับใช้ทั่วไปต่อแอปพลิเคชัน Windows ตัวเปลี่ยนเสียงของคุณไม่ทำงานบนแว่นตา — ทำงานบนพีซี Windows ของคุณ บนสัญญาณไมโครโฟนของคุณ ก่อนที่เสียงนั้นจะไปถึง OBS หรือซอฟต์แวร์การบันทึกของคุณ
สิ่งนี้คุ้มค่าที่จะระบุอย่างชัดเจน เพราะมีการสนทนาเป็นระยะ ๆ ในชุมชนนักพัฒนา AR เกี่ยวกับการประมวลผลเสียงบนอุปกรณ์ ในขณะนี้ และสำหรับอนาคต Spectacles ที่คาดการณ์ได้ว่า เป็นแพลตฟอร์มการพัฒนา เวิร์กโฟลว์การผลิตเสียงสำหรับเนื้อหาการแสดง Lens อยู่ทั้งหมดบน Windows แว่นตามอบประสบการณ์ภาพ; พีซีของคุณจัดการชั้นการสร้างเนื้อหา
นี่ยังหมายความว่าเวิร์กโฟลว์ที่อธิบายไว้ที่นี่ใช้กับหน่วยการพัฒนา Spectacles 4 และ 5 เท่าเทียมกัน — ชนิดของแว่นตาไม่เปลี่ยนท่อ Windows
การกำหนดราคาและแพลตฟอร์ม
VoxBooster เป็นแอปพลิเคชัน Windows 10/11 ที่มีอยู่ที่ $6.99 ต่อเดือน (ระหว่างประเทศ) หรือ R$29,90 ต่อเดือน (บราซิล) มันไม่ต้องการการติดตั้งไดรเวอร์เคอร์เนล — เกี่ยวข้องกับนักพัฒนาที่ทำงานบนเครื่องที่จัดการด้วยองค์กรที่ต้องอนุมัติการติดตั้งไดรเวอร์เคอร์เนล การประมวลผลเสียง AI ทำงานโดยสิ้นเชิง; ไม่มีเสียงที่ส่งไปยังบริการระบบคลาวด์
การออกแบบโดยไม่มีไดรเวอร์เคอร์เนลยังหมายถึงการติดตั้งและถอนการติดตั้งอย่างสะอาด ซึ่งสำคัญสำหรับนักพัฒนาที่ทำงานในหลายเครื่องหรือให้สภาแวดล้อมการพัฒนาของพวกเขาแน่นอย่างแรง
ทรัพยากรภายใน
สำหรับเวิร์กโฟลว์ที่เกี่ยวข้องในเอกสาร VoxBooster:
- Setting up a voice changer with OBS
- Best voice effects for streaming
- AI voice changer overview
- Real-time voice cloning explained
- Best microphone for voice changer use
อ้างอิงภายนอก
คำถามที่พบบ่อย
ตัวเปลี่ยนเสียงสามารถทำงานโดยตรงบนฮาร์ดแวร์ Snap Spectacles 6 ได้หรือไม่ ไม่ได้โดยตรง Spectacles 6 ทำงาน Snap OS บน SoC ของตัวเองและไม่เปิดเผย API เสียงสำหรับใช้ทั่วไป การประมวลผลเสียงเกิดขึ้นบน Windows ก่อนที่เสียงจะไปถึงซอฟต์แวร์การสตรีมหรือการบันทึกของคุณ
การขึ้นเส้นทาง low-latency audio capture ทำงานกับ OBS สำหรับวิดีโอสาธิต Lens ได้อย่างไร low-latency audio capture ให้ตัวเปลี่ยนเสียงจับสัญญาณไมโครโฟนของคุณในระดับระบบย่อย Windows ก่อนที่ OBS จะจับมัน OBS เห็นเสียงที่เปลี่ยนแปลงบนอุปกรณ์ไมโครโฟนจริงของคุณ — ไม่จำเป็นต้องใช้สายเสียงเสมือน
Spectacles 6 ได้รับการเผยแพร่อย่างเป็นทางการหรือไม่ ตั้งแต่กลางปี 2026 Spectacles 6 เป็นฮาร์ดแวร์ที่คาดว่า Snap ได้ปล่อยหน่วยสำหรับนักพัฒนา แต่ยังไม่มีการยืนยันการเปิดตัวผู้บริโภค เวิร์กโฟลว์ที่นี่ใช้กับรุ่น Spectacles ใด ๆ ที่ทำให้การแสดง PC
ฉันควรคาดหวังความล่าช้าเท่าใดในการแสดง Lens สด Sub-300ms end-to-end เป็นเป้าหมายปฏิบัติ ที่ระดับนั้น ความล่าช้าไม่อาจรับรู้ได้จากผู้ชม การประมวลผล AI ในพื้นที่มักจะอยู่ที่ต่ำกว่า 200ms ซึ่งทำให้มีพื้นที่สำหรับโอเวอร์เฮด
ฉันต้องใช้ไมโครโฟนพิเศษหรือไม่ ไม่ ไมโครโฟน USB หรือ XLR-to-interface ใด ๆ ที่ Windows รับรู้จะใช้ได้ อินพุตสะอาดกว่าปรับปรุงเอาต์พุต AI แต่ไมโครโฟนแล็ปท็อปในตัวคือจุดเริ่มต้นที่ใช้งานได้
ฉันสามารถใช้บุคลิกภาพเสียงเดียวกันในวิดีโอสาธิต Lens หลายรายการได้หรือไม่ ใช่ การทำให้เสียงเป็นลวงตาแบบ AI สร้างโปรไฟล์ถาวรจากตัวอย่างสั้น ๆ คุณสามารถโหลดบุคลิกภาพเดียวกันสำหรับการสาธิต Lens ใหม่ทุกครั้ง รักษาความสม่ำเสมอของตัวตนเสียงข้ามเซสชันที่บันทึกหลายสัปดาห์ต่างกัน
Windows รุ่นใดที่ได้รับการสนับสนุน Windows 10 (เวอร์ชัน 1903 ขึ้นไป) และ Windows 11 เครื่องมือการพัฒนา Spectacles 6 ยังเป้าหมาย Windows 10/11 ดังนั้นสแตก align ไม่จำเป็นต้องใช้เครื่องแยกต่างหาก