Trình tạo giọng nói AI cho các hệ thống thông báo trên xe buýt

AI giọng nói thông báo xe buýt là hệ thống hoạt động im lặng mỗi khi xe buýt thành phố cho bạn biết dừng tiếp theo sắp tới — và nó đã trở nên tinh vi hơn nhiều so với nhận thức của hầu hết hành khách. Những gì nghe như một thông báo được ghi âm trước đơn giản là ngày càng trở thành một sự kiện tổng hợp thần kinh trực tiếp: các tọa độ GPS kích hoạt một chuỗi văn bản, động cơ TTS trên xe chuyển đổi nó thành giọng nói trong vòng dưới 300 mili giây, và âm thanh đến các loa trong xe trước khi xe buýt di chuyển thêm 30 mét. Hướng dẫn này bao gồm cách hoạt động đầu cuối đầu cuối của đường dẫn, các nhà cung cấp phần cứng và phần mềm nào cung cấp năng lượng cho các hệ thống thế giới thực, cách NYC MTA, London Buses và Tokyo Toei Bus tiếp cận khác nhau, tuân thủ ADA thực sự yêu cầu gì, và cách công nghệ giọng nói AI tương tự có thể được truy cập bởi những người sáng tạo xây dựng mô phỏng vận chuyển, trò chơi và phim.

TL;DR

Thông báo trên xe buýt được tạo ra bởi TTS thần kinh được kích hoạt GPS, không phải ngân hàng clip — cho phép gọi dừng chính xác và động cho bất kỳ sửa đổi tuyến đường nào trong thời gian thực.
Clever Devices và Luminator là các nhà cung cấp phần cứng chiếm ưu thế Bắc Mỹ; cả hai hỗ trợ tổng hợp giọng nói thần kinh trong các thế hệ nền tảng hiện tại.
NYC MTA, London Buses và Tokyo Toei Bus mỗi người sử dụng các ký tự giọng nói riêng biệt và các chiến lược hai ngôn ngữ được điều chỉnh với nhân khẩu học hành khách của họ.
ADA (49 CFR Phần 37) yêu cầu thông báo dừng tự động tại các điểm chuyển tiếp và các giao lộ chính; tổng hợp AI đáp ứng điều này và tạo ra nhật ký tuân thủ có thể kiểm toán.
Công nghệ tương tự có thể tạo ra âm thanh PA xe buýt thực tế cho các trò chơi, phim và mô phỏng transit bằng các công cụ giọng nói AI máy tính để bàn.

Cách thức các hệ thống thông báo xe buýt được kích hoạt bằng GPS hoạt động

Hệ thống thông tin hành khách tự động (APIS) trên xe buýt transit hiện đại là một máy tính nhúng nhỏ tích hợp định vị GPS, dữ liệu lịch trình tuyến đường, động cơ TTS, quản lý bộ điều khiển amplifier PA và quản lý hiển thị hành khách thành một đơn vị được chuẩn hoá. Đường dẫn thông báo được thực hiện trong một chuỗi thời gian chặt chẽ:

Định vị GPS — máy tính xe theo dõi vị trí ở các khoảng 1 giây. Hình học tuyến đường được lưu trữ trên xe dưới dạng một chuỗi các geo-segment, mỗi cái được gắn thẻ với các dừng liên quan và điểm kích hoạt thông báo.
Kích hoạt geofence — khi xe vào khu vực tiếp cận một dừng (thường là 200-400 mét ra, phụ thuộc vào hồ sơ vận tốc của tuyến đường), APIS kích hoạt một sự kiện thông báo.
Xây dựng văn bản — hệ thống lắp ráp văn bản thông báo từ một mẫu: tên dừng, kết nối tuyến đường, thông tin tiếp cận tùy chọn. Đối với các tuyến động hoặc các kịch bản vòng quanh, chuỗi văn bản được sửa đổi từ một bản cập nhật gửi được đẩy qua LTE.
Tổng hợp TTS — động cơ TTS (trên xe hoặc thông qua lệnh gọi edge latensi thấp) chuyển đổi văn bản thành dạng sóng âm trong vòng dưới 300 ms. Trên các đơn vị Clever Devices và Luminator thế hệ hiện tại, tổng hợp chạy hoàn toàn trên xe để tránh phụ thuộc vào latensi LTE.
Định tuyến âm thanh — bộ điều khiển PA định tuyến âm thanh đến loa cabin, tùy chọn với kiểm soát khu vực (nửa trước vs. nửa phía sau của xe buýt) và kích hoạt đồng thời cho các bản cập nhật hiển thị thông tin hành khách.
Ghi lại tuân thủ — APIS ghi lại mỗi sự kiện thông báo — dấu thời gian, tọa độ GPS, ID dừng, chuỗi văn bản, hash tệp âm thanh — để báo cáo tuân thủ ADA và kiểm tra bảo đảm chất lượng.

Kết quả là một hệ thống có thể tạo ra thông báo dừng chính xác ngay cả đối với các tuyến được sửa đổi cùng ngày sáng, thông báo về các vòng quanh và gián đoạn dịch vụ bằng giọng nói nghe có vẻ tự nhiên, và làm tất cả những điều này mà không có bất kỳ âm thanh được ghi âm trước nào.

Clever Devices và Luminator: Phần cứng đằng sau AI Giọng nói Xe buýt

Clever Devices

Clever Devices là nhà cung cấp hệ thống thông tin hành khách tự động lớn nhất ở Bắc Mỹ, với các triển khai trên toàn bộ MTA Vận chuyển Thành phố New York, Chicago CTA và hàng chục cơ quan transit nhỏ hơn. Đơn vị chính của họ IVIU (Intelligent Vehicle Interface Unit) kết hợp GPS, seluler, máy tính trên xe, khí hậu PA và phần mềm quản lý thông báo trong một đơn vị được chuẩn hoá.

Nền tảng Clever Devices hỗ trợ nhiều động cơ TTS, bao gồm tổng hợp giọng nói độc quyền của họ và tích hợp TTS thần kinh của bên thứ ba. Các thế hệ nền tảng gần đây bao gồm hỗ trợ cho TTS konkatenative thần kinh và, trong các chế độ kết nối với đám mây, tổng hợp thần kinh end-to-end thông qua máy chủ edge ở cấp depot. Hệ thống quản lý lịch trình thông báo đầy đủ — lệnh gọi tiếp cận, lệnh gọi dừng, lệnh gọi kết nối và thông điệp an toàn — với khả năng định cấu hình theo tuyến đường để chọn cửa sổ thời gian và ngôn ngữ.

Một tính năng đáng chú ý là chế độ hai ngôn ngữ của Clever Devices: các tuyến đường có thể được cấu hình để cung cấp thông báo trong hai ngôn ngữ tuần tự, với động cơ TTS ngôn ngữ chính và động cơ ngôn ngữ phụ nhận cùng một văn bản có cấu trúc và tạo ra các luồng âm thanh độc lập được phát lại tuần tự.

Luminator Technology Group

Luminator là người chơi chính khác, với thâm nhập đặc biệt mạnh trong các hệ thống transit Châu Âu và Canada cùng với các triển khai Bắc Mỹ. ATPIS của họ (Hệ thống thông tin hành khách transit tự động) là một đơn vị tích hợp có khả năng tương tự với IVIU Clever Devices, nhưng với tích hợp gốc mạnh hơn cho các mạng phân phối âm thanh dựa trên IP châu Âu.

Cơ sở hạ tầng tổng hợp giọng nói của Luminator hỗ trợ mô hình thương hiệu tác nhân thoại: các cơ quan vận chuyển có thể ủy quyền một mô hình giọng nói tùy chỉnh được đào tạo trên một tác nhân thoại chuyên nghiệp được chuẩn bị cụ thể, cung cấp cho hệ thống một danh tính “house voice” riêng biệt. Giọng nó perempuan Anh nhất quán trên toàn bộ các nhà điều hành được hợp đồng với TfL tại London Buses là một ví dụ nổi tiếng của phương pháp này.

Tính năng	Clever Devices IVIU	Luminator ATPIS
Thị trường chính	Bắc Mỹ	Bắc Mỹ + Châu Âu
Kiến trúc TTS	Hybrid trên xe + cloud-edge	Thần kinh trên xe
Hỗ trợ hai ngôn ngữ	Sequential dual-engine	Sequential và zone-based
Quyền sở hữu mô hình giọng nói	Agency-licensed hoặc độc quyền	Tùy chọn tác nhân thoại tùy chỉnh
Ghi lại ADA	Dấu vết kiểm toán thông báo đầy đủ	Dấu vết kiểm toán thông báo đầy đủ
Độ chính xác kích hoạt GPS	Geofence (tiếp cận 200-400m)	Geofence + hybrid dựa trên lịch trình
Tích hợp hiển thị	Có (màn hình thông tin hành khách)	Có (màn hình đích)

Xe buýt NYC MTA: Tiếng Anh, Tiếng Tây Ban Nha và sự phức tạp của một đội xe 5.800 chiếc

Đội xe buýt địa phương của MTA là một trong những đội lớn nhất trên thế giới — hơn 5.800 xe hoạt động trên khoảng 300 tuyến đường trong năm khu quận. Chạy các thông báo trên xe tự động trên toàn bộ đội xe quy mô đó liên quan đến độ phức tạp hậu cần mà hầu hết các cuộc thảo luận về công nghệ transit cũng dưới dự tính.

Hệ thống thông báo xe buýt NYC MTA chạy trên phần cứng Clever Devices. Giọng nó Tiếng Anh là một giọng nó tổng hợp dựa trên một bản ghi thoại chuyên nghiệp được ủy quyền, được thiết kế để rõ ràng trong cabin xe buýt thành phố ồn ào. Giọng nó chạy ở một nhịp độ hơi chậm hơn giọng nói hội thoại — khoảng 145-155 từ mỗi phút — đó là tiêu chuẩn cho transit PA để cung cấp thời gian cho hành khách phân tích các tên dừng trên tiếng ồn xung quanh.

Để dịch vụ hai ngôn ngữ, các tuyến trunk được chọn (đặc biệt là ở Manhattan, Queens và Bronx nơi dân số hành khách nói tiếng Tây Ban Nha cao nhất) cung cấp các cặp thông báo tuần tự Tiếng Anh-Tiếng Tây Ban Nha. Động cơ TTS Tiếng Tây Ban Nha sử dụng một giọng nói Tiếng Tây Ban Nha trung lập Latin American thay vì giọng nói Puerto Rican hoặc Dominica, phục vụ nhân khẩu học rộng nhất mặc dù dân số hành khách nói tiếng Tây Ban Nha Caribe chiếm ưu thế ở NYC — một thỏa hiệp thực tế do các hạn chế của TTS phù hợp với giọng nói theo tỷ lệ đội xe.

MTA cũng sử dụng các thông báo được kích hoạt GPS cho các kết nối subway trên mặt đất: khi xe buýt tiếp cận một dừng liền kề với một ga tàu điện ngầm, thông báo bao gồm các đường tàu được kết nối. Điều này được tạo ra động — dữ liệu kết nối được duy trì trong cơ sở dữ liệu tuyến đường, không được hard-coded vào trong ngân hàng clip — vì vậy nó cập nhật khi các thay đổi dịch vụ xảy ra.

Số liệu	Chi tiết
Kích thước đội xe	~5.800 xe buýt địa phương
Nhà cung cấp APIS	Clever Devices
Ngôn ngữ chính	Tiếng Anh (tổng hợp)
Ngôn ngữ phụ	Tiếng Tây Ban Nha (tuyến trunk được chọn)
Kích hoạt thông báo	GPS geofence (200-300m)
Callout kết nối	Động (dữ liệu đường tàu ngầm)
Cơ sở tuân thủ ADA	49 CFR Phần 37

London Buses: Một giọng nói nhất quán trên toàn bộ mạng được sáp nhập

London Buses trình bày một mô hình hoạt động khác với NYC MTA. Transport for London (TfL) không trực tiếp vận hành hầu hết các dịch vụ xe buýt — nó sáp nhập các tuyến đường cho các nhà điều hành tư nhân bao gồm Arriva, Go-Ahead, Metroline và những người khác. Điều này tạo ra một thách thức thú vị về tính nhất quán của giọng nó: các nhà điều hành khác nhau chạy xe từ các nhà sản xuất khác nhau, nhưng hành khách trải nghiệm một thương hiệu Xe buýt London unified duy nhất.

TfL giải quyết vấn đề này thông qua một thông số kỹ thuật APIS bắt buộc trong các hợp đồng nhà điều hành xe buýt. Tất cả các nhà điều hành xe buýt được hợp đồng với TfL được yêu cầu cài đặt phần cứng APIS được phê duyệt — chủ yếu là các hệ thống tương thích với Luminator — và sử dụng một mô hình giọng nó được chuẩn hoá được cung cấp bởi TfL. Giọng nó perempuan Anh riêng biệt thông báo các dừng trên xe buýt London không phải là cá nhân cho bất kỳ nhà điều hành nào; nó là một mô hình giọng nó được ủy quyền TfL được triển khai một cách nhất quán trên toàn bộ mạng.

Hệ thống London sử dụng một từ điển ngữ âm của hàng ngàn tên và khu vực đường phố London — nhiều người trong số đó được phát âm kém (Marylebone, Holborn, Plaistow, Southwark đều có các mẫu nhấn không rõ ràng mà một hệ thống TTS chung sai lầm phát âm). Nhóm âm thanh TfL duy trì từ điển này với đầu vào từ các nhà ngữ âm học và umpan balik cộng đồng, và nó được cập nhật với mỗi phiên bản phần mềm APIS lớn.

Các thông báo xe buýt của London cũng bao gồm thông tin terminus và hướng ở đầu các tuyến đường, và thông báo “xe buýt này đang bị lệch hướng” khi một bệnh lệch tuyến đường hoạt động — cả hai được tạo ra động từ dữ liệu gửi.

Số liệu	Chi tiết
Loại mạng	Được sáp nhập (hợp đồng TfL)
Tiêu chuẩn APIS	TfL-mandated Luminator-compatible
Ký tự giọng nó	Perempuan Anh (được ủy quyền TfL)
Từ điển ngữ âm	Hàng ngàn tên địa điểm London
Xử lý lệch hướng	Văn bản duy trì gửi động
Kích hoạt tuyến đường	GPS geofence

Tokyo Toei Bus: Tổng hợp hai ngôn ngữ và Quy ước thông báo văn hóa

Tokyo’s Toei Bus (được vận hành bởi Tokyo Metropolitan Bureau of Transportation) phục vụ khoảng 590 tuyến đường trên Tokyo, với cái che đặc biệt dày đặc trong các khu quận không được Tokyo Metro hoặc mạng lưới tàu JR phục vụ. Hệ thống thông báo trên xe của nó phản ánh văn hóa transit Nhật Bản, có một số quy ước kỳ lạ khác với các hệ thống phương Tây.

Các thông báo trên xe buýt Nhật Bản dài hơn đáng kể so với các tương đương phương Tây của họ. Một thông báo tiếp cận dừng Toei Bus điển hình bao gồm: tên dừng hiện tại, một lời nhắc lịch sự để chuẩn bị sẽ thoát ra nếu đây là dừng của hành khách, tên dừng tiếp theo và đôi khi là một lời nhắc kết nối. Mỗi phần tử được phát ở tốc độ cố ý đặc trưng của giao tiếp địa chỉ công cộng Nhật Bản — khoảng 130-140 từ mỗi phút trong tiếng Nhật, điều này cảm thấy được đo lường nhưng là tiêu chuẩn cho một thanh ghi chính thức của PA chuyên chở.

Dòng hai ngôn ngữ Tiếng Anh trên Toei Bus sử dụng một tập lệnh đơn giản: chỉ tên dừng và cấu trúc “Tiếp theo dừng, [tên]”. Tên trạm có các romanisasi Tiếng Anh chính thức (từ Tokyo Metro hoặc JR signage) sử dụng những; dừng không có romanisasi chính thức sử dụng transliterate Hepburn với stress được đặt trên âm tiết đầu tiên, đó là thông lệ cho các tên địa điểm Nhật Bản nói tiếng Anh.

Mô hình giọng nó cho các thông báo Nhật Bản Tokyo Toei Bus là một giọng nói perempuan có một thanh ghi chính thức — khác biệt với giọng nói perempuan ấm áp, hội thoại hơn được sử dụng trên Tokyo Metro. Đây là một lựa chọn gaya có chủ ý: Toei Bus phục vụ nhiều hành khách cao tuổi và bị tổn hại về khả năng di chuyển thích chính thức thanh ghi PA, mà nghiên cứu cho thấy cải thiện sự tuân thủ hành vi thoát dừng trong nhân khẩu học đó.

Số liệu	Chi tiết
Nhà điều hành	Tokyo Metropolitan Bureau of Transportation
Số lượng tuyến đường	~590 tuyến đường
Ngôn ngữ	Nhật Bản (chính), Tiếng Anh (tuyến du lịch)
Tốc độ nói Nhật Bản	~130-140 wpm (thanh ghi chính thức)
Tên dừng Tiếng Anh	Romanisasi chính thức + fallback Hepburn
Thành phần thông báo	Dừng hiện tại, lời nhắc thoát, dừng tiếp theo, kết nối

Tuân thủ ADA: Quy định thực sự yêu cầu gì

Luật Người khuyết tật Hoa Kỳ, được thực hiện cho transit thông qua 49 CFR Phần 37, đã thiết lập các yêu cầu cụ thể cho thông tin hành khách trên xe buýt trực tiếp thúc đẩy việc áp dụng các hệ thống thông báo tự động. Hiểu biết những gì tuân thủ thực sự yêu cầu — hơn là những gì các cơ quan transit đôi khi thực hiện — là hữu ích cho bất kỳ ai chỉ định hoặc đánh giá APIS xe buýt.

49 CFR 37.167(b) — Xe Tuyến đường cố định yêu cầu rằng các cơ quan transit thông báo về các dừng ở:

Các điểm chuyển tiếp với các tuyến đường khác
Các giao lộ chính và các điểm tuyến
Các khoảng thời gian đủ dọc theo tuyến đường để định hướng hành khách bị mất khả năng nhìn

Ngoài ra, 49 CFR 37.167(c) yêu cầu rằng cơ quan transit đảm bảo thông báo dừng nghe rõ ở khắp nơi trong xe.

Quy định không chỉ định rằng các thông báo phải tự động — một tài xế có thể thực hiện các thông báo thủ công. Tuy nhiên, tuân thủ thủ công không nhất quán và không thực tế để kiểm toán. Các hệ thống giọng nói AI tự động đáp ứng các quy định một cách có hệ thống và tạo ra các nhật ký thông báo được gắn thẻ GPS cho phép các cơ quan transit chứng minh tuân thủ trong các kiểm toán Federal Transit Administration (FTA).

Dừng yêu cầu là một tính năng tuân thủ liên quan: hành khách không thể xem thông tin dừng có thể yêu cầu một dừng cụ thể bằng lời nói hoặc thông qua nút yêu cầu. Các hệ thống APIS hiện đại hỗ trợ điều này bằng cách kích hoạt một thông báo TTS on-demand khi hành khách nhấn nút stop-request, tổng hợp các thông báo tiếp cận và dừng cho điểm đến yêu cầu của họ.

Yêu cầu ADA	Cách AI Xe buýt Thông báo thỏa mãn nó
Thông báo các điểm chuyển tiếp	GPS-triggered ở tất cả các dừng chuyển tiếp được chỉ định
Thông báo các giao lộ chính	Cơ sở dữ liệu dừng bao gồm các thẻ giao lộ
Thông báo ở các khoảng thời gian đủ	Thông báo khoảng thời gian có thể định cấu hình
Nghe rõ ở khắp nơi trong xe	PA được hiệu chỉnh để mô hình âm học xe
Hỗ trợ stop-request	TTS nút kích hoạt on demand
Auditabilität tuân thủ	Dấu vết sự kiện thông báo được ghi lại GPS

Để biết bối cảnh về cách các yêu cầu PA tương tự áp dụng trong các môi trường transit khác, xem hướng dẫn của chúng tôi về trình tạo giọng nói AI cho các hệ thống PA ga tàu.

Thách thức âm học của âm thanh cabin xe buýt

Một cabin xe buýt là âm học thù địch so với hầu hết các môi trường nơi TTS được triển khai. Hệ thống PA phải cạnh tranh với:

Tiếng ồn động cơ và đường xá ở 65-78 dB(A) ở tốc độ đô thị điển hình
Cuộc trò chuyện của hành khách ở 55-65 dB(A)
Tiếng ồn hệ thống HVAC ở 55-60 dB(A)
Âm lượng âm học biến đổi — một xe buýt đầy hút nhiều âm thanh hơn so với một chiếc trống do thân thể hành khách hoạt động như một vật liệu cản âm

Kỹ sư transit PA giải quyết vấn đề này với sự kết hợp tuning mô hình giọng nói và xử lý chuỗi DSP khác với công việc giọng nói studio hoặc phát sóng. Các bước chính:

EQ Bandpass — loa cabin xe buýt không thể vật lý tái sản xuất bass dưới 200 Hz hoặc treble trên 5 kHz ở âm lượng hữu ích. Các mô hình giọng nói AI cho PA xe buýt được đào tạo với điều này trong đầu hoặc xử lý sau với bộ lọc bandpass tập trung trên dải trí tuệ nhân tạo 500-3500 Hz. Đây là lý do tại sao các thông báo xe buýt nghe “tinny” so với âm thanh phạm vi đầy đủ: đầu thấp và cao được cố ý gỡ bỏ.

Nén nặng — amplifier PA trong tủ xe buýt chạy rất gần với mức sản lượng tối đa của nó để vượt qua tiếng ồn xung quanh. Nén nặng (tỷ lệ 6:1 đến 10:1 với thời gian tấn công nhanh) được áp dụng trước amplifier để ngăn chặn cắt và đảm bảo loudness nhất quán trên các thông báo.

Tốc độ nói — các giọng nói transit PA chạy ở 140-160 wpm, chậm hơn tiếng nói hội thoại, để cung cấp thời gian cho hành khách phân tích các tên dừng trên tiếng ồn. Nghiên cứu trí tuệ nhân tạo nhất quán cho thấy rằng giảm 15% trong tốc độ nói tạo ra cải thiện đo lường trong sự hiểu biết trong các môi trường ồn ào.

Equalization cabin — một số cài đặt APIS nâng cao bao gồm equalization thích ứng điều chỉnh hồ sơ phản ứng tần số dựa trên phép đo real-time của tiếng ồn cabin xung quanh, tăng các tần số giọng nói bị che khuất bởi noise floor hiện tại.

Giai đoạn DSP	Cài đặt cho PA Xe buýt	Lý do
Bộ lọc high-pass	200 Hz, bậc 2	Xóa sub-bass loa không thể tái sản xuất
Nhấn bandpass	+4 dB shelf ở 1-3 kHz	Tăng dải trí tuệ nhân tạo giọng nói
Bộ lọc high-cut	Cuộn 5 kHz	Xóa treble trên khả năng loa
Nén	tỷ lệ 6:1, -15 dB ngưỡng, 5ms tấn công	Ngăn chặn cắt PA amp
Giới hạn	-2 dBFS đỉnh thực	Vốn cứng
Loại bỏ tiếng ồn	Trước tổng hợp, tùy chọn	Làm sạch đầu vào cho mô hình TTS

Xây dựng âm thanh PA Onboard Bus cho các dự án sáng tạo

Công nghệ giọng nói AI tương tự cung cấp năng lượng cho các hệ thống thông báo tự động của cơ quan transit có thể được truy cập bởi những người sáng tạo độc lập. Các nhà phát triển trò chơi xây dựng các mô phỏng transit đô thị, những người làm phim cần âm thanh nội thất xe buýt đáng tin cậy, nhà thiết kế công viên chủ đề tạo các môi trường transit, và những người tạo nội dung tạo video liên quan đến transit đều có cùng một nhu cầu cơ bản: âm thanh PA xe buýt thực tế nghe có vẻ như nó thực sự phát ra từ loa cabin xe buýt.

Quy trình làm việc trên phần cứng máy tính để bàn Windows:

Bước 1 — Chọn mô hình giọng nó. Đối với một giọng nó kiểu NYC MTA, chọn một giọng nó nữ Tiếng Anh Mỹ trung lập với một thanh ghi mid-range — không đặc biệt hơi hoặc ấm áp, nhiều “chức năng và rõ ràng hơn”. Đối với một giọng nó kiểu London Buses, một giọng nó nữ Anh pronunciation được nhận với inflection chính thức. Đối với phong cách Tokyo Toei Bus, một giọng nó nữ Nhật Bản chính thức là tham chiếu.

Bước 2 — Sao chép và đào tạo. Sử dụng một công cụ sao chép giọng nói AI để tạo một mô hình từ 2-4 phút âm thanh nguồn sạch. Đường dẫn sao chép giọng nó của VoxBooster xử lý điều này trên phần cứng Windows 10/11 tiêu chuẩn, chạy cục bộ mà không có sự phụ thuộc vào đám mây. Giữ âm thanh nguồn khô — không có reverb, không có room tone — để mô hình tổng hợp sạch nhất.

Bước 3 — Viết các tập lệnh của bạn với các quy ước PA xe buýt trong đầu. Giữ mỗi thông báo dừng đến một câu ghép tối đa. Sử dụng hiện tại liên tục cho các lệnh gọi tiếp cận (“Dừng tiếp theo là…”) và hiện tại đơn giản cho các lệnh gọi dừng (“Cái này…”). Tránh các cơn co thắt — “Chúng ta” nghe rõ ràng hơn trên PA nén hơn “Chúng ta là”. Tránh các tên dừng với plosives nặng ở phía trước nếu có thể.

Bước 4 — Tổng hợp thành WAV sạch. Tạo mỗi thông báo ở 44.1 kHz, WAV 16-bit. Giữ độ lợi ở -18 dBFS trước khi xử lý.

Bước 5 — Áp dụng chuỗi DSP PA xe buýt. High-pass ở 200 Hz, bandpass boost ở 1-3 kHz, nén ở 6:1, high-cut ở 5 kHz, giới hạn cứng ở -2 dBFS. Thêm rất nhẹ room reverb (RT60 0.3-0.5 giây — cabin xe buýt khô hơn nhiều so với các ga tàu).

Bước 6 — Lớp tiếng ồn xung quanh cho chủ nghĩa hiện thực. Trong bối cảnh trò chơi hoặc phim, âm thanh PA được nghe trên tiếng ồn xung quanh cabin. Hỗn hợp thông báo được xử lý ở +3 đến +6 dB trên tham chiếu tiếng ồn xe buýt xung quanh của bạn để đạt được trí tuệ nhân tạo nghe có vẻ chân thực.

Để có quy trình tương tự để tạo suất âm thanh PA trong các bối cảnh transit khác, hãy xem trình tạo giọng nói AI cho các hệ thống PA tàu du lịch và trình tạo giọng nói AI cho các hệ thống toll booth EZ-Pass, bao gồm các thách thức âm học tương tự và tuân thủ trong các môi trường phương tiện khác nhau.

Biến chế ký tự giọng nói trên các loại xe buýt

Cũng giống như các giọng nó transit PA khác nhau giữa metro, tàu lửa đưa đón và tàu hàng không, các giọng nó PA xe buýt khác nhau giữa các bối cảnh xe:

Xe buýt thành phố (tuyến đường địa phương, dừng đô thị): Tốc độ nói nhanh nhất của tất cả các loại xe buýt (155-165 wpm), âm thanh nén nhất, nhấn mạnh cao nhất trên rõ ràng so với ấm áp. Ví dụ: NYC MTA địa phương, London Buses inner zone.

Dịch vụ express và limited-stop: Hơi chậm hơn (145-155 wpm), thông tin nhiều hơn trên mỗi thông báo (chi tiết kết nối, thay đổi vùng giá cả), thanh ghi ấm áp hơn vì hành khách ngồi để lâu hơn. Ví dụ: Dịch vụ xe buýt được chọn NYC MTA, các tuyến express London Buses.

Shuttle sân bay và coach: Tốc độ nói chậm nhất (130-140 wpm), thanh ghi chính thức nhất, thường là đa ngôn ngữ nhất. Các thông báo thường bao gồm các hướng dẫn chi tiết (hành lý, thông tin terminal). Ví dụ: Heathrow Express coach, LAX FlyAway.

Paratransit và các dịch vụ có thể truy cập được: Rất chậm (120-130 wpm), enunciation cố ý nhất, xác nhận địa chỉ và xác minh lấy được tích hợp vào logic thông báo. Ưu tiên rõ ràng formant cao hơn.

Những khác biệt này phản ánh thử nghiệm âm học và nghiên cứu psychoacoustic — không phải quy ước tùy tiện. Để đọc sâu hơn về tổng hợp giọng nói AI trong các bối cảnh PA môi trường built khác, hướng dẫn của chúng tôi về sao chép giọng nói cho công việc voiceover bao gồm cách các mô hình tổng hợp thần kinh giống nhau được sử dụng trong transit được áp dụng trong sản xuất nội dung chuyên nghiệp, và trình tạo giọng nói AI cho các hệ thống concierge khách sạn bao gồm các triết học thiết kế âm học ngược — ấm áp và sự thân mật trên PA punch. Đối với những người tạo nội dung muốn sử dụng các ký tự giọng nói kiểu transit trong các luồng hoặc sản xuất, hướng dẫn trình chuyển đổi giọng nói cho những người tạo nội dung bao gồm sự định hình giọng nói real-time.

Câu hỏi thường gặp

AI giọng nói thông báo xe buýt là gì?

AI giọng nói thông báo xe buýt là hệ thống text-to-speech được đào tạo trên diễn viên thoại chuyên nghiệp và tích hợp với hệ thống thông tin hành khách tự động (APIS) của xe. Nó tạo ra tên dừng, thông báo kết nối và thông điệp an toàn trong thời gian thực từ dữ liệu vị trí GPS, thay thế các ngân hàng clip được ghi âm trước bằng tổng hợp thần kinh unlimited-vocabulary.

TTS được kích hoạt bằng GPS hoạt động như thế nào trên xe buýt?

Máy nhận GPS theo dõi vị trí của xe. Khi xe buýt vào khu vực kích hoạt geofence — thường là 200-400 mét trước một dừng — bộ điều khiển APIS trên xe chuyển tên dừng, số tuyến đường và bất kỳ thông tin kết nối nào đến động cơ TTS. Động cơ tổng hợp âm thanh trong vòng dưới 300 ms và định tuyến nó đến các loa trong xe. Cùng một sự kiện có thể đồng thời cập nhật hiển thị đích và màn hình thông tin hành khách.

Các cơ quan transit sử dụng phần cứng nào cho thông báo trên xe buýt?

Clever Devices và Luminator là hai nhà cung cấp phần cứng chiếm ưu thế ở Bắc Mỹ. Cả hai đều sản xuất các đơn vị APIS tích hợp kết hợp mô-đun GPS/LTE, máy tính trên xe, amplifier PA và phần mềm TTS trong một gói được chuẩn hoá. Các hệ thống châu Âu thường sử dụng thiết bị INIT hoặc Trapeze. Tất cả các nền tảng hiện tại hỗ trợ tổng hợp giọng nói thần kinh thông qua động cơ TTS trên xe hoặc cloud-edge.

Tuân thủ ADA yêu cầu gì cho thông báo trên xe buýt?

Theo Luật Người khuyết tật Hoa Kỳ (ADA) và cụ thể là 49 CFR Phần 37, các xe transit phải thông báo các dừng tại các điểm chuyển tiếp, các giao lộ chính và theo yêu cầu. Thông báo phải nghe rõ ở khắp nơi trong xe. Các hệ thống giọng nói AI hiện đại đáp ứng điều này bằng cách tạo thông báo dừng tự động từ các kích hoạt GPS, ghi lại mỗi thông báo để báo cáo tuân thủ và cung cấp nút yêu cầu dừng do hành khách kích hoạt kích hoạt tổng hợp bổ sung theo yêu cầu.

NYC MTA, London Buses và Tokyo Toei Bus xử lý giọng nói trên xe như thế nào?

Xe buýt NYC MTA sử dụng phần cứng Clever Devices IVIU với giọng nói Tiếng Anh được tổng hợp; tổng hợp hai ngôn ngữ Tiếng Anh-Tiếng Tây Ban Nha hoạt động trên nhiều tuyến đường chính. London Buses chạy APIS tương thích với Luminator với giọng nó perempuan Anh được tổng hợp được sử dụng một cách nhất quán trên tất cả các nhà điều hành được hợp đồng với TfL. Tokyo Toei Bus sử dụng tổng hợp hai ngôn ngữ Nhật-Anh với tên trạm được kết xuất bằng romaji cho dòng Tiếng Anh và bằng kanji + hiragana đầy đủ cho Nhật Bản.

Có thể tạo audio PA kiểu xe buýt cho trò chơi hoặc phim bằng phần mềm máy tính để bàn không?

Có. Bạn cần một bản sao giọng nói được điều chỉnh cho môi trường âm học PA — EQ băng thông điện thoại với dải băng tập trung vào 500-3500 Hz — cộng với một tập lệnh tuân theo các mẫu cụm từ thông báo được kích hoạt GPS. Các công cụ như VoxBooster xử lý sao chép giọng nói và tổng hợp real-time trên Windows; bước mô phỏng EQ có thể được thực hiện trong bất kỳ DAW hoặc trình chỉnh sửa âm thanh nào.

Tại sao âm thanh PA xe buýt nghe khác với bản ghi giọng nói studio?

Loa trong xe buýt nhỏ, cấp điện hạn chế và phải cạnh tranh với tiếng ồn động cơ, tiếng ồn đường xá và cuộc trò chuyện của hành khách. Amplifier PA áp dụng nén mạnh và EQ dải băng cắt dưới 200 Hz và trên 5 kHz. Các mô hình giọng nói AI cho transit được đào tạo hoặc xử lý sau để có năng lượng tập trung trong dải trí tuệ nhân tạo 500-3500 Hz, với nén đã áp dụng để âm thanh không cắt bộ khuếch đại PA xe.

Kết luận

AI giọng nói thông báo xe buýt đã biến đổi những gì từng là một patchwork của các clip được ghi âm trước và các thông báo sopir không nhất quán thành một hệ thống đáng tin cậy, có thể kiểm toán được, đa ngôn ngữ hoạt động trên toàn bộ một số mạng transit phức tạp nhất trên thế giới. Từ đội xe 5.800 chiếc NYC MTA chạy phần cứng Clever Devices đến mô hình giọng nó thống nhất bắt buộc TfL tại London Buses để tổng hợp hai ngôn ngữ Nhật-Anh chính thức Tokyo Toei Bus — kiến trúc TTS thần kinh kích hoạt GPS giống nhau cơ bản tất cả, với tuning âm học và ngôn ngữ được điều chỉnh theo mỗi môi trường.

Đối với những người sáng tạo và nhà phát triển cần âm thanh PA chất lượng transit mà không có ngân sách cơ quan transit, đường dẫn tương tự trong miniature: klon giọng nói AI, tập lệnh viết với các quy ước phrasing PA xe buýt và chuỗi DSP mô phỏng ký tự âm học nén-bandpass của loa cabin xe buýt. VoxBooster xử lý sao chép giọng nói và bên tổng hợp trên Windows 10/11, với bản dùng thử miễn phí 3 ngày và không yêu cầu thẻ tín dụng.

Sự khác biệt giữa một thông báo xe buýt đáng tin cậy và không đáng tin cậy gần như hoàn toàn đến chuỗi DSP và hiệu chỉnh tốc độ nói được mô tả ở đây. Hãy làm đúng, và kết quả không thể phân biệt được từ đầu ra Clever Devices hoặc Luminator hành khách nghe mỗi ngày.

Tải xuống VoxBooster — bản dùng thử miễn phí 3 ngày, không yêu cầu thẻ tín dụng.