stub Naukowcy chcą rozszerzyć automatyczne rozpoznawanie mowy na 2,000 języków – Unite.AI
Kontakt z nami

Artificial Intelligence

Naukowcy chcą rozszerzyć automatyczne rozpoznawanie mowy na 2,000 języków

Opublikowany

 on

Zespół naukowców z Carnegie Mellon University planuje rozszerzyć automatyczne rozpoznawanie mowy na 2,000 języków. W tej chwili tylko część z szacowanych 7,000 8,000–XNUMX XNUMX języków mówionych na całym świecie skorzystałaby z nowoczesnych technologii językowych, takich jak transkrypcja głosu na tekst lub automatyczne napisy.

Xinjian Li jest doktorem. student Instytutu Technologii Językowych (LTI) Szkoły Informatyki.

„Wielu ludzi na świecie posługuje się różnymi językami, ale nie dla wszystkich opracowuje się narzędzia technologii językowej” – powiedział. „Opracowanie technologii i dobrego modelu językowego dla wszystkich ludzi jest jednym z celów tych badań”.

Li należy do zespołu ekspertów chcących uprościć wymagania dotyczące danych potrzebne językom do opracowania modelu rozpoznawania mowy.

W skład zespołu wchodzą także wykładowcy LTI: Shinji Watanabe, Florian Metze, David Mortensen i Alan Black.

Badanie pt. „ASR2K: Rozpoznawanie mowy w około 2,000 językach bez dźwięku” został zaprezentowany na Interspeech 2022 w Korei Południowej.

Większość istniejących modeli rozpoznawania mowy wymaga zestawów danych tekstowych i dźwiękowych. Chociaż dane tekstowe istnieją dla tysięcy języków, to samo nie dotyczy dźwięku. Zespół chce wyeliminować potrzebę stosowania danych dźwiękowych, skupiając się na elementach językowych wspólnych dla wielu języków.

Technologie rozpoznawania mowy zwykle koncentrują się na fonemie języka, czyli odrębnych dźwiękach odróżniających go od innych języków. Są one unikalne dla każdego języka. Jednocześnie w językach występują telefony opisujące fizyczne brzmienie słowa, a jednemu fonemowi może odpowiadać wiele telefonów. Chociaż różne języki mogą mieć różne fonemy, podstawowe telefony mogą być takie same.

Zespół pracuje nad modelem rozpoznawania mowy, który w mniejszym stopniu opiera się na fonemach, a w większym na informacjach o sposobie współdzielenia telefonów między językami. Pomaga to zmniejszyć wysiłek potrzebny do zbudowania oddzielnych modeli dla każdego języka. Łącząc model z drzewem filogenetycznym, czyli diagramem odwzorowującym relacje między językami, pomaga to w ustalaniu zasad wymowy. Model opracowany przez zespół i struktura drzewa umożliwiły przybliżenie modelu mowy dla tysięcy języków nawet bez danych dźwiękowych.

„Próbujemy usunąć to wymaganie dotyczące danych dźwiękowych, co pomaga nam przejść ze 100 do 200 języków do 2,000” – powiedział Li. „To pierwsze badanie obejmujące tak dużą liczbę języków i jesteśmy pierwszym zespołem, który chce rozszerzyć narzędzia językowe w tym zakresie”.

Badania, choć wciąż znajdujące się na wczesnym etapie, ulepszyły istniejące narzędzia aproksymacji języka o 5%.

„Każdy język jest bardzo ważnym czynnikiem w swojej kulturze. Każdy język ma swoją historię i jeśli nie spróbuje się zachować języków, historie te mogą zostać utracone” – powiedział Li. „Opracowanie tego rodzaju systemu rozpoznawania mowy i tego narzędzia to krok w stronę zachowania tych języków”.

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją badającym najnowsze osiągnięcia w dziedzinie sztucznej inteligencji. Współpracował z wieloma startupami i publikacjami AI na całym świecie.