Artificial Intelligence

Исследователи надеются расширить автоматическое распознавание речи до 2,000 языков

опубликованный

1 год назад

14 января 2023

Группа исследователей из Университета Карнеги-Меллона планирует расширить возможности автоматического распознавания речи до 2,000 языков. На данный момент только часть из примерно 7,000-8,000 разговорных языков по всему миру выиграют от современных языковых технологий, таких как транскрипция голоса в текст или автоматические субтитры.

Синьцзянь Ли — доктор философии. студент Института языковых технологий Школы компьютерных наук (LTI).

«Многие люди в этом мире говорят на разных языках, но инструменты языковых технологий разрабатываются не для всех из них», — сказал он. «Разработка технологии и хорошей языковой модели для всех людей — одна из целей этого исследования».

Ли входит в группу экспертов, стремящихся упростить требования к данным, необходимые языкам для разработки модели распознавания речи.

В команду также входят преподаватели LTI Синдзи Ватанабэ, Флориан Метце, Дэвид Мортенсен и Алан Блэк.

Исследование под названием «ASR2K: распознавание речи примерно для 2,000 языков без звукабыла представлена на выставке Interspeech 2022 в Южной Корее.

Для большинства существующих моделей распознавания речи требуются наборы текстовых и аудиоданных. Хотя текстовые данные существуют для тысяч языков, это не относится к аудио. Команда хочет устранить необходимость в аудиоданных, сосредоточившись на лингвистических элементах, которые являются общими для многих языков.

Технологии распознавания речи обычно сосредотачиваются на фонемах языка, которые представляют собой отдельные звуки, отличающие его от других языков. Они уникальны для каждого языка. В то же время в языках есть телефоны, которые описывают физическое звучание слова, и одной фонеме может соответствовать несколько телефонов. Хотя отдельные языки могут иметь разные фонемы, лежащие в их основе телефоны могут быть одинаковыми.

Команда работает над моделью распознавания речи, которая меньше полагается на фонемы и больше на информацию о том, как телефоны используются разными языками. Это помогает уменьшить усилия, необходимые для создания отдельных моделей для каждого отдельного языка. Соединяя модель с филогенетическим деревом, которое представляет собой диаграмму, отображающую отношения между языками, это помогает с правилами произношения. Модель команды и древовидная структура позволили им аппроксимировать модель речи для тысяч языков даже без аудиоданных.

«Мы пытаемся устранить это требование к аудиоданным, что помогает нам перейти от 100–200 языков к 2,000», — сказал Ли. «Это первое исследование, нацеленное на такое большое количество языков, и мы — первая команда, стремящаяся расширить языковые инструменты до такого масштаба».

Исследование, которое все еще находится на ранней стадии, улучшило существующие инструменты языковой аппроксимации на 5%.

«Каждый язык является очень важным фактором в своей культуре. У каждого языка есть своя история, и если вы не попытаетесь сохранить языки, эти истории могут быть потеряны», — сказал Ли. «Разработка такой системы распознавания речи и этого инструмента — это шаг к сохранению этих языков».

Глубокое обучение против обучения с подкреплением

Не пропустите

Машинное обучение против глубокого обучения — ключевые отличия

Алекс МакФарланд

Алекс МакФарланд — журналист и писатель, занимающийся искусственным интеллектом. Он сотрудничал с многочисленными стартапами и публикациями в области искусственного интеллекта по всему миру.