Artificial Intelligence

Исследователи разрабатывают модель распознавания человеческой речи с помощью глубоких нейронных сетей

обновленный on 9 декабря 2022

Группа исследователей из Германии изучает новую модель распознавания человеческой речи, основанную на машинном обучении и глубоких нейронных сетях. Новая модель может помочь значительно улучшить распознавание человеческой речи.

Алгоритмы слуховых аппаратов обычно используются для улучшения распознавания человеческой речи, и они оцениваются с помощью различных экспериментов, определяющих отношение сигнал/шум, при котором распознается определенное количество слов. Однако эти эксперименты часто требуют много времени и средств.

Новая модель была подробно описана в исследовании, опубликованном в Журнал Акустического Общества Америки.

Прогнозы для слушателей с нарушениями слуха

Яна Россбах — один из авторов из Университета Карла фон Осецкого.

«Новинка нашей модели заключается в том, что она обеспечивает хорошие прогнозы для слушателей с нарушениями слуха для типов шума самой разной сложности и демонстрирует как низкие ошибки, так и высокую корреляцию с измеренными данными», — сказал Россбах.

Команда исследователей подсчитала, сколько слов в предложении слушатель может понять с помощью автоматического распознавания речи (ASR). Инструменты распознавания речи, такие как Alexa и Siri, полагаются на этот ASR, который широко доступен.

Исследование и результаты

В исследовании, проведенном группой, приняли участие восемь человек с нормальным слухом и 20 человек с нарушениями слуха. Слушатели подвергались воздействию множества различных сложных шумов, которые скрывали речь, а слушатели с нарушениями слуха были разделены на три группы в зависимости от степени их возрастной потери слуха.

С помощью новой модели исследователи смогли предсказать эффективность распознавания человеческой речи слушателями с нарушениями слуха с разной степенью потери слуха. Они смогли сделать эти прогнозы для различных маскирующих шумов с разной сложностью временной модуляции и тем, насколько они похожи на реальную речь. Все это позволило индивидуально наблюдать и анализировать каждого человека на предмет возможной потери слуха.

«Мы были очень удивлены тем, что прогнозы сработали для всех типов шума. Мы ожидали, что у модели будут проблемы при использовании одного конкурирующего говорящего. Однако это было не так», — сказал Россбах.

Поскольку модель была ориентирована на слух одним ухом, команда теперь будет стремиться создать бинауральную модель для слуха двумя ушами. Они также говорят, что новую модель можно использовать для прогнозирования усилий при прослушивании или качества речи.

Распознавание дипфейков знаменитостей по внешним участкам лица

Не пропустите

Почему ИИ не дает лучших рекомендаций по продуктам

Алекс МакФарланд

Алекс МакФарланд — журналист и писатель, занимающийся искусственным интеллектом. Он сотрудничал с многочисленными стартапами и публикациями в области искусственного интеллекта по всему миру.