Connect with us

Исследователи разрабатывают модель распознавания человеческой речи с помощью глубоких нейронных сетей

Искусственный интеллект

Исследователи разрабатывают модель распознавания человеческой речи с помощью глубоких нейронных сетей

mm

Группа исследователей из Германии изучает новую модель распознавания человеческой речи на основе машинного обучения и глубоких нейронных сетей. Новая модель может существенно улучшить распознавание человеческой речи.

Алгоритмы слуховых аппаратов обычно используются для улучшения распознавания человеческой речи, и они оцениваются через различные эксперименты, которые определяют соотношение сигнала и шума, при котором распознается определенное количество слов. Однако эти эксперименты часто являются длительными и дорогими.

Новая модель была описана в исследовании, опубликованном в Журнале Акустического общества Америки.

Прогнозы для слушателей с нарушениями слуха

Яна Россбах является одним из авторов из Университета Карла фон Оссицкого.

«Новизна нашей модели заключается в том, что она обеспечивает хорошие прогнозы для слушателей с нарушениями слуха для шумов с очень разной сложностью и показывает низкие ошибки и высокую корреляцию с измеренными данными», – сказала Россбах.

Команда исследователей рассчитала, сколько слов в предложении мог понять слушатель через автоматическое распознавание речи (ASR). Инструменты распознавания речи, такие как Alexa и Siri, полагаются на это ASR, которое широко доступно.

Исследование и результаты

Исследование, проведенное командой, включало восемь человек с нормальным слухом и 20 человек с нарушениями слуха. Слушателям были представлены различные сложные шумы, которые скрывали речь, и слушатели с нарушениями слуха были разделены на три группы в зависимости от уровня возрастного снижения слуха.

С помощью новой модели исследователи смогли предсказать производительность распознавания человеческой речи у слушателей с нарушениями слуха с разными степенями снижения слуха. Они смогли сделать эти прогнозы для различных маскирующих шумов с разной сложностью во временной модуляции и их подобием реальной речи. Все это позволило наблюдать и анализировать каждого человека индивидуально в отношении возможных нарушений слуха.

«Мы были наиболее удивлены тем, что прогнозы хорошо сработали для всех типов шума. Мы ожидали, что модель будет иметь проблемы при использовании одного конкурирующего говорящего. Однако этого не произошло», – сказала Россбах.

Поскольку модель была сосредоточена на одностороннем слухе, команда теперь намерена создать бинауральную модель для двухстороннего слуха. Они также утверждают, что новая модель может быть использована для прогнозирования усилий слушания или качества речи.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.