Зв'язатися з нами

Дослідники розробили модель розпізнавання людської мови за допомогою глибоких нейронних мереж

Штучний Інтелект

Дослідники розробили модель розпізнавання людської мови за допомогою глибоких нейронних мереж

mm

Група дослідників з Німеччини досліджує нову модель розпізнавання людської мови на основі машинного навчання та глибоких нейронних мереж. Нова модель може значно покращити розпізнавання людської мови. 

Алгоритми слухових апаратів зазвичай використовуються для покращення розпізнавання людської мови, і вони оцінюються за допомогою різноманітних експериментів, які визначають співвідношення сигнал/шум, за якого розпізнається певна кількість слів. Однак ці експерименти часто вимагають багато часу та дорогі.

Нова модель була детально описана в дослідженні, опублікованому в Журнал Акустичного товариства Америки

Прогнози для слухачів із вадами слуху

Яна Росбах є одним із авторів з Університету Карла фон Осєцького. 

«Новинка нашої моделі полягає в тому, що вона забезпечує хороші прогнози для слухачів з вадами слуху для типів шуму дуже різної складності та показує як низькі похибки, так і високу кореляцію з виміряними даними», — сказав Росбах.

Команда дослідників підрахувала, скільки слів у реченні може зрозуміти слухач за допомогою автоматичного розпізнавання мови (ASR). Інструменти розпізнавання мовлення, такі як Alexa та Siri, покладаються на цей ASR, який широко доступний. 

Дослідження та результати

У дослідженні, проведеному командою, взяли участь вісім людей з нормальним слухом і 20 людей із вадами слуху. Слухачі піддавалися впливу багатьох різноманітних складних шумів, які приховували мову, і слухачів із вадами слуху розділили на три групи залежно від рівня їхньої вікової втрати слуху. 

За допомогою нової моделі дослідники могли передбачити ефективність розпізнавання людської мови слухачів із вадами слуху з різним ступенем втрати слуху. Вони змогли зробити ці прогнози для різних засобів маскування шуму з різною складністю в часовій модуляції та наскільки вони були схожі на реальну мову. Все це дало змогу окремо спостерігати та аналізувати кожну людину щодо можливої ​​втрати слуху. 

«Ми були найбільше здивовані тим, що прогнози добре працювали для всіх типів шуму. Ми очікували, що модель матиме проблеми з використанням одного конкуруючого диктора. Однак це було не так», – сказав Росбах.

Оскільки модель була зосереджена на слуху одним вухом, команда тепер намагатиметься створити бінауральну модель для слуху на два вуха. Вони також кажуть, що нова модель також може бути використана для прогнозування зусиль на прослуховування або якості мови. 

Алекс МакФарланд — журналіст і письменник, що займається штучним інтелектом, досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та публікаціями зі штучного інтелекту по всьому світу.