人工知能

研究者がディープニューラルネットワークを用いた人間の音声認識モデルを開発

Published March 3, 2022

Updated April 5, 2026

Alex McFarland

ドイツの研究者グループは、機械学習とディープニューラルネットワークに基づく新しい人間の音声認識モデルを探究している。この新しいモデルは、人間の音声認識を大幅に改善することができる。

聴覚補助器のアルゴリズムは、通常、人間の音声認識を改善するために使用され、信号対雑音比が一定数の単語を認識することを決定するさまざまな実験を通じて評価される。しかし、これらの実験は、往々にして時間がかかり、費用もかかる。

新しいモデルは、The Journal of the Acoustical Society of Americaに掲載された研究で詳しく説明されている。

聴覚障害者のための予測

Jana Roßbachは、カール・フォン・オシエツキー大学の著者の一人である。

“私たちのモデルの新しさは、非常に異なる複雑さを持つノイズタイプに対して、聴覚障害者のための良い予測を提供し、低いエラー率と測定データとの高い相関性を示すことにある」とRoßbachは述べた。

研究者チームは、自動音声認識（ASR）を通じて、リスナーが1文あたりに何語を理解できるかを計算した。AlexaやSiriのような音声認識ツールは、このASRに依存している。

研究と結果

チームによる研究には、8人の正常な聴覚と20人の聴覚障害を持つ個人が参加した。リスナーは、多くの複雑なノイズにさらされ、聴覚障害者のリスナーは、加齢による聴覚障害のレベルに応じて3つのグループに分類された。

新しいモデルを通じて、研究者は、さまざまな程度の聴覚障害を持つ聴覚障害者の音声認識パフォーマンスを予測することができた。彼らは、時間的変調と実際の音声との類似性の複雑さが異なるさまざまなノイズ・マスカーに対して予測を行うことができた。これにより、各個人は、可能な聴覚障害について個別に観察および分析することができた。

“私たちが最も驚いたのは、予測がすべてのノイズタイプでうまく機能したことである。私たちは、単一の競合話者を使用する場合にモデルが問題を起こすことを期待していた。しかし、それは事実ではなかった」とRoßbachは述べた。

モデルは単耳の聴覚に焦点を当てていたため、チームは今、2つの耳の聴覚のための二耳模型を作成することを目指している。また、新しいモデルは、聴覚労力または音質を予測するために使用することもできるという。