Inteligência artificial

Pesquisadores Desenvolvem Modelo de Reconhecimento de Fala Humana Com Redes Neurais Profundas

mm

Um grupo de pesquisadores da Alemanha está explorando um novo modelo de reconhecimento de fala humana baseado em aprendizado de máquina e redes neurais profundas. O novo modelo pode ajudar a melhorar significativamente o reconhecimento de fala humana.

Os algoritmos de aparelhos auditivos são normalmente usados para melhorar o reconhecimento de fala humana e são avaliados por meio de vários experimentos que determinam a relação sinal-ruído em que um certo número de palavras é reconhecido. No entanto, esses experimentos são frequentemente demorados e caros.

O novo modelo foi detalhado em uma pesquisa publicada em The Journal of the Acoustical Society of America.

Previsões para Ouvintes com Deficiência Auditiva

Jana Roßbach é uma das autoras da Universidade Carl Von Ossietzky.

“A novidade do nosso modelo é que ele fornece boas previsões para ouvintes com deficiência auditiva para tipos de ruído com complexidade muito diferente e mostra tanto erros baixos quanto alta correlação com os dados medidos”, disse Roßbach.

A equipe de pesquisadores calculou quantas palavras por frase um ouvinte poderia entender por meio do reconhecimento de fala automático (ASR). Ferramentas de reconhecimento de fala como Alexa e Siri dependem desse ASR, que é amplamente disponível.

O Estudo e os Resultados

O estudo realizado pela equipe envolveu oito indivíduos com audição normal e 20 indivíduos com deficiência auditiva. Os ouvintes foram expostos a muitos ruídos complexos diferentes que escondiam a fala, e os ouvintes com deficiência auditiva foram categorizados em três grupos dependendo do nível de perda auditiva relacionada à idade.

Por meio do novo modelo, os pesquisadores puderam prever o desempenho do reconhecimento de fala humana de ouvintes com deficiência auditiva com diferentes graus de perda auditiva. Eles puderam fazer essas previsões para vários mascaradores de ruído com complexidades diferentes em modulação temporal e quão semelhantes eram à fala real. Tudo isso permitiu que cada pessoa fosse observada e analisada individualmente em relação à possível perda auditiva.

“Ficamos mais surpresos de que as previsões funcionaram bem para todos os tipos de ruído. Esperávamos que o modelo tivesse problemas quando usando um único falante concorrente. No entanto, não foi o caso”, disse Roßbach.

Como o modelo foi focado em audição de um único ouvido, a equipe agora busca criar um modelo binaural para audição de dois ouvidos. Eles também dizem que o novo modelo pode ser usado para prever o esforço de audição ou a qualidade da fala também.

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.