Intelligenza Artificiale
I ricercatori sviluppano un modello di riconoscimento vocale umano con reti neurali profonde

Un gruppo di ricercatori tedeschi sta esplorando un nuovo modello di riconoscimento vocale umano basato sull’apprendimento automatico e sulle reti neurali profonde. Il nuovo modello potrebbe contribuire a migliorare notevolmente il riconoscimento vocale umano.
Gli algoritmi degli apparecchi acustici vengono solitamente utilizzati per migliorare il riconoscimento vocale umano e vengono valutati attraverso vari esperimenti che determinano il rapporto segnale-rumore a cui viene riconosciuto un certo numero di parole. Tuttavia, questi esperimenti richiedono spesso tempo e sono costosi.
Il nuovo modello è stato dettagliato nella ricerca pubblicata in Il diario dell'Acoustical Society of America.
Previsioni per ascoltatori con problemi di udito
Jana Roßbach è una delle autrici della Carl Von Ossietzky University.
"La novità del nostro modello è che fornisce buone previsioni per gli ascoltatori con problemi di udito per tipi di rumore con complessità molto diversa e mostra sia errori bassi che correlazioni elevate con i dati misurati", ha affermato Roßbach.
Il team di ricercatori ha calcolato quante parole per frase un ascoltatore potrebbe capire attraverso il riconoscimento vocale automatico (ASR). Strumenti di riconoscimento vocale come Alexa e Siri si basano su questo ASR, che è ampiamente disponibile.
Lo studio e i risultati
Lo studio condotto dal team ha coinvolto otto persone con udito normale e 20 con problemi di udito. Gli ascoltatori sono stati esposti a molti diversi rumori complessi che nascondevano il discorso e gli ascoltatori con problemi di udito sono stati classificati in tre gruppi a seconda del loro livello di perdita dell'udito legata all'etĂ .
Attraverso il nuovo modello, i ricercatori hanno potuto prevedere le prestazioni di riconoscimento vocale umano di ascoltatori con problemi di udito con diversi gradi di perdita dell'udito. Sono stati in grado di fare queste previsioni per vari mascheratori di rumore con diverse complessità nella modulazione temporale e quanto fossero simili al parlato reale. Tutto ciò ha permesso a ciascuna persona di essere osservata e analizzata individualmente per quanto riguarda la possibile perdita dell'udito.
“Siamo rimasti molto sorpresi dal fatto che le previsioni abbiano funzionato bene per tutti i tipi di rumore. Ci aspettavamo che il modello avesse problemi quando utilizzava un singolo oratore concorrente. Tuttavia, non è stato così", ha affermato Roßbach.
Poiché il modello era incentrato sull'udito monoauricolare, il team cercherà ora di creare un modello binaurale per l'udito biauricolare. Dicono anche che il nuovo modello potrebbe essere utilizzato anche per prevedere lo sforzo di ascolto o la qualità del parlato.