Intelligenza artificiale
Speechmatics Lancia Software di Riconoscimento Vocale Autonomo

La principale startup di tecnologia di riconoscimento vocale Speechmatics ha lanciato il suo software di ‘Riconoscimento Vocale Autonomo’ che utilizza le più recenti tecniche di apprendimento profondo e modelli auto-supervisionati all’avanguardia. Il sistema ha dimostrato la capacità di superare Amazon, Google e Microsoft.
Dataset di Stanford
Speechmatics si basa su dataset trovati nello studio di Stanford su ‘Disparità Razziali nel Riconoscimento Vocale‘ e ha raggiunto un’accuratezza complessiva dell’82,8% per le voci afroamericane. Per fare un confronto, Google ha raggiunto un tasso di accuratezza del 68,7%, mentre Amazon ha raggiunto il 68,6%.
Il livello di accuratezza equivale a una riduzione del 45% degli errori di riconoscimento vocale, che è equivalente a tre parole in una frase media. Non solo il nuovo sistema Speechmatics è preciso in questo senso, ma ha anche dimostrato miglioramenti nell’accuratezza attraverso accenti, età, dialetti e altre caratteristiche sociodemografiche.
Spesso c’è un malinteso nel riconoscimento vocale a causa della limitata quantità di dati etichettati che gli algoritmi possono utilizzare per addestrarsi. I dati etichettati richiedono di essere classificati manualmente dagli esseri umani, il che risulta in una quantità minore di dati disponibili per questi sistemi. Ciò limita anche la rappresentazione di tutte le voci, creando un nuovo set di problemi.
Addestramento su Dati non Etichettati
Speechmatics sta facendo grandi progressi in questo senso, poiché la sua tecnologia è addestrata su grandi quantità di dati non etichettati provenienti direttamente da Internet. I dati provengono da cose come contenuti dei social media e podcast.
L’apprendimento auto-supervisionato ha consentito al sistema di essere addestrato su 1,1 milioni di ore di audio, il che rappresenta un aumento rispetto alle precedenti 30.000 ore. Ciò gli consente di avere una gamma di rappresentazione delle voci molto più ampia e aiuta a ridurre i pregiudizi dell’IA e gli errori nel riconoscimento vocale.
Per quanto riguarda le voci dei bambini, Speechmatics ha anche dimostrato la capacità di superare i concorrenti. Le voci dei bambini sono difficili da riconoscere attraverso la tecnologia di riconoscimento vocale legacy, ma Speechmatics è riuscita a registrare un tasso di accuratezza del 91,8%. Google ha raggiunto solo l’83,4% e Deepgram l’82,3%.
Katy Wigdahl è l’amministratore delegato di Speechmatics.
“Siamo impegnati a fornire la prossima generazione di capacità di apprendimento automatico e, attraverso di essa, offrire tecnologie di riconoscimento vocale più inclusive e accessibili. Questo annuncio rappresenta un grande passo avanti verso il raggiungimento di questa missione.”
“La nostra attenzione nel contrastare i pregiudizi dell’IA ha portato a questo enorme balzo in avanti nell’industria del riconoscimento vocale e l’effetto a catena porterà a cambiamenti in una moltitudine di scenari diversi”, ha continuato Wigdahl. “Pensate ai titoli scorretti che vediamo sui social media, alle udienze in tribunale in cui le parole vengono trascritte in modo errato e alle piattaforme di eLearning che hanno lottato con le voci dei bambini durante la pandemia. Gli errori che le persone hanno dovuto accettare fino ad ora possono avere un impatto tangibile sulla loro vita quotidiana.”
Allison Zhu Koenecke è l’autore principale dello studio di Stanford sul riconoscimento vocale.
“È fondamentale studiare e migliorare l’equità nei sistemi di riconoscimento vocale, dato il potenziale di danni disparati agli individui attraverso settori a valle che vanno dalla sanità alla giustizia penale.”








