Connect with us

Intelligence artificielle

Speechmatics lance son logiciel de reconnaissance de la parole autonome

mm

La startup de technologie de reconnaissance de la parole de pointe Speechmatics a lancé son logiciel de « reconnaissance de la parole autonome » qui utilise les dernières techniques d’apprentissage profond et les modèles auto-supervisés révolutionnaires. Le système a démontré sa capacité à surpasser Amazon, Google et Microsoft. 

Les jeux de données de Stanford

Speechmatics est basé sur les jeux de données trouvés dans l’étude de Stanford sur les « écarts raciaux dans la reconnaissance de la parole » et il a atteint un taux d’exactitude global de 82,8 % pour les voix afro-américaines. Pour référence, Google n’a atteint qu’un taux d’exactitude de 68,7 %, tandis qu’Amazon a atteint 68,6 %. 
Le niveau d’exactitude équivaut à une réduction de 45 % des erreurs de reconnaissance de la parole, ce qui équivaut à trois mots dans une phrase moyenne. Non seulement le nouveau système Speechmatics est-il précis à cet égard, mais il a également démontré des améliorations de l’exactitude sur les accents, l’âge, les dialectes et divers autres caractéristiques sociodémographiques. 
Il y a souvent des malentendus dans la reconnaissance de la parole en raison de la quantité limitée de données étiquetées que les algorithmes peuvent utiliser pour s’entraîner. Les données étiquetées doivent être classées manuellement par des humains, ce qui entraîne une quantité moindre de données disponibles pour ces systèmes. Cela limite également la représentation de toutes les voix, ce qui crée un nouveau ensemble de problèmes. 

Formation sur des données non étiquetées

Speechmatics fait de grands progrès à cet égard, car sa technologie est formée sur d’énormes quantités de données non étiquetées provenant directement d’Internet. Les données proviennent de choses comme le contenu des médias sociaux et les podcasts. 
L’apprentissage auto-supervisé a permis au système d’être formé sur 1,1 million d’heures d’audio, ce qui constitue une augmentation par rapport aux 30 000 heures précédentes. Cela lui permet d’avoir une gamme de représentation de voix beaucoup plus large et aide à réduire les biais et les erreurs de reconnaissance de la parole de l’IA. 
En ce qui concerne les voix des enfants, Speechmatics a également démontré sa capacité à surpasser les concurrents. Les voix des enfants sont difficiles à reconnaître grâce à la technologie de reconnaissance de la parole héritée, mais Speechmatics a réussi à enregistrer un taux d’exactitude de 91,8 %. Google n’a pu atteindre que 83,4 % et Deepgram 82,3 %. 
Katy Wigdahl est la PDG de Speechmatics. 
« Nous sommes sur une mission pour livrer la prochaine génération de capacités d’apprentissage automatique, et grâce à cela, offrir des technologies de parole plus inclusives et accessibles. Cette annonce est un énorme pas vers la réalisation de cette mission. » 
« Notre concentration sur la lutte contre les biais de l’IA a conduit à ce bond monumental en avant dans l’industrie de la reconnaissance de la parole et l’effet d’entraînement entraînera des changements dans une multitude de scénarios différents », a poursuivi Wigdahl. « Pensez aux légendes incorrectes que nous voyons sur les médias sociaux, aux audiences de tribunal où les mots sont mal transcrites et aux plateformes d’apprentissage en ligne qui ont eu du mal avec les voix des enfants tout au long de la pandémie. Les erreurs que les gens ont dû accepter jusqu’à présent peuvent avoir un impact tangible sur leur vie quotidienne. » 
Allison Zhu Koenecke est l’auteur principal de l’étude de Stanford sur la reconnaissance de la parole. 
« Il est essentiel d’étudier et d’améliorer l’équité dans les systèmes de parole-à-texte étant donné le potentiel de préjudice disparate pour les individus à travers les secteurs en aval allant des soins de santé à la justice pénale. » 

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.