Intelligence artificielle

Des chercheurs cherchent à étendre la reconnaissance automatique de la parole à 2,000 XNUMX langues

Publié le

Il y a 1 année

14 janvier 2023

Une équipe de chercheurs de l'Université Carnegie Mellon cherche à étendre la reconnaissance automatique de la parole à 2,000 7,000 langues. À l'heure actuelle, seule une partie des 8,000 XNUMX à XNUMX XNUMX langues parlées estimées dans le monde bénéficierait des technologies linguistiques modernes telles que la transcription voix-texte ou le sous-titrage automatique.

Xinjian Li est titulaire d'un doctorat. étudiant à l'Institut des Technologies du Langage (LTI) de l'Ecole d'Informatique.

"Beaucoup de gens dans ce monde parlent différentes langues, mais les outils technologiques linguistiques ne sont pas développés pour chacun d'eux", a-t-il déclaré. "Développer une technologie et un bon modèle linguistique pour tous est l'un des objectifs de cette recherche."

Li fait partie d'une équipe d'experts qui cherchent à simplifier les exigences en matière de données dont les langages ont besoin pour développer un modèle de reconnaissance vocale.

L'équipe comprend également les membres du corps professoral de LTI Shinji Watanabe, Florian Metze, David Mortensen et Alan Black.

La recherche intitulée «ASR2K : Reconnaissance vocale pour environ 2,000 XNUMX langues sans audio» a été présenté à Interspeech 2022 en Corée du Sud.

La majorité des modèles de reconnaissance vocale existants nécessitent des ensembles de données textuelles et audio. Alors que les données textuelles existent pour des milliers de langues, il n'en va pas de même pour l'audio. L'équipe souhaite éliminer le besoin de données audio en se concentrant sur les éléments linguistiques communs à de nombreuses langues.

Les technologies de reconnaissance vocale se concentrent normalement sur le phonème d'une langue, qui sont des sons distincts qui la distinguent des autres langues. Ceux-ci sont propres à chaque langue. Dans le même temps, les langues ont des téléphones qui décrivent comment un mot sonne physiquement, et plusieurs téléphones peuvent correspondre à un seul phonème. Alors que des langues distinctes peuvent avoir des phonèmes différents, les téléphones sous-jacents peuvent être les mêmes.

L'équipe travaille sur un modèle de reconnaissance vocale qui s'appuie moins sur les phonèmes et plus sur les informations sur la façon dont les téléphones sont partagés entre les langues. Cela permet de réduire l'effort nécessaire pour créer des modèles distincts pour chaque langue individuelle. En associant le modèle à un arbre phylogénétique, qui est un diagramme qui cartographie les relations entre les langues, il aide aux règles de prononciation. Le modèle de l'équipe et la structure arborescente leur ont permis d'approximer le modèle de parole pour des milliers de langues, même sans données audio.

"Nous essayons de supprimer cette exigence de données audio, ce qui nous aide à passer de 100 à 200 langues à 2,000 XNUMX", a déclaré Li. "Il s'agit de la première recherche à cibler un si grand nombre de langues, et nous sommes la première équipe visant à étendre les outils linguistiques à cette portée."

La recherche, bien qu'encore à un stade précoce, a amélioré de 5 % les outils d'approximation linguistique existants.

« Chaque langue est un facteur très important dans sa culture. Chaque langue a sa propre histoire, et si vous n'essayez pas de préserver les langues, ces histoires pourraient être perdues », a déclaré Li. "Développer ce type de système de reconnaissance vocale et cet outil est une étape pour essayer de préserver ces langues."

Rubriques connexes:AI intelligence artificielle reconnaissance de la parole

Apprentissage en profondeur vs apprentissage par renforcement

Ne manquez pas

Apprentissage automatique vs apprentissage en profondeur - Différences clés

Alex McFarland

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.