taló Els investigadors busquen ampliar el reconeixement automàtic de la parla a 2,000 idiomes - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Els investigadors busquen ampliar el reconeixement automàtic de la parla a 2,000 idiomes

publicat

 on

Un equip d'investigadors de la Universitat Carnegie Mellon està buscant ampliar el reconeixement automàtic de la parla a 2,000 idiomes. De moment, només una part de les 7,000 a 8,000 llengües parlades a tot el món es beneficiaran de les tecnologies modernes del llenguatge com la transcripció de veu a text o els subtítols automàtics.

Xinjian Li és Ph.D. estudiant de l'Institut de Tecnologies Lingüístiques (LTI) de l'Escola d'Informàtica.

"Molta gent en aquest món parla idiomes diversos, però no s'estan desenvolupant eines de tecnologia lingüística per a tots", va dir. "Desenvolupar tecnologia i un bon model lingüístic per a totes les persones és un dels objectius d'aquesta investigació".

Li pertany a un equip d'experts que busquen simplificar els requisits de dades que necessiten els idiomes per desenvolupar un model de reconeixement de veu.

L'equip també inclou professors de LTI Shinji Watanabe, Florian Metze, David Mortensen i Alan Black.

La investigació titulada “ASR2K: reconeixement de veu per al voltant de 2,000 idiomes sense àudio” es va presentar a Interspeech 2022 a Corea del Sud.

La majoria dels models de reconeixement de veu existents requereixen conjunts de dades de text i àudio. Tot i que existeixen dades de text per a milers d'idiomes, no passa el mateix amb l'àudio. L'equip vol eliminar la necessitat de dades d'àudio centrant-se en els elements lingüístics que són comuns en molts idiomes.

Les tecnologies de reconeixement de la parla normalment se centren en el fonema d'una llengua, que són sons diferents que la distingeixen d'altres llengües. Aquests són únics per a cada idioma. Al mateix temps, els idiomes tenen telèfons que descriuen com sona físicament una paraula, i diversos telèfons poden correspondre a un sol fonema. Tot i que idiomes diferents poden tenir fonemes diferents, els telèfons subjacents podrien ser els mateixos.

L'equip està treballant en un model de reconeixement de veu que es basa menys en fonemes i més en informació sobre com es comparteixen els telèfons entre idiomes. Això ajuda a reduir l'esforç necessari per construir models separats per a cada idioma individual. En combinar el model amb un arbre filogenètic, que és un diagrama que mapeja les relacions entre llengües, ajuda amb les regles de pronunciació. El model de l'equip i l'estructura d'arbre els han permès aproximar el model de parla per a milers d'idiomes fins i tot sense dades d'àudio.

"Estem intentant eliminar aquest requisit de dades d'àudio, que ens ajuda a passar de 100 a 200 idiomes a 2,000", va dir Li. "Aquesta és la primera investigació que s'adreça a un nombre tan gran d'idiomes, i som el primer equip que pretén ampliar les eines lingüístiques a aquest abast".

La investigació, encara que en una fase inicial, ha millorat les eines d'aproximació lingüística existents en un 5%.

“Cada llengua és un factor molt important en la seva cultura. Cada idioma té la seva pròpia història, i si no intentes preservar els idiomes, aquestes històries es poden perdre", va dir Li. "Desenvolupar aquest tipus de sistema de reconeixement de veu i aquesta eina és un pas per intentar preservar aquests idiomes".

Alex McFarland és un periodista i escriptor d'IA que explora els últims desenvolupaments en intel·ligència artificial. Ha col·laborat amb nombroses startups i publicacions d'IA a tot el món.