Modelos y plataformas de IA

Investigadores buscan expandir el reconocimiento automático del habla a 2,000 lenguas

Publicado el 14 de enero de 2023

Actualizado el 23 de mayo de 2026

Por

Alex McFarland

Un equipo de investigadores de la Universidad Carnegie Mellon está trabajando para expandir el reconocimiento automático del habla a 2,000 lenguas. Actualmente, solo una parte de las aproximadamente 7,000 a 8,000 lenguas habladas en el mundo se benefician de tecnologías lingüísticas modernas como la transcripción de voz a texto o la subtítulación automática.

Xinjian Li es un estudiante de doctorado en el Instituto de Tecnologías del Lenguaje de la Escuela de Ciencias de la Computación (LTI).

“Muchas personas en este mundo hablan lenguas diversas, pero las herramientas de tecnología lingüística no se están desarrollando para todas ellas”, dijo. “Desarrollar tecnología y un buen modelo de lenguaje para todas las personas es uno de los objetivos de esta investigación”.

Li pertenece a un equipo de expertos que busca simplificar los requisitos de datos que las lenguas necesitan para desarrollar un modelo de reconocimiento del habla.

El equipo también incluye a los miembros de la facultad del LTI Shinji Watanabe, Florian Metze, David Mortensen y Alan Black.

La investigación titulada “ASR2K: Reconocimiento del habla para alrededor de 2,000 lenguas sin audio” se presentó en Interspeech 2022 en Corea del Sur.

La mayoría de los modelos de reconocimiento del habla existentes requieren conjuntos de datos de texto y audio. Si bien existen datos de texto para miles de lenguas, no ocurre lo mismo con el audio. El equipo quiere eliminar la necesidad de datos de audio centrándose en elementos lingüísticos que son comunes a muchas lenguas.

Las tecnologías de reconocimiento del habla normalmente se centran en el fonema de un lenguaje, que son sonidos distintos que lo distinguen de otros lenguas. Estos son únicos para cada lenguaje. Al mismo tiempo, los lenguajes tienen fonos que describen cómo suena una palabra físicamente, y múltiples fonos pueden corresponder a un solo fonema. Aunque los lenguajes separados pueden tener fonemas diferentes, los fonos subyacentes podrían ser los mismos.

El equipo está trabajando en un modelo de reconocimiento del habla que se basa menos en fonemas y más en información sobre cómo se comparten los fonos entre lenguas. Esto ayuda a reducir el esfuerzo necesario para construir modelos separados para cada lenguaje individual. Al emparejar el modelo con un árbol filogenético, que es un diagrama que mapea las relaciones entre lenguas, ayuda con las reglas de pronunciación. El modelo del equipo y la estructura del árbol han permitido aproximar el modelo de habla para miles de lenguas incluso sin datos de audio.

“Estamos tratando de eliminar este requisito de datos de audio, lo que nos ayuda a pasar de 100 a 200 lenguas a 2,000”, dijo Li. “Esta es la primera investigación que tiene como objetivo un número tan grande de lenguas, y somos el primer equipo que busca expandir las herramientas de lenguaje a este alcance”.

La investigación, aunque aún se encuentra en una etapa temprana, ha mejorado las herramientas de aproximación de lenguas existentes en un 5%.

“Cada lenguaje es un factor muy importante en su cultura. Cada lenguaje tiene su propia historia, y si no se intenta preservar los lenguajes, esas historias podrían perderse”, dijo Li. “Desarrollar este tipo de sistema de reconocimiento del habla y esta herramienta es un paso para tratar de preservar esos lenguajes”.

Alex McFarland

Alex McFarland es un periodista y escritor de inteligencia artificial que explora los últimos desarrollos en inteligencia artificial. Ha colaborado con numerosas startups y publicaciones de inteligencia artificial en todo el mundo.

Unite.AI

Investigadores buscan expandir el reconocimiento automático del habla a 2,000 lenguas

Descubre más