Contáctenos

MOSEL: avances en la recopilación de datos de voz para todas las lenguas europeas

Inteligencia Artificial

MOSEL: avances en la recopilación de datos de voz para todas las lenguas europeas

mm

El desarrollo de modelos lingüísticos de IA ha estado dominado en gran medida por el inglés, lo que ha dejado a muchos idiomas europeos subrepresentados. Esto ha creado un desequilibrio significativo en la forma en que las tecnologías de IA comprenden y responden a diferentes idiomas y culturas. MOSELA El objetivo de MOSEL es cambiar esta narrativa mediante la creación de una colección completa y de código abierto de datos de voz para los 24 idiomas oficiales de la Unión Europea. Al proporcionar datos lingüísticos diversos, busca garantizar que los modelos de IA sean más inclusivos y representativos del rico panorama lingüístico europeo.

La diversidad lingüística es fundamental para garantizar la inclusión en el desarrollo de la IA. Depender excesivamente de modelos centrados en el inglés puede dar lugar a tecnologías menos eficaces o incluso inaccesibles para los hablantes de otros idiomas. Los conjuntos de datos multilingües ayudan a crear sistemas de IA que sirvan a todos, independientemente del idioma que hablen. La aceptación de la diversidad lingüística mejora la accesibilidad a la tecnología y garantiza una representación justa de diferentes culturas y comunidades. Al promover la inclusión lingüística, la IA puede reflejar verdaderamente las diversas necesidades y voces de sus usuarios.

Descripción general de MOSEL

MOSEL (Massive Open-source Speech data for European Languages) es un proyecto pionero que tiene como objetivo crear una amplia colección de datos de voz de código abierto que abarque los 24 idiomas oficiales de la Unión Europea. Desarrollado por un equipo internacional de investigadores, MOSEL integra datos de 18 proyectos diferentes, como CommonVoice, LibriSpeech y VoxPopuli. Esta colección incluye tanto grabaciones de voz transcritas como datos de audio sin etiquetar, lo que ofrece un recurso importante para avanzar en el desarrollo de la IA multilingüe.

Una de las principales contribuciones de MOSEL es la inclusión de datos transcritos y no etiquetados. Los datos transcritos proporcionan una base fiable para entrenar modelos de IA, mientras que los datos de audio no etiquetados se pueden utilizar para futuras investigaciones y experimentos, especialmente para idiomas con pocos recursos. La combinación de estos conjuntos de datos crea una oportunidad única para desarrollar modelos lingüísticos que sean más inclusivos y capaces de comprender el diverso panorama lingüístico de Europa.

Cómo cerrar la brecha de datos sobre las lenguas subrepresentadas

La distribución de los datos de voz en las distintas lenguas europeas es muy desigual, y el inglés domina la mayoría de los conjuntos de datos disponibles. Este desequilibrio plantea importantes desafíos para el desarrollo de modelos de IA que puedan comprender y responder con precisión a las lenguas menos representadas. Muchas de las lenguas oficiales de la UE, como el maltés o el irlandés, tienen datos muy limitados, lo que dificulta la capacidad de las tecnologías de IA para prestar un servicio eficaz a estas comunidades lingüísticas.

MOSEL pretende cerrar esta brecha de datos aprovechando Modelo Whisper de OpenAI Transcribir automáticamente 441,000 horas de datos de audio que antes no estaban etiquetados. Este enfoque ha ampliado significativamente la disponibilidad de material de capacitación, en particular para idiomas que carecían de datos extensos transcritos manualmente. Aunque la transcripción automática no es perfecta, proporciona un punto de partida valioso para un mayor desarrollo, lo que permite construir modelos de lenguaje más inclusivos.

Sin embargo, los desafíos son particularmente evidentes para ciertos idiomas. Por ejemplo, el modelo Whisper tuvo dificultades con el maltés, alcanzando una tasa de error de palabras de más del 80 por ciento. Esas tasas de error tan altas resaltan la necesidad de trabajo adicional, incluida la mejora de los modelos de transcripción y la recopilación de más datos transcritos manualmente de alta calidad. El equipo de MOSEL está comprometido a continuar con estos esfuerzos, asegurando que incluso los idiomas con pocos recursos puedan beneficiarse de los avances en la tecnología de IA.

El papel del acceso abierto en el impulso de la innovación en IA

La disponibilidad de código abierto de MOSEL es un factor clave para impulsar la innovación en la investigación europea sobre IA. Al facilitar el libre acceso a los datos de voz, MOSEL permite a investigadores y desarrolladores trabajar con conjuntos de datos extensos y de alta calidad que antes no estaban disponibles o eran limitados. Esta accesibilidad fomenta la colaboración y la experimentación, impulsando un enfoque comunitario para el avance de las tecnologías de IA en todos los idiomas europeos.

Los investigadores y desarrolladores pueden aprovechar los datos de MOSEL para entrenar, probar y perfeccionar modelos de lenguaje de IA, especialmente para lenguajes con poca representación en el panorama de la IA. La naturaleza abierta de estos datos también permite a pequeñas organizaciones e instituciones académicas participar en la investigación de vanguardia en IA, eliminando las barreras que a menudo favorecen a las grandes empresas tecnológicas con recursos exclusivos.

Las direcciones futuras y el camino a seguir

De cara al futuro, el equipo de MOSEL tiene previsto seguir ampliando el conjunto de datos, en particular para los idiomas subrepresentados. Mediante la recopilación de más datos y la mejora de la precisión de las transcripciones automáticas, MOSEL pretende crear un recurso más equilibrado e inclusivo para el desarrollo de la IA. Estos esfuerzos son cruciales para garantizar que todos los idiomas europeos, independientemente del número de hablantes, tengan un lugar en el cambiante panorama de la IA.

El éxito de MOSEL también podría inspirar iniciativas similares a nivel mundial, promoviendo la diversidad lingüística en la IA más allá de Europa. Al sentar un precedente para el acceso abierto y el desarrollo colaborativo, MOSEL allana el camino para futuros proyectos que prioricen la inclusión y la representación en la IA, contribuyendo en última instancia a un futuro tecnológico más equitativo.

 

Alex McFarland es un periodista y escritor sobre inteligencia artificial que explora los últimos avances en inteligencia artificial. Ha colaborado con numerosas empresas emergentes y publicaciones de IA en todo el mundo.