Inteligencia artificial
El Estado de los LLM Multilingües: Más allá del Inglés

Según una investigación de Microsoft, alrededor del 88% de los idiomas del mundo, hablados por 1.200 millones de personas, carecen de acceso a Modelos de Lenguaje Grande (LLM). Esto se debe a que la mayoría de los LLM están centrados en el inglés, es decir, están construidos principalmente con datos en inglés y para hablantes de inglés. Este dominio del inglés también prevalece en el desarrollo de LLM y ha resultado en una brecha digital de idiomas, que podría excluir a la mayoría de las personas de los beneficios de los LLM. Para resolver este problema en los LLM, se necesita un LLM que pueda ser entrenado en diferentes idiomas y realizar tareas en diferentes idiomas. ¡Entrenamos a los LLM Multilingües!
¿Qué son los LLM Multilingües?
Un LLM multilingüe puede entender y generar texto en varios idiomas. Están entrenados en conjuntos de datos que contienen diferentes idiomas y pueden realizar diversas tareas en más de un idioma a partir de una solicitud del usuario.
Las aplicaciones de los LLM multilingües son enormes, incluyen la traducción de literatura a dialectos locales, la comunicación multilingüe en tiempo real, la creación de contenido multilingüe, etc. Ayudarían a todos a acceder a la información y a comunicarse fácilmente, sin importar su idioma.
Además, los LLM multilingües abordan desafíos como la falta de matices culturales y contexto, las limitaciones de los datos de entrenamiento y la posible pérdida de conocimiento durante la traducción.
¿Cómo funcionan los LLM Multilingües?
La construcción de un LLM multilingüe implica preparar cuidadosamente un corpus equilibrado de texto en varios idiomas y seleccionar una arquitectura y técnica de entrenamiento adecuadas para entrenar el modelo, preferiblemente un modelo Transformer, que es perfecto para el aprendizaje multilingüe.

Fuente: Imagen del autor
Una técnica es compartir incrustaciones, que capturan el significado semántico de las palabras en diferentes idiomas. Esto hace que el LLM aprenda las similitudes y diferencias de cada idioma, lo que le permite entender mejor los diferentes idiomas.
Este conocimiento también permite que el LLM se adapte a diversas tareas lingüísticas, como la traducción de idiomas, la escritura en diferentes estilos, etc. Otra técnica utilizada es el aprendizaje de transferencia cruzada de lenguaje, donde el modelo se entrena previamente en un gran corpus de datos multilingües antes de ser ajustado para tareas específicas.
Este proceso de dos pasos garantiza que el modelo tenga una base sólida en la comprensión del lenguaje multilingüe, lo que lo hace adaptable a diversas aplicaciones posteriores.
Ejemplos de Modelos de Lenguaje Grande Multilingües

Fuente: Ruder.io
Varios ejemplos notables de LLM multilingües han surgido, cada uno atendiendo a necesidades lingüísticas y contextos culturales específicos. Exploraremos algunos de ellos:
1. BLOOM
BLOOM es un LLM multilingüe de acceso abierto que prioriza idiomas diversos y la accesibilidad. Con 176 mil millones de parámetros, BLOOM puede realizar tareas en 46 idiomas naturales y 13 idiomas de programación, lo que lo convierte en uno de los LLM más grandes y diversos.
La naturaleza de código abierto de BLOOM permite a investigadores, desarrolladores y comunidades lingüísticas beneficiarse de sus capacidades y contribuir a su mejora.
2. YAYI 2
YAYI 2 es un LLM de código abierto diseñado específicamente para idiomas asiáticos, considerando las complejidades y matices culturales de la región. Fue entrenado desde cero en un corpus multilingüe de más de 16 idiomas asiáticos que contiene 2,65 billones de tokens filtrados.
Esto hace que el modelo proporcione mejores resultados, cumpliendo con los requisitos específicos de los idiomas y culturas de Asia.
3. PolyLM
PolyLM es un LLM ‘políglota’ de código abierto que se centra en abordar los desafíos de los idiomas de baja recursos, ofreciendo capacidades de adaptación. Fue entrenado en un conjunto de datos de aproximadamente 640 mil millones de tokens y está disponible en dos tamaños de modelo: 1,7 mil millones y 13 mil millones. PolyLM conoce más de 16 idiomas diferentes.
Permite que los modelos entrenados en idiomas de alta recursos se ajusten para idiomas de baja recursos con datos limitados. Esta flexibilidad hace que los LLM sean más útiles en diferentes situaciones y tareas lingüísticas.
4. XGLM
XGLM, con 7,5 mil millones de parámetros, es un LLM multilingüe entrenado en un corpus que cubre una diversa serie de más de 20 idiomas utilizando la técnica de aprendizaje de pocos disparos. Es parte de una familia de LLM multilingües de gran escala entrenados en un conjunto masivo de texto y código.
Se centra en cubrir muchos idiomas completamente, lo que explica su enfoque en la inclusividad y la diversidad lingüística. XGLM demuestra el potencial para construir modelos que atiendan las necesidades de diversas comunidades lingüísticas.
5. mT5
El mT5 (Transferencia de Texto a Texto Multilingüe Masiva) fue desarrollado por Google AI. Entrenado en el conjunto de datos de common crawl, mT5 es un LLM multilingüe de vanguardia que puede manejar 101 idiomas, desde idiomas ampliamente hablados como el español y el chino hasta idiomas menos recurridos como el vasco y el quechua.
También sobresale en tareas multilingües como la traducción, la resumen, la respuesta a preguntas, etc.
¿Es posible un LLM Universal?
El concepto de un LLM neutral en cuanto al lenguaje, capaz de entender y generar lenguaje sin sesgo hacia cualquier idioma en particular, es intrigante.
Mientras que desarrollar un LLM verdaderamente universal todavía está lejos, los LLM multilingües actuales han demostrado un éxito significativo. Una vez desarrollados completamente, podrían atender las necesidades de los idiomas subrepresentados y las comunidades diversas.
Por ejemplo, investigaciones muestran que la mayoría de los LLM multilingües pueden facilitar la transferencia cruzada de lenguaje cero-disparos desde un idioma con recursos hasta un idioma con pocos recursos sin datos de entrenamiento específicos de la tarea.
Además, modelos como YAYI y BLOOM, que se centran en idiomas y comunidades específicas, han demostrado el potencial de los enfoques centrados en el lenguaje para impulsar el progreso y la inclusividad.
Para construir un LLM universal o mejorar los LLM multilingües actuales, las personas y organizaciones deben hacer lo siguiente:
- Recopilar hablantes nativos para la participación de la comunidad y la curación de los conjuntos de datos de lenguaje.
- Apoiar los esfuerzos de la comunidad en cuanto a contribuciones de código abierto y financiamiento para la investigación y el desarrollo multilingüe.
Desafíos de los LLM Multilingües
Mientras que el concepto de LLM multilingües universales tiene un gran potencial, también enfrentan varios desafíos que deben ser abordados antes de que podamos beneficiarnos de ellos:
1. Cantidad de Datos
Los modelos multilingües requieren un vocabulario más grande para representar tokens en muchos idiomas que los modelos monolingües, pero muchos idiomas carecen de conjuntos de datos a gran escala. Esto hace que sea difícil entrenar estos modelos de manera efectiva.
2. Preocupaciones sobre la Calidad de los Datos
Garantizar la precisión y la adecuación cultural de las salidas de los LLM multilingües en varios idiomas es una preocupación significativa. Los modelos deben entrenarse y ajustarse con atención meticulosa a las sutilezas lingüísticas y culturales para evitar sesgos e inexactitudes.
3. Limitaciones de Recursos
Entrenar y ejecutar modelos multilingües requiere recursos computacionales sustanciales, como GPUs potentes (por ejemplo, NVIDIA A100 GPU). El alto costo plantea desafíos, particularmente para los idiomas y comunidades de baja recursos con acceso limitado a la infraestructura computacional.
4. Arquitectura del Modelo
Adaptar las arquitecturas de los modelos para acomodar las estructuras y complejidades lingüísticas diversas es un desafío en curso. Los modelos deben ser capaces de manejar idiomas con diferentes órdenes de palabras, variaciones morfológicas y sistemas de escritura, manteniendo al mismo tiempo un rendimiento y eficiencia altos.
5. Complejidades de Evaluación
Evaluar el rendimiento de los LLM multilingües más allá de las pruebas de inglés es crucial para medir su efectividad real. Requiere considerar las sutilezas culturales, las peculiaridades lingüísticas y los requisitos específicos del dominio.
Los LLM multilingües tienen el potencial de romper las barreras del lenguaje, empoderar a los idiomas subrepresentados y facilitar la comunicación efectiva en diversas comunidades.
No te pierdas las últimas noticias y análisis en IA y ML: visita unite.ai hoy.












