Inteligencia artificial

El Estado de los LLM Multilingües: Avanzar Más Allá del Inglés

Published February 10, 2024

Updated April 27, 2026

Haziqa Sajid

Según una investigación de Microsoft, alrededor de 88% de los idiomas del mundo, hablados por 1.200 millones de personas, carecen de acceso a Modelos de Lenguaje Grande (LLM). Esto se debe a que la mayoría de los LLM están centrados en el inglés, es decir, se construyen principalmente con datos en inglés y para hablantes de inglés. Este dominio del inglés también prevalece en el desarrollo de LLM y ha resultado en una brecha digital de lenguaje, que podría excluir a la mayoría de las personas de los beneficios de los LLM. Para resolver este problema en los LLM, se necesita un LLM que pueda ser entrenado en diferentes idiomas y realizar tareas en diferentes idiomas. ¡Entren los LLM Multilingües!

¿Qué son los LLM Multilingües?

Un LLM multilingüe puede entender y generar texto en múltiples idiomas. Se entrenan en conjuntos de datos que contienen diferentes idiomas y pueden realizar varias tareas en más de un idioma a partir de una solicitud del usuario.

Las aplicaciones de LLM multilingües son enormes, incluyen la traducción de literatura a dialectos locales, la comunicación multilingüe en tiempo real, la creación de contenido multilingüe, etc. Ayudarían a todos a acceder a la información y a hablar entre sí con facilidad, sin importar su idioma.

Además, los LLM multilingües abordan desafíos como la falta de matices culturales y contexto, las limitaciones de los datos de entrenamiento y la posible pérdida de conocimiento durante la traducción.

¿Cómo Funcionan los LLM Multilingües?

Construir un LLM multilingüe implica preparar cuidadosamente un corpus de texto equilibrado en varios idiomas y seleccionar una arquitectura y técnica de entrenamiento adecuadas para el modelo, preferiblemente un modelo Transformer, que es perfecto para el aprendizaje multilingüe.

Pasos para construir un LLM multilingüe

Fuente: Imagen del autor

Una técnica es compartir incrustaciones, que capturan el significado semántico de las palabras en diferentes idiomas. Esto hace que el LLM aprenda las similitudes y diferencias de cada idioma, lo que le permite entender mejor los diferentes idiomas.

Este conocimiento también capacita al LLM para adaptarse a diversas tareas lingüísticas, como la traducción de idiomas, la escritura en diferentes estilos, etc. Otra técnica utilizada es el aprendizaje de transferencia cruzada de lenguaje, donde el modelo se entrena previamente en un gran corpus de datos multilingües antes de ser ajustado para tareas específicas.

Este proceso de dos pasos garantiza que el modelo tenga una base sólida en la comprensión del lenguaje multilingüe, lo que lo hace adaptable a diversas aplicaciones descendentes.

Ejemplos de Modelos de Lenguaje Grande Multilingües

Gráfico de comparación de LLM multilingües

Fuente: Ruder.io

Han surgido varios ejemplos notables de LLM multilingües, cada uno atendiendo a necesidades y contextos lingüísticos específicos. Exploraremos algunos de ellos:

1. BLOOM

BLOOM es un LLM multilingüe de acceso abierto que prioriza idiomas diversos y la accesibilidad. Con 176 mil millones de parámetros, BLOOM puede manejar tareas en 46 idiomas naturales y 13 idiomas de programación, lo que lo convierte en uno de los LLM más grandes y diversos.

La naturaleza de código abierto de BLOOM permite a investigadores, desarrolladores y comunidades lingüísticas beneficiarse de sus capacidades y contribuir a su mejora.

2. YAYI 2

YAYI 2 es un LLM de código abierto diseñado específicamente para idiomas asiáticos, considerando las complejidades y matices culturales de la región. Se entrenó desde cero en un corpus multilingüe de más de 16 idiomas asiáticos que contiene 2,65 billones de tokens filtrados.

Esto hace que el modelo proporcione mejores resultados, cumpliendo con los requisitos específicos de los idiomas y culturas de Asia.

3. PolyLM

PolyLM es un LLM ‘políglota’ de código abierto que se centra en abordar los desafíos de los idiomas de bajos recursos, ofreciendo capacidades de adaptación. Se entrenó en un conjunto de datos de aproximadamente 640 mil millones de tokens y está disponible en dos tamaños de modelo: 1,7B y 13B. PolyLM conoce más de 16 idiomas diferentes.

Permite que los modelos entrenados en idiomas de alto recurso se ajusten para idiomas de bajo recurso con datos limitados. Esta flexibilidad hace que los LLM sean más útiles en diferentes situaciones y tareas de idioma.

4. XGLM

XGLM, con 7.500 millones de parámetros, es un LLM multilingüe entrenado en un corpus que cubre una diversa serie de más de 20 idiomas utilizando la técnica de aprendizaje de pocos disparos. Es parte de una familia de LLM multilingües a gran escala entrenados en un conjunto masivo de texto y código.

Se centra en la inclusividad y la diversidad lingüística, ya que busca cubrir muchos idiomas por completo. XGLM demuestra el potencial para construir modelos que atiendan las necesidades de diversas comunidades lingüísticas.

5. mT5

El mT5 (Transferencia de Texto a Texto de Transformador Multilingüe Masivo) fue desarrollado por Google AI. Entrenado en el conjunto de datos common crawl, mt5 es un LLM multilingüe de vanguardia que puede manejar 101 idiomas, desde idiomas ampliamente hablados como el español y el chino hasta idiomas menos recurridos como el vasco y el quechua.

También sobresale en tareas multilingües como la traducción, la resumen, la respuesta a preguntas, etc.

¿Es Posible un LLM Universal?

El concepto de un LLM neutral en cuanto al lenguaje, capaz de entender y generar lenguaje sin prejuicios hacia ningún idioma en particular, es intrigante.

Aunque desarrollar un LLM verdaderamente universal todavía está lejos, los actuales LLM multilingües han demostrado un éxito significativo. Una vez desarrollados completamente, pueden atender las necesidades de idiomas subrepresentados y comunidades diversas.

Por ejemplo, investigaciones muestran que la mayoría de los LLM multilingües pueden facilitar la transferencia cruzada de lenguaje de cero disparos desde un idioma con recursos ricos a un idioma con recursos escasos sin datos de entrenamiento específicos de la tarea.

Además, modelos como YAYI y BLOOM, que se centran en idiomas y comunidades específicas, han demostrado el potencial de los enfoques centrados en el lenguaje para impulsar el progreso y la inclusividad.

Para construir un LLM universal o mejorar los actuales LLM multilingües, las personas y organizaciones deben hacer lo siguiente:

Recopilar hablantes nativos para la participación y curación comunitaria de los conjuntos de datos de idioma.
Apoiar esfuerzos comunitarios en cuanto a contribuciones de código abierto y financiamiento para la investigación y el desarrollo multilingüe.

Desafíos de los LLM Multilingües

Aunque el concepto de LLM multilingües universales tiene un gran potencial, también enfrentan varios desafíos que deben abordarse antes de que podamos beneficiarnos de ellos:

1. Cantidad de Datos

Los modelos multilingües requieren un vocabulario más grande para representar tokens en muchos idiomas que los modelos monolingües, pero muchos idiomas carecen de conjuntos de datos a gran escala. Esto hace que sea difícil entrenar estos modelos de manera efectiva.

2. Preocupaciones sobre la Calidad de los Datos

Garantizar la precisión y la adecuación cultural de las salidas de los LLM multilingües en varios idiomas es una preocupación significativa. Los modelos deben entrenarse y ajustarse con una atención meticulosa a las nuances lingüísticas y culturales para evitar sesgos y errores.

3. Limitaciones de Recursos

Entrenar y ejecutar modelos multilingües requiere recursos computacionales sustanciales, como GPU potentes (por ejemplo, NVIDIA A100 GPU). El alto costo plantea desafíos, particularmente para idiomas y comunidades de bajos recursos con acceso limitado a la infraestructura computacional.

4. Arquitectura del Modelo

Adaptar las arquitecturas de los modelos para acomodar las estructuras y complejidades lingüísticas diversas es un desafío continuo. Los modelos deben poder manejar idiomas con diferentes órdenes de palabras, variaciones morfológicas y sistemas de escritura, manteniendo al mismo tiempo un alto rendimiento y eficiencia.

5. Complejidades de Evaluación

Evaluar el rendimiento de los LLM multilingües más allá de las métricas en inglés es crucial para medir su efectividad real. Requiere considerar nuances culturales, peculiaridades lingüísticas y requisitos específicos de dominio.

Los LLM multilingües tienen el potencial de romper barreras lingüísticas, empoderar a los idiomas subrepresentados y facilitar la comunicación efectiva entre comunidades diversas.

No te pierdas las últimas noticias y análisis en IA y ML – visita unite.ai hoy.