Intelligence artificielle

L’état des LLM multilingues : aller au-delà de l’anglais

Published February 10, 2024

Updated April 27, 2026

Haziqa Sajid

Selon la recherche de Microsoft, environ 88% des langues du monde, parlées par 1,2 milliard de personnes, n’ont pas accès à des Large Language Models (LLMs). C’est parce que la plupart des LLM sont centrés sur l’anglais, c’est-à-dire qu’ils sont principalement construits avec des données en anglais et pour les locuteurs anglais. Cette dominance de l’anglais prévaut également dans le développement des LLM et a abouti à un fossé linguistique numérique, excluant potentiellement la plupart des personnes des avantages des LLM. Pour résoudre ce problème pour les LLM, un LLM qui peut être formé dans différentes langues et effectuer des tâches dans différentes langues est nécessaire. Entrez les LLM multilingues !

Qu’est-ce que les LLM multilingues ?

Un LLM multilingue peut comprendre et générer du texte dans plusieurs langues. Ils sont formés sur des jeux de données qui contiennent différentes langues et peuvent effectuer diverses tâches dans plus d’une langue à partir d’une invite utilisateur.

Les applications de LLM multilingues sont énormes, elles incluent la traduction de la littérature en dialectes locaux, la communication multilingue en temps réel, la création de contenu multilingue, etc. Ils aideraient tout le monde à accéder à l’information et à se parler facilement, quelle que soit leur langue.

De plus, les LLM multilingues répondent à des défis tels que le manque de nuances culturelles et de contexte, les limitations des données de formation et la perte potentielle de connaissances lors de la traduction.

Comment les LLM multilingues fonctionnent-ils ?

La construction d’un LLM multilingue implique la préparation soigneuse d’un corpus de texte équilibré dans diverses langues et la sélection d’une architecture et d’une technique de formation appropriées pour former le modèle, de préférence un modèle Transformer, qui est parfait pour l’apprentissage multilingue.

Étapes pour construire un LLM multilingue

Source : Image de l’auteur

Une technique consiste à partager des embeddings, qui capturent la signification sémantique des mots dans différentes langues. Cela permet au LLM d’apprendre les similitudes et les différences de chaque langue, lui permettant de comprendre mieux les différentes langues.

Cette connaissance permet également au LLM de s’adapter à diverses tâches linguistiques, comme la traduction de langues, l’écriture dans différents styles, etc. Une autre technique utilisée est l’apprentissage de transfert cross-linguistique, où le modèle est pré-formé sur un grand corpus de données multilingues avant d’être affiné sur des tâches spécifiques.

Ce processus en deux étapes garantit que le modèle a une solide fondation en compréhension de la langue multilingue, le rendant adaptable à diverses applications en aval.

Exemples de LLM multilingues

Tableau de comparaison des LLM multilingues

Source : Ruder.io

Plusieurs exemples notables de LLM multilingues ont émergé, chacun répondant à des besoins linguistiques et à des contextes culturels spécifiques. Explorons quelques-uns d’entre eux :

1. BLOOM

BLOOM est un LLM multilingue open-access qui donne la priorité à des langues diverses et à l’accessibilité. Avec 176 milliards de paramètres, BLOOM peut effectuer des tâches dans 46 langues naturelles et 13 langages de programmation, ce qui en fait l’un des plus grands et des plus diversifiés LLM.

La nature open-source de BLOOM permet aux chercheurs, aux développeurs et aux communautés linguistiques de bénéficier de ses capacités et de contribuer à son amélioration.

2. YAYI 2

YAYI 2 est un LLM open-source conçu spécifiquement pour les langues asiatiques, en tenant compte des complexités et des nuances culturelles de la région. Il a été pré-formé à partir de zéro sur un corpus multilingue de plus de 16 langues asiatiques contenant 2,65 billions de jetons filtrés.

Cela permet au modèle de donner de meilleurs résultats, répondant aux exigences spécifiques des langues et des cultures d’Asie.

3. PolyLM

PolyLM est un LLM open-source « polyglotte » qui se concentre sur la résolution des défis des langues à faibles ressources en offrant des capacités d’adaptation. Il a été formé sur un jeu de données d’environ 640 milliards de jetons et est disponible en deux tailles de modèle : 1,7B et 13B. PolyLM connaît plus de 16 langues différentes.

Il permet aux modèles formés sur des langues à haute ressource d’être affinés pour des langues à faible ressource avec des données limitées. Cette flexibilité rend les LLM plus utiles dans différentes situations et tâches linguistiques.

4. XGLM

XGLM, avec 7,5 milliards de paramètres, est un LLM multilingue formé sur un corpus couvrant un ensemble diversifié de plus de 20 langues en utilisant la technique d’apprentissage à quelques exemples. Il fait partie d’une famille de LLM multilingues à grande échelle formés sur un ensemble massif de texte et de code.

Il vise à couvrir de nombreuses langues de manière complète, c’est pourquoi il se concentre sur l’inclusivité et la diversité linguistique. XGLM démontre le potentiel de construction de modèles répondant aux besoins de diverses communautés linguistiques.

5. mT5

Le mT5 (massively multilingual Text-to-Text Transfer Transformer) a été développé par Google AI. Formé sur le ensemble de données common crawl, mt5 est un LLM multilingue de pointe qui peut gérer 101 langues, allant des langues largement parlées comme l’espagnol et le chinois aux langues moins ressources comme le basque et le quechua.

Il excelle également dans les tâches multilingues comme la traduction, la synthèse, la réponse aux questions, etc.

Un LLM universel est-il possible ?

Le concept d’un LLM linguistiquement neutre, capable de comprendre et de générer du langage sans biais envers une langue particulière, est intrigant.

Bien que le développement d’un LLM universel réellement universel soit encore loin, les LLM multilingues actuels ont déjà démontré un succès significatif. Une fois développés pleinement, ils pourront répondre aux besoins des langues sous-représentées et des communautés diverses.

Par exemple, la recherche montre que la plupart des LLM multilingues peuvent faciliter le transfert cross-linguistique à quelques exemples d’une langue à ressource riche à une langue à ressource dépourvue sans données de formation spécifiques à la tâche.

De plus, des modèles comme YAYI et BLOOM, qui se concentrent sur des langues et des communautés spécifiques, ont démontré le potentiel des approches centrées sur la langue pour stimuler les progrès et l’inclusivité.

Pour construire un LLM universel ou améliorer les LLM multilingues actuels, les individus et les organisations doivent :

Rassembler des locuteurs natifs pour l’engagement et la curation communautaires des jeux de données linguistiques.
Soutenir les efforts communautaires en matière de contributions open-source et de financement pour la recherche et le développement multilingues.

Les défis des LLM multilingues

Bien que le concept de LLM multilingues universels soit prometteur, ils font face à plusieurs défis qui doivent être résolus avant que nous puissions en bénéficier :

1. Quantité de données

Les modèles multilingues nécessitent un vocabulaire plus large pour représenter les jetons dans de nombreuses langues que les modèles monolingues, mais de nombreuses langues manquent de jeux de données à grande échelle. Cela rend difficile la formation efficace de ces modèles.

2. Préoccupations quant à la qualité des données

Garantir l’exactitude et la pertinence culturelle des sorties de LLM multilingues dans toutes les langues est une préoccupation majeure. Les modèles doivent être formés et affinés avec une attention minutieuse aux nuances linguistiques et culturelles pour éviter les biais et les inexactitudes.

3. Limitations de ressources

La formation et l’exécution de modèles multilingues nécessitent des ressources computationnelles importantes telles que des GPU puissants (par exemple, NVIDIA A100 GPU). Le coût élevé pose des défis, en particulier pour les langues à faible ressource et les communautés ayant un accès limité à l’infrastructure computationnelle.

4. Architecture de modèle

L’adaptation des architectures de modèle pour prendre en compte les structures et les complexités linguistiques diverses est un défi en cours. Les modèles doivent être capables de gérer des langues avec des ordres de mots différents, des variations morphologiques et des systèmes d’écriture différents tout en maintenant une haute performance et une efficacité.

5. Complexités d’évaluation

Évaluer les performances des LLM multilingues au-delà des références en anglais est crucial pour mesurer leur efficacité réelle. Cela nécessite de prendre en compte les nuances culturelles, les particularités linguistiques et les exigences spécifiques à un domaine.

Les LLM multilingues ont le potentiel de briser les barrières linguistiques, de donner du pouvoir aux langues sous-représentées et de faciliter une communication efficace entre les communautés diverses.

N’oubliez pas de suivre les dernières nouvelles et analyses en matière d’IA et de ML – visitez unite.ai aujourd’hui.