Leaders d’opinion

Impact des Transformers : La traduction automatique a-t-elle été résolue ?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google a récemment annoncé la sortie de 110 nouvelles langues sur Google Translate dans le cadre de son initiative de 1000 langues lancée en 2022. En 2022, au début, ils avaient ajouté 24 langues. Avec les 110 dernières, il s’agit maintenant de 243 langues. Cette expansion rapide a été possible grâce à la traduction automatique Zero-Shot, une technologie où les modèles d’apprentissage automatique apprennent à traduire dans une autre langue sans exemples préalables. Mais dans le futur, nous verrons ensemble si cette avancée peut être la solution ultime au défi de la traduction automatique, et dans l’intervalle, nous pouvons explorer les moyens de la mettre en œuvre. Mais d’abord, son histoire.

Comment était-ce avant ?

Traduction automatique statistique (SMT)

C’était la méthode originale utilisée par Google Translate. Elle reposait sur des modèles statistiques. Ils analysaient de grandes collections parallèles de traductions de phrases, pour déterminer les traductions les plus probables. Tout d’abord, le système traduisait le texte en anglais comme étape intermédiaire avant de le convertir dans la langue cible, et il devait faire référence à des phrases avec des ensembles de données exhaustifs provenant des transcriptions des Nations Unies et du Parlement européen. C’est différent des approches traditionnelles qui nécessitaient la compilation de règles grammaticales exhaustives. Et son approche statistique lui permettait de s’adapter et d’apprendre à partir des données sans s’appuyer sur des cadres linguistiques statiques qui pouvaient rapidement devenir complètement inutiles.

Mais il y a quelques inconvénients à cette approche, également. Tout d’abord, Google Translate utilisait la traduction basée sur les phrases, où le système décomposait les phrases en phrases et les traduisait individuellement. C’était une amélioration par rapport à la traduction mot à mot, mais elle présentait encore des limites comme des formulations maladroites et des erreurs de contexte. Elle ne comprenait tout simplement pas les nuances comme nous le faisons. De plus, la TMS dépend fortement de l’existence de collections parallèles, et toute langue relativement rare serait difficile à traduire car elle ne dispose pas de données parallèles suffisantes.

Traduction automatique neuronale (NMT)

En 2016, Google a basculé vers la traduction automatique neuronale. Elle utilise des modèles d’apprentissage profond pour traduire des phrases entières en une seule fois, offrant des traductions plus fluides et plus précises. La NMT fonctionne de manière similaire à celle d’un assistant multilingue sophistiqué dans votre ordinateur. En utilisant une architecture de séquence à séquence (seq2seq), la NMT traite une phrase dans une langue pour en comprendre le sens. Ensuite, elle génère une phrase correspondante dans une autre langue. Cette méthode utilise des ensembles de données énormes pour l’apprentissage, contrairement à la traduction automatique statistique qui repose sur des modèles statistiques analysant de grandes collections parallèles pour déterminer les traductions les plus probables. Contrairement à la TMS, qui se concentre sur la traduction basée sur les phrases et nécessite beaucoup d’efforts manuels pour développer et maintenir des règles et des dictionnaires linguistiques, la puissance de la NMT pour traiter des séquences entières de mots lui permet de capturer plus efficacement le contexte nuancé de la langue. Elle a donc amélioré la qualité de la traduction pour diverses paires de langues, souvent atteignant des niveaux de fluidité et de précision comparables à ceux des traducteurs humains.

En fait, les modèles NMT traditionnels utilisaient des réseaux de neurones récurrents (RNN) comme architecture principale, car ils sont conçus pour traiter des données séquentielles en maintenant un état caché qui évolue à mesure que chaque nouvelle entrée (mot ou jeton) est traitée. Cet état caché sert de sorte de mémoire qui capture le contexte des entrées précédentes, permettant au modèle d’apprendre les dépendances dans le temps. Mais les RNN étaient coûteux en calculs et difficiles à paralléliser efficacement, ce qui limitait leur scalabilité.

Introduction des Transformers

En 2017, Google Research a publié un article intitulé “Attention is All You Need,” introduisant les transformers au monde et marquant un tournant majeur loin des RNN dans l’architecture des réseaux de neurones.

Les transformers ne reposent que sur le mécanisme d’attention, l’auto-attention, qui permet aux modèles de traduction automatique neuronale de se concentrer de manière sélective sur les parties les plus critiques des séquences d’entrée. Contrairement aux RNN, qui traitent les mots dans une séquence au sein des phrases, l’auto-attention évalue chaque jeton dans tout le texte, déterminant lesquels sont essentiels pour comprendre son contexte. Ce calcul simultané de tous les mots permet aux transformers de capturer efficacement à la fois les dépendances à courte et longue portée sans s’appuyer sur des connexions récurrentes ou des filtres convolutionnels.

Ainsi, en éliminant la récurrence, les transformers offrent plusieurs avantages clés :

Parallélisation : Les mécanismes d’attention peuvent calculer en parallèle sur différents segments de la séquence, ce qui accélère la formation sur le matériel moderne tel que les GPU.
Efficacité de la formation : Ils nécessitent également beaucoup moins de temps de formation par rapport aux modèles basés sur les RNN ou les CNN traditionnels, offrant de meilleures performances dans des tâches telles que la traduction automatique.

Traduction automatique Zero-Shot et PaLM 2

En 2022, Google a pris en charge 24 nouvelles langues à l’aide de la traduction automatique Zero-Shot, marquant un jalon important dans la technologie de traduction automatique. Ils ont également annoncé l’initiative de 1 000 langues, visant à soutenir les 1 000 langues les plus parlées dans le monde. Ils ont maintenant déployé 110 langues supplémentaires. La traduction automatique Zero-Shot permet la traduction sans données parallèles entre les langues source et cible, éliminant ainsi le besoin de créer des données de formation pour chaque paire de langues — un processus précédemment coûteux et chronophage, et pour certaines paires de langues également impossible.

Cette avancée est devenue possible grâce à l’architecture et aux mécanismes d’auto-attention des transformers. La capacité du modèle de transformer à apprendre les relations contextuelles entre les langues, combinée à sa capacité à gérer plusieurs langues simultanément, a permis le développement de systèmes de traduction multilingues plus efficaces et plus efficaces. Cependant, les modèles Zero-Shot montrent généralement une qualité inférieure à ceux formés sur des données parallèles.

Ensuite, en s’appuyant sur les progrès des transformers, Google a introduit PaLM 2 en 2023, qui a ouvert la voie à la sortie de 110 nouvelles langues en 2024. PaLM 2 a considérablement amélioré la capacité de Translate à apprendre des langues étroitement liées telles que l’Awadhi et le Marwadi (liés au hindi) et les créoles français comme le créole seychellois et le créole mauricien. Les améliorations apportées à PaLM 2, telles que la mise à l’échelle optimale des calculs, les ensembles de données améliorés et la conception affinée — ont permis un apprentissage linguistique plus efficace et ont soutenu les efforts constants de Google pour améliorer et élargir le soutien linguistique et accueillir les nuances linguistiques diverses.

Pouvons-nous affirmer que le défi de la traduction automatique a été pleinement résolu avec les transformers ?

L’évolution dont nous parlons a duré 18 ans, de l’adoption par Google de la TMS à la sortie récente de 110 langues supplémentaires à l’aide de la traduction automatique Zero-Shot. Cela représente un énorme bond en avant qui peut potentiellement réduire le besoin de collecte de corpus parallèles — une tâche historiquement et très fastidieuse que l’industrie a poursuivie pendant plus de deux décennies. Mais affirmer que la traduction automatique est complètement résolue serait prématuré, compte tenu des considérations techniques et éthiques.

Les modèles actuels ont encore du mal avec le contexte et la cohérence et commettent des erreurs subtiles qui peuvent changer le sens que vous vouliez donner à un texte. Ces problèmes sont très présents dans les phrases plus longues et plus complexes où il est nécessaire de maintenir le flux logique et de comprendre les nuances pour obtenir des résultats. De plus, les nuances culturelles et les expressions idiomatiques se perdent souvent ou perdent leur signification, provoquant des traductions qui peuvent être grammaticalement correctes mais n’ont pas l’impact souhaité ou sonnent peu naturelles.

Données pour le pré-entraînement : PaLM 2 et des modèles similaires sont pré-entraînés sur un corpus de texte multilingue diversifié, surpassant son prédécesseur PaLM. Cette amélioration permet à PaLM 2 d’exceller dans les tâches multilingues, soulignant l’importance continue des ensembles de données traditionnels pour améliorer la qualité de la traduction.

Langues spécifiques à un domaine ou rares : Dans des domaines spécialisés comme les domaines juridiques, médicaux ou techniques, les corpus parallèles garantissent que les modèles rencontrent des termes et des nuances linguistiques spécifiques. Les modèles avancés peuvent avoir du mal avec le jargon spécifique à un domaine ou les tendances linguistiques en évolution, posant des défis pour la traduction automatique Zero-Shot. De plus, les langues à faibles ressources sont toujours mal traduites, car elles n’ont pas les données nécessaires pour former des modèles précis.

Benchmarking : Les corpus parallèles restent essentiels pour évaluer et établir des références pour les performances des modèles de traduction, en particulier pour les langues qui manquent de données de corpus parallèles suffisantes. Les métriques automatisées comme BLEU, BLERT et METEOR ont des limites pour évaluer la nuance de la qualité de la traduction au-delà de la grammaire. Mais alors, nous, les humains, sommes entravés par nos préjugés. De plus, il n’y a pas beaucoup d’évaluateurs qualifiés, et trouver l’évaluateur bilingue parfait pour chaque paire de langues pour détecter les erreurs subtiles est difficile.

Intensité des ressources : La nature gourmande en ressources de la formation et du déploiement des LLM reste une barrière, limitant l’accessibilité pour certaines applications ou organisations.

Préservation culturelle. La dimension éthique est profonde. Comme l’explique Isaac Caswell, un chercheur scientifique de Google Translate, la traduction automatique Zero-Shot : « Vous pouvez la considérer comme un polyglotte qui connaît de nombreuses langues. Mais ensuite, en plus, il voit du texte dans 1 000 langues supplémentaires qui ne sont pas traduites. Vous pouvez imaginer si vous êtes un grand polyglotte, et puis vous commencez à lire des romans dans une autre langue, vous pouvez commencer à comprendre ce que cela pourrait signifier en fonction de vos connaissances en langues en général. » Cependant, il est crucial de considérer l’impact à long terme sur les langues mineures qui manquent de corpus parallèles, affectant potentiellement la préservation culturelle lorsque la dépendance s’éloigne des langues elles-mêmes.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, est une scientifique de données distinguée avec plus d'une décennie d'expérience, englobant à la fois l'analyse de produits et l'analyse pour les technologies de pointe. Elle a dirigé la création et l'analyse pour Yasmina, le premier assistant vocal basé sur l'IA entièrement fonctionnel et localisé pour l'Arabie saoudite, gérant une localisation de données complexe et un étiquetage pour l'arabe standard moderne et les dialectes saoudiens. Actuellement, Irina dirige l'analyse de la qualité chez Yandex, impulsant les progrès dans les technologies de l'IA.