Leaders d’opinion
Impact des Transformers : La traduction automatique a-t-elle été résolue ?
Google a récemment annoncé la sortie de 110 nouvelles langues sur Google Translate dans le cadre de son initiative de 1000 langues lancée en 2022. En 2022, au début, ils avaient ajouté 24 langues. Avec les 110 langues supplémentaires, il s’agit maintenant de 243 langues. Cette expansion rapide a été possible grâce à la traduction automatique à zéro coup, une technologie où les modèles d’apprentissage automatique apprennent à traduire dans une autre langue sans exemples préalables. Mais à l’avenir, nous verrons ensemble si cette avancée peut être la solution ultime au défi de la traduction automatique, et dans l’intervalle, nous pouvons explorer les moyens de la rendre possible. Mais d’abord, son histoire.
Comment était-ce avant ?
Traduction automatique statistique (SMT)
C’était la méthode originale utilisée par Google Translate. Elle reposait sur des modèles statistiques. Ils analysaient de grandes collections de traductions de phrases alignées pour déterminer les traductions les plus probables. Tout d’abord, le système traduisait le texte en anglais comme étape intermédiaire avant de le convertir dans la langue cible, et il devait faire référence à des phrases avec des jeux de données étendus à partir de transcriptions des Nations Unies et du Parlement européen. C’est différent des approches traditionnelles qui nécessitaient la compilation de règles grammaticales exhaustives. Et son approche statistique lui permettait de s’adapter et d’apprendre à partir des données sans s’appuyer sur des cadres linguistiques statiques qui pouvaient rapidement devenir complètement inutiles.
Mais il y a quelques inconvénients à cette approche. Tout d’abord, Google Translate utilisait la traduction basée sur les phrases, où le système décomposait les phrases en phrases et les traduisait individuellement. C’était une amélioration par rapport à la traduction mot à mot, mais elle avait encore des limites comme des formulations maladroites et des erreurs de contexte. Elle ne comprenait simplement pas les nuances comme nous le faisons. De plus, la TMS repose fortement sur la disponibilité de collections parallèles, et toute langue relativement rare serait difficile à traduire car elle n’a pas suffisamment de données parallèles.
Traduction automatique neuronale (NMT)
En 2016, Google a basculé vers la traduction automatique neuronale. Elle utilise des modèles d’apprentissage profond pour traduire des phrases entières en une seule fois, ce qui donne des traductions plus fluides et plus précises. La NMT fonctionne de manière similaire à celle d’un assistant multilingue sophistiqué dans votre ordinateur. En utilisant une architecture de type séquence à séquence (seq2seq), la NMT traite une phrase dans une langue pour en comprendre le sens. Ensuite, elle génère une phrase correspondante dans une autre langue. Cette méthode utilise des jeux de données énormes pour l’apprentissage, contrairement à la traduction automatique statistique qui repose sur des modèles statistiques analysant de grandes collections parallèles pour déterminer les traductions les plus probables. Contrairement à la TMS, qui se concentrait sur la traduction basée sur les phrases et nécessitait beaucoup d’efforts manuels pour développer et maintenir des règles et des dictionnaires linguistiques, la puissance de la NMT pour traiter des séquences de mots entières lui permet de capturer plus efficacement les nuances du contexte linguistique. Elle a donc amélioré la qualité de la traduction pour de nombreuses paires de langues, souvent atteignant des niveaux de fluidité et de précision comparables à ceux des traducteurs humains.
En fait, les modèles de NMT traditionnels utilisaient des réseaux de neurones récurrents (RNN) comme architecture de base, car ils sont conçus pour traiter des données séquentielles en maintenant un état caché qui évolue à mesure que chaque nouvelle entrée (mot ou jeton) est traitée. Cet état caché sert de sorte de mémoire qui capture le contexte des entrées précédentes, permettant au modèle d’apprendre les dépendances dans le temps. Mais les RNN étaient coûteux en termes de calcul et difficiles à paralléliser efficacement, ce qui limitait leur scalabilité.
Introduction des Transformers
En 2017, Google Research a publié un article intitulé “Attention is All You Need,” introduisant les Transformers dans le monde et marquant un tournant important loin des RNN dans l’architecture des réseaux de neurones.
Les Transformers ne reposent que sur le mécanisme d’attention, l’auto-attention, qui permet aux modèles de traduction automatique neuronale de se concentrer de manière sélective sur les parties les plus critiques des séquences d’entrée. Contrairement aux RNN, qui traitent les mots dans une séquence au sein des phrases, l’auto-attention évalue chaque jeton dans tout le texte, déterminant lesquels sont essentiels pour comprendre son contexte. Ce calcul simultané de tous les mots permet aux Transformers de capturer efficacement à la fois les dépendances à court et à long terme sans s’appuyer sur des connexions récurrentes ou des filtres convolutionnels.
Ainsi, en éliminant la récurrence, les Transformers offrent plusieurs avantages clés :
- Parallélisation : Les mécanismes d’attention peuvent calculer en parallèle sur différentes parties de la séquence, ce qui accélère la formation sur les matériels modernes tels que les GPU.
- Efficacité de formation : Ils nécessitent également beaucoup moins de temps de formation par rapport aux modèles basés sur les RNN ou les CNN, offrant de meilleures performances dans des tâches telles que la traduction automatique.
Traduction automatique à zéro coup et PaLM 2
En 2022, Google a pris en charge 24 nouvelles langues à l’aide de la traduction automatique à zéro coup, marquant un jalon important dans la technologie de traduction automatique. Ils ont également annoncé l’initiative de 1 000 langues, visant à prendre en charge les 1 000 langues les plus parlées dans le monde. Ils ont maintenant déployé 110 langues supplémentaires. La traduction automatique à zéro coup permet la traduction sans données parallèles entre les langues source et cible, éliminant ainsi la nécessité de créer des données de formation pour chaque paire de langues — un processus précédemment coûteux et chronophage, et pour certaines paires de langues également impossible.
Cette avancée est devenue possible grâce à l’architecture et aux mécanismes d’auto-attention des Transformers. La capacité du modèle Transformer à apprendre les relations contextuelles entre les langues, combinée à sa scalabilité pour gérer plusieurs langues simultanément, a permis le développement de systèmes de traduction multilingue plus efficaces et plus efficaces. Cependant, les modèles à zéro coup montrent généralement une qualité inférieure à ceux formés sur des données parallèles.
Ensuite, en s’appuyant sur les progrès des Transformers, Google a introduit PaLM 2 en 2023, qui a ouvert la voie à la sortie de 110 nouvelles langues en 2024. PaLM 2 a considérablement amélioré la capacité de Translate à apprendre des langues étroitement liées, telles que l’Awadhi et le Marwadi (liés au hindi) et les créoles français comme le Seychellois et le créole mauricien. Les améliorations apportées à PaLM 2, telles que la mise à l’échelle optimale pour le calcul, les jeux de données améliorés et la conception affinée — ont permis un apprentissage linguistique plus efficace et ont soutenu les efforts continus de Google pour améliorer le soutien linguistique et accueillir les nuances linguistiques diverses.
Pouvons-nous affirmer que le défi de la traduction automatique a été pleinement résolu avec les Transformers ?
L’évolution dont nous parlons a pris 18 ans, depuis l’adoption par Google de la TMS jusqu’à la sortie récente de 110 langues supplémentaires à l’aide de la traduction automatique à zéro coup. Cela représente un énorme bond qui peut potentiellement réduire le besoin de collecte de données parallèles — une tâche historiquement et très laborieuse que l’industrie a poursuivie pendant plus de deux décennies. Mais affirmer que la traduction automatique est complètement résolue serait prématuré, compte tenu des considérations techniques et éthiques.
Les modèles actuels ont encore du mal avec le contexte et la cohérence et font des erreurs subtiles qui peuvent changer le sens que vous aviez l’intention de donner à un texte. Ces problèmes sont très présents dans les phrases plus longues et plus complexes où il est nécessaire de maintenir le flux logique et de comprendre les nuances pour obtenir des résultats. De plus, les nuances culturelles et les expressions idiomatiques se perdent souvent ou perdent leur signification, provoquant des traductions qui peuvent être grammaticalement correctes mais n’ont pas l’impact souhaité ou sonnent peu naturelles.
Données pour le pré-entraînement : PaLM 2 et des modèles similaires sont pré-entraînés sur un corpus de texte multilingue diversifié, dépassant son prédécesseur PaLM. Cette amélioration permet à PaLM 2 d’exceller dans les tâches multilingues, soulignant l’importance continue des jeux de données traditionnels pour améliorer la qualité de la traduction.
Langues spécifiques à un domaine ou rares : Dans des domaines spécialisés comme les domaines juridiques, médicaux ou techniques, les collections parallèles garantissent que les modèles rencontrent des terminologies et des nuances linguistiques spécifiques. Les modèles avancés peuvent avoir du mal avec le jargon spécifique à un domaine ou les tendances linguistiques en évolution, ce qui pose des défis pour la traduction automatique à zéro coup. De plus, les langues à faibles ressources sont encore mal traduites, car elles n’ont pas les données nécessaires pour former des modèles précis
Évaluation : Les collections parallèles restent essentielles pour évaluer et établir des références pour les performances des modèles de traduction, en particulier pour les langues qui n’ont pas suffisamment de données parallèles. Les métriques automatisées comme BLEU, BLERT et METEOR ont des limites pour évaluer la nuance dans la qualité de la traduction, à part la grammaire. Mais ensuite, nous, les humains, sommes entravés par nos préjugés. De plus, il n’y a pas beaucoup d’évaluateurs qualifiés, et trouver l’évaluateur bilingue parfait pour chaque paire de langues pour détecter les erreurs subtiles.
Intensité des ressources : La nature gourmande en ressources de la formation et du déploiement des LLM est toujours un obstacle, limitant l’accessibilité pour certaines applications ou organisations.
Préservation culturelle. La dimension éthique est profonde. Comme l’a décrit Isaac Caswell, un chercheur de Google Translate : “Vous pouvez penser que c’est un polyglotte qui connaît de nombreuses langues. Mais ensuite, en plus, il voit du texte dans 1 000 langues supplémentaires qui ne sont pas traduites. Vous pouvez imaginer si vous êtes un grand polyglotte et que vous commencez à lire des romans dans une autre langue, vous pouvez commencer à comprendre ce que cela pourrait signifier en fonction de votre connaissance de la langue en général.” Pourtant, il est crucial de considérer l’impact à long terme sur les langues mineures qui n’ont pas de collections parallèles, ce qui pourrait affecter la préservation culturelle lorsque la dépendance s’éloigne des langues elles-mêmes.












