Intelligence artificielle
L’empreinte carbone élevée des modèles d’auto-traduction allemands

De nouvelles recherches sur l’empreinte carbone créée par les modèles de traduction d’apprentissage automatique indiquent que l’allemand peut être la langue la plus intensive en carbone à former, bien qu’il ne soit pas entièrement clair pourquoi. Le nouveau rapport vise à ouvrir de nouvelles voies de recherche sur des méthodes de formation d’IA plus efficaces en carbone, dans le contexte d’une prise de conscience croissante de la mesure dans laquelle les systèmes d’apprentissage automatique consomment de l’électricité.
Le pré-imprimé est intitulé Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation, et provient de chercheurs de l’Institut de technologie Manipal en Inde.
Les auteurs ont testé les temps de formation et calculé les valeurs d’émission de carbone pour une variété de modèles de traduction inter-langues possibles, et ont trouvé ‘une disparité notable’ entre le temps nécessaire pour traduire les trois paires de langues les plus intensives en carbone, et les trois modèles les plus économiques en carbone.

Une moyenne des émissions de carbone libérées sur 10 époques de formation. À gauche, résultats utilisant ConvSeq (voir ci-dessous), à droite, Transformers. Source: https://arxiv.org/pdf/2109.12584.pdf
Le document a constaté que les paires de langues les plus ‘écologiques’ à former sont anglais>français, français>anglais et, de manière paradoxale, allemand vers anglais, tandis que l’allemand figure dans toutes les paires à consommation élevée : français>allemand, anglais>allemand et allemand>français.
Intérêt composite
Les résultats suggèrent que la diversité lexicale ‘est directement proportionnelle au temps de formation pour atteindre un niveau de performance adéquat’, et notent que la langue allemande a le score de diversité lexicale le plus élevé parmi les trois langues testées, estimé par son Type-Token Ratio (TTR) – une mesure de la taille du vocabulaire basée sur la longueur du texte.
Les demandes accrues de traitement de l’allemand dans les modèles de traduction ne sont pas reflétées dans les données source utilisées pour l’expérience. En fait, les jetons allemands générés à partir des données source ont moins (299445) de jetons dérivés que l’anglais (320108), et beaucoup moins que le français (335917).

Le défi, du point de vue du traitement du langage naturel (NLP), est de décomposer les mots composés allemands en mots constitutifs. Les systèmes NLP doivent souvent accomplir cela pour l’allemand sans aucune des pré-indices grammaticaux ou des indices contextuels qui peuvent être trouvés dans les langues à scores TTR plus bas, comme l’anglais. Le processus est appelé division de composés ou décomposition.
La langue allemande a certains des mots individuels les plus longs du monde, bien qu’en 2013, elle ait perdu la reconnaissance officielle de son ancien record de 65 caractères, qui est suffisamment long pour nécessiter sa propre ligne dans cet article :
Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz
Le mot fait référence à une loi déléguant la surveillance de l’étiquetage de la viande de bœuf, mais a disparu en raison d’un changement dans les réglementations européennes cette année-là, cédant la place à d’autres stalwarts populaires, tels que ‘veuve d’un capitaine de compagnie de bateau à vapeur du Danube’ (49 caractères) :
Donaudampfschifffahrtsgesellschaftskapitaenswitwe
En général, la structure syntaxique de l’allemand nécessite un écart par rapport aux hypothèses d’ordre des mots qui sous-tendent les pratiques NLP dans de nombreuses langues occidentales, avec le cadre NLP populaire (basé à Berlin) spaCY adoptant sa propre langue native en 2016.

Les mappings projectifs dans une phrase anglaise et allemande démontrent les interrelations complexes entre les éléments lexicaux de la langue allemande. Source: https://explosion.ai/blog/german-model
Données et tests
Pour les données source, les chercheurs ont utilisé l’ensemble de données Multi30k, contenant 30 000 échantillons à travers les langues françaises, allemandes et anglaises.
Le premier des deux modèles utilisés par les chercheurs était Facebook AI’s 2017 Convolutional Sequence to Sequence (ConvSeq), un réseau neuronal qui contient des couches convolutionnelles mais qui manque d’unités récurrentes, et utilise à la place des filtres pour dériver des fonctionnalités à partir du texte. Cela permet à toutes les opérations de se dérouler de manière parallèle et computationnellement efficace.
La deuxième approche utilisée l’architecture Transformers influente de Google, également de 2017. Les Transformers utilisent des couches linéaires, des mécanismes d’attention et des routines de normalisation. Admettons que le modèle original publié est sous critique pour son inefficacité en carbone, avec des allégations d’améliorations contestées.
Les expériences ont été menées sur Google Colab, de manière uniforme sur un Tesla K80 GPU. Les langues ont été comparées en utilisant une BLEU (Bilingual Evaluation Understudy) score metric, et le CodeCarbon Machine Learning Emissions Calculator. Les données ont été formées sur 10 époques.
Résultats
Les chercheurs ont constaté que c’était la durée de formation prolongée pour les paires de langues allemandes qui a fait basculer l’équilibre vers une consommation de carbone plus élevée. Bien que certaines autres paires de langues, telles que anglais>français et français>anglais, aient eu une consommation de carbone plus élevée, elles se sont formées plus rapidement et se sont résolues plus facilement, avec ces sursauts de consommation caractérisés par les chercheurs comme ‘relativement insignifiants’ par rapport à la consommation par les paires de langues qui incluent l’allemand.

Analyse des paires de langues par émissions d’encodeur/décodeur.
Les chercheurs concluent :
‘Nos résultats fournissent une indication claire que certaines paires de langues sont plus intensives en carbone à former que d’autres, une tendance qui se poursuit sur différentes architectures.’
Ils poursuivent :
‘Cependant, il reste des questions sans réponse concernant les raisons de ces différences si marquées dans la formation de modèles pour une paire de langues particulière par rapport à une autre, et si différentes architectures pourraient être plus adaptées à ces paires de langues intensives en carbone, et pourquoi cela serait le cas si c’est vrai.’
Le document souligne que les raisons de la disparité de consommation de carbone entre les modèles de formation ne sont pas entièrement claires. Ils prévoient de développer cette ligne d’étude avec des langues non basées sur le latin.
13h00 GMT+2 – Erreur de texte corrigée.












