Künstliche Intelligenz

Der hohe Kohlenstoff-Fußabdruck von deutschen Auto-Übersetzungsmodellen

Published September 29, 2021

Updated April 28, 2026

Martin Anderson

Neue Forschungsergebnisse über den Kohlenstoff-Fußabdruck, der durch maschinelle Übersetzungsmodelle entsteht, deuten darauf hin, dass Deutsch möglicherweise die sprachintensivste beliebte Sprache für die Ausbildung ist, obwohl nicht ganz klar ist, warum. Der neue Bericht soll zusätzliche Forschungsbereiche für kohlenstoffeffiziente AI-Trainingsmethoden eröffnen, im Kontext des wachsenden Bewusstseins für den Umfang, in dem maschinelle Lernsysteme Strom verbrauchen.

Der Preprint-Artikel trägt den Titel Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation und stammt von Forschern am indischen Manipal Institute of Technology.

Die Autoren testeten die Trainingszeiten und berechneten die Kohlenstoffemissionswerte für verschiedene mögliche interlinguale Übersetzungsmodelle und fanden ‘eine bemerkenswerte Diskrepanz’ zwischen der Zeit, die für die drei kohlenstoffintensivsten Sprachpaarungen und den drei kohlenstoffeffizientesten Modellen benötigt wurde.

Ein Durchschnitt der Kohlenstoffemissionen, die über 10 Epochen des Trainings freigesetzt werden. Links, Ergebnisse unter Verwendung von ConvSeq (siehe unten), rechts, Transformers. Quelle: https://arxiv.org/pdf/2109.12584.pdf

Die Studie fand heraus, dass die “ökologischsten” Sprachpaarungen für die Ausbildung Englisch>Französisch, Französisch>Englisch und, paradoxerweise, Deutsch nach Englisch sind, während Deutsch in allen höchsten verbrauchenden Paarungen vorkommt: Französisch>Deutsch, Englisch>Deutsch und Deutsch>Französisch.

Compound Interest

Die Ergebnisse deuten darauf hin, dass die lexikalische Vielfalt ‘direkt proportional zur Trainingszeit ist, um ein angemessenes Leistungsniveau zu erreichen’, und bemerken, dass die deutsche Sprache den höchsten lexikalischen Vielfaltscore unter den drei getesteten Sprachen hat, wie durch ihren Type-Token-Ratio (TTR) geschätzt wird – eine Messung der Vokabulargröße auf der Grundlage der Textlänge.

Die erhöhten Anforderungen an die Verarbeitung von Deutsch in Übersetzungsmodellen werden nicht durch die Quelldaten widerspiegelt, die für das Experiment verwendet wurden. Tatsächlich haben die deutschen Sprachtoken, die aus den Quelldaten generiert wurden, weniger (299445) abgeleitete Token als Englisch (320108) und weit weniger als Französisch (335917).

Die Herausforderung aus der Sicht der Natural Language Processing (NLP) besteht darin, komplexe deutsche Wörter in ihre Bestandteile zu zerlegen. NLP-Systeme müssen dies oft für Deutsch ohne die vorherigen grammatikalischen oder kontextuellen Hinweise tun, die in Sprachen mit niedrigeren TTR-Scores wie Englisch gefunden werden können. Der Prozess wird als Compound-Splitting oder Decompounding bezeichnet.

Die deutsche Sprache hat einige der längsten Einzelwörter der Welt, obwohl sie 2013 die offizielle Anerkennung ihres 65-zeichen langen ehemaligen Rekordhalters verloren hat, der lang genug ist, um in diesem Artikel eine eigene Zeile zu benötigen:

Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz

Das Wort bezieht sich auf ein Gesetz, das die Überwachung der Rindfleischetikettierung überträgt, aber aufgrund einer Änderung der europäischen Vorschriften in diesem Jahr aus dem Existenzgrund fiel, und an die Stelle anderer beliebter Klassiker wie ‘Witwe eines Donau-Dampfschifffahrtsgesellschaftskapitäns’ (49 Zeichen):

Donaudampfschifffahrtsgesellschaftskapitaenswitwe

Im Allgemeinen erfordert die syntaktische Struktur des Deutschen eine Abkehr von den Wortreihenannahmen, die many westliche Sprachen zugrunde liegen, wobei das beliebte (in Berlin ansässige) spaCy-NLP-Framework 2016 sein eigenes natives Sprachmodell übernahm.

Projektive Abbildungen in einem englischen und deutschen Ausdruck demonstrieren die komplexen Beziehungen zwischen lexikalischen Elementen in der deutschen Sprache. Quelle: https://explosion.ai/blog/german-model

Daten und Tests

Für die Quelldaten verwendeten die Forscher das Multi30k-Dataset, das 30.000 Samples in den Sprachen Französisch, Deutsch und Englisch enthält.

Das erste der beiden Modelle, die die Forscher verwendeten, war Facebook AI’s 2017 Convolutional Sequence to Sequence (ConvSeq), ein neuronales Netzwerk, das konvolutionale Schichten enthält, aber keine rekurrenten Einheiten hat und stattdessen Filter verwendet, um Merkmale aus Texten abzuleiten. Dies ermöglicht es, alle Operationen in einer computationally effizienten parallelen Weise durchzuführen.

Der zweite Ansatz verwendete Google’s einflussreiche Transformers-Architektur, auch aus 2017. Transformers verwendet lineare Schichten, Aufmerksamkeitsmechanismen und Normalisierungsroutinen. Zugegebenermaßen ist das ursprünglich veröffentlichte Modell für seine Kohlenstoffineffizienz kritisiert worden, wobei Behauptungen über nachfolgende Verbesserungen umstritten sind.

Die Experimente wurden auf Google Colab durchgeführt, einheitlich auf einer Tesla K80-GPU. Die Sprachen wurden unter Verwendung eines BLEU (Bilingual Evaluation Understudy)-Score-Metriks und des CodeCarbon-Machine-Learning-Emissions-Rechners verglichen. Die Daten wurden über 10 Epochen trainiert.

Ergebnisse

Die Forscher fanden heraus, dass es die verlängerte Dauer des Trainings für deutsche Sprachpaarungen war, die die Waage in den höheren Kohlenstoffverbrauch neigte. Obwohl einige andere Sprachpaarungen, wie Englisch>Französisch und Französisch>Englisch, einen höheren Kohlenstoffverbrauch hatten, trainierten sie schneller und lösten sich leichter, wobei diese Konsumschübe von den Forschern als ‘relativ unbedeutend’ im Vergleich zum Verbrauch durch Sprachpaarungen, die Deutsch enthalten, bezeichnet wurden.

Analyse der Sprachpaarungen nach Encoder/Decoder-Emissionen.

Die Forscher schlussfolgern:

‘Unsere Ergebnisse liefern einen klaren Hinweis darauf, dass einige Sprachpaarungen kohlenstoffintensiver zu trainieren sind als andere, ein Trend, der sich über verschiedene Architekturen erstreckt.’

Sie fahren fort:

‘Es bleiben jedoch unbeantwortete Fragen hinsichtlich der Gründe für die deutlichen Unterschiede im Training von Modellen für ein bestimmtes Sprachpaar im Vergleich zu einem anderen, und ob unterschiedliche Architekturen möglicherweise besser für diese kohlenstoffintensiven Sprachpaarungen geeignet sind, und warum dies der Fall sein könnte, wenn es zutrifft.’

Der Bericht betont, dass die Gründe für die Diskrepanz des Kohlenstoffverbrauchs bei der Ausbildung von Modellen nicht ganz klar sind. Sie erwarten, diese Forschungsrichtung mit nicht lateinbasierten Sprachen weiterzuentwickeln.

1.20 Uhr GMT+2 – Textfehler korrigiert.