Kunstig intelligens
Det høje kulstofaftryk af tyske auto-oversættelsesmodeller

Nyt forskning i kulstofaftrykket skabt af maskinelæringsoversættelsesmodeller indikerer, at tysk måske er det mest kulstofintensive sprog at træne, selvom det ikke er helt klart, hvorfor. Den nye rapport er tiltænkt at åbne op for yderligere forskningsveje ind i mere kulstofeffektive AI-træningsmetoder, i lyset af den voksende bevidsthed om, i hvilken udstrækning maskinelæringssystemer forbruger elektricitet.
Den preprint-papir er titlen Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation, og kommer fra forskere på Indiens Manipal Institute of Technology.
Forfatterne testede træningstider og beregnede kulstofemissionsværdier for en række mulige inter-sprogoversættelsesmodeller og fandt ‘en bemærkelsesværdig ulighed’ mellem tiden til at oversætte de tre mest kulstofintensive sprogpar og de tre mest kulstoføkonomiske modeller.

Gennemsnittet af kulstofemissioner frigivet over 10 epocher af træning. Til venstre, resultater ved brug af ConvSeq (se nedenfor), til højre, Transformers. Kilde: https://arxiv.org/pdf/2109.12584.pdf
Papiret fandt, at de mest ‘økologiske’ sprogpar til træning er engelsk>fransk, fransk>engelsk og, paradoksalt, tysk til engelsk, mens tysk er med i alle de højeste forbrugende par: fransk>tysk, engelsk>tysk og tysk>fransk.
Sammenligning
Forskningens resultater antyder, at leksikalsk diversitet ‘er direkte proportional med træningstid til at opnå et tilstrækkeligt niveau af præstation’, og bemærker, at det tyske sprog har den højeste leksikalske diversitets-score blandt de tre testede sprog, som estimeret af dens Type-Token Ratio (TTR) – en måling af ordforråd baseret på tekstlængde.
De øgede krav til behandling af tysk i oversættelsesmodellerne bliver ikke reflekteret i kildedata, der blev brugt til eksperimentet. Faktisk har det tyske sprog tokens genereret fra kildedata færre (299445) afledte tokens end engelsk (320108), og langt færre end fransk (335917).

Udfordringen, fra et Natural Language Processing (NLP)-synspunkt, er at dekomponere sammensatte tyske ord i bestanddelene ord. NLP-systemer skal ofte opnå dette for tysk uden nogen af de forudgående grammatiske eller kontekstuelle hints, der kan findes i sprog med lavere TTR-scores, såsom engelsk. Processen kaldes sammensat splitting eller dekomponering.
Det tyske sprog har nogle af de længste enkeltord i verden, selvom det i 2013 tabte den officielle anerkendelse af sin 65-tegn lange tidligere rekordholder, der er lang nok til at kræve sin egen linje i denne artikel:
Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz
Ordet refererer til en lov, der overdrager overvågning af kødetiketter, men forsvandt på grund af en ændring i EU-reglerne det år, og overlod pladsen til andre populære standarder, såsom ‘enke af en Donau-damperkaptajn’ (49 tegn):
Donaudampfschifffahrtsgesellschaftskapitaenswitwe
Generelt kræver det tyske sprog en afvigelse fra de ordre-antagelser, der ligger til grund for NLP-praksis i mange vestlige sprog, med den populære (Berlin-baserede) spaCY NLP-ramme, der antog sin egen native sprog i 2016.

Projektive afbildninger i en engelsk og tysk frase demonstrerer de komplekse sammenhænge mellem leksikalske elementer i det tyske sprog. Kilde: https://explosion.ai/blog/german-model
Data og test
Til kildedata brugte forskerne Multi30k-datasettet, der indeholder 30.000 eksempler på fransk, tysk og engelsk.
Den første af de to modeller, der blev brugt af forskerne, var Facebook AI’s 2017 Convolutional Sequence to Sequence (ConvSeq), et neuralt netværk, der indeholder convolutionelle lag, men som mangler rekurrente enheder, og i stedet bruger filtre til at udlede funktioner fra tekst. Dette tillader, at alle operationer kan udføres på en komputationelt effektiv parallel måde.
Den anden tilgang brugte Googles inflydelsesrige Transformers-arkitektur, også fra 2017. Transformers bruger lineære lag, opmærksomheds-mekanismer og normaliserings-rutiner. Det skal bemærkes, at den oprindelige udgivne model er kommet under kritik for kulstofineffektivitet, med påstande om efterfølgende forbedringer kontrovers.
Eksperimenterne blev udført på Google Colab, ensartet på en Tesla K80-GPU. Sprogene blev sammenlignet ved brug af en BLEU (Bilingual Evaluation Understudy)-score-måling, og CodeCarbon Machine Learning Emissions Calculator. Data blev trænet over 10 epocher.
Resultater
Forskerne fandt, at det var den forlængede træningstid for tysk-relaterede sprogpar, der tippede balance til højere kulstof-forbrug. Selvom nogle andre sprogpar, såsom engelsk>fransk og fransk>engelsk havde endda højere kulstof-forbrug, trænede de hurtigere og løste mere let, med disse udsalg af forbrug karakteriseret af forskerne som ‘relativt ubetydelig’ i forhold til forbrug af sprogpar, der inkluderer tysk.

Analyse af sprogpar efter encoder/decoder-kulstofemissioner.
Forskerne konkluderer:
‘Vores resultater giver klart indikation af, at nogle sprogpar er mere kulstofintensive at træne end andre, en tendens, der strækker sig over forskellige arkitekturer.’
De fortsætter:
‘Men der er stadig ubesvarede spørgsmål om, hvorfor der er så store forskelle i træning af modeller for et bestemt sprogpar over et andet, og om forskellige arkitekturer måske er mere egnede til disse kulstofintensive sprogpar, og hvorfor dette ville være tilfældet, hvis det er sandt.’
Papiret understreger, at årsagerne til ulighed i kulstofforbrug over træningsmodeller ikke er helt klare. De forventer at udvikle denne forskningslinje med ikke-latin-baserede sprog.
1.20pm GMT+2 – Tekstfejl rettet.












