Intelligenza artificiale
L’elevato impatto di carbonio dei modelli di traduzione automatica tedeschi

Nuove ricerche sull’impronta di carbonio creata dai modelli di traduzione basati su machine learning indicano che il tedesco potrebbe essere la lingua più intensiva in termini di carbonio tra le lingue popolari da addestrare, anche se non è del tutto chiaro il motivo. Il nuovo rapporto è destinato ad aprire nuove vie di ricerca per metodi di addestramento di intelligenza artificiale più efficienti in termini di carbonio, nel contesto di una crescente consapevolezza dell’estensione in cui i sistemi di machine learning consumano elettricità.
Il preprint del paper si intitola Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation, e proviene da ricercatori dell’Indian Institute of Technology di Manipal.
Gli autori hanno testato i tempi di addestramento e calcolato i valori di emissione di carbonio per una varietà di possibili modelli di traduzione interlinguistica, e hanno trovato ‘una notevole disparità’ tra il tempo impiegato per tradurre le tre coppie di lingue più intensive in termini di carbonio e le tre più economiche.

Una media delle emissioni di carbonio rilasciate in 10 epoche di addestramento. A sinistra, risultati utilizzando ConvSeq (vedi sotto), a destra, Transformers. Source: https://arxiv.org/pdf/2109.12584.pdf
Il paper ha scoperto che le coppie di lingue più ‘ecologiche’ da addestrare sono inglese>francese, francese>inglese e, paradossalmente, tedesco>inglese, mentre il tedesco figura in tutte le coppie più intensive: francese>tedesco, inglese>tedesco e tedesco>francese.
Interesse composto
I risultati suggeriscono che la diversità lessicale ‘è direttamente proporzionale al tempo di addestramento per raggiungere un livello di prestazione adeguato’, e notano che la lingua tedesca ha il punteggio di diversità lessicale più alto tra le tre lingue testate, come stimato dal suo Type-Token Ratio (TTR) – una misura della dimensione del vocabolario basata sulla lunghezza del testo.
Le maggiori richieste di elaborazione del tedesco nei modelli di traduzione non sono riflesse nei dati di origine utilizzati per l’esperimento. In realtà, i token della lingua tedesca generati dai dati di origine hanno meno (299445) token derivati rispetto all’inglese (320108) e molti meno rispetto al francese (335917).

La sfida, dal punto di vista dell’elaborazione del linguaggio naturale, è quella di decomporre parole composte tedesche in parole costituenti. I sistemi di NLP spesso devono eseguire questo processo per il tedesco senza alcuno degli indizi grammaticali o contestuali pre-‘split’ che possono essere trovati in lingue con punteggi TTR più bassi, come l’inglese. Il processo è chiamato compound splitting o decompounding.
La lingua tedesca ha alcune delle parole individuali più lunghe del mondo, anche se nel 2013 ha perso il riconoscimento ufficiale della sua ex parola più lunga di 65 caratteri, che è abbastanza lunga da richiedere la sua linea in questo articolo:
Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz
La parola si riferisce a una legge che delega il monitoraggio delle etichette di carne di manzo, ma è caduta in disuso a causa di un cambiamento nelle norme europee quell’anno, concedendo il posto ad altre popolari parole, come ‘vedova di un capitano di una compagnia di battelli a vapore del Danubio’ (49 caratteri):
Donaudampfschifffahrtsgesellschaftskapitaenswitwe
In generale, la struttura sintattica del tedesco richiede una deviazione dalle ipotesi sull’ordine delle parole che sottostanno alle pratiche di NLP in molte lingue occidentali, con il popolare framework NLP spaCY (con sede a Berlino) che adotta la sua lingua nativa nel 2016.

Mapping proiettivi in una frase inglese e tedesca dimostrano le complesse interrelazioni tra elementi lessicali nella lingua tedesca. Source: https://explosion.ai/blog/german-model
Dati e testing
Per i dati di origine, i ricercatori hanno utilizzato il dataset Multi30k, che contiene 30.000 campioni attraverso le lingue francese, tedesca e inglese.
Il primo dei due modelli utilizzati dai ricercatori è stato Facebook AI’s 2017 Convolutional Sequence to Sequence (ConvSeq), una rete neurale che contiene layer convoluzionali ma che manca di unità ricorrenti, e invece utilizza filtri per derivare caratteristiche dal testo. Ciò consente a tutte le operazioni di essere eseguite in modo parallelo e computazionalmente efficiente.
Il secondo approccio utilizzato è stato l’architettura Transformers di Google, anch’essa del 2017. I Transformers utilizzano layer lineari, meccanismi di attenzione e routine di normalizzazione. Ammettendo che il modello originale rilasciato sia stato criticato per l’inefficienza del carbonio, con affermazioni di miglioramenti successivi contestate.
Gli esperimenti sono stati condotti su Google Colab, uniformemente su una Tesla K80 GPU. Le lingue sono state confrontate utilizzando una metrica BLEU (Bilingual Evaluation Understudy) e il CodeCarbon Machine Learning Emissions Calculator. I dati sono stati addestrati su 10 epoche.
Risultati
I ricercatori hanno scoperto che è stata la durata prolungata dell’addestramento per le coppie di lingue tedesche che ha fatto pendere l’equilibrio verso un consumo di carbonio più elevato. Anche se alcune altre coppie di lingue, come inglese>francese e francese>inglese, avevano un consumo di carbonio ancora più elevato, si sono addestrate più velocemente e si sono risolte più facilmente, con questi picchi di consumo caratterizzati dai ricercatori come ‘relativamente insignificanti’ in relazione al consumo delle coppie di lingue che includono il tedesco.

Analisi delle coppie di lingue per emissioni di carbonio encoder/decoder.
I ricercatori concludono:
‘I nostri risultati forniscono una chiara indicazione che alcune coppie di lingue sono più intensive in termini di carbonio da addestrare rispetto ad altre, una tendenza che si estende a diverse architetture.’
Continuano:
‘Tuttavia, rimangono domande senza risposta riguardo al motivo per cui ci sono differenze così nette nell’addestramento di modelli per una particolare coppia di lingue rispetto a un’altra, e se diverse architetture potrebbero essere più adatte per queste coppie di lingue intensive in termini di carbonio, e perché questo sarebbe il caso se fosse vero.’
Il paper sottolinea che i motivi della disparità del consumo di carbonio tra i modelli di addestramento non sono del tutto chiari. Anticipano di sviluppare questa linea di studio con lingue non basate sul latino.
1.20pm GMT+2 – Corretto errore di testo.












