Inteligência artificial
A Alta Pegada de Carbono dos Modelos de Tradução Automática Alemã

Nova pesquisa sobre a pegada de carbono criada por modelos de tradução de aprendizado de máquina indica que o alemão pode ser a língua mais intensiva em carbono para treinar, embora não esteja completamente claro por quê. O novo relatório pretende abrir novas vias de pesquisa para métodos de treinamento de IA mais eficientes em termos de carbono, no contexto de uma crescente conscientização sobre a extensão com que os sistemas de aprendizado de máquina consomem eletricidade.
O pré-impresso é intitulado Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation, e vem de pesquisadores da Índia’s Manipal Institute of Technology.
Os autores testaram tempos de treinamento e calcularam valores de emissão de carbono para uma variedade de possíveis modelos de tradução de língua para língua, e encontraram ‘uma disparidade notável’ entre o tempo necessário para traduzir os três pares de línguas mais intensivos em carbono, e os três modelos mais econômicos em carbono.

Uma média de emissões de carbono liberadas durante 10 épocas de treinamento. À esquerda, resultados usando ConvSeq (ver abaixo), à direita, Transformers. Fonte: https://arxiv.org/pdf/2109.12584.pdf
O papel encontrou que os pares de línguas mais ‘ecológicos’ para treinar são Inglês>Francês, Francês>Inglês e, paradoxalmente, Alemão para Inglês, enquanto o alemão está presente em todos os pares de línguas que consomem mais: Francês>Alemão, Inglês>Alemão e Alemão>Francês.
Juros Compostos
As descobertas sugerem que a diversidade lexical ‘é diretamente proporcional ao tempo de treinamento para alcançar um nível de desempenho adequado’, e observam que a língua alemã tem a pontuação de diversidade lexical mais alta entre as três línguas testadas, como estimado por sua Type-Token Ratio (TTR) – uma medida do tamanho do vocabulário com base no comprimento do texto.
As demandas aumentadas de processamento do alemão em modelos de tradução não são refletidas nos dados de origem utilizados para o experimento. Na verdade, os tokens de língua alemã gerados a partir dos dados de origem têm menos (299445) tokens derivados do que o inglês (320108), e muito menos do que o francês (335917).

O desafio, do ponto de vista do Processamento de Língua Natural (NLP), é decompor palavras compostas alemãs em palavras constituintes. Os sistemas de NLP muitas vezes têm que fazer isso para o alemão sem nenhuma das dicas gramaticais ou contextuais pré-‘split’ que podem ser encontradas em línguas com pontuações TTR mais baixas, como o inglês. O processo é chamado de divisão de compostos ou descomposição.
A língua alemã tem algumas das palavras individuais mais longas do mundo, embora em 2013 tenha perdido o reconhecimento oficial de seu antigo recorde de 65 caracteres, que é longo o suficiente para exigir sua própria linha neste artigo:
Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz
A palavra se refere a uma lei que delega a monitoração de rótulos de carne, mas deixou de existir devido a uma mudança nas regulamentações europeias naquele ano, cedendo o lugar a outros populares, como ‘viúva de um capitão de uma empresa de barcos a vapor do Danúbio’ (49 caracteres):
Donaudampfschifffahrtsgesellschaftskapitaenswitwe
Em geral, a estrutura sintática do alemão exige uma partida das suposições de ordem de palavras que fundamentam as práticas de NLP em muitas línguas ocidentais, com o popular (Berlim-based) spaCY NLP framework adotando sua própria língua nativa em 2016.

Mapeamentos projetivos em uma frase em inglês e alemão demonstram as complexas inter-relações entre elementos lexicais na língua alemã. Fonte: https://explosion.ai/blog/german-model
Dados e Testes
Para dados de origem, os pesquisadores usaram o conjunto de dados Multi30k, contendo 30.000 amostras em francês, alemão e inglês.
O primeiro dos dois modelos utilizados pelos pesquisadores foi o Convolutional Sequence to Sequence (ConvSeq) da Facebook AI, de 2017, uma rede neural que contém camadas convolucionais, mas que carece de unidades recorrentes, e em vez disso usa filtros para derivar recursos do texto. Isso permite que todas as operações ocorram de forma paralela e computacionalmente eficiente.
A segunda abordagem utilizada foi a arquitetura Transformers do Google, também de 2017. Os Transformers usam camadas lineares, mecanismos de atenção e rotinas de normalização. Admitidamente, o modelo original lançado veio sob crítica por ineficiência de carbono, com alegações de melhorias subsequentes contestadas.
Os experimentos foram realizados no Google Colab, uniformemente em uma Tesla K80 GPU. As línguas foram comparadas usando uma métrica de pontuação BLEU (Bilingual Evaluation Understudy) e o CodeCarbon Machine Learning Emissions Calculator. Os dados foram treinados durante 10 épocas.
Descobertas
Os pesquisadores encontraram que foi a duração estendida do treinamento para pares de línguas relacionadas ao alemão que desequilibrou o equilíbrio para um maior consumo de carbono. Embora alguns outros pares de línguas, como Inglês>Francês e Francês>Inglês, tenham consumido mais carbono, eles treinaram mais rapidamente e se resolveram mais facilmente, com esses surtos de consumo caracterizados pelos pesquisadores como ‘relativamente insignificantes’ em relação ao consumo por pares de línguas que incluem o alemão.

Análise dos pares de línguas por emissões de codificador/decodificador de carbono.
Os pesquisadores concluem:
‘Nossas descobertas fornecem uma indicação clara de que alguns pares de línguas são mais intensivos em carbono para treinar do que outros, uma tendência que se estende a diferentes arquiteturas.’
Eles continuam:
‘No entanto, ainda há perguntas sem resposta sobre por que existem diferenças tão acentuadas no treinamento de modelos para um par de línguas em particular em vez de outro, e se diferentes arquiteturas podem ser mais adequadas para esses pares de línguas intensivos em carbono, e por que isso seria o caso se for verdadeiro.’
O papel enfatiza que os motivos para a disparidade do consumo de carbono entre os modelos de treinamento não estão completamente claros. Eles antecipam desenvolver essa linha de estudo com línguas não baseadas em latim.
1.20pm GMT+2 – Erro de texto corrigido.












