Líderes de pensamento

Impacto do Transformer: A Tradução de Máquina foi Resolvida?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

O Google anunciou recentemente o lançamento de 110 novas línguas no Google Translate como parte de sua iniciativa de 1000 línguas lançada em 2022. Em 2022, no início, foram adicionadas 24 línguas. Com as 110 adicionais, agora são 243 línguas. Essa rápida expansão foi possível graças à Tradução de Máquina de Zero-Shot, uma tecnologia onde os modelos de aprendizado de máquina aprendem a traduzir para outra língua sem exemplos anteriores. Mas no futuro, veremos juntos se esse avanço pode ser a solução definitiva para o desafio da tradução de máquina, e enquanto isso, podemos explorar as maneiras pelas quais isso pode acontecer. Mas primeiro, sua história.

Como Era Antes?

Tradução de Máquina Estatística (SMT)

Essa era o método original usado pelo Google Translate. Ele se baseava em modelos estatísticos. Eles analisavam grandes corpora paralelos, coleções de traduções de sentenças alinhadas, para determinar as traduções mais prováveis. Primeiro, o sistema traduzia o texto para o inglês como um passo intermediário antes de convertê-lo para a língua-alvo, e precisava cruzar referências de frases com conjuntos de dados extensos de transcrições das Nações Unidas e do Parlamento Europeu. É diferente das abordagens tradicionais que exigiam a compilação de regras gramaticais exaustivas. E sua abordagem estatística permitia que ele se adaptasse e aprendesse com os dados sem depender de estruturas linguísticas estáticas que poderiam se tornar rapidamente desnecessárias.

Mas há algumas desvantagens nessa abordagem também. Primeiro, o Google Translate usava tradução baseada em frases, onde o sistema quebrava as sentenças em frases e as traduzia individualmente. Isso foi uma melhoria em relação à tradução palavra por palavra, mas ainda tinha limitações como frases desajeitadas e erros de contexto. Ele simplesmente não entendia completamente as nuances como nós. Além disso, a SMT depende fortemente da existência de corpora paralelos, e qualquer língua relativamente rara seria difícil de traduzir porque não tem dados paralelos suficientes.

Tradução de Máquina Neural (NMT)

Em 2016, o Google mudou para a Tradução de Máquina Neural. Ela usa modelos de aprendizado profundo para traduzir sentenças inteiras como um todo e de uma vez, fornecendo traduções mais fluentes e precisas. A NMT opera de forma semelhante a ter um assistente multilíngue sofisticado dentro do seu computador. Usando uma arquitetura de sequência-para-sequência (seq2seq), a NMT processa uma sentença em uma língua para entender seu significado. Em seguida, gera uma sentença correspondente em outra língua. Esse método usa conjuntos de dados enormes para aprendizado, em contraste com a Tradução de Máquina Estatística, que se baseia em modelos estatísticos analisando grandes corpora paralelos para determinar as traduções mais prováveis. Ao contrário da SMT, que se concentrou na tradução baseada em frases e precisava de muito esforço manual para desenvolver e manter regras e dicionários linguísticos, o poder da NMT de processar sequências inteiras de palavras permite que ela capture o contexto nuances da língua de forma mais eficaz. Portanto, melhorou a qualidade da tradução em vários pares de línguas, frequentemente alcançando níveis de fluência e precisão comparáveis aos tradutores humanos.

Na verdade, os modelos tradicionais de NMT usavam Redes Neurais Recorrentes – RNNs – como a arquitetura central, pois são projetados para processar dados sequenciais mantendo um estado oculto que evolui à medida que cada nova entrada (palavra ou token) é processada. Esse estado oculto serve como uma espécie de memória que captura o contexto das entradas anteriores, permitindo que o modelo aprenda dependências ao longo do tempo. Mas as RNNs eram computacionalmente caras e difíceis de paralelizar efetivamente, o que limitava sua escalabilidade.

Introdução dos Transformers

Em 2017, a Google Research publicou o artigo intitulado “Attention is All You Need,” introduzindo os transformers ao mundo e marcando uma mudança significativa em relação às RNNs na arquitetura de redes neurais.

Os transformers dependem apenas do mecanismo de atenção, – auto-atenção, que permite que os modelos de tradução de máquina neural se concentrem seletivamente nas partes mais críticas das sequências de entrada. Ao contrário das RNNs, que processam palavras em uma sequência dentro de sentenças, a auto-atenção avalia cada token em todo o texto, determinando quais outros são cruciais para entender seu contexto. Esse cálculo simultâneo de todas as palavras permite que os transformers capturem efetivamente tanto dependências de curto quanto de longo alcance sem depender de conexões recorrentes ou filtros convolucionais.

Portanto, eliminando a recorrência, os transformers oferecem vários benefícios principais:

Paralelizabilidade: Os mecanismos de atenção podem computar em paralelo em diferentes segmentos da sequência, o que acelera o treinamento em hardware moderno, como GPUs.
Eficiência de Treinamento: Eles também exigem significativamente menos tempo de treinamento em comparação com os modelos baseados em RNN ou CNN tradicionais, entregando melhor desempenho em tarefas como tradução de máquina.

Tradução de Máquina de Zero-Shot e PaLM 2

Em 2022, o Google lançou o suporte a 24 novas línguas usando a Tradução de Máquina de Zero-Shot, marcando um marco significativo na tecnologia de tradução de máquina. Eles também anunciaram a Iniciativa de 1.000 Línguas, visando apoiar as 1.000 línguas mais faladas do mundo. Agora, eles implementaram 110 línguas adicionais. A tradução de máquina de zero-shot permite a tradução sem dados paralelos entre as línguas de origem e destino, eliminando a necessidade de criar dados de treinamento para cada par de línguas — um processo anteriormente caro e demorado, e para alguns pares de línguas, também impossível.

Esse avanço se tornou possível devido à arquitetura e aos mecanismos de auto-atenção dos transformers. A capacidade do modelo transformer de aprender relações contextuais entre línguas, combinada com sua escalabilidade para lidar com múltiplas línguas simultaneamente, permitiu o desenvolvimento de sistemas de tradução multilíngue mais eficientes e eficazes. No entanto, os modelos de zero-shot geralmente mostram qualidade inferior àqueles treinados com dados paralelos.

Em seguida, construindo sobre o progresso dos transformers, o Google introduziu o PaLM 2 em 2023, o que permitiu o lançamento de 110 novas línguas em 2024. O PaLM 2 melhorou significativamente a capacidade do Translate de aprender línguas intimamente relacionadas, como o Awadhi e o Marwadi (relacionados ao hindi) e os crioulos franceses, como o Seychellois e o Mauritian Creole. As melhorias no PaLM 2, como a escalabilidade ótima de computação, conjuntos de dados aprimorados e design refinado — permitiram um aprendizado de língua mais eficiente e apoiaram os esforços contínuos do Google para melhorar e expandir o suporte a línguas e acomodar nuances linguísticas diversas.

Podemos afirmar que o desafio da tradução de máquina foi completamente resolvido com os transformers?

A evolução que estamos discutindo levou 18 anos, desde a adoção da SMT pelo Google até as 110 línguas adicionais usando a Tradução de Máquina de Zero-Shot. Isso representa um salto gigantesco que pode potencialmente reduzir a necessidade de coleta extensiva de corpora paralelos — uma tarefa historicamente e muito trabalhosa que a indústria tem perseguido por mais de duas décadas. Mas afirmar que a tradução de máquina está completamente resolvida seria prematuro, considerando tanto as considerações técnicas quanto éticas.

Os modelos atuais ainda lutam com contexto e coerência e cometem erros sutis que podem alterar o significado que você pretendia para um texto. Esses problemas são muito presentes em sentenças mais longas e complexas, onde manter o fluxo lógico e entender nuances é necessário para obter resultados. Além disso, nuances culturais e expressões idiomáticas frequentemente se perdem ou perdem o significado, causando traduções que podem ser gramaticalmente corretas, mas não têm o impacto pretendido ou soam não naturais.

Dados para Pré-treinamento: O PaLM 2 e modelos semelhantes são pré-treinados em um corpus de texto multilíngue diverso, superando seu antecessor PaLM. Essa melhoria equipa o PaLM 2 para excelar em tarefas multilíngues, destacando a importância contínua de conjuntos de dados tradicionais para melhorar a qualidade da tradução.

Línguas Específicas de Domínio ou Raras: Em domínios especializados, como campos jurídicos, médicos ou técnicos, os corpora paralelos garantem que os modelos encontrem terminologias e nuances linguísticas específicas. Modelos avançados podem lutar com jargões específicos de domínio ou tendências linguísticas em evolução, apresentando desafios para a Tradução de Máquina de Zero-Shot. Além disso, as Línguas de Baixo Recurso ainda são traduzidas de forma deficiente, pois não têm os dados necessários para treinar modelos precisos.

Avaliação: Os corpora paralelos permanecem essenciais para avaliar e benchmarkar o desempenho dos modelos de tradução, particularmente desafiador para línguas que carecem de dados de corpora paralelos suficientes. As métricas automatizadas, como BLEU, BLERT e METEOR, têm limitações ao avaliar a nuances na qualidade da tradução, além da gramática. Mas, então, somos humanos limitados por nossos próprios vieses. Além disso, não há muitos avaliadores qualificados por aí, e encontrar o avaliador bilingue perfeito para cada par de línguas para capturar erros sutis é uma tarefa difícil.

Intensidade de Recursos: A natureza intensiva em recursos do treinamento e implantação de LLMs permanece uma barreira, limitando a acessibilidade para algumas aplicações ou organizações.

Preservação Cultural. A dimensão ética é profunda. Como Isaac Caswell, um cientista de pesquisa do Google Translate, descreve a Tradução de Máquina de Zero-Shot: “Você pode pensar nisso como um poliglota que conhece muitas línguas. Mas então, além disso, ele vê textos em 1.000 línguas mais que não estão traduzidos. Você pode imaginar se você for um grande poliglota e então comece a ler romances em outra língua, você pode começar a montar o que poderia significar com base em seu conhecimento da língua em geral.” No entanto, é crucial considerar o impacto de longo prazo nas línguas menores que carecem de corpora paralelos, potencialmente afetando a preservação cultural quando a dependência se afasta das próprias línguas.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, é uma distinta cientista de dados com mais de uma década de experiência, abrangendo tanto análise de produtos quanto análise para tecnologias de ponta. Ela liderou a criação e análise para Yasmina, o primeiro assistente de voz baseado em IA totalmente funcional e localizado para a Arábia Saudita, lidando com complexa localização de dados e rotulagem para Árabe Moderno Padrão e dialetos sauditas. Atualmente, Irina lidera a análise de qualidade na Yandex, impulsionando avanços em tecnologias de IA.