Inteligência artificial

Solução da Apple para Traduzir Línguas com Gênero

Published October 8, 2024

Updated April 3, 2026

Martin Anderson

A photo of the Rosetta Stone, with a woman out of focus in the background, looking at the stone. Source: https://smarthistory.org/the-rosetta-stone/

A Apple acaba de publicar um artigo, em colaboração com a USC, que explora os métodos de aprendizado de máquina empregados para dar aos usuários do seu sistema operacional iOS18 mais opções sobre gênero quando se trata de tradução.

No iOS18, os usuários podem selecionar sugestões de gênero alternativas para uma palavra traduzida no aplicativo Translate nativo. Fonte: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

Embora as questões abordadas no trabalho (que a Apple anunciou aqui) envolvam, até certo ponto, debates atuais sobre definições de gênero, ele se concentra em um problema muito mais antigo: o fato de que 84 das 229 línguas conhecidas do mundo usam um sistema de gênero baseado no sexo.

Os pontos vermelhos indicam línguas que usam um sistema de gênero baseado no sexo. Fonte: https://wals.info/feature/31A#map

Surpreendentemente, a língua inglesa cai na categoria baseada no sexo, porque atribui pronomes singulares masculinos ou femininos.

Em contraste, todas as línguas românicas (incluindo mais de meio bilhão de falantes de espanhol) – e várias outras línguas populares, como o russo – exigem concordância de gênero de maneiras que forçam os sistemas de tradução a lidar com a atribuição de sexo na língua.

O novo artigo ilustra isso observando todas as possíveis traduções em espanhol da frase O secretário estava zangado com o chefe:

Do novo artigo, um exemplo das possíveis atribuições de gênero na frase ‘O secretário estava zangado com o chefe’, traduzindo do inglês para o espanhol. Fonte: https://arxiv.org/pdf/2407.20438

A tradução ingênua está longe de ser suficiente para textos mais longos, que podem estabelecer o gênero no início (‘Ele’, ‘Ela’, etc.) e, em seguida, não se referir ao gênero novamente. No entanto, a tradução deve lembrar o gênero atribuído ao participante ao longo do texto.

Isso pode ser desafiador para abordagens baseadas em tokens que lidam com traduções em pedaços discretos e arriscam perder o contexto de gênero ao longo da duração do conteúdo.

Pior, os sistemas que fornecem traduções alternativas para atribuições de gênero tendenciosas não podem fazer isso indiscriminadamente, ou seja, simplesmente substituindo o substantivo de gênero, mas devem garantir que todas as outras partes da língua concordem com o substantivo de gênero alterado.

Neste exemplo do artigo da Apple/USC, vemos que, embora Secretário tenha sido atribuído um gênero masculino, o verbo singular no passado estava foi deixado como feminino (estaba):

Substituições de gênero forçadas podem negligenciar a concordância de gênero necessária. Neste exemplo, a palavra ‘enojada’ deveria ser ‘enojado’, para concordar com o masculino ‘O secretário’.

Um sistema de tradução também deve lidar com as peculiaridades de línguas específicas em relação ao gênero. Como o artigo aponta, o pronome Eu é genérico em hindi, o que fornece uma pista incomum para o gênero.

Questões de Gênero

No novo artigo, intitulado Gerando Alternativas de Gênero na Tradução Automática, os pesquisadores da Apple e da USC propõem um método semissupervisionado para converter entidades ambíguas de gênero em uma matriz de alternativas de nível de entidade.

O sistema, que foi usado para informar a tradução do aplicativo Translate da Apple no iOS18, constrói um esquema de língua por meio do uso de grandes modelos de língua (LLMs) e do ajuste fino de modelos de tradução automática pré-treinados de código aberto.

Os resultados das traduções desses sistemas foram então treinados em uma arquitetura que contém estruturas de gênero – grupos de frases que contêm formas variadas de substantivos genéricos que representam a mesma entidade.

O artigo afirma*:

‘Os vieses de gênero presentes nos dados de treinamento são conhecidos por se infiltrar nos sistemas de processamento de língua natural (NLP), resultando na disseminação e potencial amplificação desses vieses. Tais vieses também são frequentemente a causa raiz dos erros.

‘Um sistema de tradução automática (MT) pode, por exemplo, traduzir médico para o termo espanhol médico (masculino) em vez de médica (feminino), dado a entrada “O médico pediu à enfermeira que o ajudasse no procedimento”.

‘Para evitar prescrever a atribuição de gênero errada, os sistemas de MT precisam desambiguar o gênero por meio do contexto. Quando o gênero correto não pode ser determinado por meio do contexto, fornecer múltiplas alternativas de tradução que cubram todas as escolhas de gênero válidas é uma abordagem razoável.’

A abordagem que os pesquisadores chegaram efetivamente transforma uma tradução de um único token em uma matriz controlada pelo usuário.

(Embora o artigo não mencione isso, isso abre a possibilidade, seja no Apple Translate ou em portais semelhantes que oferecem serviços de tradução, para que as escolhas do usuário sejam alimentadas em iterações posteriores do modelo)

O modelo desenvolvido pela Apple e pela USC foi avaliado nos conjuntos de teste GATE e MT-GenEval. O GATE contém frases de origem com até 3 entidades ambíguas de gênero, enquanto o MT-GenEval contém material onde o gênero não pode ser inferido, o que, segundo os autores, ajuda a entender quando as opções de gênero alternativas não devem ser oferecidas ao usuário.

Em ambos os casos, os conjuntos de teste tiveram que ser reanotados para alinhar com os objetivos do projeto.

Para treinar o sistema, os pesquisadores confiaram em um algoritmo de aumento de dados automático, em contraste com os conjuntos de teste mencionados, que foram anotados por humanos.

Os conjuntos de dados que contribuíram para a curadoria da Apple foram Europarl; WikiTitles; e WikiMatrix. O corpus foi dividido em G-Tag (com 12.000 frases), abrangendo frases com palavras-chave para todas as entidades, juntamente com uma anotação ambígua de gênero; e G-Trans (com 50.000 frases), contendo entidades ambíguas de gênero e alinhamentos de gênero.