Entre em contato

A solução da Apple para traduzir idiomas de gĂȘnero

InteligĂȘncia artificial

A solução da Apple para traduzir idiomas de gĂȘnero

mm
Uma foto da Pedra de Roseta, com uma mulher fora de foco no fundo, olhando para a pedra. Fonte: https://smarthistory.org/the-rosetta-stone/

A Apple acaba de publicar um artigo, em colaboração com a USC, que explora os mĂ©todos de aprendizado de mĂĄquina empregados para dar aos usuĂĄrios do seu sistema operacional iOS18 mais opçÔes sobre gĂȘnero quando se trata de tradução.

No iOS18, os usuĂĄrios podem selecionar sugestĂ”es de gĂȘnero alternativas para uma palavra traduzida no aplicativo nativo Translate. Fonte: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

No iOS18, os usuĂĄrios podem selecionar sugestĂ”es de gĂȘnero alternativas para uma palavra traduzida no aplicativo nativo Traduzir. Fonte: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

Embora as questĂ”es abordadas no trabalho (que a Apple anunciou aqui) se envolve, atĂ© certo ponto, em debates atuais sobre definiçÔes de gĂȘnero, centra-se em um problema muito mais antigo: o fato de que 84 das 229 lĂ­nguas conhecidas no mundo usar um sistema de gĂȘnero baseado no sexo.

Os pontos vermelhos indicam lĂ­nguas que usam um sistema de gĂȘnero baseado em sexo. Fonte: https://wals.info/feature/31A#map

Os pontos vermelhos indicam idiomas que usam um sistema de gĂȘnero baseado no sexo. Fonte: https://wals.info/feature/31A#map

Surpreendentemente, a lĂ­ngua inglesa se enquadra na categoria baseada no sexo, porque atribui pronomes singulares masculinos ou femininos.

Em contrapartida, todos LĂ­nguas romĂąnicas (incluindo mais de meio bilhĂŁo Os falantes de espanhol) – e vĂĄrias outras lĂ­nguas populares, como o russo – exigem concordĂąncia de gĂȘnero de maneiras que forçam os sistemas de tradução a abordar a atribuição de sexo na linguagem.

O novo artigo ilustra isso observando todas as traduçÔes possíveis da frase em espanhol A secretåria ficou brava com o chefe:

Do novo artigo, um exemplo de potenciais atribuiçÔes de gĂȘnero na frase 'The secretary was angry with the boss', traduzindo do inglĂȘs para o espanhol. Fonte: https://arxiv.org/pdf/2407.20438

Do novo artigo, um exemplo de possĂ­veis atribuiçÔes de gĂȘnero na frase "A secretĂĄria estava brava com o chefe", traduzida do inglĂȘs para o espanhol. Fonte: https://arxiv.org/pdf/2407.20438

A tradução ingĂȘnua estĂĄ longe de ser suficiente para textos mais longos, que podem estabelecer o gĂȘnero no inĂ­cio ('Ele', 'Ela', etc.) e depois nĂŁo se referir ao gĂȘnero novamente. No entanto, a tradução deve lembrar o gĂȘnero atribuĂ­do ao participante ao longo do texto.

Isso pode ser desafiador para abordagens baseadas em tokens que abordam traduçÔes em blocos discretos e correm o risco de perder o contexto de gĂȘnero atribuĂ­do ao longo da duração do conteĂșdo.

Pior ainda, os sistemas que fornecem traduçÔes alternativas para atribuiçÔes de gĂȘnero tendenciosas nĂŁo podem fazer isso indiscriminadamente, ou seja, apenas substituindo o substantivo de gĂȘnero, mas devem garantir que todas as outras partes da linguagem concordem com o substantivo de gĂȘnero alterado.

Neste exemplo do artigo da Apple/USC, vemos que, embora SecretĂĄria foi atribuĂ­do um gĂȘnero masculino, o passado singular foi foi deixado como feminino (foi):

SubstituiçÔes de gĂȘnero por força bruta podem negligenciar a concordĂąncia de gĂȘnero necessĂĄria. Neste exemplo, a palavra 'enojada' deveria ser 'enojado', para concordar com o masculino 'El secretario'.

SubstituiçÔes de gĂȘnero por força bruta podem negligenciar a necessĂĄria concordĂąncia de gĂȘnero. Neste exemplo, a palavra "enojada" deveria ser "enojado", para concordar com o masculino "El secretario".

Um sistema de tradução tambĂ©m deve lidar com as excentricidades de lĂ­nguas particulares em relação ao gĂȘnero. Como o artigo aponta, o pronome I tem gĂȘnero em hindi, o que fornece uma pista incomum sobre gĂȘnero.

QuestĂ”es de gĂȘnero

De acordo com o relatĂłrio novo papel, Com o tĂ­tulo Gerando alternativas de gĂȘnero na tradução automĂĄtica, os pesquisadores da Apple e da USC propĂ”em uma semi-supervisionado mĂ©todo para converter entidades de gĂȘnero ambĂ­guo em uma matriz de alternativas em nĂ­vel de entidade.

O sistema, que foi usado para informar a tradução do aplicativo Apple Translate no iOS18, constrói um esquema de linguagem tanto pelo uso de grandes modelos de linguagem (LLMs) quanto por afinação modelos de tradução automåtica de código aberto pré-treinados.

Os resultados das traduçÔes desses sistemas foram entĂŁo treinados em uma arquitetura contendo estruturas de gĂȘnero – grupos de frases que contĂȘm diversas formas de substantivos de gĂȘnero variado representando a mesma entidade.

O jornal afirma*:

'Sabe-se que os preconceitos de género presentes nos dados dos comboios afectam os sistemas de processamento de linguagem natural (PLN), resultando na disseminação e amplificação potencial desses vieses. Tais vieses são frequentemente também a causa raiz dos erros.

Um sistema de tradução automĂĄtica (TA) pode, por exemplo, traduzir mĂ©dico para o termo espanhol mĂ©dico (masculino) em vez de mĂ©dica (feminino), dada a entrada “O mĂ©dico pediu Ă  enfermeira para ajudĂĄ-la no procedimento”.

Para evitar a prescrição de atribuição de gĂȘnero incorreta, os sistemas de tradução automĂĄtica precisam desambiguar o gĂȘnero por meio do contexto. Quando o gĂȘnero correto nĂŁo pode ser determinado por meio do contexto, fornecer mĂșltiplas alternativas de tradução que abranjam todas as escolhas de gĂȘnero vĂĄlidas Ă© uma abordagem razoĂĄvel.

A abordagem Ă  qual os pesquisadores chegam efetivamente transforma uma tradução de um Ășnico token em uma matriz controlada pelo usuĂĄrio.

(Embora o artigo não mencione isso, isso abre a possibilidade, tanto no Apple Translate quanto em portais semelhantes que oferecem serviços de tradução, de que as escolhas do usuårio sejam inseridas em iteraçÔes posteriores do modelo)

O modelo desenvolvido pela Apple e pela USC foi avaliado no PORTÃO e MT-Avaliação Geral conjuntos de teste. GATE contĂ©m sentenças de origem com atĂ© 3 entidades de gĂȘnero ambĂ­guo, enquanto MT-GenEval contĂ©m material onde o gĂȘnero nĂŁo pode ser inferido, o que, segundo os autores, auxilia na compreensĂŁo de quando opçÔes alternativas de gĂȘnero nĂŁo devem ser oferecidas ao usuĂĄrio.

Em ambos os casos, os conjuntos de teste tiveram que ser reanotados para se alinharem aos objetivos do projeto.

Para treinar o sistema, os pesquisadores contaram com um novo sistema automĂĄtico aumento de dados algoritmo, em contraste com os conjuntos de testes mencionados acima, que foram anotados por humanos.

Os conjuntos de dados contribuintes para a curadoria da Apple foram Europarl; TĂ­tulos Wiki; e WikiMatriz. Os corpora foram divididos em Etiqueta G (com 12,000 frases), abrangendo frases com palavras de cabeça para todas as entidades, juntamente com uma anotação de gĂȘnero ambĂ­guo; e G-Trans (com 50,000 frases), contendo entidades de gĂȘnero ambĂ­guo e alinhamentos de gĂȘnero.

Os autores afirmam:

'AtĂ© onde sabemos, este Ă© o primeiro corpus em larga escala que contĂ©m ambiguidades de gĂȘnero e como elas afetam as formas de gĂȘnero na tradução.'

Conjuntos de dados e dados diversos para o projeto foram disponibilizado no GitHub. Os dados apresentam cinco pares de idiomas, colocando inglĂȘs contra russo, alemĂŁo, francĂȘs, portuguĂȘs e espanhol.

Os autores alavancaram uma abordagem anterior a partir de 2019 para dotar o modelo da capacidade de produzir alinhamentos de género, formação com entropia cruzada fora e um adicional perda de alinhamento.

Para a rotina de aumento de dados, os autores evitaram o tradicional método baseado em regrass a favor de uma abordagem centrada em dados, ajustando uma BERT modelo de linguagem pré-treinado no conjunto de dados G-Tag.

Dupla

Para casos em que entidades de gĂȘnero ambĂ­guas sĂŁo detectadas, a Apple e a USC exploraram dois mĂ©todos: o ajuste fino de modelos de linguagem prĂ©-treinados e o uso de LLMs.

Em relação ao primeiro método, o artigo afirma:

'NĂłs ajustamos um modelo MT prĂ©-treinado M em um bitexto extraĂ­do do conjunto de dados G-Trans. As frases de origem deste bitexto contĂȘm entidades ambĂ­guas marcadas como masculinas ou femininas usando / tags, e a tradução de destino tem flexĂ”es de gĂȘnero corretas, dadas as tags de gĂȘnero.'

Uma ilustração do esquema para extrair bi-texto do conjunto de dados G-Trans.

Uma ilustração do esquema para extrair bi-texto do conjunto de dados G-Trans.

Na imagem acima, vemos o texto ajustado na coluna central inferior e o resultado desejado na coluna direita, com a justificativa subjacente ilustrada acima.

Para esta abordagem, os autores fizeram uso de uma reclassificação de rede mĂ©todo de um trabalho anterior de 2020. Para garantir que apenas o domĂ­nio alvo (gĂȘnero) fosse abordado, um pesquisa de feixe restrito foi usado como um filtro.

Para a abordagem LLM, os autores elaboraram uma estratĂ©gia que usa um LLM como editor, reescrevendo as traduçÔes fornecidas para fornecer atribuiçÔes de gĂȘnero.

O LLM Ă© solicitado usando um exemplo em contexto para atribuir gĂȘnero.

O LLM Ă© solicitado usando um exemplo em contexto para atribuir gĂȘnero.

Com os resultados de ambas as abordagens concatenados, o modelo foi posteriormente ajustado para classificar os tokens de origem como alinhado (indicado por '1' no esquema abaixo) ou nĂŁo alinhado (indicado por '2' abaixo).

Um esquema para a concatenação de resultados de ambas as abordagens.

Um esquema para a concatenação de resultados de ambas as abordagens.

Dados e testes

A entidade ambĂ­gua O detector usado no projeto foi desenvolvido por meio do ajuste fino da IA ​​do Facebook  xlm-roberta-grande modelo, usando transformadores. Para isso, a G-Tag combinada foi usada em todos os cinco pares de idiomas.

Na primeira das duas abordagens acima mencionadas, a M2M 1.2 bilhĂ”es modelo foi treinado em Fairseq, juntamente com dados bi-textuais do conjunto de dados G-Trans, com inflexĂ”es de gĂȘnero fornecidas pelo WikcionĂĄrio.

Para o mĂ©todo LLM, os autores utilizaram GPT-3.5-turbo. Para o alinhamento das estruturas de gĂȘnero, xlm-roberta-large foi usado novamente, desta vez com alinhamentos de gĂȘnero extraĂ­dos de G-Trans.

Métricas para avaliação de alternativas, estrutura (com precisão e recordar), E precisão de alinhamento.

Embora os dois primeiros sejam autoexplicativos, a precisĂŁo do alinhamento mede a porcentagem de estruturas de gĂȘnero de saĂ­da que estĂŁo em conformidade com a identidade de origem correta conhecida e usa o MĂ©todo ÎŽ-BLEU, de acordo com a metodologia do MT-GenEval.

Abaixo estĂŁo os resultados do pipeline de aumento de dados:

Resultados dos testes de aumento de dados. Setas para cima indicam 'quanto mais alto, melhor', para baixo 'quanto mais baixo, melhor'.

Resultados dos testes de aumento de dados. Setas para cima indicam "quanto maior, melhor", e para baixo, "quanto menor, melhor".

Aqui os autores comentam*:

'Tanto o M2M quanto o GPT tĂȘm desempenho praticamente igual, com exceção do inglĂȘs-russo, onde o GPT alcança uma recuperação de alternativas muito menor (58.7 em comparação a 89.3). A qualidade das estruturas de gĂȘnero geradas Ă© melhor para o GPT em inglĂȘs-alemĂŁo e inglĂȘs-portuguĂȘs e melhor para o M2M em inglĂȘs-espanhol e inglĂȘs-russo, como pode ser visto nas mĂ©tricas de estrutura.

'Observe que nĂŁo temos dados G-Trans para inglĂȘs-italiano, entĂŁo os resultados do modelo M2M e a precisĂŁo do alinhamento em inglĂȘs-italiano sĂŁo puramente devidos Ă  generalização de zero-shot de Modelos M2M e XLM. '

Os pesquisadores tambĂ©m compararam o desempenho do sistema de aumento de dados, via M2M, com o reescritor de gĂȘnero em nĂ­vel de frase do GATE, nos prĂłprios termos declarados pelo GATE.

O pipeline de aumento de dados da Apple/USC foi confrontado com o método de nível de frase GATE.

O pipeline de aumento de dados da Apple/USC foi confrontado com o método de nível de frase GATE.

Aqui o artigo afirma:

"Observamos melhorias significativas na recuperação ao custo de uma degradação relativamente pequena na precisĂŁo (exceto inglĂȘs-italiano). Nosso sistema supera o GATE na mĂ©trica F.5 proposta em todos os trĂȘs pares de idiomas."

Finalmente, os autores treinaram diversos modelos multilĂ­ngues 'vanilla' em bi-texto baunilha. Os conjuntos de dados contribuintes foram WikiMatrix, TĂ­tulos Wiki, Multi-ONU, NotĂ­ciasComentĂĄrio e Til.

Dois modelos vanilla adicionais foram treinados, um incorporando o conjunto de dados G-Trans com a tag prefixada , que foi empregado como linha de base supervisionada; e um terceiro, incorporando estrutura e alinhamentos de gĂȘnero (no modelo local menor, jĂĄ que usar os serviços baseados em API do GPT teria sido muito caro para esse propĂłsito).

Os modelos foram testados em relação ao modelo 2022 FloRes conjunto de dados.

Modelos de tradução automåtica de ponta a ponta testados (P = precisão, R = recall).

Modelos de tradução automåtica de ponta a ponta testados (P = precisão, R = recall).

O artigo resume esses resultados:

'O modelo vanilla nĂŁo consegue gerar alternativas e mostra uma grande tendĂȘncia a gerar formas masculinas (ÎŽ-BLEU variando de 5.3 a 12.5 pontos).

'Esse viés é bastante reduzido pela linha de base supervisionada. O modelo treinado em dados aumentados reduz ainda mais o viés e obtém o melhor desempenho em termos de métricas alternativas, precisão de alinhamento e Ύ-BLEU.

"Isso demonstra a eficĂĄcia do pipeline de aumento de dados. Os dados aumentados tambĂ©m nos permitem treinar um sistema competitivo para inglĂȘs-italiano, que carece de dados supervisionados."

Os autores concluem observando que o sucesso do modelo deve ser considerado no contexto mais amplo da luta da PNL para racionalizar a atribuição de gĂȘnero em um mĂ©todo de tradução; e eles observam que isso continua sendo um problema em aberto.

Embora os pesquisadores considerem que os resultados obtidos nĂŁo atingem totalmente o objetivo de gerar traduçÔes neutras em termos de gĂȘnero e/ou desambiguaçÔes em relação ao gĂȘnero em nĂ­vel de entidade, eles acreditam que o trabalho seja um "instrumento poderoso" para futuras exploraçÔes em uma das ĂĄreas mais desafiadoras da tradução automĂĄtica.

 

* Minha conversão das citaçÔes inline dos autores em hiperlinks

Primeira publicação terça-feira, 8 de outubro de 2024