InteligĂȘncia artificial
O Facebook Cria um Modelo de Tradução de Måquina que Pode Traduzir Diretamente entre 100 Idiomas Diferentes

O Facebook desenvolveu recentemente um novo modelo de tradução de máquina que pode traduzir textos entre qualquer par de idiomas de um conjunto de 100 idiomas. Enquanto outros sistemas de tradução de máquina existem, a maioria dos sistemas de tradução de IA opera traduzindo primeiro o texto para o inglês e, em seguida, convertendo o texto a partir daí. Como relatado pelo Engadget, o tradutor de IA do Facebook opera sem usar o idioma inglês como intermediário e é capaz de alcançar aproximadamente 90% de precisão.
O conjunto de dados de treinamento do Facebook para o modelo de IA foi composto por cerca de 7,5 bilhões de pares de frases, distribuídos em 100 idiomas diferentes. Os dados foram coletados da web usando uma série de crawlers da web e os idiomas presentes nos dados coletados foram identificados usando um modelo de linguagem chamado FastText. Uma vez que os dados foram coletados, foi executado em uma ferramenta chamada LASER 2.0 para extrair o significado das diferentes amostras de frases e combinar frases em diferentes idiomas com base em seu significado. O LASER 2.0 foi desenvolvido pelo Facebook e emprega algoritmos de aprendizado não supervisionado para criar embeddings. Os embeddings de frases contêm informações sobre as relações entre diferentes frases com base em recursos como frequência de uso e como as frases aparecem próximas umas das outras. O LASER 2.0 é capaz de criar pares de frases que têm significados muito semelhantes.
O conjunto de dados de treinamento não foi apenas emparelhado com base no significado das frases. Os próprios idiomas foram agrupados. O objetivo era projetar um sistema que não exigisse o uso do inglês como meio entre dois idiomas, com Angela Fan, do Facebook, que liderou o projeto, observando que muitas regiões ao redor do mundo falam dois idiomas que não são o inglês. Os engenheiros do Facebook realizaram o treinamento, focando em emparelhar idiomas que são comumente traduzidos um para o outro. Foram criados 14 grupos de idiomas diferentes, com base em variáveis como cultura, semelhanças linguísticas e geografia. Como exemplo, um dos grupos linguísticos criados pelos pesquisadores contém os idiomas mais comuns em toda a Índia, que incluem os idiomas urdu, tâmil, hindi e bengali. Isso foi feito para que os idiomas comumente emparelhados recebessem traduções de alta qualidade.
O método de treinamento focado em grupos de idiomas levou a alguns resultados interessantes. Foi descoberto que o modelo de tradução resultante tinha uma precisão maior do que os modelos existentes para certos pares de idiomas. Ao traduzir do inglês para o bielorrusso, por exemplo, o IA foi capaz de aplicar certos padrões que havia aprendido ao traduzir o russo, porque o bielorrusso tem semelhanças linguísticas com o russo. Da mesma forma, os esforços de tradução entre o espanhol e o português melhoraram, pois o espanhol é o segundo idioma mais falado e havia um volume substancial de dados de treinamento para a tarefa.
Existem aproximadamente 60 idiomas que o sistema de tradução ainda não cobre e a precisão do modelo em idiomas com poucos dados de treinamento precisa ser melhorada antes que ele esteja pronto para uso. Muitos idiomas no Sudeste Asiático e na África carecem do volume de dados necessário para treinar um modelo confiável. A equipe de pesquisa precisará determinar alguma forma de compensar essa falta de dados. A equipe de pesquisa também precisará determinar como controlar quaisquer padrões racistas, sexistas ou profanos que o modelo possa ter aprendido. Embora a equipe de pesquisa tenha usado um filtro de profanidade, o filtro funciona principalmente nos dados em inglês.
O sistema de tradução de máquina ainda não foi empregado na plataforma de mídia social do Facebook. O modelo atual é apenas para fins de pesquisa. No entanto, o Facebook está se preparando para projetar modelos semelhantes e terem eles lidarem com os aproximadamente 20 bilhões de solicitações de tradução que o site recebe todos os dias.












