InteligĂȘncia artificial

O Estado dos LLMs MultilĂ­ngues: AlĂ©m do InglĂȘs

mm
Multilingual LLMs Blog image

De acordo com pesquisas da Microsoft, cerca de 88% das línguas do mundo, faladas por 1,2 bilhão de pessoas, não têm acesso a Modelos de Linguagem Grande (LLMs). Isso ocorre porque a maioria dos LLMs é centrada no inglês, ou seja, são construídos principalmente com dados em inglês e para falantes de inglês. ​Essa dominância do inglês também prevalece no desenvolvimento de LLMs e resultou em uma lacuna digital de línguas, potencialmente excluindo a maioria das pessoas dos benefícios dos LLMs. Para resolver esse problema nos LLMs, é necessário um LLM que possa ser treinado em diferentes línguas e realizar tarefas em diferentes línguas. Então, entram os LLMs Multilíngues!

O que são LLMs Multilíngues?

Um LLM multilíngue pode entender e gerar texto em várias línguas. Eles são treinados em conjuntos de dados que contêm diferentes línguas e podem realizar várias tarefas em mais de uma língua a partir de um prompt do usuário.

As aplicações de LLMs multilíngues são enormes, incluindo a tradução de literatura para dialetos locais, comunicação multilíngue em tempo real, criação de conteúdo multilíngue, etc. Eles ajudariam todos a acessar informações e se comunicar facilmente, independentemente da língua.

Além disso, os LLMs multilíngues abordam desafios como a falta de nuances culturais e contexto, limitações de dados de treinamento e a possível perda de conhecimento durante a tradução.

Como funcionam os LLMs Multilíngues?

Construir um LLM multilíngue envolve preparar cuidadosamente um corpus de texto equilibrado em várias línguas e selecionar uma arquitetura e técnica de treinamento adequadas para treinar o modelo, preferencialmente um modelo Transformer, que é perfeito para o aprendizado multilíngue.

Etapa para construir um LLM multilíngue

Fonte: Imagem do autor

Uma técnica é compartilhar embeddings, que capturam o significado semântico das palavras em diferentes línguas. Isso faz com que o LLM aprenda as semelhanças e diferenças de cada língua, permitindo que ele entenda melhor as diferentes línguas.

Esse conhecimento também permite que o LLM se adapte a várias tarefas linguísticas, como traduzir línguas, escrever em diferentes estilos, etc. Outra técnica usada é o aprendizado de transferência cross-lingual, onde o modelo é pré-treinado em um grande corpus de dados multilíngues antes de ser ajustado para tarefas específicas.

Esse processo de duas etapas garante que o modelo tenha uma base sólida na compreensão da linguagem multilíngue, tornando-o adaptável a várias aplicações downstream.

Exemplos de Modelos de Linguagem Grande Multilíngues

Gråfico de comparação de LLMs multilíngues

Fonte: Ruder.io

Vários exemplos notáveis de LLMs multilíngues surgiram, cada um atendendo a necessidades linguísticas específicas e contextos culturais. Vamos explorar alguns deles:

1. BLOOM

BLOOM é um LLM multilíngue de acesso aberto que prioriza línguas diversificadas e acessibilidade. Com 176 bilhões de parâmetros, o BLOOM pode lidar com tarefas em 46 línguas naturais e 13 línguas de programação, tornando-o um dos maiores e mais diversificados LLMs.

A natureza de código aberto do BLOOM permite que pesquisadores, desenvolvedores e comunidades linguísticas se beneficiem de suas capacidades e contribuam para sua melhoria.

2. YAYI 2

YAYI 2 é um LLM de código aberto projetado especificamente para línguas asiáticas, considerando as complexidades e nuances culturais da região. Ele foi pré-treinado do zero em um corpus multilíngue de mais de 16 línguas asiáticas contendo 2,65 trilhões de tokens filtrados.

Isso faz com que o modelo forneça melhores resultados, atendendo aos requisitos específicos das línguas e culturas da Ásia.

3. PolyLM

PolyLM é um LLM ‘poliglota’ de código aberto que se concentra em abordar os desafios das línguas de baixo recurso, oferecendo capacidades de adaptação. Ele foi treinado em um conjunto de dados de cerca de 640 bilhões de tokens e está disponível em dois tamanhos de modelo: 1,7B e 13B. O PolyLM conhece mais de 16 línguas diferentes.

Ele permite que modelos treinados em línguas de alto recurso sejam ajustados para línguas de baixo recurso com dados limitados. Essa flexibilidade torna os LLMs mais úteis em diferentes situações linguísticas e tarefas.

4. XGLM

XGLM, com 7,5 bilhões de parâmetros, é um LLM multilíngue treinado em um corpus que cobre um conjunto diversificado de mais de 20 línguas usando a técnica de aprendizado de few-shot. Ele faz parte de uma família de LLMs multilíngues de grande escala treinados em um conjunto massivo de texto e código.

Ele visa cobrir muitas línguas completamente, o que é por que ele se concentra na inclusividade e diversidade linguística. O XGLM demonstra o potencial para construir modelos que atendam às necessidades de várias comunidades linguísticas.

5. mT5

O mT5 (Text-to-Text Transfer Transformer multilíngue massivo) foi desenvolvido pelo Google AI. Treinado no conjunto de dados common crawl, o mt5 é um LLM multilíngue de ponta que pode lidar com 101 línguas, desde línguas amplamente faladas como o espanhol e o chinês até línguas menos recursos como o basco e o quechua.

Ele também se destaca em tarefas multilíngues como tradução, resumo, resposta a perguntas, etc.

É possível um LLM Universal?

O conceito de um LLM linguagem-neutro, capaz de entender e gerar linguagem sem viés para qualquer língua específica, é intrigante.

Embora o desenvolvimento de um LLM universal verdadeiro ainda esteja longe, os LLMs multilíngues atuais demonstraram um sucesso significativo. Uma vez desenvolvidos completamente, eles podem atender às necessidades de línguas sub-representadas e comunidades diversificadas.

Por exemplo, pesquisas mostram que a maioria dos LLMs multilíngues pode facilitar a transferência cross-lingual zero-shot de uma língua rica em recursos para uma língua carente de recursos sem dados de treinamento específicos da tarefa.

Além disso, modelos como YAYI e BLOOM, que se concentram em línguas e comunidades específicas, demonstraram o potencial das abordagens centradas na língua para impulsionar o progresso e a inclusividade.

Para construir um LLM universal ou melhorar os LLMs multilíngues atuais, indivíduos e organizações devem fazer o seguinte:

  • Crowdsourcer falantes nativos para engajamento e curadoria de conjuntos de dados de línguas.
  • Apoiar esforços comunitários relacionados a contribuições de código aberto e financiamento para pesquisas e desenvolvimentos multilíngues.

Desafios dos LLMs Multilíngues

Embora o conceito de LLMs multilíngues universais seja promissor, eles também enfrentam vários desafios que devem ser abordados antes que possamos nos beneficiar deles:

1. Quantidade de Dados

Modelos multilíngues requerem um vocabulário maior para representar tokens em muitas línguas do que os modelos monolíngues, mas muitas línguas carecem de conjuntos de dados em grande escala. Isso torna difícil treinar esses modelos de forma eficaz.

2. Preocupações com a Qualidade dos Dados

Garantir a precisão e a adequação cultural das saídas dos LLMs multilíngues em diferentes línguas é uma preocupação significativa. Os modelos devem ser treinados e ajustados com atenção meticulosa às nuances linguísticas e culturais para evitar vieses e imprecisões.

3. Limitações de Recursos

Treinar e executar modelos multilíngues requer recursos computacionais substanciais, como GPUs poderosas (por exemplo, NVIDIA A100 GPU). O alto custo apresenta desafios, especialmente para línguas e comunidades de baixo recurso com acesso limitado à infraestrutura computacional.

4. Arquitetura do Modelo

Adaptar arquiteturas de modelo para acomodar estruturas linguísticas e complexidades diversificadas é um desafio contínuo. Os modelos devem ser capazes de lidar com línguas com diferentes ordens de palavras, variações morfológicas e sistemas de escrita, mantendo o desempenho e a eficiência.

5. Complexidades de Avaliação

Avaliar o desempenho dos LLMs multilíngues além das referências em inglês é fundamental para medir sua eficácia real. Isso requer considerar nuances culturais, peculiaridades linguísticas e requisitos específicos de domínio.

Os LLMs multilíngues têm o potencial de quebrar barreiras linguísticas, empoderar línguas sub-representadas e facilitar a comunicação eficaz em comunidades diversificadas.

Não perca as últimas notícias e análises em IA e ML – visite unite.ai hoje.

Haziqa Ă© uma Cientista de Dados com ampla experiĂȘncia em escrever conteĂșdo tĂ©cnico para empresas de IA e SaaS.