toco O estado dos LLMs multilíngues: indo além do inglês - Unite.AI
Entre em contato

Inteligência artificial

O estado dos LLMs multilíngues: indo além do inglês

mm

Publicado

 on

Imagem do blog LLMs multilíngue

De acordo com uma pesquisa da Microsoft, cerca de 88% das línguas do mundo, falado por 1.2 bilhão de pessoas, não tem acesso a Modelos de linguagem grande (LLMs). Isso ocorre porque a maioria dos LLMs são centrados no inglês, ou seja, são construídos principalmente com dados em inglês e para falantes de inglês. ​Este domínio do inglês também prevalece no desenvolvimento do LLM e resultou numa lacuna linguística digital, excluindo potencialmente a maioria das pessoas do mercado. benefícios dos LLMs. Para resolver este problema para LLMs, é necessário um LLM que possa ser treinado em diferentes idiomas e executar tarefas em diferentes idiomas. Entre em LLMs multilíngues!

O que são LLMs multilíngues?

Um LLM multilíngue pode compreender e gerar texto em vários idiomas. Eles são treinados em conjuntos de dados que contêm idiomas diferentes e podem realizar diversas tarefas em mais de um idioma a partir de um prompt do usuário.

Os aplicativos multilíngues de LLM são enormes, incluem tradução de literatura para dialetos locais, comunicação multilíngue em tempo real, criação de conteúdo multilíngue, etc. Eles ajudariam todos a acessar informações e conversar facilmente entre si, independentemente do idioma.

Além disso, os LLMs multilingues abordam desafios como a falta de nuances culturais e de contexto, limitações de dados de formação e a potencial perda de conhecimento durante a tradução.

Como funcionam os LLMs multilíngues?

Construir um LLM multilíngue envolve preparar cuidadosamente um corpus equilibrado de texto em vários idiomas e selecionar uma arquitetura adequada e técnica de treinamento para treinar o modelo, de preferência um Modelo de transformador, que é perfeito para aprendizagem multilíngue.

Etapas para construir um LLM multilíngue

Fonte: Imagem do autor

Uma técnica é compartilhar embeddings, que capturam o significado semântico das palavras em diferentes idiomas. Isso faz com que o LLM aprenda as semelhanças e diferenças de cada idioma, permitindo-lhe compreender melhor os diferentes idiomas.

Este conhecimento também capacita o LLM a adaptar-se a diversas tarefas linguísticas, como traduzir línguas, escrever em diferentes estilos, etc. aprendizagem por transferência multilíngue, onde o modelo é pré-treinado em um grande corpus de dados multilíngues antes de ser ajustado em tarefas específicas.

Este processo de duas etapas garante que o modelo tenha uma base sólida na compreensão de idiomas multilíngues, tornando-o adaptável a vários aplicativos posteriores.

Exemplos de modelos multilíngues de grandes idiomas

Gráfico de comparação LLM multilíngue

Fonte: Ruder.io

Surgiram vários exemplos notáveis ​​de LLMs multilíngues, cada um atendendo a necessidades linguísticas e contextos culturais específicos. Vamos explorar alguns deles:

1. FLOR

BLOOM é um LLM multilíngue de acesso aberto que prioriza diversos idiomas e acessibilidade. Com 176 bilhões de parâmetros, o BLOOM pode lidar com tarefas em 46 linguagens naturais e 13 linguagens de programação, tornando-o um dos maiores e mais diversos LLMs.

A natureza de código aberto do BLOOM permite que pesquisadores, desenvolvedores e comunidades linguísticas se beneficiem de suas capacidades e contribuam para seu aprimoramento.

2. SIM 2

YAYI 2 é um LLM de código aberto projetado especificamente para línguas asiáticas, considerando as complexidades e nuances culturais da região. Foi pré-treinado do zero em um corpus multilíngue de mais de 16 idiomas asiáticos contendo 2.65 trilhões de tokens filtrados.

Isso faz com que o modelo dê melhores resultados, atendendo às exigências específicas dos idiomas e culturas da Ásia.

3. PoliLM

PolyLM é um LLM 'poliglota' de código aberto que se concentra em enfrentar os desafios de linguagens de poucos recursos, oferecendo capacidades de adaptação. Ele foi treinado em um conjunto de dados de cerca de 640 bilhões de tokens e está disponível em dois tamanhos de modelo: 1.7B e 13B. PolyLM conhece mais de 16 idiomas diferentes.

Ele permite que modelos treinados em linguagens com muitos recursos sejam ajustados para linguagens com poucos recursos e dados limitados. Essa flexibilidade torna os LLMs mais úteis em diferentes situações e tarefas linguísticas.

4.XGLM

XGLM, com 7.5 bilhões de parâmetros, é um LLM multilíngue treinado em um corpus que cobre um conjunto diversificado de mais de 20 idiomas usando a técnica de aprendizado de poucas tentativas. Faz parte de uma família de LLMs multilíngues de grande escala treinados em um enorme conjunto de dados de texto e código.

Pretende abranger completamente muitas línguas, razão pela qual se concentra na inclusão e na diversidade linguística. O XGLM demonstra o potencial para a construção de modelos que atendam às necessidades de diversas comunidades linguísticas.

5. mT5

A mT5 (transformador de transferência de texto para texto massivamente multilíngue) foi desenvolvido pela Google AI. Treinado no conjunto de dados de rastreamento comum, mt5 é um LLM multilíngue de última geração que pode lidar com 101 idiomas, desde espanhol e chinês amplamente falados até idiomas com menos recursos, como basco e quíchua.

Também é excelente em tarefas multilíngues, como tradução, resumo, resposta a perguntas, etc.

É possível um LLM universal?

O conceito de um LLM com linguagem neutra, capaz de compreender e gerar uma linguagem sem preconceitos em relação a qualquer idioma específico, é intrigante.

Embora o desenvolvimento de um LLM verdadeiramente universal ainda esteja longe, os atuais LLMs multilíngues demonstraram um sucesso significativo. Uma vez plenamente desenvolvidos, podem satisfazer as necessidades de línguas sub-representadas e de comunidades diversas.

Por exemplo, a pesquisa mostra que a maioria dos LLMs multilíngues pode facilitar a transferência multilíngue de um idioma rico em recursos para um idioma privado de recursos, sem dados de treinamento específicos da tarefa.

Além disso, modelos como YAYI e BLOOM, que se concentram em línguas e comunidades específicas, demonstraram o potencial das abordagens centradas na língua para impulsionar o progresso e a inclusão.

Para construir um LLM universal ou melhorar os LLMs multilíngues atuais, indivíduos e organizações devem fazer o seguinte:

  • Crowdsourcing de falantes nativos para envolvimento da comunidade e curadoria dos conjuntos de dados linguísticos.
  • Apoie os esforços da comunidade em relação a contribuições de código aberto e financiamento para pesquisas e desenvolvimentos multilíngues.

Desafios dos LLMs multilíngues

Embora o conceito de LLMs multilingues universais seja muito promissor, eles também enfrentam vários desafios que devem ser abordados antes de podermos beneficiar deles:

1. Quantidade de dados

Os modelos multilíngues requerem um vocabulário maior para representar tokens em muitos idiomas do que os modelos monolíngues, mas muitos idiomas carecem de conjuntos de dados em grande escala. Isso torna difícil treinar esses modelos de forma eficaz.

2. Preocupações com a qualidade dos dados

Garantir a precisão e a adequação cultural dos resultados multilíngues do LLM em todos os idiomas é uma preocupação significativa. Os modelos devem ser treinados e ajustados com atenção meticulosa às nuances linguísticas e culturais para evitar preconceitos e imprecisões.

3. Limitações de recursos

O treinamento e a execução de modelos multilíngues exigem recursos computacionais substanciais, como GPUs poderosas (por exemplo, GPU NVIDIA A100). O elevado custo coloca desafios, especialmente para línguas com poucos recursos e comunidades com acesso limitado à infraestrutura computacional.

4. Arquitetura do Modelo

Adaptar arquiteturas de modelos para acomodar diversas estruturas e complexidades linguísticas é um desafio constante. Os modelos devem ser capazes de lidar com idiomas com diferentes ordens de palavras, variações morfológicas e sistemas de escrita, mantendo alto desempenho e eficiência.

5. Complexidades de avaliação

Avaliar o desempenho dos LLMs multilíngues além dos benchmarks em inglês é fundamental para medir sua verdadeira eficácia. Requer considerar nuances culturais, peculiaridades linguísticas e requisitos específicos de domínio.

Os LLMs multilingues têm o potencial de quebrar barreiras linguísticas, capacitar línguas com poucos recursos e facilitar a comunicação eficaz entre diversas comunidades.

Não perca as últimas notícias e análises em IA e ML – visite uni-vos.ai hoje mesmo.