toco Revelando Meta Llama 3: um salto em frente em grandes modelos de linguagem - Unite.AI
Entre em contato

Inteligência artificial

Revelando Meta Llama 3: um salto em frente em grandes modelos de linguagem

mm
Atualização do on

No campo da IA ​​generativa, a Meta continua a liderar com seu compromisso com a disponibilidade de código aberto, distribuindo globalmente sua avançada série Large Language Model Meta AI (Llama) para desenvolvedores e pesquisadores. Com base nas suas iniciativas progressivas, a Meta introduziu recentemente a terceira iteração desta série, lhama 3. Esta nova edição melhora significativamente lhama 2, oferecendo inúmeras melhorias e estabelecendo benchmarks que desafiam concorrentes do setor, como Google, Mistral e Anthropic. Este artigo explora os avanços significativos do Llama 3 e como ele se compara ao seu antecessor, o Llama 2.

Série Llama da Meta: Do exclusivo ao acesso aberto e desempenho aprimorado

Meta iniciou sua série Llama em 2022 com o lançamento de lhama 1, um modelo confinado ao uso não comercial e acessível apenas a instituições de pesquisa selecionadas devido às imensas demandas computacionais e à natureza proprietária que caracterizavam os LLMs de ponta na época. Em 2023, com o lançamento do Llama 2, a Meta AI mudou para uma maior abertura, oferecendo o modelo gratuitamente para pesquisa e fins comerciais. Esta medida foi concebida para democratizar o acesso a tecnologias sofisticadas de IA generativa, permitindo que uma gama mais ampla de utilizadores, incluindo startups e equipas de investigação mais pequenas, inovassem e desenvolvessem aplicações sem os elevados custos normalmente associados a modelos de grande escala. Dando continuidade a esta tendência de abertura, a Meta lançou o Llama 3, que se concentra em melhorar o desempenho de modelos menores em vários benchmarks industriais.

Apresentando Lhama 3

Llama 3 é a segunda geração de modelos de linguagem grande (LLMs) de código aberto da Meta, apresentando modelos pré-treinados e ajustados por instrução com parâmetros 8B e 70B. Em linha com seus antecessores, o Llama 3 utiliza um somente decodificador arquitetura do transformador e continua a prática de autoregressão, treinamento auto-supervisionado para prever tokens subsequentes em sequências de texto. O Llama 3 é pré-treinado em um conjunto de dados sete vezes maior do que o usado para o Llama 2, apresentando mais de 15 trilhões de tokens extraídos de uma combinação recentemente selecionada de dados online disponíveis publicamente. Este vasto conjunto de dados é processado usando dois clusters equipados com 24,000 GPUs. Para manter a alta qualidade desses dados de treinamento, uma variedade de IA centrada em dados técnicas foram empregadas, incluindo filtros heurísticos e NSFW, desduplicação semânticae classificação da qualidade do texto. Adaptado para aplicações de diálogo, o modelo Llama 3 Instruct foi significativamente aprimorado, incorporando mais de 10 milhões de amostras de dados anotadas por humanos e aproveitando uma combinação sofisticada de métodos de treinamento, como ajuste fino supervisionado (SFT), amostragem de rejeição, otimização de política proximal (PPO) e otimização de política direta (DPO).

Llama 3 vs. Llama 2: principais melhorias

O Llama 3 traz diversas melhorias em relação ao Llama 2, aumentando significativamente sua funcionalidade e desempenho:

  • Vocabulário Expandido: O Llama 3 aumentou seu vocabulário para 128,256 tokens, acima dos 2 tokens do Llama 32,000. Este aprimoramento suporta codificação de texto mais eficiente para entradas e saídas e fortalece suas capacidades multilíngues.
  • Comprimento de contexto estendido: Os modelos Llama 3 fornecem um comprimento de contexto de 8,000 tokens, dobrando os 4,090 tokens suportados pelo Llama 2. Esse aumento permite uma manipulação de conteúdo mais extensa, abrangendo prompts do usuário e respostas do modelo.
  • Dados de treinamento atualizados: O conjunto de dados de treinamento do Llama 3 é sete vezes maior que o do Llama 2, incluindo quatro vezes mais código. Ele contém mais de 5% de dados de alta qualidade em idiomas diferentes do inglês, abrangendo mais de 30 idiomas, o que é crucial para o suporte a aplicativos multilíngues. Esses dados passam por um rigoroso controle de qualidade usando técnicas avançadas como filtros heurísticos e NSFW, desduplicação semântica e classificadores de texto.
  • Ajuste e avaliação de instruções refinados: Divergindo do Llama 2, o Llama 3 utiliza técnicas avançadas de ajuste de instrução, incluindo ajuste fino supervisionado (SFT), amostragem de rejeição, otimização de política proximal (PPO) e otimização de política direta (DPO). Para ampliar esse processo, foi introduzido um novo conjunto de avaliação humana de alta qualidade, composto por 1,800 prompts que abrangem diversos casos de uso, como aconselhamento, brainstorming, classificação, codificação e muito mais, garantindo uma avaliação abrangente e o ajuste fino das capacidades do modelo.
  • Segurança avançada de IA: O Llama 3, assim como o Llama 2, incorpora medidas de segurança rigorosas, como ajuste fino de instruções e formação de equipes vermelhas abrangentes para mitigar riscos, especialmente em áreas críticas como segurança cibernética e ameaças biológicas. Para apoiar esses esforços, a Meta também introduziu o Llama Guard 2, aprimorado na versão 8B do Llama 3. Este novo modelo aprimora o Série Guarda Lhama classificando entradas e respostas do LLM para identificar conteúdo potencialmente inseguro, tornando-o ideal para ambientes de produção.

Disponibilidade do Lhama 3

Os modelos Llama 3 agora estão integrados ao Abraçando o ecossistema Face, melhorando a acessibilidade para desenvolvedores. Os modelos também estão disponíveis através de plataformas de modelo como serviço, como Laboratórios de Perplexidade e Fogos de artifício.aie em plataformas de nuvem como AWS SageMaker, AzureML e VERTEX AI. A Meta planeja ampliar ainda mais a disponibilidade do Llama 3, incluindo plataformas como Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM e Snowflake. Além disso, o suporte de hardware para Llama 3 será estendido para incluir plataformas AMD, AWS, Dell, Intel, NVIDIA e Qualcomm.

Próximas melhorias no Llama 3

Meta revelou que a versão atual do Llama 3 é apenas a fase inicial de sua visão mais ampla para a versão completa do Llama 3. Eles estão desenvolvendo um modelo avançado com mais de 400 bilhões de parâmetros que introduzirá novos recursos, incluindo multimodalidade e a capacidade de lidar com vários idiomas. Esta versão aprimorada também contará com uma janela de contexto significativamente estendida e recursos de desempenho geral aprimorados.

Concluindo!

O Llama 3 da Meta marca uma evolução significativa no cenário de grandes modelos de linguagem, impulsionando a série não apenas para uma maior acessibilidade de código aberto, mas também melhorando substancialmente suas capacidades de desempenho. Com um conjunto de dados de treinamento sete vezes maior que seu antecessor e recursos como vocabulário expandido e maior extensão de contexto, o Llama 3 estabelece novos padrões de referência que desafiam até mesmo os concorrentes mais fortes do setor.

Esta terceira iteração não só continua a democratizar a tecnologia de IA, disponibilizando capacidades de alto nível para um espectro mais amplo de desenvolvedores, mas também introduz avanços significativos em segurança e precisão de treinamento. Ao integrar esses modelos em plataformas como Hugging Face e ampliar a disponibilidade por meio dos principais serviços em nuvem, a Meta garante que o Llama 3 seja tão onipresente quanto poderoso.

Olhando para o futuro, o desenvolvimento contínuo do Meta promete capacidades ainda mais robustas, incluindo multimodalidade e suporte expandido a idiomas, preparando o terreno para que o Llama 3 não apenas concorra, mas potencialmente supere outros grandes modelos de IA no mercado. Llama 3 é uma prova do compromisso da Meta em liderar a revolução da IA, fornecendo ferramentas que não são apenas mais acessíveis, mas também significativamente mais avançadas e seguras para uma base global de usuários.

mm

Tehseen Zia é professor associado titular na COMSATS University Islamabad, com doutorado em IA pela Universidade de Tecnologia de Viena, Áustria. Especializado em Inteligência Artificial, Aprendizado de Máquina, Ciência de Dados e Visão Computacional, ele fez contribuições significativas com publicações em revistas científicas de renome. Tehseen também liderou vários projetos industriais como investigador principal e atuou como consultor de IA.