Inteligência artificial

Tudo o que Você Precisa Saber Sobre o Llama 3 | O Modelo de Código Aberto Mais Potente Até o Momento | Conceitos para Uso

mm
Meta Llama 3 open source LLM OUTPERFORM GPT 4

A Meta recentemente lançou o Llama 3, a próxima geração de seu modelo de linguagem grande de código aberto de ponta (LLM). Construindo sobre os fundamentos estabelecidos por seu antecessor, o Llama 3 visa melhorar as capacidades que posicionaram o Llama 2 como um concorrente de código aberto significativo para o ChatGPT, como detalhado na revisão abrangente no artigo Llama 2: Uma Análise Aprofundada do Desafiador de Código Aberto para o ChatGPT.

Neste artigo, discutiremos os conceitos principais por trás do Llama 3, exploraremos sua arquitetura inovadora e o processo de treinamento, e forneceremos orientação prática sobre como acessar, usar e implantar esse modelo revolucionário de forma responsável. Seja você um pesquisador, desenvolvedor ou entusiasta de IA, este post equipará você com o conhecimento e os recursos necessários para aproveitar o poder do Llama 3 para seus projetos e aplicações.

A Evolução do Llama: Do Llama 2 para o Llama 3

O CEO da Meta, Mark Zuckerberg, anunciou o lançamento do Llama 3, o último modelo de IA desenvolvido pela Meta AI. Este modelo de ponta, agora de código aberto, está pronto para melhorar os vários produtos da Meta, incluindo o Messenger e o Instagram. Zuckerberg destacou que o Llama 3 posiciona a Meta AI como o assistente de IA mais avançado disponível gratuitamente.

Antes de falarmos sobre os detalhes do Llama 3, vamos revisitar brevemente seu antecessor, o Llama 2. Lançado em 2022, o Llama 2 foi um marco significativo no cenário de LLM de código aberto, oferecendo um modelo poderoso e eficiente que podia ser executado em hardware de consumidor.

No entanto, embora o Llama 2 tenha sido um feito notável, ele tinha suas limitações. Os usuários relataram problemas com recusas falsas (o modelo se recusando a responder a prompts benignos), utilidade limitada e espaço para melhoria em áreas como raciocínio e geração de código.

Então, entra o Llama 3: a resposta da Meta para esses desafios e o feedback da comunidade. Com o Llama 3, a Meta busca construir os melhores modelos de código aberto, equivalentes aos principais modelos proprietários disponíveis hoje, priorizando também práticas de desenvolvimento e implantação responsáveis.

Llama 3: Arquitetura e Treinamento

Uma das principais inovações no Llama 3 é seu tokenizador, que apresenta um vocabulário significativamente expandido de 128.256 tokens (em comparação com os 32.000 do Llama 2). Esse vocabulário maior permite uma codificação de texto mais eficiente, tanto para entrada quanto para saída, potencialmente levando a uma multilingualidade e melhorias gerais de desempenho.

O Llama 3 também incorpora Atenção de Consulta Agrupada (GQA), uma técnica de representação eficiente que melhora a escalabilidade e ajuda o modelo a lidar com contextos mais longos de forma mais eficaz. A versão 8B do Llama 3 utiliza a GQA, enquanto as versões 8B e 70B podem processar sequências de até 8.192 tokens.

Dados de Treinamento e Escalabilidade

Os dados de treinamento utilizados para o Llama 3 são um fator crucial em seu desempenho melhorado. A Meta curou um conjunto de dados massivo de mais de 15 trilhões de tokens de fontes online disponíveis publicamente, sete vezes maior do que o conjunto de dados utilizado para o Llama 2. Esse conjunto de dados também inclui uma porcentagem significativa (mais de 5%) de dados de alta qualidade não em inglês, cobrindo mais de 30 idiomas, em preparação para aplicações multilíngues futuras.

Para garantir a qualidade dos dados, a Meta empregou técnicas de filtragem avançadas, incluindo filtros heurísticos, filtros NSFW, deduplicação semântica e classificadores de texto treinados no Llama 2 para prever a qualidade dos dados. A equipe também realizou experimentos extensivos para determinar a mistura ideal de fontes de dados para pré-treinamento, garantindo que o Llama 3 se saia bem em uma ampla gama de casos de uso, incluindo trivia, STEM, codificação e conhecimento histórico.

A escalabilidade do pré-treinamento foi outro aspecto crítico do desenvolvimento do Llama 3. A Meta desenvolveu leis de escalabilidade que permitiram prever o desempenho de seus maiores modelos em tarefas-chave, como geração de código, antes de realmente treiná-los. Isso informou as decisões sobre a mistura de dados e alocação de computação, levando a um treinamento mais eficiente e eficaz.

Os maiores modelos do Llama 3 foram treinados em dois clusters de 24.000 GPUs personalizados, utilizando uma combinação de paralelização de dados, paralelização de modelo e paralelização de pipeline. A pilha de treinamento avançada da Meta automatizou a detecção de erros, tratamento e manutenção, maximizando o tempo de atividade da GPU e aumentando a eficiência do treinamento em aproximadamente três vezes em comparação com o Llama 2.

Ajuste Fino de Instrução e Desempenho

Para desbloquear o potencial total do Llama 3 para aplicações de chat e diálogo, a Meta inovou sua abordagem para o ajuste fino de instruções. Seu método combina ajuste fino supervisionado (SFT), amostragem de rejeição, otimização de política proximal (PPO) e otimização de preferência direta (DPO).

A qualidade dos prompts utilizados no SFT e as classificações de preferência utilizadas no PPO e DPO desempenharam um papel crucial no desempenho dos modelos alinhados. A equipe da Meta cuidadosamente curou esses dados e realizou várias rodadas de garantia de qualidade nas anotações fornecidas por anotadores humanos.

O treinamento em classificações de preferência via PPO e DPO também melhorou significativamente o desempenho do Llama 3 em tarefas de raciocínio e codificação. A Meta descobriu que, mesmo quando um modelo tem dificuldade em responder a uma pergunta de raciocínio diretamente, ele pode ainda produzir a trilha de raciocínio correta. O treinamento em classificações de preferência permitiu que o modelo aprendesse a selecionar a resposta correta a partir dessas trilhas.

Resultados da Arena

Os resultados falam por si: o Llama 3 supera muitos modelos de chat de código aberto disponíveis em benchmarks da indústria, estabelecendo um novo padrão de desempenho para LLMs nas escalas de parâmetro de 8B e 70B.

Desenvolvimento Responsável e Considerações de Segurança

Enquanto busca o desempenho de ponta, a Meta também priorizou práticas de desenvolvimento e implantação responsáveis para o Llama 3. A empresa adotou uma abordagem de nível de sistema, imaginando os modelos do Llama 3 como parte de um ecossistema mais amplo que coloca os desenvolvedores no comando, permitindo que eles projetem e personalizem os modelos para seus casos de uso específicos e requisitos de segurança.

A Meta realizou extensos exercícios de red team, avaliações adversárias e implementou técnicas de mitigação de segurança para reduzir os riscos residuais em seus modelos ajustados por instruções. No entanto, a empresa reconhece que riscos residuais provavelmente permanecerão e recomenda que os desenvolvedores avaliem esses riscos no contexto de seus casos de uso específicos.

Para apoiar a implantação responsável, a Meta atualizou seu Guia de Uso Responsável, fornecendo um recurso abrangente para que os desenvolvedores implementem as melhores práticas de segurança de nível de modelo e sistema para suas aplicações. O guia aborda tópicos como moderação de conteúdo, avaliação de risco e o uso de ferramentas de segurança como Llama Guard 2 e Code Shield.

O Llama Guard 2, construído sobre a taxonomia MLCommons, é projetado para classificar entradas (prompts) e respostas do LLM, detectando conteúdo que possa ser considerado inseguro ou prejudicial. O CyberSecEval 2 expande seu antecessor, adicionando medidas para prevenir o abuso do interpretador de código do modelo, capacidades de cibersegurança ofensiva e suscetibilidade a ataques de injeção de prompts.

O Code Shield, uma nova introdução com o Llama 3, adiciona filtragem de tempo de inferência de código inseguro produzido por LLMs, mitigando riscos associados a sugestões de código inseguras, abuso do interpretador de código e execução segura de comandos.

Acessando e Usando o Llama 3

Após o lançamento do Llama 3 da Meta AI, várias ferramentas de código aberto foram disponibilizadas para implantação local em vários sistemas operacionais, incluindo Mac, Windows e Linux. Esta seção detalha três ferramentas notáveis: Ollama, Open WebUI e LM Studio, cada uma oferecendo recursos únicos para aproveitar as capacidades do Llama 3 em dispositivos pessoais.

Ollama: Disponível para Mac, Linux e Windows, Ollama simplifica a operação do Llama 3 e outros grandes modelos de linguagem em computadores pessoais, mesmo aqueles com hardware menos robusto. Ele inclui um gerenciador de pacotes para gerenciamento de modelo fácil e suporta comandos em plataformas para baixar e executar modelos.

Open WebUI com Docker: Essa ferramenta fornece uma interface amigável baseada em Docker, compatível com Mac, Linux e Windows. Ele integra-se perfeitamente com modelos do registro Ollama, permitindo que os usuários implantem e interajam com modelos como o Llama 3 dentro de uma interface web local.

LM Studio: Direcionado a usuários em Mac, Linux e Windows, LM Studio suporta uma variedade de modelos e é construído sobre o projeto llama.cpp. Ele fornece uma interface de chat e facilita a interação direta com vários modelos, incluindo o modelo Instruct 8B do Llama 3.

Essas ferramentas garantem que os usuários possam utilizar o Llama 3 em seus dispositivos pessoais de forma eficiente, acomodando uma gama de habilidades técnicas e requisitos. Cada plataforma oferece processos passo a passo para configuração e interação com o modelo, tornando a IA avançada mais acessível a desenvolvedores e entusiastas.

Implantando o Llama 3 em Escala

Além de fornecer acesso direto aos pesos do modelo, a Meta se associou a vários provedores de nuvem, serviços de API de modelo e plataformas de hardware para permitir a implantação sem esforço do Llama 3 em escala.

Uma das principais vantagens do Llama 3 é sua eficiência de token melhorada, graças ao novo tokenizador. Os benchmarks mostram que o Llama 3 requer até 15% menos tokens em comparação com o Llama 2, resultando em inferência mais rápida e mais econômica.

A integração da Atenção de Consulta Agrupada (GQA) na versão 8B do Llama 3 contribui para manter a eficiência de inferência em par com a versão 7B do Llama 2, apesar do aumento no número de parâmetros.

Para simplificar o processo de implantação, a Meta forneceu o repositório Llama Recipes, que contém código de fonte aberto e exemplos para ajuste fino, implantação, avaliação de modelo e mais. Esse repositório serve como um recurso valioso para desenvolvedores que buscam aproveitar as capacidades do Llama 3 em suas aplicações.

Para aqueles interessados em explorar o desempenho do Llama 3, a Meta integrou seus modelos mais recentes à Meta AI, um assistente de IA de ponta construído com a tecnologia do Llama 3. Os usuários podem interagir com a Meta AI por meio de vários aplicativos da Meta, como Facebook, Instagram, WhatsApp, Messenger e a web, para realizar tarefas, aprender, criar e se conectar com as coisas que importam para eles.

O Que Vem a Seguir para o Llama 3?

Enquanto as versões 8B e 70B marcam o início do lançamento do Llama 3, a Meta tem planos ambiciosos para o futuro desse LLM revolucionário.

Nos próximos meses, podemos esperar ver novas capacidades introduzidas, incluindo multimodalidade (a capacidade de processar e gerar diferentes modalidades de dados, como imagens e vídeos), multilingualismo (suporte a vários idiomas) e janelas de contexto muito mais longas para melhor desempenho em tarefas que exigem contexto extensivo.

Além disso, a Meta planeja lançar tamanhos de modelo maiores, incluindo modelos com mais de 400 bilhões de parâmetros, que estão atualmente em treinamento e mostrando tendências promissoras em termos de desempenho e capacidades.

Para avançar ainda mais no campo, a Meta também publicará um artigo de pesquisa detalhado sobre o Llama 3, compartilhando suas descobertas e insights com a comunidade de IA mais ampla.

Como uma prévia do que está por vir, a Meta compartilhou algumas imagens iniciais do desempenho de seu maior modelo de LLM em vários benchmarks. Embora esses resultados sejam baseados em um checkpoint inicial e estejam sujeitos a alterações, eles fornecem um vislumbre emocionante do potencial futuro do Llama 3.

Conclusão

O Llama 3 representa um marco significativo na evolução dos grandes modelos de linguagem de código aberto, impulsionando os limites de desempenho, capacidades e práticas de desenvolvimento responsáveis. Com sua arquitetura inovadora, conjunto de dados de treinamento maciço e técnicas de ajuste fino de ponta, o Llama 3 estabelece novos benchmarks de desempenho para LLMs nas escalas de parâmetro de 8B e 70B.

No entanto, o Llama 3 é mais do que apenas um modelo de linguagem poderoso; é um testemunho do compromisso da Meta em promover um ecossistema de IA aberto e responsável. Ao fornecer recursos abrangentes, ferramentas de segurança e as melhores práticas, a Meta capacita os desenvolvedores a aproveitar todo o potencial do Llama 3, garantindo a implantação responsável adaptada a seus casos de uso e audiências específicas.

À medida que a jornada do Llama 3 continua, com novas capacidades, tamanhos de modelo e descobertas de pesquisa no horizonte, a comunidade de IA aguarda ansiosamente as aplicações inovadoras e os avanços que, sem dúvida, surgirão desse LLM revolucionário.

Seja você um pesquisador impulsionando os limites do processamento de linguagem natural, um desenvolvedor construindo a próxima geração de aplicações inteligentes ou um entusiasta de IA curioso sobre os últimos avanços, o Llama 3 promete ser uma ferramenta poderosa em seu arsenal, abrindo novas portas e desbloqueando um mundo de possibilidades.

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e expertise me levaram a contribuir para mais de 50 projetos de engenharia de software diversificados, com um foco particular em IA/ML. Minha curiosidade contínua também me levou em direção ao Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.