Inteligência artificial
Tudo o que Você Precisa Saber Sobre o Llama 3 | O Modelo de Código Aberto Mais Potente Até o Momento | Conceitos para Uso
A Meta recentemente lançou o Llama 3, a próxima geração de seu modelo de linguagem grande de código aberto de ponta (LLM). Construindo sobre os fundamentos estabelecidos por seu antecessor, o Llama 3 visa melhorar as capacidades que posicionaram o Llama 2 como um concorrente de código aberto significativo para o ChatGPT, como detalhado na revisão abrangente no artigo Llama 2: Uma Análise Aprofundada do Desafiador de Código Aberto para o ChatGPT.
Neste artigo, discutiremos os conceitos principais por trás do Llama 3, exploraremos sua arquitetura inovadora e o processo de treinamento, e forneceremos orientação prática sobre como acessar, usar e implantar esse modelo revolucionário de forma responsável. Seja você um pesquisador, desenvolvedor ou entusiasta de IA, este post equipará você com o conhecimento e os recursos necessários para aproveitar o poder do Llama 3 para seus projetos e aplicações.
A Evolução do Llama: Do Llama 2 para o Llama 3
O CEO da Meta, Mark Zuckerberg, anunciou o lançamento do Llama 3, o último modelo de IA desenvolvido pela Meta AI. Este modelo de ponta, agora de código aberto, está pronto para melhorar os vários produtos da Meta, incluindo o Messenger e o Instagram. Zuckerberg destacou que o Llama 3 posiciona a Meta AI como o assistente de IA mais avançado disponível gratuitamente.
Antes de falarmos sobre os detalhes do Llama 3, vamos revisitar brevemente seu antecessor, o Llama 2. Lançado em 2022, o Llama 2 foi um marco significativo no cenário de LLM de código aberto, oferecendo um modelo poderoso e eficiente que podia ser executado em hardware de consumidor.
No entanto, embora o Llama 2 tenha sido um feito notável, ele tinha suas limitações. Os usuários relataram problemas com recusas falsas (o modelo se recusando a responder a prompts benignos), utilidade limitada e espaço para melhoria em áreas como raciocínio e geração de código.
Então, entra o Llama 3: a resposta da Meta para esses desafios e o feedback da comunidade. Com o Llama 3, a Meta busca construir os melhores modelos de código aberto, equivalentes aos principais modelos proprietários disponíveis hoje, priorizando também práticas de desenvolvimento e implantação responsáveis.
Llama 3: Arquitetura e Treinamento
Uma das principais inovações no Llama 3 é seu tokenizador, que apresenta um vocabulário significativamente expandido de 128.256 tokens (em comparação com os 32.000 do Llama 2). Esse vocabulário maior permite uma codificação de texto mais eficiente, tanto para entrada quanto para saída, potencialmente levando a uma multilingualidade e melhorias gerais de desempenho.
O Llama 3 também incorpora Atenção de Consulta Agrupada (GQA), uma técnica de representação eficiente que melhora a escalabilidade e ajuda o modelo a lidar com contextos mais longos de forma mais eficaz. A versão 8B do Llama 3 utiliza a GQA, enquanto as versões 8B e 70B podem processar sequências de até 8.192 tokens.
Dados de Treinamento e Escalabilidade
Os dados de treinamento utilizados para o Llama 3 são um fator crucial em seu desempenho melhorado. A Meta curou um conjunto de dados massivo de mais de 15 trilhões de tokens de fontes online disponíveis publicamente, sete vezes maior do que o conjunto de dados utilizado para o Llama 2. Esse conjunto de dados também inclui uma porcentagem significativa (mais de 5%) de dados de alta qualidade não em inglês, cobrindo mais de 30 idiomas, em preparação para aplicações multilíngues futuras.
Para garantir a qualidade dos dados, a Meta empregou técnicas de filtragem avançadas, incluindo filtros heurísticos, filtros NSFW, deduplicação semântica e classificadores de texto treinados no Llama 2 para prever a qualidade dos dados. A equipe também realizou experimentos extensivos para determinar a mistura ideal de fontes de dados para pré-treinamento, garantindo que o Llama 3 se saia bem em uma ampla gama de casos de uso, incluindo trivia, STEM, codificação e conhecimento histórico.
A escalabilidade do pré-treinamento foi outro aspecto crítico do desenvolvimento do Llama 3. A Meta desenvolveu leis de escalabilidade que permitiram prever o desempenho de seus maiores modelos em tarefas-chave, como geração de código, antes de realmente treiná-los. Isso informou as decisões sobre a mistura de dados e alocação de computação, levando a um treinamento mais eficiente e eficaz.
Os maiores modelos do Llama 3 foram treinados em dois clusters de 24.000 GPUs personalizados, utilizando uma combinação de paralelização de dados, paralelização de modelo e paralelização de pipeline. A pilha de treinamento avançada da Meta automatizou a detecção de erros, tratamento e manutenção, maximizando o tempo de atividade da GPU e aumentando a eficiência do treinamento em aproximadamente três vezes em comparação com o Llama 2.
Ajuste Fino de Instrução e Desempenho
Para desbloquear o potencial total do Llama 3 para aplicações de chat e diálogo, a Meta inovou sua abordagem para o ajuste fino de instruções. Seu método combina ajuste fino supervisionado (SFT), amostragem de rejeição, otimização de política proximal (PPO) e otimização de preferência direta (DPO).
A qualidade dos prompts utilizados no SFT e as classificações de preferência utilizadas no PPO e DPO desempenharam um papel crucial no desempenho dos modelos alinhados. A equipe da Meta cuidadosamente curou esses dados e realizou várias rodadas de garantia de qualidade nas anotações fornecidas por anotadores humanos.
O treinamento em classificações de preferência via PPO e DPO também melhorou significativamente o desempenho do Llama 3 em tarefas de raciocínio e codificação. A Meta descobriu que, mesmo quando um modelo tem dificuldade em responder a uma pergunta de raciocínio diretamente, ele pode ainda produzir a trilha de raciocínio correta. O treinamento em classificações de preferência permitiu que o modelo aprendesse a selecionar a resposta correta a partir dessas trilhas.
Os resultados falam por si: o Llama 3 supera muitos modelos de chat de código aberto disponíveis em benchmarks da indústria, estabelecendo um novo padrão de desempenho para LLMs nas escalas de parâmetro de 8B e 70B.
Desenvolvimento Responsável e Considerações de Segurança
Enquanto busca o desempenho de ponta, a Meta também priorizou práticas de desenvolvimento e implantação responsáveis para o Llama 3. A empresa adotou uma abordagem de nível de sistema, imaginando os modelos do Llama 3 como parte de um ecossistema mais amplo que coloca os desenvolvedores no comando, permitindo que eles projetem e personalizem os modelos para seus casos de uso específicos e requisitos de segurança.
A Meta realizou extensos exercícios de red team, avaliações adversárias e implementou técnicas de mitigação de segurança para reduzir os riscos residuais em seus modelos ajustados por instruções. No entanto, a empresa reconhece que riscos residuais provavelmente permanecerão e recomenda que os desenvolvedores avaliem esses riscos no contexto de seus casos de uso específicos.
Para apoiar a implantação responsável, a Meta atualizou seu Guia de Uso Responsável, fornecendo um recurso abrangente para que os desenvolvedores implementem as melhores práticas de segurança de nível de modelo e sistema para suas aplicações. O guia aborda tópicos como moderação de conteúdo, avaliação de risco e o uso de ferramentas de segurança como Llama Guard 2 e Code Shield.
O Llama Guard 2, construído sobre a taxonomia MLCommons, é projetado para classificar entradas (prompts) e respostas do LLM, detectando conteúdo que possa ser considerado inseguro ou prejudicial. O CyberSecEval 2 expande seu antecessor, adicionando medidas para prevenir o abuso do interpretador de código do modelo, capacidades de cibersegurança ofensiva e suscetibilidade a ataques de injeção de prompts.
O Code Shield, uma nova introdução com o Llama 3, adiciona filtragem de tempo de inferência de código inseguro produzido por LLMs, mitigando riscos associados a sugestões de código inseguras, abuso do interpretador de código e execução segura de comandos.
Acessando e Usando o Llama 3
Após o lançamento do Llama 3 da Meta AI, várias ferramentas de código aberto foram disponibilizadas para implantação local em vários sistemas operacionais, incluindo Mac, Windows e Linux. Esta seção detalha três ferramentas notáveis: Ollama, Open WebUI e LM Studio, cada uma oferecendo recursos únicos para aproveitar as capacidades do Llama 3 em dispositivos pessoais.
Ollama: Disponível para Mac, Linux e Windows, Ollama simplifica a operação do Llama 3 e outros grandes modelos de linguagem em computadores pessoais, mesmo aqueles com hardware menos robusto. Ele inclui um gerenciador de pacotes para gerenciamento de modelo fácil e suporta comandos em plataformas para baixar e executar modelos.
Open WebUI com Docker: Essa ferramenta fornece uma interface amigável baseada em Docker, compatível com Mac, Linux e Windows. Ele integra-se perfeitamente com modelos do registro Ollama, permitindo que os usuários implantem e interajam com modelos como o Llama 3 dentro de uma interface web local.
LM Studio: Direcionado a usuários em Mac, Linux e Windows, LM Studio suporta uma variedade de modelos e é construído sobre o projeto llama.cpp. Ele fornece uma interface de chat e facilita a interação direta com vários modelos, incluindo o modelo Instruct 8B do Llama 3.
Essas ferramentas garantem que os usuários possam utilizar o Llama 3 em seus dispositivos pessoais de forma eficiente, acomodando uma gama de habilidades técnicas e requisitos. Cada plataforma oferece processos passo a passo para configuração e interação com o modelo, tornando a IA avançada mais acessível a desenvolvedores e entusiastas.















