InteligĂȘncia artificial

Gemma: Google traz capacidades avançadas de IA por meio de código aberto

mm
Google Open Source LLM Gemma

O campo da inteligência artificial (IA) tem visto um grande progresso nos últimos anos, impulsionado principalmente pelos avanços no aprendizado profundo e no processamento de linguagem natural (NLP). À frente desses avanços estão modelos de linguagem grande (LLMs) – sistemas de IA treinados em grandes quantidades de dados de texto que podem gerar texto semelhante ao humano e participar de tarefas conversacionais.

LLMs como o PaLM da Google, o Claude da Anthropic e o Gopher da DeepMind demonstraram capacidades notáveis, desde codificação até raciocínio de senso comum. No entanto, a maioria desses modelos não foi liberada abertamente, limitando seu acesso para pesquisa, desenvolvimento e aplicações benéficas.

Isso mudou com a recente liberação de código aberto da Gemma – uma família de LLMs da DeepMind baseada em seus poderosos modelos proprietários Gemini. Neste post, mergulhamos na Gemma, analisando sua arquitetura, processo de treinamento, desempenho e liberação responsável.

Visão geral da Gemma

Em fevereiro de 2023, a DeepMind liberou o código aberto de dois tamanhos de modelos Gemma – uma versão de 2 bilhões de parâmetros otimizada para implantação em dispositivos e uma versão maior de 7 bilhões de parâmetros projetada para uso em GPU/TPU.

A Gemma aproveita uma arquitetura baseada em transformadores e uma metodologia de treinamento semelhante aos modelos Gemini líderes da DeepMind. Ela foi treinada em até 6 trilhões de tokens de texto de documentos da web, matemática e código.

A DeepMind liberou os pontos de verificação pré-treinados brutos da Gemma, bem como versões ajustadas com aprendizado supervisionado e feedback humano para capacidades melhoradas em áreas como diálogo, seguimento de instruções e codificação.

Introdução à Gemma

A liberação aberta da Gemma torna suas capacidades avançadas de IA acessíveis a desenvolvedores, pesquisadores e entusiastas. Aqui está um guia rápido para começar:

Implantação agnóstica de plataforma

Uma força chave da Gemma é sua flexibilidade – você pode executá-la em CPUs, GPUs ou TPUs. Para CPU, utilize o TensorFlow Lite ou os Transformadores do HuggingFace. Para desempenho acelerado em GPU/TPU, use o TensorFlow. Serviços de nuvem como o Vertex AI da Google também oferecem escalabilidade sem esforço.

Acesso a modelos pré-treinados

A Gemma vem em diferentes variantes pré-treinadas, dependendo de suas necessidades. Os modelos de 2B e 7B oferecem fortes capacidades gerativas fora da caixa. Para ajuste fino personalizado, os modelos 2B-FT e 7B-FT são pontos de partida ideais.

Construir aplicações excitantes

Você pode construir uma ampla gama de aplicações com a Gemma, como geração de histórias, tradução de linguagem, resposta a perguntas e produção de conteúdo criativo. A chave é aproveitar as forças da Gemma por meio do ajuste fino em seus próprios conjuntos de dados.

Arquitetura

A Gemma utiliza uma arquitetura de transformador apenas decodificador, construída sobre avanços como atenção multi-consulta e embeddings posicionais rotativos:

  • Transformadores: Introduzidos em 2017, a arquitetura de transformador baseada apenas em mecanismos de atenção se tornou onipresente no NLP. A Gemma herda a capacidade do transformador de modelar dependências de longo alcance em texto.
  • Apenas decodificador: A Gemma usa apenas uma pilha de decodificadores de transformadores, ao contrário de modelos codificador-decodificador como o BART ou o T5. Isso fornece fortes capacidades gerativas para tarefas como geração de texto.
  • Atenção multi-consulta: A Gemma emprega atenção multi-consulta em seu modelo maior, permitindo que cada cabeça de atenção processe várias consultas em paralelo para inferência mais rápida.
  • Embeddings posicionais rotativos: A Gemma representa informações posicionais usando embeddings rotativos em vez de codificações de posição absolutas. Essa técnica reduz o tamanho do modelo enquanto retém informações de posição.

O uso de técnicas como atenção multi-consulta e embeddings posicionais rotativos permite que os modelos Gemma atinjam um equilíbrio ótimo entre desempenho, velocidade de inferência e tamanho do modelo.

Dados e processo de treinamento

A Gemma foi treinada em até 6 trilhões de tokens de dados de texto, principalmente em inglês. Isso incluiu documentos da web, texto matemático e código. A DeepMind investiu esforços significativos na filtragem de dados, removendo conteúdo tóxico ou prejudicial usando classificadores e heurísticas.

O treinamento foi realizado usando a infraestrutura TPUv5 da Google, com até 4096 TPUs usadas para treinar o Gemma-7B. Técnicas de paralelismo de modelo e dados eficientes permitiram o treinamento de modelos massivos com hardware comum.

O treinamento foi realizado em etapas, ajustando continuamente a distribuição de dados para se concentrar em texto de alta qualidade e relevante. As etapas finais de ajuste fino usaram uma mistura de exemplos de instrução seguimento humanos e sintéticos para melhorar as capacidades.

Desempenho do modelo

A DeepMind avaliou rigorosamente os modelos Gemma em um amplo conjunto de mais de 25 benchmarks que abrangem perguntas e respostas, raciocínio, matemática, codificação, senso comum e capacidades de diálogo.

A Gemma alcança resultados de ponta em comparação com modelos de código aberto de tamanho semelhante em grande parte dos benchmarks. Alguns destaques:

  • Matemática: A Gemma se destaca em testes de raciocínio matemático como o GSM8K e o MATH, superando modelos como o Codex e o Claude da Anthropic por mais de 10 pontos.
  • Codificação: A Gemma iguala ou supera o desempenho do Codex em benchmarks de programação como o MBPP, apesar de não ter sido treinada especificamente em código.
  • Diálogo: A Gemma demonstra forte capacidade conversacional com uma taxa de vitória de 51,7% sobre o Mistral-7B da Anthropic em testes de preferência humana.
  • Raciocínio: Em tarefas que exigem inferência como o ARC e o Winogrande, a Gemma supera outros modelos de 7B por 5-10 pontos.

A versatilidade da Gemma em várias disciplinas demonstra suas fortes capacidades de inteligência geral. Embora ainda haja lacunas em relação ao desempenho humano, a Gemma representa um grande salto em modelos de NLP de código aberto.

Segurança e responsabilidade

Liberar pesos de modelos grandes de código aberto introduz desafios em torno de uso indevido intencional e vieses inerentes ao modelo. A DeepMind tomou medidas para mitigar os riscos:

  • Filtragem de dados: Texto potencialmente tóxico, ilegal ou tendencioso foi removido dos dados de treinamento usando classificadores e heurísticas.
  • Avaliações: A Gemma foi testada em mais de 30 benchmarks projetados para avaliar segurança, justiça e robustez. Ela igualou ou superou outros modelos.
  • Ajuste fino: O ajuste fino do modelo se concentrou em melhorar as capacidades de segurança, como filtragem de informações e comportamentos de recusa/hedging apropriados.
  • Termos de uso: Os termos de uso proíbem aplicações ofensivas, ilegais ou antiéticas dos modelos Gemma. No entanto, a aplicação permanece um desafio.
  • Cartões de modelo: Cartões detalhando as capacidades, limitações e vieses do modelo foram liberados para promover a transparência.

Embora existam riscos com a liberação de código aberto, a DeepMind determinou que a liberação da Gemma traz benefícios líquidos para a sociedade com base em seu perfil de segurança e capacidade de impulsionar a pesquisa. No entanto, o monitoramento vigilante de possíveis danos permanecerá crítico.

Impulsionando a próxima onda de inovação em IA

Liberar a Gemma como uma família de modelos de código aberto tem o potencial de desbloquear o progresso em toda a comunidade de IA:

  • Acessibilidade: A Gemma reduz as barreiras para que organizações construam com NLP de ponta, que anteriormente enfrentavam altos custos de computação e dados para treinar seus próprios LLMs.
  • Novas aplicações: Ao liberar pontos de verificação pré-treinados e ajustados, a DeepMind permite o desenvolvimento mais fácil de aplicações benéficas em áreas como educação, ciência e acessibilidade.
  • Personalização: Os desenvolvedores podem personalizar ainda mais a Gemma para aplicações específicas de indústria ou domínio por meio do treinamento contínuo em dados proprietários.
  • Pesquisa: Modelos abertos como a Gemma promovem uma maior transparência e auditoria dos sistemas de NLP atuais, iluminando direções de pesquisa futuras.
  • Inovação: A disponibilidade de modelos de linha de base fortes como a Gemma acelerará o progresso em áreas como mitigação de vieses, factualidade e segurança de IA.

Ao fornecer as capacidades da Gemma a todos por meio da liberação de código aberto, a DeepMind espera impulsionar o desenvolvimento responsável de IA para o bem social.

O caminho à frente

À medida que avançamos em cada salto em IA, nos aproximamos de modelos que rivalizam ou superam a inteligência humana em todos os domínios. Sistemas como a Gemma destacam como os avanços rápidos em modelos auto-supervisionados estão desbloqueando capacidades cognitivas cada vez mais avançadas.

No entanto, ainda há trabalho a ser feito para melhorar a confiabilidade, interpretabilidade e controllabilidade da IA – áreas onde a inteligência humana ainda reina suprema. Domínios como a matemática destacam essas lacunas persistentes, com a Gemma marcando 64% no MMLU em comparação com o desempenho humano estimado em 89%.

Fechar essas lacunas enquanto garante a segurança e a ética de sistemas de IA cada vez mais capazes será o desafio central nos anos que se seguem. Encontrar o equilíbrio certo entre abertura e cautela será crítico, à medida que a DeepMind busca democratizar o acesso aos benefícios da IA enquanto gerencia os riscos emergentes.

Iniciativas para promover a segurança da IA – como o ANC de Dario Amodei, a equipe de Ética e Sociedade da DeepMind e a IA Constitucional da Anthropic – sinalizam um reconhecimento crescente dessa necessidade de nuances. O progresso significativo exigirá um diálogo aberto e baseado em evidências entre pesquisadores, desenvolvedores, formuladores de políticas e o público.

Se navegada de forma responsável, a Gemma representa não o pico da IA, mas um acampamento base para a próxima geração de pesquisadores de IA seguindo os passos da DeepMind em direção à inteligência artificial geral benéfica.

Conclusão

A liberação da Gemma pela DeepMind sinaliza uma nova era para a IA de código aberto – uma que transcende benchmarks estreitos para capacidades de inteligência geral. Testada extensivamente para segurança e amplamente acessível, a Gemma estabelece um novo padrão para a liberação responsável de código aberto em IA.

Impulsionada por um espírito competitivo temperado com valores cooperativos, compartilhar avanços como a Gemma eleva todos os barcos na ecossistema de IA. A comunidade inteira agora tem acesso a uma família de LLM versátil para impulsionar ou apoiar suas iniciativas.

Embora riscos permaneçam, a diligência técnica e ética da DeepMind proporciona confiança de que os benefícios da Gemma superam seus possíveis danos. À medida que as capacidades de IA crescem cada vez mais avançadas, manter essa nuances entre abertura e cautela será crítico.

A Gemma nos leva um passo mais perto de uma IA que beneficia a humanidade como um todo. Mas muitos desafios grandiosos ainda aguardam no caminho para a inteligência artificial geral benéfica. Se os pesquisadores de IA, desenvolvedores e a sociedade em geral puderem manter o progresso colaborativo, a Gemma pode um dia ser vista como um acampamento base histórico, e não como o pico final.

Eu passei os Ășltimos cinco anos me imergindo no fascinante mundo de Aprendizado de MĂĄquina e Aprendizado Profundo. Minha paixĂŁo e expertise me levaram a contribuir para mais de 50 projetos de engenharia de software diversificados, com um foco particular em IA/ML. Minha curiosidade contĂ­nua tambĂ©m me levou em direção ao Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.