Inteligência artificial

Gemma: Google trazendo recursos avançados de IA por meio de código aberto

Publicado

meses 2 atrás

29 de fevereiro de 2024

O campo da inteligência artificial (IA) tem visto um imenso progresso nos últimos anos, em grande parte impulsionado por avanços na deep learning e processamento de linguagem natural (PNL). Na vanguarda desses avanços estão grandes modelos de linguagem (LLMs) – Sistemas de IA treinados em grandes quantidades de dados de texto que podem gerar texto semelhante ao humano e participar de tarefas de conversação.

LLMs como PaLM do Google, Claude da Anthropic e Gopher da DeepMind demonstraram capacidades notáveis, desde a codificação até o raciocínio de bom senso. No entanto, a maioria destes modelos não foi divulgada abertamente, limitando o seu acesso para investigação, desenvolvimento e aplicações benéficas.

Isso mudou com o recente código aberto do Gemma – uma família de LLMs da DeepMind do Google baseada em seus poderosos modelos proprietários Gemini. Nesta postagem do blog, vamos nos aprofundar no Gemma, analisando sua arquitetura, processo de treinamento, desempenho e liberação responsável.

Visão geral de Gema

Em fevereiro de 2023, DeepMind aberto dois tamanhos de modelos Gemma – uma versão de 2 bilhões de parâmetros otimizada para implantação no dispositivo e uma versão maior de 7 bilhões de parâmetros projetada para uso de GPU/TPU.

Gemma aproveita uma arquitetura baseada em transformador e metodologia de treinamento semelhantes aos modelos Gemini líderes da DeepMind. Ele foi treinado em até 6 trilhões de tokens de texto de documentos da web, matemática e código.

A DeepMind lançou pontos de verificação pré-treinados brutos do Gemma, bem como versões ajustadas com aprendizado supervisionado e feedback humano para recursos aprimorados em áreas como diálogo, seguimento de instruções e codificação.

Primeiros passos com Gemma

O lançamento aberto do Gemma torna seus recursos avançados de IA acessíveis a desenvolvedores, pesquisadores e entusiastas. Aqui está um guia rápido para começar:

Implantação independente de plataforma

Um ponto forte do Gemma é sua flexibilidade – você pode executá-lo em CPUs, GPUs ou TPUs. Para CPU, aproveite os transformadores TensorFlow Lite ou HuggingFace. Para desempenho acelerado em GPU/TPU, use o TensorFlow. Serviços em nuvem como o Vertex AI do Google Cloud também fornecem escalonamento contínuo.

Acesse modelos pré-treinados

Gemma vem em diferentes variantes pré-treinadas, dependendo de suas necessidades. Os modelos 2B e 7B oferecem fortes capacidades generativas prontas para uso. Para ajuste fino personalizado, os modelos 2B-FT e 7B-FT são pontos de partida ideais.

Crie aplicativos interessantes

Você pode construir uma ampla gama de aplicativos com Gemma, como geração de histórias, tradução de idiomas, resposta a perguntas e produção de conteúdo criativo. O segredo é aproveitar os pontos fortes do Gemma por meio do ajuste fino de seus próprios conjuntos de dados.

Arquitetura

Gemma utiliza uma arquitetura de transformador somente decodificador, com base em avanços como atenção multi-consulta e incorporações posicionais rotativas:

Transformadores: Introduzida em 2017, a arquitetura transformadora baseada exclusivamente em mecanismos de atenção tornou-se onipresente na PNL. Gemma herda a capacidade do transformador de modelar dependências de longo alcance em texto.
Somente decodificador: Gemma usa apenas uma pilha de decodificador de transformador, ao contrário de modelos codificador-decodificador como BART ou T5. Isso fornece fortes recursos geradores para tarefas como geração de texto.
Atenção multi-consulta: Gemma emprega atenção de múltiplas consultas em seu modelo maior, permitindo que cada cabeça de atenção processe múltiplas consultas em paralelo para uma inferência mais rápida.
Incorporações posicionais rotativas: Gemma representa informações posicionais usando incorporações rotativas em vez de codificações de posição absoluta. Esta técnica reduz o tamanho do modelo enquanto retém informações de posição.

O uso de técnicas como atenção multiconsulta e incorporações posicionais rotativas permitem que os modelos Gemma alcancem uma compensação ideal entre desempenho, velocidade de inferência e tamanho do modelo.

Processo de dados e treinamento

Gemma foi treinada em até 6 trilhões de tokens de dados de texto, principalmente em inglês. Isso incluía documentos da web, texto matemático e código-fonte. A DeepMind investiu esforços significativos na filtragem de dados, removendo conteúdo tóxico ou prejudicial usando classificadores e heurísticas.

O treinamento foi realizado usando a infraestrutura TPUv5 do Google, com até 4096 TPUs usadas para treinar o Gemma-7B. Técnicas eficientes de modelo e paralelismo de dados permitiram treinar modelos massivos com hardware comum.

Foi utilizado treinamento em etapas, ajustando continuamente a distribuição dos dados para focar em textos relevantes e de alta qualidade. Os estágios finais de ajuste fino usaram uma mistura de exemplos de seguimento de instruções gerados por humanos e sintéticos para aprimorar as capacidades.

Desempenho do modelo

A DeepMind avaliou rigorosamente os modelos Gemma em um amplo conjunto de mais de 25 benchmarks abrangendo resposta a perguntas, raciocínio, matemática, codificação, bom senso e capacidades de diálogo.

Gemma alcança resultados de última geração em comparação com modelos de código aberto de tamanho semelhante na maioria dos benchmarks. Alguns destaques:

Matemática: Gemma se destaca em testes de raciocínio matemático como GSM8K e MATH, superando modelos como Codex e Claude da Anthropic em mais de 10 pontos.
Codificação: Gemma iguala ou excede o desempenho do Codex em benchmarks de programação como MBPP, apesar de não ter sido especificamente treinado em código.
Diálogo: Gemma demonstra forte capacidade de conversação com taxa de vitória de 51.7% sobre o Mistral-7B da Anthropic em testes de preferência humana.
Raciocínio: Em tarefas que exigem inferência como ARC e Winogrande, Gemma supera outros modelos 7B em 5 a 10 pontos.

A versatilidade da Gemma entre disciplinas demonstra suas fortes capacidades de inteligência geral. Embora ainda existam lacunas no desempenho em nível humano, Gemma representa um salto em frente na PNL de código aberto.

Segurança e Responsabilidade

A liberação de pesos de código aberto de grandes modelos apresenta desafios em torno do uso indevido intencional e preconceitos inerentes ao modelo. A DeepMind tomou medidas para mitigar os riscos:

Filtragem de dados: Texto potencialmente tóxico, ilegal ou tendencioso foi removido dos dados de treinamento usando classificadores e heurísticas.
Avaliações: Gemma foi testada em mais de 30 benchmarks selecionados para avaliar segurança, imparcialidade e robustez. Ele igualou ou superou outros modelos.
Afinação: O ajuste fino do modelo focou na melhoria das capacidades de segurança, como filtragem de informações e comportamentos apropriados de cobertura/recusa.
Termos de uso: Os termos de uso proíbem aplicações ofensivas, ilegais ou antiéticas dos modelos Gemma. No entanto, a aplicação continua a ser um desafio.
Cartões de modelo: Cartões detalhando as capacidades, limitações e preconceitos do modelo foram lançados para promover a transparência.

Embora existam riscos de código aberto, a DeepMind determinou que o lançamento de Gemma oferece benefícios sociais líquidos com base em seu perfil de segurança e na capacitação de pesquisas. No entanto, a monitorização vigilante dos potenciais danos continuará a ser crítica.

Habilitando a próxima onda de inovação em IA

Lançar Gemma como uma família de modelos de código aberto significa desbloquear o progresso em toda a comunidade de IA:

Acessibilidade: Gemma reduz as barreiras para as organizações construírem com PNL de ponta, que anteriormente enfrentavam altos custos de computação/dados para treinar seus próprios LLMs.
Novas aplicações: Ao abrir o código-fonte de pontos de verificação pré-treinados e ajustados, a DeepMind permite o desenvolvimento mais fácil de aplicativos benéficos em áreas como educação, ciência e acessibilidade.
Personalização: Os desenvolvedores podem personalizar ainda mais o Gemma para aplicativos específicos do setor ou de domínio por meio de treinamento contínuo em dados proprietários.
Pesquisa: Modelos abertos como o Gemma promovem maior transparência e auditoria dos sistemas atuais de PNL, iluminando direções futuras de pesquisas.
inovação: A disponibilidade de modelos de base fortes, como o Gemma, acelerará o progresso em áreas como mitigação de preconceitos, factualidade e segurança da IA.

Ao fornecer os recursos da Gemma a todos por meio de código aberto, a DeepMind espera estimular o desenvolvimento responsável da IA para o bem social.

A estrada adiante

A cada salto na IA, aproximamo-nos de modelos que rivalizam ou excedem a inteligência humana em todos os domínios. Sistemas como o Gemma sublinham como os rápidos avanços nos modelos auto-supervisionados estão a desbloquear capacidades cognitivas cada vez mais avançadas.

No entanto, ainda há trabalho para melhorar a fiabilidade, interpretabilidade e controlabilidade da IA – áreas onde a inteligência humana ainda reina suprema. Domínios como a matemática destacam essas lacunas persistentes, com Gemma pontuando 64% no MMLU em comparação com o desempenho humano estimado de 89%.

Colmatar estas lacunas e garantir simultaneamente a segurança e a ética de sistemas de IA cada vez mais capazes serão os desafios centrais nos próximos anos. Encontrar o equilíbrio certo entre abertura e cautela será fundamental, uma vez que a DeepMind pretende democratizar o acesso aos benefícios da IA, ao mesmo tempo que gere os riscos emergentes.

Iniciativas para promover a segurança da IA – como a ANC de Dario Amodei, a equipe de Ética e Sociedade da DeepMind e a IA Constitucional da Anthropic – sinalizam um reconhecimento crescente dessa necessidade de nuances. Um progresso significativo exigirá um diálogo aberto e baseado em evidências entre investigadores, promotores, decisores políticos e o público.

Se navegado de forma responsável, Gemma representa não o ápice da IA, mas um acampamento base para a próxima geração de pesquisadores de IA seguindo os passos da DeepMind em direção à inteligência artificial geral justa e benéfica.

Conclusão

O lançamento dos modelos Gemma pela DeepMind significa uma nova era para IA de código aberto – uma que transcende benchmarks estreitos para capacidades de inteligência generalizadas. Testado extensivamente quanto à segurança e amplamente acessível, Gemma estabelece um novo padrão para código aberto responsável em IA.

Impulsionado por um espírito competitivo temperado com valores cooperativos, compartilhar inovações como Gemma eleva todos os barcos no ecossistema de IA. Toda a comunidade agora tem acesso a uma família versátil de LLM para impulsionar ou apoiar suas iniciativas.

Embora os riscos permaneçam, a diligência técnica e ética da DeepMind proporciona a confiança de que os benefícios da Gemma superam os seus potenciais danos. À medida que as capacidades de IA se tornam cada vez mais avançadas, será fundamental manter esta nuance entre abertura e cautela.

Gemma nos leva um passo mais perto da IA que beneficia toda a humanidade. Mas muitos grandes desafios ainda aguardam no caminho para uma inteligência artificial geral benevolente. Se os investigadores de IA, os programadores e a sociedade em geral conseguirem manter o progresso colaborativo, o Gemma poderá um dia ser visto como um acampamento base histórico, e não como a cimeira final.

Tópicos relacionados:DeepMind jóia LLM

A seguir

IA em Marketing: Insights da Conferência MWC

Não Perca

As vulnerabilidades e ameaças à segurança enfrentadas por grandes modelos de linguagem

Aayush Mittal

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.