Connect with us

Inteligência artificial

Google Apresenta Gemma 2: Elevando o Desempenho, Velocidade e Acessibilidade do AI para Desenvolvedores

mm

O Google lançou Gemma 2, a última iteração de seus modelos de linguagem leves de código aberto, disponíveis em tamanhos de parâmetro de 9 bilhões (9B) e 27 bilhões (27B). Esta nova versão promete desempenho aprimorado e inferência mais rápida em comparação com seu antecessor, o modelo Gemma. Gemma 2, derivado dos modelos Gemini do Google, é projetado para ser mais acessível para pesquisadores e desenvolvedores, oferecendo melhorias substanciais em velocidade e eficiência. Ao contrário dos modelos multimodais e multilíngues Gemini, Gemma 2 se concentra exclusivamente no processamento de linguagem. Neste artigo, vamos explorar os recursos e avanços notáveis de Gemma 2, comparando-o com seus antecessores e concorrentes no campo, destacando seus casos de uso e desafios.

Construindo Gemma 2

Assim como seu antecessor, os modelos Gemma 2 são baseados em uma arquitetura de transformador apenas decodificador. A variante de 27B é treinada em 13 trilhões de tokens de dados principalmente em inglês, enquanto o modelo de 9B usa 8 trilhões de tokens, e o modelo de 2,6B é treinado em 2 trilhões de tokens. Esses tokens vêm de uma variedade de fontes, incluindo documentos da web, código e artigos científicos. O modelo usa o mesmo tokenizador que Gemma 1 e Gemini, garantindo consistência no processamento de dados.

Gemma 2 é pré-treinado usando um método chamado destilação de conhecimento, onde ele aprende com as probabilidades de saída de um modelo pré-treinado maior. Após o treinamento inicial, os modelos são ajustados finamente por meio de um processo chamado ajuste de instrução. Isso começa com ajuste fino supervisionado (SFT) em uma mistura de pares de prompt-resposta de texto sintético e gerado por humanos. Em seguida, aprendizado por reforço com feedback humano (RLHF) é aplicado para melhorar o desempenho geral

Gemma 2: Desempenho e Eficiência Aprimorados em Diversos Hardwares

Gemma 2 não apenas supera Gemma 1 em desempenho, mas também compete efetivamente com modelos duas vezes maior. Ele é projetado para operar de forma eficiente em vários conjuntos de hardware, incluindo laptops, desktops, dispositivos IoT e plataformas móveis. Especificamente otimizado para GPUs e TPUs únicas, Gemma 2 melhora a eficiência de seu antecessor, especialmente em dispositivos com recursos limitados. Por exemplo, o modelo de 27B se destaca ao executar inferência em uma única GPU NVIDIA H100 Tensor Core ou host TPU, tornando-se uma opção rentável para desenvolvedores que precisam de alto desempenho sem investir pesadamente em hardware.

Além disso, Gemma 2 oferece aos desenvolvedores capacidades de ajuste aprimoradas em uma ampla gama de plataformas e ferramentas. Seja usando soluções baseadas em nuvem como Google Cloud ou plataformas populares como Axolotl, Gemma 2 fornece opções de ajuste extensivas. A integração com plataformas como Hugging Face, NVIDIA TensorRT-LLM e Google’s JAX e Keras permite que pesquisadores e desenvolvedores atinjam desempenho ótimo e implantação eficiente em configurações de hardware diversificadas.

Gemma 2 vs. Llama 3 70B

Quando comparado a Llama 3 70B, ambos os modelos se destacam na categoria de modelos de linguagem de código aberto. Pesquisadores do Google afirmam que Gemma 2 27B entrega desempenho comparável a Llama 3 70B, apesar de ser muito menor em tamanho. Além disso, Gemma 2 9B consistentemente supera Llama 3 8B em vários benchmarks, como compreensão de linguagem, codificação e resolução de problemas matemáticos.

Uma vantagem notável de Gemma 2 sobre o Llama 3 da Meta é seu tratamento de línguas indígenas. Gemma 2 se destaca devido ao seu tokenizador, que é projetado especificamente para essas línguas e inclui um grande vocabulário de 256k tokens para capturar nuances linguísticas. Por outro lado, Llama 3, apesar de suportar muitas línguas, luta com a tokenização para scripts indígenas devido à limitada vocabulário e dados de treinamento. Isso dá a Gemma 2 uma vantagem em tarefas que envolvem línguas indígenas, tornando-a uma melhor escolha para desenvolvedores e pesquisadores que trabalham nessas áreas.

Casos de Uso

Com base nas características específicas do modelo Gemma 2 e seu desempenho em benchmarks, identificamos alguns casos de uso práticos para o modelo.

  • Assistentes Multilíngues: O tokenizador especializado de Gemma 2 para várias línguas, especialmente línguas indígenas, torna-o uma ferramenta eficaz para desenvolver assistentes multilíngues personalizados para esses usuários de língua. Seja procurando informações em hindi, criando materiais educacionais em urdu, conteúdo de marketing em árabe ou artigos de pesquisa em bengali, Gemma 2 empodera os criadores com ferramentas de geração de linguagem eficazes. Um exemplo real desse caso de uso é Navarasa, um assistente multilíngue construído em Gemma que suporta nove línguas indianas. Os usuários podem produzir facilmente conteúdo que ressoa com audiências regionais, seguindo normas e nuances linguísticas específicas.
  • Ferramentas Educacionais: Com sua capacidade de resolver problemas matemáticos e entender consultas de linguagem complexas, Gemma 2 pode ser usado para criar sistemas de tutoria inteligentes e aplicativos educacionais que fornecem experiências de aprendizado personalizadas.
  • Codificação e Assistência de Código: A proficiência de Gemma 2 em benchmarks de codificação indica seu potencial como uma ferramenta poderosa para geração de código, detecção de bugs e revisões de código automatizadas. Sua capacidade de se sair bem em dispositivos com recursos limitados permite que os desenvolvedores o integrem sem esforço em seus ambientes de desenvolvimento.
  • Geração Aumentada de Recuperação (RAG): O desempenho forte de Gemma 2 em benchmarks de inferência baseada em texto o torna adequado para o desenvolvimento de sistemas RAG em vários domínios. Ele suporta aplicações de saúde ao sintetizar informações clínicas, assiste sistemas de IA jurídicos a fornecer conselhos jurídicos, permite o desenvolvimento de chatbots inteligentes para suporte ao cliente e facilita a criação de ferramentas de educação personalizadas.

Limitações e Desafios

Embora Gemma 2 apresente avanços notáveis, ele também enfrenta limitações e desafios, principalmente relacionados à qualidade e diversidade de seus dados de treinamento. Apesar de seu tokenizador suportar várias línguas, Gemma 2 carece de treinamento específico para capacidades multilíngues e requer ajuste fino para lidar efetivamente com outras línguas. O modelo se sai bem com prompts claros e estruturados, mas luta com tarefas abertas ou complexas e nuances linguísticas sutis, como sarcasmo ou expressões figurativas. Sua precisão factual não é sempre confiável, podendo produzir informações desatualizadas ou incorretas, e pode carecer de raciocínio de senso comum em certos contextos. Embora esforços tenham sido feitos para abordar alucinações, especialmente em áreas sensíveis como medicina ou CBRN, ainda há o risco de gerar informações imprecisas em domínios menos refinados, como finanças. Além disso, apesar dos controles para prevenir a geração de conteúdo antiético, como discurso de ódio ou ameaças de cibersegurança, há riscos contínuos de mau uso em outros domínios. Por fim, Gemma 2 é exclusivamente baseado em texto e não suporta processamento de dados multimodais.

O Resumo

Gemma 2 introduz avanços notáveis em modelos de linguagem de código aberto, aprimorando o desempenho e a velocidade de inferência em comparação com seu antecessor. Ele é adequado para vários conjuntos de hardware, tornando-o acessível sem investimentos significativos em hardware. No entanto, desafios persistem no tratamento de tarefas linguísticas nuances e na garantia de precisão em cenários complexos. Embora seja benéfico para aplicações como conselhos jurídicos e ferramentas educacionais, os desenvolvedores devem estar cientes de suas limitações em capacidades multilíngues e possíveis problemas com precisão factual em contextos sensíveis. Apesar dessas considerações, Gemma 2 permanece como uma opção valiosa para desenvolvedores que buscam soluções de processamento de linguagem confiáveis.

O Dr. Tehseen Zia é um Professor Associado com Estabilidade no COMSATS University Islamabad, com um PhD em IA pela Vienna University of Technology, Áustria. Especializando-se em Inteligência Artificial, Aprendizado de Máquina, Ciência de Dados e Visão Computacional, ele fez contribuições significativas com publicações em jornais científicos renomados. O Dr. Tehseen também liderou vários projetos industriais como Investigador Principal e atuou como Consultor de IA.