toco 5 melhores LLMs de código aberto (maio de 2024) - Unite.AI
Entre em contato
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [apelido] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [email protegido]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Sócio fundador da unite.AI e membro do Conselho de Tecnologia da Forbes, Antoine é um futurista que é apaixonado pelo futuro da IA ​​e da robótica. Ele também é o fundador da Valores Mobiliários.io, um site que foca em investir em tecnologia disruptiva. [user_avatar] => mm
)

Melhor de

5 melhores LLMs de código aberto (maio de 2024)

Atualização do on
LLMs de código aberto

No mundo em rápida evolução da inteligência artificial (IA), os Large Language Models (LLMs) surgiram como uma pedra angular, impulsionando inovações e remodelando a maneira como interagimos com a tecnologia.

À medida que esses modelos se tornam cada vez mais sofisticados, há uma ênfase crescente na democratização do acesso a eles. Os modelos de código aberto, em particular, estão desempenhando um papel fundamental nessa democratização, oferecendo a pesquisadores, desenvolvedores e entusiastas a oportunidade de se aprofundar em suas complexidades, ajustá-los para tarefas específicas ou até mesmo desenvolver suas bases.

Neste blog, exploraremos alguns dos principais LLMs de código aberto que estão agitando a comunidade de IA, cada um trazendo seus pontos fortes e recursos exclusivos para a mesa.

1. lhama 2

O Llama 2 da Meta é uma adição inovadora à sua linha de modelos de IA. Este não é apenas outro modelo; ele foi projetado para alimentar uma variedade de aplicativos de última geração. Os dados de treinamento do Llama 2 são vastos e variados, tornando-o um avanço significativo em relação ao seu antecessor. Essa diversidade no treinamento garante que o Llama 2 não seja apenas uma melhoria incremental, mas um passo monumental em direção ao futuro das interações orientadas por IA.

A colaboração entre a Meta e a Microsoft expandiu os horizontes do Llama 2. O modelo de código aberto agora é suportado em plataformas como Azure e Windows, com o objetivo de fornecer aos desenvolvedores e organizações as ferramentas para criar experiências generativas orientadas por IA. Essa parceria ressalta a dedicação de ambas as empresas em tornar a IA mais acessível e aberta a todos.

O Llama 2 não é apenas um sucessor do modelo Llama original; representa uma mudança de paradigma na arena do chatbot. Embora o primeiro modelo Llama tenha sido revolucionário na geração de texto e código, sua disponibilidade era limitada para evitar o uso indevido. O Llama 2, por outro lado, deve atingir um público mais amplo. Ele é otimizado para plataformas como AWS, Azure e a plataforma de hospedagem de modelos de IA da Hugging Face. Além disso, com a colaboração da Meta com a Microsoft, o Llama 2 está prestes a deixar sua marca não apenas no Windows, mas também em dispositivos equipados com o sistema em chip Snapdragon da Qualcomm.

A segurança está no centro do design do Llama 2. Reconhecendo os desafios enfrentados por modelos de linguagem grandes anteriores, como o GPT, que às vezes produziam conteúdo enganoso ou prejudicial, a Meta tomou medidas abrangentes para garantir a confiabilidade do Llama 2. O modelo passou por um treinamento rigoroso para minimizar 'alucinações', desinformação e preconceitos.

Principais recursos do LLaMa 2:

  • Dados de treinamento diversos: Os dados de treinamento do Llama 2 são extensos e variados, garantindo uma compreensão e desempenho abrangentes.
  • Colaboração com a Microsoft: O Llama 2 é suportado em plataformas como Azure e Windows, ampliando seu escopo de aplicação.
  • Disponibilidade aberta: Ao contrário de seu antecessor, o Llama 2 está disponível para um público mais amplo, pronto para ajustes em várias plataformas.
  • Design centrado na segurança: A Meta enfatizou a segurança, garantindo que o Llama 2 produza resultados precisos e confiáveis, minimizando resultados prejudiciais.
  • Versões otimizadas: O Llama 2 vem em duas versões principais – Llama 2 e Llama 2-Chat, sendo o último especialmente projetado para conversas bidirecionais. Essas versões variam em complexidade de 7 bilhões a 70 bilhões de parâmetros.
  • Treinamento Aprimorado: O Llama 2 foi treinado com dois milhões de tokens, um aumento significativo em relação aos 1.4 trilhão de tokens do Llama original.

2. Florescer

Em 2022, após um esforço colaborativo global envolvendo voluntários de mais de 70 países e especialistas da Hugging Face, o projeto BLOOM foi lançado. Este grande modelo de linguagem (LLM), criado através de uma iniciativa de um ano, é projetado para geração de texto autorregressivo, capaz de estender um determinado prompt de texto. Ele foi treinado em um enorme corpus de dados de texto utilizando poder computacional substancial.

A estreia do BLOOM foi um passo significativo para tornar a tecnologia de IA generativa mais acessível. Como um LLM de código aberto, possui 176 bilhões de parâmetros, o que o torna um dos mais formidáveis ​​em sua classe. BLOOM tem proficiência para gerar texto coerente e preciso em 46 linguagens e 13 linguagens de programação.

O projeto enfatiza a transparência, permitindo o acesso público ao seu código-fonte e aos dados de treinamento. Esta abertura convida ao exame, utilização e aprimoramento contínuos do modelo.

Acessível gratuitamente através da plataforma Hugging Face, o BLOOM é um testemunho da inovação colaborativa em IA.

Principais recursos do Bloom:

  • Capacidades multilíngues: O BLOOM é proficiente na geração de texto em 46 idiomas e 13 linguagens de programação, demonstrando sua ampla gama linguística.
  • Acesso de código aberto: O código-fonte do modelo e os dados de treinamento estão disponíveis publicamente, promovendo transparência e melhoria colaborativa.
  • Geração de texto autorregressivo: Projetado para continuar o texto a partir de um determinado prompt, o BLOOM é excelente em estender e completar sequências de texto.
  • Contagem massiva de parâmetros: Com 176 bilhões de parâmetros, o BLOOM se destaca como um dos LLMs de código aberto mais poderosos que existem.
  • Colaboração global: Desenvolvido através de um projeto de um ano com contribuições de voluntários de mais de 70 países e pesquisadores da Hugging Face.
  • Acessibilidade Gratuita: Os usuários podem acessar e utilizar o BLOOM gratuitamente por meio do ecossistema Hugging Face, melhorando sua democratização no campo da IA.
  • Treinamento em escala industrial: O modelo foi treinado em grandes quantidades de dados de texto utilizando recursos computacionais significativos, garantindo um desempenho robusto.

3. MPT-7B

MosaicML Foundations fez uma contribuição significativa para este espaço com a introdução do MPT-7B, seu mais recente LLM de código aberto. MPT-7B, um acrônimo para MosaicML Pretrained Transformer, é um modelo de transformador somente decodificador no estilo GPT. Este modelo possui vários aprimoramentos, incluindo implementações de camada otimizada para desempenho e mudanças arquitetônicas que garantem maior estabilidade de treinamento.

Um recurso de destaque do MPT-7B é seu treinamento em um extenso conjunto de dados que compreende 1 trilhão de tokens de texto e código. Esse treinamento rigoroso foi executado na plataforma MosaicML durante um período de 9.5 dias.

A natureza de código aberto do MPT-7B o posiciona como uma ferramenta valiosa para aplicações comerciais. Ele tem o potencial de impactar significativamente a análise preditiva e os processos de tomada de decisão de empresas e organizações.

Além do modelo básico, o MosaicML Foundations também está lançando modelos especializados adaptados para tarefas específicas, como MPT-7B-Instruct para instruções curtas, MPT-7B-Chat para geração de diálogos e MPT-7B-StoryWriter-65k+ para a criação de histórias de formato longo.

A jornada de desenvolvimento do MPT-7B foi abrangente, com a equipe MosaicML gerenciando todos os estágios, desde a preparação dos dados até a implantação em algumas semanas. Os dados foram obtidos de diversos repositórios, e a equipe utilizou ferramentas como o GPT-NeoX da EleutherAI e o tokenizer 20B para garantir um mix de treinamento variado e abrangente.

Visão geral dos principais recursos do MPT-7B:

  • Licenciamento Comercial: O MPT-7B é licenciado para uso comercial, tornando-o um recurso valioso para as empresas.
  • Dados de treinamento extensivos: O modelo possui treinamento em um vasto conjunto de dados de 1 trilhão de tokens.
  • Manipulação de entrada longa: O MPT-7B foi projetado para processar entradas extremamente longas sem comprometer.
  • Velocidade e eficiência: O modelo é otimizado para treinamento e inferência rápidos, garantindo resultados oportunos.
  • Código-fonte aberto: O MPT-7B vem com código de treinamento de código aberto eficiente, promovendo transparência e facilidade de uso.
  • Excelência comparativa: O MPT-7B demonstrou superioridade em relação a outros modelos de código aberto na faixa 7B-20B, com qualidade equivalente à do LLaMA-7B.

4. falcão

Falcon LLM, é um modelo que ascendeu rapidamente ao topo da hierarquia LLM. O Falcon LLM, especificamente o Falcon-40B, é um LLM fundamental equipado com 40 bilhões de parâmetros e foi treinado em um impressionante trilhão de tokens. Ele opera como um modelo somente decodificador autorregressivo, o que significa essencialmente que ele prevê o token subsequente em uma sequência baseada nos tokens anteriores. Essa arquitetura é uma reminiscência do modelo GPT. Notavelmente, a arquitetura do Falcon demonstrou desempenho superior ao GPT-3, alcançando esse feito com apenas 75% do orçamento de computação de treinamento e exigindo significativamente menos computação durante a inferência.

A equipe do Instituto de Inovação Tecnológica deu grande ênfase à qualidade dos dados durante o desenvolvimento do Falcon. Reconhecendo a sensibilidade dos LLMs para a qualidade dos dados de treinamento, eles construíram um pipeline de dados que foi dimensionado para dezenas de milhares de núcleos de CPU. Isso permitiu um processamento rápido e a extração de conteúdo de alta qualidade da Web, obtido por meio de processos extensos de filtragem e desduplicação.

Além do Falcon-40B, a TII também introduziu outras versões, incluindo o Falcon-7B, que possui 7 bilhões de parâmetros e foi treinado em 1,500 bilhões de tokens. Existem também modelos especializados como Falcon-40B-Instruct e Falcon-7B-Instruct, adaptados para tarefas específicas.

O treinamento do Falcon-40B foi um processo extenso. O modelo foi treinado no conjunto de dados RefinedWeb, um enorme conjunto de dados da Web em inglês construído pela TII. Esse conjunto de dados foi construído sobre o CommonCrawl e passou por uma filtragem rigorosa para garantir a qualidade. Depois que o modelo foi preparado, ele foi validado em relação a vários benchmarks de código aberto, incluindo EAI Harness, HELM e BigBench.

Visão geral dos principais recursos do Falcon LLM:

  • Parâmetros Extensos: O Falcon-40B está equipado com 40 bilhões de parâmetros, garantindo aprendizado e desempenho abrangentes.
  • Modelo somente de decodificador autorregressivo: Essa arquitetura permite que o Falcon preveja tokens subsequentes com base nos anteriores, semelhante ao modelo GPT.
  • Performance superior: O Falcon supera o GPT-3 enquanto utiliza apenas 75% do orçamento de computação de treinamento.
  • Pipeline de dados de alta qualidade: O pipeline de dados do TII garante a extração de conteúdo de alta qualidade da web, crucial para o treinamento do modelo.
  • Variedade de modelos: Além do Falcon-40B, a TII oferece o Falcon-7B e modelos especializados como Falcon-40B-Instruct e Falcon-7B-Instruct.
  • Disponibilidade de código aberto: O Falcon LLM tem código aberto, promovendo acessibilidade e inclusão no domínio da IA.

5. Vicunha-13B

A LMSYS ORG deixou uma marca significativa no campo dos LLMs de código aberto com a introdução do Vicuna-13B. Este chatbot de código aberto foi meticulosamente treinado pelo ajuste fino do LLaMA em conversas compartilhadas pelo usuário provenientes do ShareGPT. Avaliações preliminares, com o GPT-4 atuando como juiz, indicam que o Vicuna-13B atinge mais de 90% de qualidade em modelos renomados como OpenAI ChatGPT e Google Bard.

Impressionantemente, o Vicuna-13B supera outros modelos notáveis, como LLaMA e Stanford Alpaca em mais de 90% dos casos. Todo o processo de treinamento do Vicuna-13B foi executado a um custo de aproximadamente US$ 300. Para os interessados ​​em explorar seus recursos, o código, os pesos e uma demonstração online foram disponibilizados publicamente para fins não comerciais.

O modelo Vicuna-13B foi ajustado com 70 mil conversas ChatGPT compartilhadas pelo usuário, permitindo gerar respostas mais detalhadas e bem estruturadas. A qualidade dessas respostas é comparável ao ChatGPT. Avaliar chatbots, no entanto, é um empreendimento complexo. Com os avanços no GPT-4, há uma curiosidade crescente sobre seu potencial para servir como uma estrutura de avaliação automatizada para geração de referência e avaliações de desempenho. As descobertas iniciais sugerem que o GPT-4 pode produzir classificações consistentes e avaliações detalhadas ao comparar as respostas do chatbot. Avaliações preliminares baseadas no GPT-4 mostram que o Vicuna atinge 90% da capacidade de modelos como Bard/ChatGPT.

Visão geral dos principais recursos do Vicuna-13B:

  • Natureza de código aberto: A Vicunha-13B está disponível para acesso público, promovendo a transparência e o envolvimento da comunidade.
  • Dados de treinamento extensivos: O modelo foi treinado em 70 mil conversas compartilhadas por usuários, garantindo uma compreensão abrangente de diversas interações.
  • Desempenho Competitivo: O desempenho do Vicuna-13B está no mesmo nível dos líderes da indústria, como ChatGPT e Google Bard.
  • Treinamento econômico: Todo o processo de treinamento do Vicuna-13B foi executado a um custo baixo de cerca de US$ 300.
  • Ajuste fino no LLaMA: O modelo foi ajustado no LLaMA, garantindo melhor desempenho e qualidade de resposta.
  • Disponibilidade de Demonstração Online: Uma demonstração on-line interativa está disponível para os usuários testarem e experimentarem os recursos do Vicuna-13B.

O domínio em expansão de grandes modelos de linguagem

O domínio dos Large Language Models é vasto e está em constante expansão, com cada novo modelo ultrapassando os limites do que é possível. A natureza de código aberto dos LLMs discutidos neste blog não apenas mostra o espírito colaborativo da comunidade de IA, mas também abre caminho para futuras inovações.

Esses modelos, desde os impressionantes recursos de chatbot da Vicuna até as métricas de desempenho superior do Falcon, representam o auge da tecnologia LLM atual. À medida que continuamos a testemunhar rápidos avanços nesse campo, fica claro que os modelos de código aberto desempenharão um papel crucial na formação do futuro da IA.

Seja você um pesquisador experiente, um entusiasta de IA iniciante ou alguém curioso sobre o potencial desses modelos, não há melhor momento para mergulhar e explorar as vastas possibilidades que eles oferecem.

Alex McFarland é um jornalista e escritor de IA que explora os mais recentes desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups e publicações de IA em todo o mundo.

Sócio fundador da unite.AI e membro do Conselho de Tecnologia da Forbes, Antoine é um futurista que é apaixonado pelo futuro da IA ​​e da robótica.

Ele também é o fundador da Valores Mobiliários.io, um site que foca em investir em tecnologia disruptiva.