Connect with us

Inteligência artificial

Dentro do DBRX: Databricks Libera um Poderoso LLM de Código Aberto

mm
DBRX: A New State-of-the-Art Open LLM

No campo em rápida evolução dos grandes modelos de linguagem (LLMs), um novo modelo poderoso surgiu – DBRX, um modelo de código aberto criado pela Databricks. Este LLM está fazendo ondas com seu desempenho de última geração em uma ampla gama de benchmarks, rivalizando até as capacidades de gigantes da indústria como o GPT-4 da OpenAI.

DBRX representa um marco significativo na democratização da inteligência artificial, fornecendo aos pesquisadores, desenvolvedores e empresas acesso aberto a um modelo de linguagem de ponta. Mas o que exatamente é DBRX, e o que o torna tão especial? Nesta análise técnica aprofundada, exploraremos a arquitetura inovadora, o processo de treinamento e as principais capacidades que impulsionaram DBRX ao topo do cenário de LLMs de código aberto.

O Nascimento de DBRX A criação de DBRX foi impulsionada pela missão da Databricks de tornar a inteligência de dados acessível a todas as empresas. Como líder em plataformas de análise de dados, a Databricks reconheceu o imenso potencial dos LLMs e se esforçou para desenvolver um modelo que pudesse igualar ou até superar o desempenho de ofertas proprietárias.

Após meses de intensa pesquisa, desenvolvimento e um investimento de vários milhões de dólares, a equipe da Databricks alcançou uma conquista com DBRX. O desempenho impressionante do modelo em uma ampla gama de benchmarks, incluindo compreensão de linguagem, programação e matemática, estabeleceu firmemente como um novo estado da arte em LLMs de código aberto.

Arquitetura Inovadora

O Poder da Mistura de Especialistas No cerne do desempenho excepcional de DBRX está sua inovadora arquitetura de mistura de especialistas (MoE). Este design de ponta representa uma mudança em relação aos modelos densos tradicionais, adotando uma abordagem esparsa que melhora tanto a eficiência de pré-treinamento quanto a velocidade de inferência.

No quadro de MoE, apenas um grupo selecionado de componentes, chamados de “especialistas”, são ativados para cada entrada. Esta especialização permite que o modelo aborde uma ampla gama de tarefas com maior habilidade, ao mesmo tempo em que otimiza os recursos computacionais.

DBRX leva este conceito ainda mais longe com sua arquitetura MoE de granulação fina. Ao contrário de alguns outros modelos MoE que usam um número menor de especialistas maiores, DBRX emprega 16 especialistas, com quatro especialistas ativos para cada entrada. Este design fornece uma combinação de especialistas possíveis 65 vezes maior, contribuindo diretamente para o desempenho superior de DBRX.

DBRX se diferencia com várias características inovadoras:

  • Codificações de Posição Rotativas (RoPE): Melhora a compreensão das posições de token, crucial para gerar texto contextualmente preciso.
  • Unidades Lineares com Porta (GLU): Introduz um mecanismo de porta que melhora a capacidade do modelo de aprender padrões complexos de forma mais eficiente.
  • Atenção de Consulta Agrupada (GQA): Melhora a eficiência do modelo otimizando o mecanismo de atenção.
  • Tokenização Avançada: Utiliza o tokenizer do GPT-4 para processar entradas de forma mais eficaz.

A arquitetura MoE é particularmente adequada para grandes modelos de linguagem, pois permite uma escalabilidade mais eficiente e melhor utilização dos recursos computacionais. Ao distribuir o processo de aprendizado por várias sub-redes especializadas, DBRX pode alocar efetivamente dados e poder computacional para cada tarefa, garantindo tanto saída de alta qualidade quanto eficiência ótima.

Dados de Treinamento Extensivos e Otimização Eficiente Embora a arquitetura de DBRX seja impressionante, seu verdadeiro poder reside no processo de treinamento meticuloso e na vasta quantidade de dados a que foi exposto. DBRX foi pré-treinado em um total de 12 trilhões de tokens de texto e dados de código, cuidadosamente curados para garantir alta qualidade e diversidade.

Os dados de treinamento foram processados usando a suíte de ferramentas da Databricks, incluindo Apache Spark para processamento de dados, Unity Catalog para gerenciamento e governança de dados e MLflow para acompanhamento de experimentos. Esta suíte de ferramentas abrangente permitiu que a equipe da Databricks gerenciasse, explorasse e aprimorasse efetivamente o conjunto de dados maciço, estabelecendo as bases para o desempenho excepcional de DBRX.

Para aprimorar ainda mais as capacidades do modelo, a Databricks empregou um currículo de pré-treinamento dinâmico, variando inovadoramente a mistura de dados durante o treinamento. Esta estratégia permitiu que cada token fosse processado de forma eficaz usando os 36 bilhões de parâmetros ativos, resultando em um modelo mais completo e adaptável.

Além disso, o processo de treinamento de DBRX foi otimizado para eficiência, aproveitando a suíte de ferramentas e bibliotecas proprietárias da Databricks, incluindo Composer, LLM Foundry, MegaBlocks e Streaming. Ao empregar técnicas como aprendizado de currículo e estratégias de otimização otimizadas, a equipe alcançou uma melhoria de quase quatro vezes na eficiência computacional em comparação com os modelos anteriores.

Treinamento e Arquitetura

DBRX foi treinado usando um modelo de previsão de token em um conjunto de dados colossal de 12 trilhões de tokens, enfatizando tanto texto quanto código. Este conjunto de treinamento é considerado significativamente mais eficaz do que os usados em modelos anteriores, garantindo uma compreensão rica e capacidade de resposta em prompts variados.

A arquitetura de DBRX não é apenas um testemunho da habilidade técnica da Databricks, mas também destaca sua aplicação em vários setores. Desde melhorar interações de chatbot até impulsionar tarefas complexas de análise de dados, DBRX pode ser integrado em campos diversos que exigem compreensão de linguagem sutil.

Notavelmente, DBRX Instruct rivaliza alguns dos modelos fechados mais avançados do mercado. De acordo com as medições da Databricks, ele supera o GPT-3.5 e é competitivo com o Gemini 1.0 Pro e o Mistral Medium em vários benchmarks, incluindo conhecimento geral, raciocínio de senso comum, programação e raciocínio matemático.

Por exemplo, no benchmark MMLU, que mede a compreensão de linguagem, DBRX Instruct alcançou uma pontuação de 73,7%, superando a pontuação relatada do GPT-3.5 de 70,0%. No benchmark HellaSwag de raciocínio de senso comum, DBRX Instruct marcou um impressionante 89,0%, superando os 85,5% do GPT-3.5.

DBRX Instruct realmente brilha, alcançando uma precisão notável de 70,1% no benchmark HumanEval, superando não apenas o GPT-3.5 (48,1%), mas também o modelo CodeLLaMA-70B Instruct especializado (67,8%).

Esses resultados excepcionais destacam a versatilidade de DBRX e sua capacidade de excelar em uma ampla gama de tarefas, desde compreensão de linguagem natural até resolução de problemas de programação e matemática complexos.

Inferência Eficiente e Escalabilidade Uma das principais vantagens da arquitetura MoE de DBRX é sua eficiência durante a inferência. Graças à ativação esparsa de parâmetros, DBRX pode alcançar uma taxa de inferência que é até duas a três vezes mais rápida do que modelos densos com a mesma contagem total de parâmetros.

Em comparação com o LLaMA2-70B, um popular LLM de código aberto, DBRX não apenas demonstra maior qualidade, mas também possui quase o dobro da velocidade de inferência, apesar de ter cerca da metade dos parâmetros ativos. Essa eficiência torna DBRX uma escolha atraente para implantação em uma ampla gama de aplicações, desde criação de conteúdo até análise de dados e além.

Além disso, a Databricks desenvolveu uma pilha de treinamento robusta que permite que as empresas treinem seus próprios modelos da classe DBRX do zero ou continuem treinando a partir dos pontos de verificação fornecidos. Essa capacidade empodera os negócios a aproveitar todo o potencial de DBRX e adaptá-lo às suas necessidades específicas, promovendo ainda mais o acesso democrático à tecnologia LLM de ponta.

Acessibilidade e Integrações

Em linha com sua missão de promover o acesso aberto à IA, a Databricks tornou DBRX disponível por meio de vários canais. Os pesos do modelo base (DBRX Base) e do modelo ajustado (DBRX Instruct) estão hospedados na popular plataforma Hugging Face, permitindo que pesquisadores e desenvolvedores baixem e trabalhem facilmente com o modelo.

Além disso, o repositório do modelo DBRX está disponível no GitHub, fornecendo transparência e permitindo uma exploração e personalização adicionais do código do modelo.

taxa de inferência para várias configurações de modelo em nossa infraestrutura de serviço otimizada usando NVIDIA TensorRT-LLM em precisão de 16 bits com as melhores flags de otimização que pudemos encontrar.

Para os clientes da Databricks, DBRX Base e DBRX Instruct estão convenientemente acessíveis por meio das APIs de Modelo de Fundação da Databricks, permitindo uma integração sem esforço em fluxos de trabalho e aplicações existentes. Isso não apenas simplifica o processo de implantação, mas também garante governança e segurança de dados para casos de uso sensíveis.

Além disso, DBRX já foi integrado a várias plataformas e serviços de terceiros, como You.com e Perplexity Labs, expandindo seu alcance e aplicações potenciais. Essas integrações demonstram o crescente interesse em DBRX e suas capacidades, bem como a adoção crescente de LLMs de código aberto em vários setores e casos de uso.

Capacidades de Contexto Longo e Geração Aumentada por Recuperação Uma das características de destaque de DBRX é sua capacidade de lidar com entradas de contexto longo, com um comprimento de contexto máximo de 32.768 tokens. Essa capacidade permite que o modelo processe e gere texto com base em informações contextuais extensas, tornando-o adequado para tarefas como resumo de documentos, resposta a perguntas e recuperação de informações.

Em benchmarks que avaliam o desempenho de contexto longo, como KV-Pairs e HotpotQAXL, DBRX Instruct superou o GPT-3.5 Turbo em várias sequências de comprimento e posições de contexto.

DBRX supera os modelos de código aberto estabelecidos em compreensão de linguagem (MMLU), programação (HumanEval) e matemática (GSM8K).

DBRX supera os modelos de código aberto estabelecidos em compreensão de linguagem (MMLU), programação (HumanEval) e matemática (GSM8K).

Limitações e Trabalho Futuro

Embora DBRX represente um feito significativo no campo de LLMs de código aberto, é essencial reconhecer suas limitações e áreas para melhoria futura. Como qualquer modelo de IA, DBRX pode produzir respostas imprecisas ou tendenciosas, dependendo da qualidade e diversidade de seus dados de treinamento.

Além disso, embora DBRX seja excelente em tarefas de propósito geral, certas aplicações específicas de domínio podem exigir ajustes adicionais ou treinamento especializado para alcançar desempenho ótimo. Por exemplo, em cenários onde a precisão e a fidelidade são de suma importância, a Databricks recomenda o uso de técnicas de geração aumentada por recuperação (RAG) para melhorar a saída do modelo.

Além disso, o conjunto de dados de treinamento atual de DBRX consiste principalmente em conteúdo em inglês, o que pode limitar seu desempenho em tarefas não inglesas. Iterações futuras do modelo podem envolver a expansão dos dados de treinamento para incluir uma gama mais diversa de idiomas e contextos culturais.

A Databricks está comprometida em melhorar continuamente as capacidades de DBRX e abordar suas limitações. O trabalho futuro se concentrará em melhorar o desempenho, escalabilidade e usabilidade do modelo em várias aplicações e casos de uso, bem como explorar técnicas para mitigar possíveis vieses e promover o uso ético de IA.

Além disso, a empresa planeja aprimorar ainda mais o processo de treinamento, utilizando técnicas avançadas como aprendizado federado e métodos de preservação de privacidade para garantir a privacidade e segurança dos dados.

O Caminho à Frente

DBRX representa um passo significativo na democratização do desenvolvimento de IA. Ele vislumbra um futuro onde cada empresa tem a capacidade de controlar seus dados e seu destino no mundo emergente de IA gerativa.

Ao abrir o código de DBRX e fornecer acesso às mesmas ferramentas e infraestrutura usadas para construí-lo, a Databricks está capacitando empresas e pesquisadores a desenvolver seus próprios modelos de ponta personalizados para atender às suas necessidades específicas.

Por meio da plataforma Databricks, os clientes podem aproveitar a suíte de ferramentas de processamento de dados da empresa, incluindo Apache Spark, Unity Catalog e MLflow, para curar e gerenciar seus dados de treinamento. Eles podem então utilizar as bibliotecas de treinamento otimizado da Databricks, como Composer, LLM Foundry, MegaBlocks e Streaming, para treinar seus próprios modelos da classe DBRX de forma eficiente e em escala.

Essa democratização do desenvolvimento de IA tem o potencial de desbloquear uma nova onda de inovação, à medida que as empresas ganham a capacidade de aproveitar o poder dos grandes modelos de linguagem para uma ampla gama de aplicações, desde criação de conteúdo e análise de dados até suporte a decisões e além.

Além disso, ao fomentar um ecossistema aberto e colaborativo em torno de DBRX, a Databricks visa acelerar o ritmo de pesquisa e desenvolvimento no campo dos grandes modelos de linguagem. À medida que mais organizações e indivíduos contribuem com sua expertise e insights, o conhecimento coletivo e a compreensão desses sistemas de IA poderosos continuarão a crescer, pavimentando o caminho para modelos ainda mais avançados e capazes no futuro.

Conclusão

DBRX é um divisor de águas no mundo dos grandes modelos de linguagem de código aberto. Com sua arquitetura inovadora de mistura de especialistas, dados de treinamento extensivos e desempenho de última geração, ele estabeleceu um novo padrão para o que é possível com LLMs de código aberto.

Ao democratizar o acesso à tecnologia de IA de ponta, DBRX capacita pesquisadores, desenvolvedores e empresas a explorar novas fronteiras em processamento de linguagem natural, criação de conteúdo, análise de dados e além. À medida que a Databricks continua a aprimorar e melhorar DBRX, as aplicações e impactos potenciais deste modelo poderoso são verdadeiramente ilimitados.

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e especialização me levaram a contribuir para mais de 50 projetos diversificados de engenharia de software, com um foco particular em IA/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.