talón Dentro de DBRX: Databricks lanza un potente LLM de código abierto - Unite.AI
Contáctanos

Inteligencia artificial

Dentro de DBRX: Databricks lanza un potente LLM de código abierto

mm
Actualizado on
DBRX: un nuevo LLM abierto de última generación

En el campo en rápido avance de los grandes modelos de lenguaje (LLM), ha surgido un nuevo y poderoso modelo: DBRX, un modelo de código abierto creado por Databricks. Este LLM está causando sensación con su rendimiento de última generación en una amplia gama de puntos de referencia, rivalizando incluso con las capacidades de gigantes de la industria como GPT-4 de OpenAI.

DBRX representa un hito importante en la democratización de la inteligencia artificial, proporcionando a investigadores, desarrolladores y empresas acceso abierto a un modelo de lenguaje de primer nivel. Pero, ¿qué es exactamente DBRX y qué lo hace tan especial? En esta inmersión técnica profunda, exploraremos la arquitectura innovadora, el proceso de capacitación y las capacidades clave que han impulsado a DBRX a la vanguardia del panorama abierto de LLM.

El nacimiento de DBRX La creación de DBRX fue impulsada por la misión de Databricks de hacer que la inteligencia de datos sea accesible para todas las empresas. Como líder en plataformas de análisis de datos, Databricks reconoció el inmenso potencial de los LLM y se propuso desarrollar un modelo que pudiera igualar o incluso superar el rendimiento de las ofertas patentadas.

Después de meses de intensa investigación, desarrollo y una inversión multimillonaria, el equipo de Databricks logró un gran avance con DBRX. El impresionante rendimiento del modelo en una amplia gama de puntos de referencia, incluida la comprensión del lenguaje, la programación y las matemáticas, lo estableció firmemente como un nuevo estado del arte en LLM abiertos.

Arquitectura innovadora

El poder de la combinación de expertos En el centro del rendimiento excepcional de DBRX se encuentra su innovadora arquitectura de combinación de expertos (MoE). Este diseño de vanguardia representa una desviación de los modelos densos tradicionales, adoptando un enfoque disperso que mejora tanto la eficiencia previa al entrenamiento como la velocidad de inferencia.

En el marco del MoE, sólo un grupo selecto de componentes, llamados “expertos”, se activan para cada entrada. Esta especialización permite que el modelo aborde una gama más amplia de tareas con mayor habilidad, al tiempo que optimiza los recursos computacionales.

DBRX lleva este concepto aún más lejos con su arquitectura MoE detallada. A diferencia de otros modelos del MoE que utilizan un número menor de grandes expertos, DBRX emplea a 16 expertos, con cuatro expertos activos para cualquier aportación determinada. Este diseño proporciona una asombrosa cantidad de 65 veces más combinaciones expertas posibles, lo que contribuye directamente al rendimiento superior de DBRX.

DBRX se diferencia por varias características innovadoras:

  • Codificaciones de posición rotatoria (RoPE): Mejora la comprensión de las posiciones de los tokens, crucial para generar texto contextualmente preciso.
  • Unidades lineales cerradas (GLU): Introduce un mecanismo de activación que mejora la capacidad del modelo para aprender patrones complejos de manera más eficiente.
  • Atención de consultas agrupadas (GQA): Mejora la eficiencia del modelo optimizando el mecanismo de atención.
  • Tokenización avanzada: Utiliza el tokenizador de GPT-4 para procesar las entradas de manera más efectiva.

La arquitectura MoE es particularmente adecuada para modelos de lenguaje a gran escala, ya que permite un escalamiento más eficiente y una mejor utilización de los recursos computacionales. Al distribuir el proceso de aprendizaje a través de múltiples subredes especializadas, DBRX puede asignar datos y potencia computacional de manera efectiva para cada tarea, garantizando resultados de alta calidad y una eficiencia óptima.

Amplios datos de entrenamiento y optimización eficiente Si bien la arquitectura de DBRX es sin duda impresionante, su verdadero poder radica en el meticuloso proceso de entrenamiento y la gran cantidad de datos a los que estuvo expuesto. DBRX fue entrenado previamente con la asombrosa cantidad de 12 billones de tokens de texto y datos de código, cuidadosamente seleccionados para garantizar una alta calidad y diversidad.

Los datos de entrenamiento se procesaron utilizando el conjunto de herramientas de Databricks, incluido Apache Spark para el procesamiento de datos, Unity Catalog para la gestión y gobernanza de datos y MLflow para el seguimiento de experimentos. Este conjunto integral de herramientas permitió al equipo de Databricks administrar, explorar y refinar de manera efectiva el enorme conjunto de datos, sentando las bases para el rendimiento excepcional de DBRX.

Para mejorar aún más las capacidades del modelo, Databricks empleó un plan de estudios de preentrenamiento dinámico, variando de manera innovadora la combinación de datos durante el entrenamiento. Esta estrategia permitió que cada token se procesara de manera efectiva utilizando los 36 mil millones de parámetros activos, lo que resultó en un modelo más completo y adaptable.

Además, el proceso de capacitación de DBRX se optimizó para lograr eficiencia, aprovechando el conjunto de bibliotecas y herramientas patentadas de Databricks, incluidos Composer, LLM Foundry, MegaBlocks y Streaming. Al emplear técnicas como el aprendizaje curricular y estrategias de optimización optimizadas, el equipo logró una mejora de casi cuatro veces en la eficiencia informática en comparación con sus modelos anteriores.

Formación y Arquitectura

DBRX se entrenó utilizando un modelo de predicción del siguiente token en un conjunto de datos colosal de 12 billones de tokens, enfatizando tanto el texto como el código. Se cree que este conjunto de entrenamiento es significativamente más efectivo que los utilizados en modelos anteriores, lo que garantiza una rica comprensión y capacidad de respuesta ante diversas indicaciones.

La arquitectura de DBRX no solo es un testimonio de la destreza técnica de Databricks, sino que también destaca su aplicación en múltiples sectores. Desde mejorar las interacciones del chatbot hasta impulsar tareas complejas de análisis de datos, DBRX se puede integrar en diversos campos que requieren una comprensión del lenguaje matizada.

Sorprendentemente, DBRX Instruct incluso rivaliza con algunos de los modelos cerrados más avanzados del mercado. Según las mediciones de Databricks, supera a GPT-3.5 y es competitivo con Gemini 1.0 Pro y Mistral Medium en varios puntos de referencia, incluidos conocimientos generales, razonamiento de sentido común, programación y razonamiento matemático.

Por ejemplo, en el punto de referencia MMLU, que mide la comprensión del lenguaje, DBRX Instruct logró una puntuación del 73.7 %, superando la puntuación informada de GPT-3.5 del 70.0 %. En el punto de referencia de razonamiento de sentido común de HellaSwag, DBRX Instruct obtuvo un impresionante 89.0%, superando el 3.5% de GPT-85.5.

DBRX Instruct realmente brilla, logrando una notable precisión del 70.1% en el punto de referencia HumanEval, superando no solo a GPT-3.5 (48.1%) sino también al modelo especializado CodeLLaMA-70B Instruct (67.8%).

Estos resultados excepcionales resaltan la versatilidad de DBRX y su capacidad para sobresalir en una amplia gama de tareas, desde la comprensión del lenguaje natural hasta la programación compleja y la resolución de problemas matemáticos.

Inferencia eficiente y escalabilidad Una de las ventajas clave de la arquitectura MoE de DBRX es su eficiencia durante la inferencia. Gracias a la escasa activación de parámetros, DBRX puede lograr un rendimiento de inferencia hasta dos o tres veces más rápido que los modelos densos con el mismo recuento total de parámetros.

En comparación con LLaMA2-70B, un popular LLM de código abierto, DBRX no solo demuestra una mayor calidad sino que también cuenta con casi el doble de velocidad de inferencia, a pesar de tener aproximadamente la mitad de parámetros activos. Esta eficiencia hace que DBRX sea una opción atractiva para la implementación en una amplia gama de aplicaciones, desde la creación de contenido hasta el análisis de datos y más.

Además, Databricks ha desarrollado una sólida pila de capacitación que permite a las empresas entrenar sus propios modelos de clase DBRX desde cero o continuar capacitándose además de los puntos de control proporcionados. Esta capacidad permite a las empresas aprovechar todo el potencial de DBRX y adaptarlo a sus necesidades específicas, democratizando aún más el acceso a la tecnología LLM de vanguardia.

El desarrollo del modelo DBRX por parte de Databricks marca un avance significativo en el campo del aprendizaje automático, particularmente a través de la utilización de herramientas innovadoras de la comunidad de código abierto. Este viaje de desarrollo está significativamente influenciado por dos tecnologías fundamentales: la biblioteca MegaBlocks y el sistema Fully Sharded Data Parallel (FSDP) de PyTorch.

MegaBlocks: mejora de la eficiencia del Ministerio de Educación

La Megabloques La biblioteca aborda los desafíos asociados con el enrutamiento dinámico en capas de mezcla de expertos (MoE), un obstáculo común en el escalado de redes neuronales. Los marcos tradicionales a menudo imponen limitaciones que reducen la eficiencia del modelo o comprometen la calidad del modelo. MegaBlocks, sin embargo, redefine el cálculo de MoE a través de operaciones de bloques dispersos que gestionan hábilmente el dinamismo intrínseco dentro de MoE, evitando así estos compromisos.

Este enfoque no solo preserva la integridad del token, sino que también se alinea bien con las capacidades modernas de GPU, lo que facilita tiempos de entrenamiento hasta un 40 % más rápidos en comparación con los métodos tradicionales. Esta eficiencia es crucial para el entrenamiento de modelos como DBRX, que dependen en gran medida de arquitecturas MoE avanzadas para gestionar sus extensos conjuntos de parámetros de manera eficiente.

PyTorch FSDP: escalamiento de modelos grandes

Paralelo de datos completamente fragmentados de PyTorch (FSDP) presenta una solución sólida para entrenar modelos excepcionalmente grandes mediante la optimización de la fragmentación y distribución de parámetros en múltiples dispositivos informáticos. Codiseñado con componentes clave de PyTorch, FSDP se integra a la perfección y ofrece una experiencia de usuario intuitiva similar a las configuraciones de capacitación locales, pero a una escala mucho mayor.

El diseño de FSDP aborda inteligentemente varias cuestiones críticas:

  • experiencia como usuario: Simplifica la interfaz de usuario, a pesar de los complejos procesos de backend, haciéndola más accesible para un uso más amplio.
  • Heterogeneidad del hardware: Se adapta a diversos entornos de hardware para optimizar la utilización de recursos de manera eficiente.
  • Utilización de recursos y planificación de la memoria: FSDP mejora el uso de recursos computacionales al tiempo que minimiza los gastos generales de memoria, lo cual es esencial para entrenar modelos que operan a la escala de DBRX.

FSDP no solo admite modelos más grandes de lo que antes era posible bajo el marco de datos distribuidos en paralelo, sino que también mantiene una escalabilidad casi lineal en términos de rendimiento y eficiencia. Esta capacidad ha demostrado ser esencial para DBRX de Databricks, lo que le permite escalar en múltiples GPU y al mismo tiempo administrar su gran cantidad de parámetros de manera efectiva.

Accesibilidad e integraciones

De acuerdo con su misión de promover el acceso abierto a la IA, Databricks ha hecho que DBRX esté disponible a través de múltiples canales. Los pesos tanto del modelo base (DBRX Base) como del modelo ajustado (DBRX Instruct) están alojados en la popular plataforma Hugging Face, lo que permite a los investigadores y desarrolladores descargar y trabajar fácilmente con el modelo.

Además, puedes incorporar a tu protocolo Repositorio de modelos DBRX está disponible en GitHub, brinda transparencia y permite una mayor exploración y personalización del código del modelo.

rendimiento de inferencia para varias configuraciones de modelos en nuestra infraestructura de servicio optimizada utilizando NVIDIA TensorRT-LLM con una precisión de 16 bits con los mejores indicadores de optimización que pudimos encontrar.

Para los clientes de Databricks, se puede acceder cómodamente a DBRX Base y DBRX Instruct a través de las API del modelo Databricks Foundation, lo que permite una integración perfecta en flujos de trabajo y aplicaciones existentes. Esto no solo simplifica el proceso de implementación, sino que también garantiza la gobernanza y la seguridad de los datos para casos de uso confidenciales.

Además, DBRX ya se ha integrado en varias plataformas y servicios de terceros, como You.com y Perplexity Labs, ampliando su alcance y aplicaciones potenciales. Estas integraciones demuestran el creciente interés en DBRX y sus capacidades, así como la creciente adopción de LLM abiertos en diversas industrias y casos de uso.

Capacidades de contexto largo y generación aumentada de recuperación Una de las características destacadas de DBRX es su capacidad para manejar entradas de contexto largo, con una longitud de contexto máxima de 32,768 tokens. Esta capacidad permite que el modelo procese y genere texto basado en información contextual extensa, lo que lo hace adecuado para tareas como resumen de documentos, respuesta a preguntas y recuperación de información.

En los puntos de referencia que evalúan el rendimiento de contexto largo, como KV-Pairs y HotpotQAXL, DBRX Instruct superó a GPT-3.5 Turbo en varias longitudes de secuencia y posiciones de contexto.

DBRX supera a los modelos establecidos de código abierto en comprensión del lenguaje (MMLU), programación (HumanEval) y matemáticas (GSM8K).

DBRX supera a los modelos establecidos de código abierto en comprensión del lenguaje (MMLU), programación (HumanEval) y matemáticas (GSM8K).

Limitaciones y trabajo futuro

Si bien DBRX representa un logro significativo en el campo de los LLM abiertos, es esencial reconocer sus limitaciones y áreas de mejora futura. Como cualquier modelo de IA, DBRX puede producir respuestas inexactas o sesgadas, según la calidad y diversidad de sus datos de entrenamiento.

Además, si bien DBRX sobresale en tareas de propósito general, ciertas aplicaciones de dominios específicos pueden requerir ajustes adicionales o capacitación especializada para lograr un rendimiento óptimo. Por ejemplo, en escenarios donde la precisión y la fidelidad son de suma importancia, Databricks recomienda utilizar técnicas de recuperación de generación aumentada (RAG) para mejorar el resultado del modelo.

Además, el conjunto de datos de capacitación actual de DBRX consiste principalmente en contenido en inglés, lo que potencialmente limita su desempeño en tareas que no sean en inglés. Las futuras iteraciones del modelo pueden implicar ampliar los datos de entrenamiento para incluir una gama más diversa de idiomas y contextos culturales.

Databricks se compromete a mejorar continuamente las capacidades de DBRX y abordar sus limitaciones. El trabajo futuro se centrará en mejorar el rendimiento, la escalabilidad y la usabilidad del modelo en diversas aplicaciones y casos de uso, así como en explorar técnicas para mitigar posibles sesgos y promover el uso ético de la IA.

Además, la empresa planea perfeccionar aún más el proceso de capacitación, aprovechando técnicas avanzadas como el aprendizaje federado y métodos de preservación de la privacidad para garantizar la privacidad y seguridad de los datos.

El camino por delante

DBRX representa un importante paso adelante en la democratización del desarrollo de la IA. Visualiza un futuro en el que cada empresa tendrá la capacidad de controlar sus datos y su destino en el mundo emergente de la IA generativa.

Al abrir DBRX y brindar acceso a las mismas herramientas e infraestructura utilizadas para construirlo, Databricks permite a las empresas y a los investigadores desarrollar sus propios Databricks de vanguardia adaptados a sus necesidades específicas.

A través de la plataforma Databricks, los clientes pueden aprovechar el conjunto de herramientas de procesamiento de datos de la empresa, incluidos Apache Spark, Unity Catalog y MLflow, para seleccionar y administrar sus datos de capacitación. Luego pueden utilizar las bibliotecas de entrenamiento optimizadas de Databricks, como Composer, LLM Foundry, MegaBlocks y Streaming, para entrenar sus propios modelos de clase DBRX de manera eficiente y a escala.

Esta democratización del desarrollo de la IA tiene el potencial de desbloquear una nueva ola de innovación, a medida que las empresas adquieran la capacidad de aprovechar el poder de grandes modelos de lenguaje para una amplia gama de aplicaciones, desde la creación de contenido y el análisis de datos hasta el apoyo a la toma de decisiones y más.

Además, al fomentar un ecosistema abierto y colaborativo en torno a DBRX, Databricks pretende acelerar el ritmo de la investigación y el desarrollo en el campo de los grandes modelos de lenguaje. A medida que más organizaciones e individuos aporten su experiencia y conocimientos, el conocimiento y la comprensión colectivos de estos poderosos sistemas de IA seguirán creciendo, allanando el camino para modelos aún más avanzados y capaces en el futuro.

Conclusión

DBRX cambia las reglas del juego en el mundo de los grandes modelos de lenguajes de código abierto. Con su innovadora arquitectura de combinación de expertos, amplios datos de capacitación y rendimiento de última generación, ha establecido un nuevo punto de referencia de lo que es posible con los LLM abiertos.

Al democratizar el acceso a la tecnología de inteligencia artificial de vanguardia, DBRX permite a investigadores, desarrolladores y empresas explorar nuevas fronteras en el procesamiento del lenguaje natural, la creación de contenido, el análisis de datos y más. A medida que Databricks continúa perfeccionando y mejorando DBRX, las aplicaciones potenciales y el impacto de este poderoso modelo son realmente ilimitados.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.