talón Los 5 mejores LLM de código abierto (mayo de 2024) - Unite.AI
Contáctanos
Array ( [ID] => 1 [nombre_usuario] => Antoine [apellido_usuario] => Tardif [apodo] => Antoine Tardif [nombre_usuario] => admin [nombre_display] => Antoine Tardif [correo electrónico_usuario] => [email protected]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Socio fundador de unite.AI y miembro de consejo de tecnología de forbes, antoine es un futurista apasionado por el futuro de la IA y la robótica. También es el fundador de Valores.io, un sitio web que se centra en invertir en tecnología disruptiva. [usuario_avatar] => mm
)

Best Of

Los 5 mejores LLM de código abierto (mayo de 2024)

Actualizado on
LLM de código abierto

En el mundo de la inteligencia artificial (IA), que evoluciona rápidamente, los modelos de lenguaje extenso (LLM) se han convertido en una piedra angular, impulsando innovaciones y remodelando la forma en que interactuamos con la tecnología.

A medida que estos modelos se vuelven cada vez más sofisticados, hay un énfasis creciente en democratizar el acceso a ellos. Los modelos de código abierto, en particular, están jugando un papel fundamental en esta democratización, ofreciendo a los investigadores, desarrolladores y entusiastas la oportunidad de profundizar en sus complejidades, ajustarlos para tareas específicas o incluso construir sobre sus cimientos.

En este blog, exploraremos algunos de los principales LLM de código abierto que están causando sensación en la comunidad de IA, cada uno aportando sus fortalezas y capacidades únicas a la mesa.

1. llamas 2

Llama 2 de Meta es una adición innovadora a su línea de modelos de IA. Este no es solo otro modelo; está diseñado para alimentar una gama de aplicaciones de última generación. Los datos de entrenamiento de Llama 2 son amplios y variados, lo que lo convierte en un avance significativo con respecto a su predecesor. Esta diversidad en la capacitación garantiza que Llama 2 no sea solo una mejora gradual, sino un paso monumental hacia el futuro de las interacciones impulsadas por IA.

La colaboración entre Meta y Microsoft ha ampliado los horizontes de Llama 2. El modelo de código abierto ahora es compatible con plataformas como Azure y Windows, con el objetivo de proporcionar a los desarrolladores y organizaciones las herramientas para crear experiencias generativas impulsadas por IA. Esta asociación subraya la dedicación de ambas compañías para hacer que la IA sea más accesible y abierta para todos.

Llama 2 no es solo un sucesor del modelo Llama original; representa un cambio de paradigma en el campo de los chatbots. Si bien el primer modelo de Llama fue revolucionario en la generación de texto y código, su disponibilidad se limitó para evitar el mal uso. Llama 2, por otro lado, está configurado para llegar a un público más amplio. Está optimizado para plataformas como AWS, Azure y la plataforma de alojamiento de modelos de IA de Hugging Face. Además, con la colaboración de Meta con Microsoft, Llama 2 está preparado para dejar su huella no solo en Windows, sino también en dispositivos que funcionan con el sistema en chip Snapdragon de Qualcomm.

La seguridad está en el corazón del diseño de Llama 2. Al reconocer los desafíos que enfrentaban los modelos de lenguaje grande anteriores como GPT, que a veces producían contenido engañoso o dañino, Meta tomó medidas exhaustivas para garantizar la confiabilidad de Llama 2. El modelo se ha sometido a un riguroso entrenamiento para minimizar las "alucinaciones", la desinformación y los sesgos.

Características principales de LLaMa 2:

  • Diversos datos de entrenamiento: Los datos de entrenamiento de Llama 2 son extensos y variados, lo que garantiza una comprensión y un rendimiento completos.
  • Colaboración con Microsoft: Llama 2 es compatible con plataformas como Azure y Windows, lo que amplía el alcance de su aplicación.
  • Disponibilidad abierta: A diferencia de su predecesor, Llama 2 está disponible para un público más amplio, listo para ajustarse en múltiples plataformas.
  • Diseño centrado en la seguridad: Meta ha enfatizado la seguridad, asegurando que Llama 2 produzca resultados precisos y confiables mientras minimiza los resultados dañinos.
  • Versiones optimizadas: Llama 2 viene en dos versiones principales: Llama 2 y Llama 2-Chat, y esta última está especialmente diseñada para conversaciones bidireccionales. Estas versiones varían en complejidad de 7 mil millones a 70 mil millones de parámetros.
  • Entrenamiento mejorado: Llama 2 se entrenó con dos millones de tokens, un aumento significativo de los 1.4 billones de tokens originales de Llama.

2. Florecer (bloom)

En 2022, después de un esfuerzo de colaboración global en el que participaron voluntarios de más de 70 países y expertos de Hugging Face, se dio a conocer el proyecto BLOOM. Este modelo de lenguaje grande (LLM), creado a través de una iniciativa de un año de duración, está diseñado para la generación de texto autorregresivo, capaz de ampliar un mensaje de texto determinado. Fue entrenado en un corpus masivo de datos de texto utilizando un poder computacional sustancial.

El debut de BLOOM fue un paso importante para hacer más accesible la tecnología de IA generativa. Como LLM de código abierto, cuenta con 176 mil millones de parámetros, lo que lo convierte en uno de los más formidables de su clase. BLOOM tiene la capacidad de generar texto coherente y preciso en 46 idiomas y 13 lenguajes de programación.

El proyecto enfatiza la transparencia, permitiendo el acceso público a su código fuente y datos de capacitación. Esta apertura invita al examen, utilización y mejora continua del modelo.

Accesible sin costo a través de la plataforma Hugging Face, BLOOM es un testimonio de la innovación colaborativa en IA.

Características principales de Bloom:

  • Capacidades multilingües: BLOOM domina la generación de texto en 46 idiomas y 13 lenguajes de programación, lo que demuestra su amplia gama lingüística.
  • Acceso de código abierto: El código fuente del modelo y los datos de capacitación están disponibles públicamente, lo que promueve la transparencia y la mejora colaborativa.
  • Generación de texto autorregresivo: Diseñado para continuar el texto a partir de un mensaje determinado, BLOOM se destaca en extender y completar secuencias de texto.
  • Recuento masivo de parámetros: Con 176 mil millones de parámetros, BLOOM se erige como uno de los LLM de código abierto más poderosos que existen.
  • Colaboración mundial: Desarrollado a través de un proyecto de un año de duración con contribuciones de voluntarios de más de 70 países e investigadores de Hugging Face.
  • Accesibilidad gratuita: Los usuarios pueden acceder y utilizar BLOOM de forma gratuita a través del ecosistema Hugging Face, mejorando su democratización en el campo de la IA.
  • Capacitación a escala industrial: El modelo se entrenó con grandes cantidades de datos de texto utilizando importantes recursos computacionales, lo que garantiza un rendimiento sólido.

3. MPT-7B

MosaicML Foundations ha hecho una contribución significativa a este espacio con la presentación de MPT-7B, su último LLM de código abierto. MPT-7B, un acrónimo de MosaicML Pretrained Transformer, es un modelo de transformador de solo decodificador de estilo GPT. Este modelo cuenta con varias mejoras, incluidas implementaciones de capas optimizadas para el rendimiento y cambios en la arquitectura que garantizan una mayor estabilidad del entrenamiento.

Una característica destacada de MPT-7B es su entrenamiento en un extenso conjunto de datos que comprende 1 billón de tokens de texto y código. Esta rigurosa capacitación se ejecutó en la plataforma MosaicML durante un período de 9.5 días.

La naturaleza de código abierto de MPT-7B lo posiciona como una herramienta valiosa para aplicaciones comerciales. Tiene el potencial de impactar significativamente el análisis predictivo y los procesos de toma de decisiones de empresas y organizaciones.

Además del modelo base, MosaicML Foundations también está lanzando modelos especializados adaptados para tareas específicas, como MPT-7B-Instruct para seguir instrucciones breves, MPT-7B-Chat para generar diálogos y MPT-7B-StoryWriter-65k+. para la creación de historias de formato largo.

El viaje de desarrollo de MPT-7B fue integral, con el equipo de MosaicML gestionando todas las etapas desde la preparación de datos hasta la implementación en unas pocas semanas. Los datos se obtuvieron de diversos repositorios y el equipo utilizó herramientas como GPT-NeoX de EleutherAI y el tokenizador 20B para garantizar una combinación de capacitación variada y completa.

Descripción general de las características clave de MPT-7B:

  • Licencias Comerciales: MPT-7B tiene licencia para uso comercial, lo que lo convierte en un activo valioso para las empresas.
  • Amplios datos de entrenamiento: El modelo cuenta con entrenamiento en un vasto conjunto de datos de 1 billón de tokens.
  • Manejo de entrada larga: MPT-7B está diseñado para procesar entradas extremadamente largas sin compromiso.
  • Velocidad y eficiencia: El modelo está optimizado para un entrenamiento e inferencia rápidos, lo que garantiza resultados oportunos.
  • Código de fuente abierta: MPT-7B viene con un eficiente código de capacitación de código abierto, lo que promueve la transparencia y la facilidad de uso.
  • Excelencia Comparativa: MPT-7B ha demostrado superioridad sobre otros modelos de código abierto en el rango 7B-20B, con una calidad equivalente a la de LLaMA-7B.

4. halcón

Falcon LLM, es un modelo que ha ascendido rápidamente a la cima de la jerarquía LLM. Falcon LLM, específicamente Falcon-40B, es un LLM fundamental equipado con 40 mil millones de parámetros y ha sido entrenado en un impresionante billón de tokens. Funciona como un modelo solo de decodificador autorregresivo, lo que esencialmente significa que predice el token posterior en una secuencia basada en los tokens anteriores. Esta arquitectura recuerda al modelo GPT. En particular, la arquitectura de Falcon ha demostrado un rendimiento superior al de GPT-3, logrando esta hazaña con solo el 75 % del presupuesto de cómputo de entrenamiento y requiriendo significativamente menos cómputo durante la inferencia.

El equipo del Instituto de Innovación Tecnológica puso un gran énfasis en la calidad de los datos durante el desarrollo de Falcon. Al reconocer la sensibilidad de los LLM a la calidad de los datos de capacitación, construyeron una canalización de datos que se escalaba a decenas de miles de núcleos de CPU. Esto permitió un procesamiento rápido y la extracción de contenido de alta calidad de la web, logrado a través de extensos procesos de filtrado y deduplicación.

Además de Falcon-40B, TII también ha introducido otras versiones, incluido Falcon-7B, que posee 7 mil millones de parámetros y ha sido entrenado en 1,500 mil millones de tokens. También hay modelos especializados como Falcon-40B-Instruct y Falcon-7B-Instruct, diseñados para tareas específicas.

El entrenamiento del Falcon-40B fue un proceso extenso. El modelo se entrenó en el conjunto de datos RefinedWeb, un conjunto de datos web masivo en inglés construido por TII. Este conjunto de datos se creó sobre CommonCrawl y se sometió a un filtrado riguroso para garantizar la calidad. Una vez que se preparó el modelo, se validó con varios puntos de referencia de código abierto, incluidos EAI Harness, HELM y BigBench.

Descripción general de las características clave de Falcon LLM:

  • Parámetros extensos: Falcon-40B está equipado con 40 mil millones de parámetros, lo que garantiza un aprendizaje y un rendimiento integrales.
  • Modelo de solo decodificador autorregresivo: Esta arquitectura permite a Falcon predecir tokens subsiguientes en función de los anteriores, de forma similar al modelo GPT.
  • Rendimiento superior: Falcon supera a GPT-3 mientras utiliza solo el 75 % del presupuesto de cómputo de entrenamiento.
  • Canalización de datos de alta calidad: La canalización de datos de TII garantiza la extracción de contenido de alta calidad de la web, crucial para el entrenamiento del modelo.
  • Variedad de modelos: Además de Falcon-40B, TII ofrece Falcon-7B y modelos especializados como Falcon-40B-Instruct y Falcon-7B-Instruct.
  • Disponibilidad de código abierto: Falcon LLM ha sido de código abierto, lo que promueve la accesibilidad y la inclusión en el dominio de la IA.

5. Vicuña-13B

LMSYS ORG ha dejado una marca significativa en el ámbito de los LLM de código abierto con la introducción de Vicuna-13B. Este chatbot de código abierto ha sido entrenado meticulosamente ajustando LLaMA en conversaciones compartidas por usuarios provenientes de ShareGPT. Las evaluaciones preliminares, con GPT-4 actuando como juez, indican que Vicuna-13B logra más del 90 % de calidad de modelos reconocidos como OpenAI ChatGPT y Google Bard.

Impresionantemente, Vicuna-13B supera a otros modelos notables como LLaMA y Stanford Alpaca en más del 90% de los casos. Todo el proceso de capacitación de Vicuña-13B se ejecutó con un costo aproximado de $300. Para aquellos interesados ​​en explorar sus capacidades, el código, los pesos y una demostración en línea se han puesto a disposición del público con fines no comerciales.

El modelo Vicuna-13B se ha perfeccionado con 70 4 conversaciones de ChatGPT compartidas por los usuarios, lo que le permite generar respuestas más detalladas y bien estructuradas. La calidad de estas respuestas es comparable a ChatGPT. Sin embargo, evaluar los chatbots es una tarea compleja. Con los avances en GPT-4, existe una creciente curiosidad sobre su potencial para servir como un marco de evaluación automatizado para la generación de puntos de referencia y evaluaciones de rendimiento. Los hallazgos iniciales sugieren que GPT-4 puede producir rangos consistentes y evaluaciones detalladas al comparar las respuestas de los chatbots. Las evaluaciones preliminares basadas en GPT-90 muestran que Vicuna alcanza el XNUMX % de la capacidad de modelos como Bard/ChatGPT.

Descripción general de las características clave de Vicuña-13B:

  • Naturaleza de código abierto: Vicuña-13B está disponible para acceso público, promoviendo la transparencia y la participación de la comunidad.
  • Amplios datos de entrenamiento: El modelo ha sido entrenado en 70 XNUMX conversaciones compartidas por los usuarios, lo que garantiza una comprensión integral de las diversas interacciones.
  • Rendimiento competitivo: El desempeño de Vicuna-13B está a la par con los líderes de la industria como ChatGPT y Google Bard.
  • Capacitación rentable: Todo el proceso de capacitación de Vicuña-13B se ejecutó a un bajo costo de alrededor de $300.
  • Puesta a punto en LLaMA: El modelo se ha ajustado con precisión en LLaMA, lo que garantiza un rendimiento y una calidad de respuesta mejorados.
  • Disponibilidad de demostración en línea: Una demostración interactiva en línea está disponible para que los usuarios prueben y experimenten las capacidades de Vicuna-13B.

El reino en expansión de los modelos de lenguaje grande

El ámbito de los modelos de lenguaje grande es vasto y está en constante expansión, y cada nuevo modelo supera los límites de lo que es posible. La naturaleza de código abierto de los LLM discutidos en este blog no solo muestra el espíritu colaborativo de la comunidad de IA, sino que también allana el camino para futuras innovaciones.

Estos modelos, desde las impresionantes capacidades de chatbot de Vicuna hasta las métricas de rendimiento superiores de Falcon, representan el pináculo de la tecnología LLM actual. A medida que continuamos siendo testigos de rápidos avances en este campo, está claro que los modelos de código abierto desempeñarán un papel crucial en la configuración del futuro de la IA.

Ya sea que sea un investigador experimentado, un entusiasta de la IA en ciernes o alguien curioso sobre el potencial de estos modelos, no hay mejor momento para sumergirse y explorar las amplias posibilidades que ofrecen.

Alex McFarland es un periodista y escritor sobre inteligencia artificial que explora los últimos avances en inteligencia artificial. Ha colaborado con numerosas empresas emergentes y publicaciones de IA en todo el mundo.

Socio fundador de unite.AI y miembro de la consejo de tecnología de forbes, antoine es un futurista apasionado por el futuro de la IA y la robótica.

También es el fundador de Valores.io, un sitio web que se centra en invertir en tecnología disruptiva.