Inteligencia artificial
Conectando Grandes Modelos de Lenguaje y Negocios: LLMops

Los cimientos de los LLM como GPT-3 de OpenAI o su sucesor GPT-4 se basan en el aprendizaje profundo, un subconjunto de la IA, que aprovecha las redes neuronales con tres o más capas. Estos modelos se entrenan en vastos conjuntos de datos que abarcan un amplio espectro de texto de Internet. A través del entrenamiento, los LLM aprenden a predecir la próxima palabra en una secuencia, dadas las palabras que han venido antes. Esta capacidad, simple en su esencia, subyace en la capacidad de los LLM para generar texto coherente y contextualmente relevante sobre secuencias extendidas.
Las aplicaciones potenciales son ilimitadas, desde redactar correos electrónicos, crear código, responder consultas, hasta incluso escribir de manera creativa. Sin embargo, con gran poder viene gran responsabilidad, y gestionar estos modelos gigantes en un entorno de producción no es trivial. Es aquí donde LLMOps entra en juego, encarnando un conjunto de mejores prácticas, herramientas y procesos para garantizar la operación confiable, segura y eficiente de los LLM.
La hoja de ruta para la integración de LLM tiene tres rutas predominantes:
- Invocación de LLM de propósito general:
- Modelos como ChatGPT y Bard ofrecen un umbral de adopción bajo con costos iniciales mínimos, aunque con un posible precio en el largo plazo.
- Sin embargo, las sombras de la privacidad y seguridad de los datos se cernen sobre sectores como Fintech y Healthcare con marcos regulatorios estrictos.
- Ajuste fino de LLM de propósito general:
- Con modelos de código abierto como Llama, Falcon y Mistral, las organizaciones pueden adaptar estos LLM para que se ajusten a sus casos de uso específicos con solo el recurso de ajuste de modelo como gasto.
- Esta avenida, mientras aborda las preocupaciones de privacidad y seguridad, exige una selección de modelo más profunda, preparación de datos, ajuste fino, implementación y monitoreo.
- La naturaleza cíclica de esta ruta requiere un compromiso sostenido, sin embargo, las innovaciones recientes como LoRA (Adaptación de bajo rango) y Q (Cuantizado)-LoRa han simplificado el proceso de ajuste fino, haciéndolo una opción cada vez más popular.
- Entrenamiento de LLM personalizado:
- Desarrollar un LLM desde cero promete una precisión sin precedentes adaptada a la tarea en cuestión. Sin embargo, los requisitos abruptos en experiencia en IA, recursos computacionales, datos extensos y tiempo de inversión plantean obstáculos significativos.
Entre las tres, el ajuste fino de LLM de propósito general es la opción más favorable para las empresas. Crear un nuevo modelo de base puede costar hasta $100 millones, mientras que ajustar los existentes oscila entre $100 mil y $1 millón. Estas cifras provienen de gastos computacionales, adquisición y etiquetado de datos, junto con gastos de ingeniería y I&D.
LLMOps versus MLOps
Las operaciones de aprendizaje automático (MLOps) han sido ampliamente recorridas, ofreciendo una ruta estructurada para transitar modelos de aprendizaje automático (ML) desde el desarrollo hasta la producción. Sin embargo, con el auge de los Grandes Modelos de Lenguaje (LLM), ha surgido un nuevo paradigma operativo, denominado LLMOps, para abordar los desafíos únicos asociados con la implementación y gestión de LLM. La diferenciación entre LLMOps y MLOps se basa en varios factores:
- Recursos computacionales:
- Los LLM exigen una capacidad computacional sustancial para el entrenamiento y el ajuste fino, a menudo necesitando hardware especializado como GPUs para acelerar operaciones paralelas de datos.
- El costo de inferencia subraya aún más la importancia de técnicas de compresión y destilación de modelos para contener los gastos computacionales.
- Aprendizaje de transferencia:
- A diferencia de los modelos de ML convencionales que a menudo se entrenan desde cero, los LLM se basan en gran medida en el aprendizaje de transferencia, comenzando con un modelo preentrenado y ajustándolo para tareas de dominio específico.
- Este enfoque ahorra en datos y recursos computacionales mientras logra un rendimiento de vanguardia.
- Bucle de retroalimentación humana:
- La mejora iterativa de los LLM está impulsada significativamente por el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF).
- Integrar un bucle de retroalimentación dentro de las tuberías de LLMOps no solo simplifica la evaluación sino que también alimenta el proceso de ajuste fino.
- Ajuste de hiperparámetros:
- Mientras que el ML clásico enfatiza la mejora de la precisión a través del ajuste de hiperparámetros, en el ámbito de los LLM, el enfoque también abarca la reducción de las demandas computacionales.
- Ajustar parámetros como los tamaños de lote y las tasas de aprendizaje puede alterar marcadamente la velocidad de entrenamiento y los costos.
- Métricas de rendimiento:
- Los modelos de ML tradicionales se adhieren a métricas de rendimiento bien definidas como la precisión, AUC o puntuación F1, mientras que los LLM tienen un conjunto de métricas diferente como BLEU y ROUGE.
- BLEU y ROUGE son métricas utilizadas para evaluar la calidad de las traducciones y resúmenes generados por máquina. BLEU se utiliza principalmente para tareas de traducción automática, mientras que ROUGE se utiliza para tareas de resumen de texto.
- BLEU mide la precisión, o cuántas de las palabras en los resúmenes generados por la máquina aparecen en los resúmenes de referencia humanos. ROUGE mide la recuperación, o cuántas de las palabras en los resúmenes de referencia humanos aparecen en los resúmenes generados por la máquina.
- Ingeniería de prompts:
- La ingeniería de prompts precisos es vital para obtener respuestas precisas y confiables de los LLM, mitigando riesgos como la alucinación del modelo y el hacking de prompts.
- Construcción de tuberías LLM:
- Herramientas como LangChain o LlamaIndex permiten la construcción de tuberías LLM, que entrelazan múltiples llamadas a LLM o interacciones con sistemas externos para tareas complejas como preguntas y respuestas en bases de conocimiento.
Entendiendo el flujo de trabajo de LLMOps: Un análisis en profundidad
Las operaciones de modelo de lenguaje, o LLMOps, son similares a la columna vertebral operativa de los grandes modelos de lenguaje, garantizando un funcionamiento y una integración sin problemas en diversas aplicaciones. Si bien aparenta ser una variante de MLOps o DevOps, LLMOps tiene matices únicos que atienden a las demandas de los grandes modelos de lenguaje. Analicemos el flujo de trabajo de LLMOps representado en la ilustración, explorando cada etapa de manera exhaustiva.
- Datos de entrenamiento:
- La esencia de un modelo de lenguaje reside en sus datos de entrenamiento. Este paso implica recopilar conjuntos de datos, asegurando que estén limpios, equilibrados y adecuadamente anotados. La calidad y diversidad de los datos impactan significativamente la precisión y versatilidad del modelo. En LLMOps, el énfasis no solo se centra en el volumen sino en la alineación con el caso de uso previsto del modelo.
- Modelo de base de código abierto:
- La ilustración hace referencia a un “Modelo de base de código abierto”, un modelo preentrenado a menudo lanzado por entidades líderes en IA. Estos modelos, entrenados en grandes conjuntos de datos, sirven como un excelente punto de partida, ahorrando tiempo y recursos, permitiendo el ajuste fino para tareas específicas en lugar de entrenar desde cero.
- Entrenamiento/Ajuste:
- Con un modelo de base y datos de entrenamiento específicos, se procede al ajuste. Este paso refina el modelo para propósitos especializados, como ajustar un modelo de texto general con literatura médica para aplicaciones en el sector de la salud. En LLMOps, el ajuste riguroso con controles consistentes es fundamental para prevenir el sobreajuste y garantizar una buena generalización a datos no vistos.
- Modelo entrenado:
- Después del ajuste, surge un modelo entrenado listo para la implementación. Este modelo, una versión mejorada del modelo de base, ahora está especializado para una aplicación particular. Puede ser de código abierto, con pesos y arquitectura accesibles públicamente, o propietario, mantenido en privado por la organización.
- Implementar:
- La implementación implica integrar el modelo en un entorno en vivo para el procesamiento de consultas en el mundo real. Implica decisiones sobre la hospedaje, ya sea en las instalaciones o en plataformas en la nube. En LLMOps, las consideraciones sobre la latencia, los costos computacionales y la accesibilidad son cruciales, junto con garantizar que el modelo se escalable para numerosas solicitudes simultáneas.
- Prompt:
- En los modelos de lenguaje, un prompt es una consulta o declaración de entrada. Crear prompts efectivos, a menudo requiriendo una comprensión del comportamiento del modelo, es vital para obtener salidas deseadas cuando el modelo procesa estos prompts.
- Almacenamiento de embeddings o Bases de datos de vectores:
- Después del procesamiento, los modelos pueden devolver más que respuestas de texto plano. Aplicaciones avanzadas pueden requerir embeddings – vectores de alta dimensión que representan contenido semántico. Estos embeddings pueden almacenarse o ofrecerse como servicio, permitiendo una recuperación rápida o comparación de información semántica, enriqueciendo la forma en que se aprovechan las capacidades de los modelos más allá de la mera generación de texto.
- Modelo implementado (autohospedado o API):
- Una vez procesado, la salida del modelo está lista. Dependiendo de la estrategia, las salidas pueden accederse a través de una interfaz autohospedada o una API, con la primera ofreciendo más control a la organización anfitriona, y la segunda proporcionando escalabilidad y fácil integración para desarrolladores de terceros.
- Salidas:
- Esta etapa produce el resultado tangible del flujo de trabajo. El modelo toma un prompt, lo procesa y devuelve una salida, que dependiendo de la aplicación, podría ser bloques de texto, respuestas, historias generadas o incluso embeddings como se discutió.
Principales startups de LLM
El panorama de las operaciones de grandes modelos de lenguaje (LLMOps) ha presenciado el surgimiento de plataformas y startups especializadas. A continuación, se presentan dos startups/plataformas y sus descripciones relacionadas con el espacio de LLMOps:
Comet simplifica el ciclo de vida del aprendizaje automático, atendiendo específicamente al desarrollo de grandes modelos de lenguaje. Proporciona instalaciones para rastrear experimentos y gestionar modelos de producción. La plataforma es adecuada para equipos de empresa grande, ofreciendo diversas estrategias de implementación que incluyen configuraciones de nube privada, híbrida y en las instalaciones.
Dify
Dify es una plataforma de LLMOps de código abierto que ayuda en el desarrollo de aplicaciones de IA utilizando grandes modelos de lenguaje como GPT-4. Cuenta con una interfaz de usuario amigable y proporciona un acceso sin problemas a los modelos, incrustación de contexto, control de costos y capacidades de anotación de datos. Los usuarios pueden gestionar sus modelos visualmente y utilizar documentos, contenido web o notas de Notion como contexto de IA, que Dify maneja para el preprocesamiento y otras operaciones.
Portkey.ai
Portkey.ai es una startup india especializada en operaciones de modelo de lenguaje (LLMOps). Con una reciente financiación de semilla de $3 millones liderada por Lightspeed Venture Partners, Portkey.ai ofrece integraciones con grandes modelos de lenguaje como los de OpenAI y Anthropic. Sus servicios atienden a empresas de IA generativa, centrándose en mejorar su pila de operaciones de LLM, que incluye pruebas de canario en tiempo real y capacidades de ajuste fino de modelos.











