talón Mover modelos de lenguaje grande (LLM) a aplicaciones comerciales del mundo real - Unite.AI
Contáctanos

Líderes del pensamiento

Mover modelos de lenguaje grande (LLM) a aplicaciones comerciales del mundo real

mm

Publicado

 on

Los modelos de lenguaje grande están en todas partes. Cada conversación con el cliente o presentación de VC implica preguntas sobre qué tan lista está la tecnología LLM y cómo impulsará las aplicaciones futuras. Cubrí algunos patrones en esto en mi post anterior. Aquí hablaré sobre algunos patrones del mundo real para una aplicación en la industria farmacéutica en la que trabajó Persistent Systems.

Modelos de lenguaje grande y fortalezas centrales

Los LLM son buenos para comprender el lenguaje, ese es su fuerte. El patrón más común que estamos viendo con las aplicaciones es la generación aumentada de recuperación (RAG), donde el conocimiento se compila externamente a partir de fuentes de datos y se proporciona en contexto como un aviso para que el LLM parafrasee una respuesta. En este caso, los mecanismos de búsqueda súper rápidos, como las bases de datos vectoriales y los motores basados ​​en Elasticsearch, sirven como primera línea de búsqueda. Luego, los resultados de la búsqueda se compilan en un aviso y se envían al LLM principalmente como una llamada a la API.

Otro patrón es generar una consulta sobre datos estructurados alimentando al LLM con un modelo de datos como solicitud y una consulta de usuario específica. Este patrón podría usarse para desarrollar una interfaz avanzada de "habla con tus datos" para bases de datos SQL como Snowflake, así como bases de datos gráficas como Neo4j.

Aprovechar los patrones de LLM para obtener información del mundo real

Persistent Systems analizó recientemente un patrón para Movimiento explosivo, una empresa de telemetría deportiva (análisis de swing para béisbol, golf, etc.), donde analizamos datos de series temporales de resúmenes de jugadores para obtener recomendaciones.

Para aplicaciones más complejas, a menudo necesitamos encadenar las solicitudes de LLM con procesamiento entre llamadas. Para una empresa farmacéutica, desarrollamos una aplicación de seguimiento inteligente que filtra a los pacientes para los ensayos clínicos según los criterios extraídos del documento del ensayo clínico. Aquí usamos un enfoque de cadena LLM. Primero, desarrollamos un LLM para leer el documento pdf de prueba y usamos el patrón RAG para extraer los criterios de inclusión y exclusión.

Para esto, se utilizó un LLM relativamente más simple como GPT-3.5-Turbo (ChatGPT). Luego, combinamos estas entidades extraídas con el modelo de datos de la base de datos SQL de los pacientes en Snowflake, para crear un aviso. Este indicador alimentado a un LLM más poderoso como GPT4 nos brinda una consulta SQL para filtrar pacientes, que está lista para ejecutarse en Snowflake. Dado que usamos el encadenamiento de LLM, podríamos usar múltiples LLM para cada paso de la cadena, lo que nos permite administrar los costos.

Actualmente, decidimos mantener esta cadena determinista para un mejor control. Es decir, decidimos tener más inteligencia en las cadenas y mantener la orquestación muy simple y predecible. Cada elemento de la cadena es una aplicación compleja en sí misma que tardaría unos meses en desarrollarse en los días previos al LLM.

Impulsando casos de uso más avanzados

Para un caso más avanzado, podríamos usar Agentes como Reaccionar para solicitar al LLM que cree instrucciones paso a paso a seguir para una consulta de usuario en particular. Esto, por supuesto, necesitaría un LLM de alto nivel como GPT4 o Cohere o Claude 2. Sin embargo, existe el riesgo de que el modelo dé un paso incorrecto que deberá verificarse utilizando barandillas. Esta es una compensación entre mover inteligencia en eslabones controlables de la cadena o hacer que toda la cadena sea autónoma.

Hoy, a medida que nos acostumbramos a la era de la IA generativa para el lenguaje, la industria está comenzando a adoptar aplicaciones LLM con cadenas predecibles. A medida que crezca esta adopción, pronto comenzaremos a experimentar con más autonomía para estas cadenas a través de agentes. De eso se trata el debate sobre AGI y estamos interesados ​​en ver cómo evoluciona todo esto con el tiempo.

Dattaraj Rao, científico jefe de datos en Sistemas persistentes, es el autor del libro “Keras to Kubernetes: The Journey of a Machine Learning Model to Production”. En Persistent Systems, Dattaraj dirige el laboratorio de investigación de IA que explora algoritmos de última generación en visión por computadora, comprensión del lenguaje natural, programación probabilística, aprendizaje por refuerzo, IA explicable, etc. y demuestra su aplicabilidad en los dominios de atención médica, banca e industria. Dattaraj tiene 11 patentes en Machine Learning y Computer Vision.