Líderes de opinión

Evolución de RAG – Una Introducción a RAG Agéntico

mm

¿Qué es RAG (Generación con Recuperación de Información)?

Generación con Recuperación de Información (RAG) es una técnica que combina las fortalezas de los grandes modelos de lenguaje (LLM) con la recuperación de datos externos para mejorar la calidad y la relevancia de las respuestas generadas. Los LLM tradicionales utilizan sus bases de conocimiento preentrenadas, mientras que los pipelines de RAG consultan bases de datos o documentos externos en tiempo de ejecución y recuperan información relevante para utilizarla en la generación de respuestas más precisas y ricas en contexto. Esto es particularmente útil en casos en que la pregunta es compleja, específica o basada en un marco temporal determinado, ya que las respuestas del modelo están informadas y enriquecidas con información de dominio específica actualizada.

El Paisaje Actual de RAG

Los grandes modelos de lenguaje han revolucionado completamente la forma en que accedemos y procesamos la información. La dependencia exclusiva del conocimiento preestablecido, sin embargo, podría limitar la flexibilidad de sus respuestas, especialmente para preguntas complejas. La Generación con Recuperación de Información aborda este problema al permitir que los LLM adquieran y analicen datos de fuentes externas para producir respuestas más precisas y perspicaces.

El desarrollo reciente en recuperación de información y procesamiento de lenguaje natural, especialmente LLM y RAG, abre nuevos frentes de eficiencia y sofisticación. Estos desarrollos pueden evaluarse en los siguientes contornos generales:

  1. Mejora de la Recuperación de Información: La mejora de la recuperación de información en los sistemas de RAG es bastante importante para trabajar de manera eficiente. Los trabajos recientes han desarrollado varios vectores, algoritmos de reordenamiento, métodos de búsqueda híbrida para la mejora de la búsqueda precisa.
  2. Caché Semántico: Esto resulta ser una de las principales formas en que se reduce el costo computacional sin tener que renunciar a respuestas consistentes. Esto significa que las respuestas a las consultas actuales se almacenan junto con su contexto semántico y pragmático adjunto, lo que nuevamente promueve tiempos de respuesta más rápidos y entrega información consistente.
  3. Integración Multimodal: Además de los sistemas de LLM y RAG basados en texto, este enfoque también cubre los visuales y otras modalidades del marco. Esto permite acceder a una mayor variedad de material de origen y resulta en respuestas cada vez más sofisticadas y progresivamente más precisas.

Desafíos con las Arquitecturas de RAG Tradicionales

Mientras que RAG evoluciona para satisfacer las diferentes necesidades, todavía existen desafíos que se enfrentan a las Arquitecturas de RAG Tradicionales:

  • Resumen: Resumir documentos grandes puede ser difícil. Si el documento es extenso, la estructura de RAG convencional puede pasar por alto información importante porque solo obtiene los primeros K elementos.
  • Comparación de Documentos: La comparación efectiva de documentos sigue siendo un desafío. El marco de RAG a menudo resulta en una comparación incompleta ya que selecciona los primeros K fragmentos aleatorios de cada documento de manera aleatoria.
  • Análisis de Datos Estructurados: Es difícil manejar consultas de datos numéricos estructurados, como determinar cuándo un empleado tomará su próxima vacación dependiendo de dónde viva. La recuperación y análisis de puntos de datos precisos no son precisos con estos modelos.
  • Manejo de Consultas con Varios Componentes: Responder preguntas con varios componentes sigue siendo limitado. Por ejemplo, descubrir patrones de licencia comunes en todas las áreas de una gran organización es un desafío cuando se limita a K elementos, lo que limita la investigación completa.

Avance hacia RAG Agéntico

RAG Agéntico utiliza agentes inteligentes para responder a preguntas complejas que requieren un cuidadoso planeamiento, razonamiento multietapa y la integración de herramientas externas. Estos agentes realizan las tareas de un investigador competente, navegando hábilmente a través de una multitud de documentos, comparando datos, resumiendo hallazgos y produciendo respuestas comprehensivas y precisas.

El concepto de agentes se incluye en el marco clásico de RAG para mejorar la funcionalidad y las capacidades del sistema, lo que resulta en la creación de RAG agéntico. Estos agentes asumen tareas y razonamiento adicionales más allá de la recuperación y generación de información básicas, así como la orquestación y el control de los diversos componentes del pipeline de RAG.

Tres Estrategias Agénticas Primarias

Los enrutadores envían consultas a los módulos o bases de datos adecuados según su tipo. Los enrutadores toman decisiones dinámicamente utilizando grandes modelos de lenguaje sobre el contexto de una solicitud, para decidir a qué motor de búsqueda debe enviarse para mejorar la precisión y la eficiencia del pipeline.

Las transformaciones de consultas son procesos involucrados en la reexpresión de la consulta del usuario para que coincida con la información solicitada o, viceversa, para que coincida con lo que la base de datos ofrece. Puede ser una de las siguientes: reexpresión, expansión o descomposición de preguntas complejas en subpreguntas más manejables que se pueden manejar con mayor facilidad.

También requiere un motor de consulta de subpreguntas para abordar el desafío de responder a una consulta compleja utilizando varias fuentes de datos.

Primero, la pregunta compleja se descompone en preguntas más simples para cada una de las fuentes de datos. Luego, se recopilan todas las respuestas intermedias y se sintetiza un resultado final.

Capas Agénticas para Pipelines de RAG

  • Enrutamiento: La pregunta se enruta al procesamiento basado en conocimiento relevante. Ejemplo: Cuando el usuario quiere obtener recomendaciones para ciertas categorías de libros, la consulta se puede enrutar a una base de conocimiento que contiene conocimiento sobre esas categorías de libros.
  • Planeamiento de Consulta: Esto implica la descomposición de la consulta en subconsultas y luego enviarlas a sus respectivos pipelines individuales. El agente produce subconsultas para todos los elementos, como el año en este caso, y las envía a sus respectivas bases de conocimiento.
  • Uso de Herramientas: Un modelo de lenguaje habla con una API o herramienta externa, sabiendo qué implicaría, en qué plataforma se supone que se comunica, y cuándo sería necesario hacerlo. Ejemplo: Dada una solicitud del usuario para un pronóstico del clima para un día determinado, el LLM se comunica con la API del clima, identificando la ubicación y la fecha, y luego analiza la respuesta que proviene de la API para proporcionar la información correcta.
  • ReAct es un proceso iterativo de pensamiento y acción acoplado con planeamiento, uso de herramientas y observación.
    Por ejemplo, para diseñar un plan de viaje de extremo a extremo, el sistema considerará las demandas del usuario y recuperará detalles sobre la ruta, atracciones turísticas, restaurantes y alojamiento llamando a las API. Luego, el sistema verificará los resultados con respecto a la corrección y la relevancia, produciendo un plan de viaje detallado relevante para la solicitud del usuario y su horario.
  • Planeamiento de Consulta Dinámica: En lugar de realizar acciones secuencialmente, el agente ejecuta varias acciones o subconsultas de manera concurrente y luego agrega estos resultados.
    Por ejemplo, si se quiere comparar los resultados financieros de dos empresas y determinar la diferencia en algún métrico, entonces el agente procesaría los datos de ambas empresas en paralelo antes de agregar los hallazgos; LLMCompiler es un marco de trabajo que conduce a una orquestación eficiente de llamadas paralelas de funciones.

RAG Agéntico y LLMaIndex

LLMaIndex representa una implementación muy eficiente de pipelines de RAG. La biblioteca simplemente llena el trozo que falta en la integración de datos organizacionales estructurados en modelos de inteligencia artificial generativos, proporcionando conveniencia para las herramientas en el procesamiento y la recuperación de datos, así como interfaces para varias fuentes de datos. Los componentes principales de LlamaIndex se describen a continuación.

LlamaParse analiza documentos.

Llama Cloud para servicios empresariales con pipelines de RAG implementados con la menor cantidad de trabajo manual.

Usando varios LLM y almacenamiento de vectores, LlamaIndex proporciona una forma integrada de construir aplicaciones en Python y TypeScript con RAG. Sus características lo convierten en un componente muy solicitado por empresas dispuestas a aprovechar la inteligencia artificial para una toma de decisiones basada en datos mejorada.

Componentes Clave de la Implementación de RAG Agéntico con LLMaIndex

Vamos a profundizar en algunos de los ingredientes de RAG agéntico y cómo se implementan en LlamaIndex.

1. Uso de Herramientas y Enrutamiento

El agente de enrutamiento elige qué LLM o herramienta es mejor para una pregunta determinada, basándose en el tipo de solicitud. Esto conduce a decisiones sensibles al contexto, como si el usuario quiere un resumen o un resumen detallado. Ejemplos de este enfoque son el motor de consulta de Router en LlamaIndex, que elige dinámicamente herramientas que maximizarían las respuestas a las consultas.

2. Retención de Contexto a Largo Plazo

Mientras que el trabajo más importante de la memoria es retener el contexto a lo largo de varias interacciones, en contraste, los agentes equipados con memoria en la variante agéntica de RAG permanecen continuamente conscientes de las interacciones que resultan en respuestas coherentes y llenas de contexto.

LlamaIndex también incluye un motor de chat que tiene memoria para conversaciones contextuales y consultas de un solo disparo. Para evitar el desbordamiento de la ventana de contexto de LLM, dicha memoria debe estar bajo control estricto durante discusiones largas y reducida a una forma resumida.

3. Motores de Subpreguntas para Planeamiento

A menudo, es necesario descomponer una consulta compleja en trabajos más pequeños y manejables. El motor de consulta de subpreguntas es una de las funcionalidades principales para las cuales se utiliza LlamaIndex como agente, mediante el cual una gran consulta se descompone en consultas más pequeñas, se ejecutan secuencialmente y luego se combinan para formar una respuesta coherente. La capacidad de los agentes para investigar múltiples facetas de una consulta paso a paso representa la noción de planeamiento multietapa en lugar de uno lineal.

4. Reflexión y Corrección de Errores

Los agentes reflexivos producen salida pero luego verifican la calidad de esa salida para hacer correcciones si es necesario. Esta habilidad es de la mayor importancia para garantizar la precisión y que lo que sale es lo que una persona pretendía. Gracias al flujo de trabajo autorreflexivo de LlamaIndex, un agente revisará su rendimiento ya sea reintentando o ajustando actividades que no cumplen con ciertos niveles de calidad. Pero como es auto-corregible, RAG Agéntico es algo confiable para aquellas aplicaciones empresariales en las que la confiabilidad es fundamental.

5. Razonamiento Agéntico Complejo:

La exploración basada en árboles se aplica cuando los agentes deben investigar una serie de rutas posibles para lograr algo. En contraste con la toma de decisiones secuencial, el razonamiento basado en árboles permite que un agente considere múltiples estrategias al mismo tiempo y elija la más prometedora según criterios de evaluación actualizados en tiempo real.

LlamaCloud y LlamaParse

Con su amplia gama de servicios administrados diseñados para la mejora de contexto empresarial dentro de aplicaciones de LLM y RAG, LlamaCloud es un gran avance en el entorno de LlamaIndex. Esta solución permite a los ingenieros de inteligencia artificial centrarse en el desarrollo de la lógica empresarial clave al reducir el proceso complejo de manipulación de datos.

Otro motor de análisis disponible es LlamaParse, que se integra convenientemente con pipelines de ingesta y recuperación en LlamaIndex. Esto constituye uno de los elementos más importantes que maneja documentos complejos y semi-estructurados con objetos incrustados como tablas y figuras. Otro bloque de construcción importante es la API de ingesta y recuperación administrada, que proporciona varias formas de cargar, procesar y almacenar datos de una gran cantidad de fuentes, como el repositorio central de datos de LlamaHub o las salidas de LlamaParse. Además, admite varias integraciones de almacenamiento de datos.

Conclusión

RAG Agéntico representa un cambio en el procesamiento de la información al introducir más inteligencia en los agentes mismos. En muchas situaciones, RAG agéntico se puede combinar con procesos o diferentes API para proporcionar un resultado más preciso y refinado. Por ejemplo, en el caso de la resumen de documentos, RAG agéntico evaluaría el propósito del usuario antes de elaborar un resumen o comparar detalles. Al ofrecer soporte al cliente, RAG agéntico puede responder con precisión e individualmente a consultas de clientes cada vez más complejas, no solo basándose en su modelo de entrenamiento, sino también en la memoria y las fuentes externas disponibles. RAG Agéntico destaca un cambio de los modelos generativos a sistemas más afinados que aprovechan otros tipos de fuentes para lograr un resultado robusto y preciso. Sin embargo, siendo generativos e inteligentes como lo son ahora, estos modelos y RAG Agénticos están en una búsqueda de una mayor eficiencia a medida que se agregan más datos a los pipelines.

Chaitanya Pathak es un ejecutivo de tecnología experimentado que se especializa en la productización de la IA Generativa. Con más de una década en software empresarial y gestión de productos, actualmente se desempeña como Director de Producto y Tecnología en LEAPS by Analyttica. Chaitanya ha desarrollado un marco integral, que actualmente está en proceso de patente, que convierte las tecnologías de IA en productos escalables y listos para el mercado en múltiples industrias, lo que permite a los líderes de producto y tecnología tener un impacto significativo.