Inteligencia artificial
Una inmersión profunda en la generación mejorada por recuperación en LLM

Imagina que eres un analista y tienes acceso a un Modelo de Lenguaje Grande. Estás emocionado sobre las perspectivas que esto trae a tu flujo de trabajo. Pero entonces, le preguntas sobre los últimos precios de las acciones o la tasa de inflación actual, y te responde con:
“Lo siento, pero no puedo proporcionar datos en tiempo real o posteriores a la fecha de corte. Mis últimos datos de entrenamiento solo llegan hasta enero de 2022.”
Los Modelos de Lenguaje Grande, por todo su poder lingüístico, carecen de la capacidad de captar el ‘ahora‘. Y en el mundo rápido, ‘ahora‘ es todo.
La investigación ha demostrado que los modelos de lenguaje preentrenados grandes (LLM) también son repositorios de conocimiento factual.
Han sido entrenados en tantos datos que han absorbido muchos hechos y cifras. Cuando se ajustan, pueden lograr resultados notables en una variedad de tareas de NLP.
Pero aquí está el problema: su capacidad para acceder y manipular este conocimiento almacenado es, a veces, no perfecta. Especialmente cuando la tarea en cuestión es intensiva en conocimiento, estos modelos pueden quedarse atrás de arquitecturas más especializadas. Es como tener una biblioteca con todos los libros del mundo, pero sin catálogo para encontrar lo que necesitas.
La actualización de navegación de ChatGPT de OpenAI
El reciente anuncio de OpenAI sobre la capacidad de navegación de ChatGPT es un salto significativo en la dirección de la Generación Mejorada por Recuperación (RAG). Con ChatGPT ahora capaz de buscar en Internet para obtener información actual y autorizada, refleja el enfoque de RAG de extraer dinámicamente datos de fuentes externas para proporcionar respuestas enriquecidas.
https://twitter.com/OpenAI/status/1707077710047216095
Actualmente disponible para usuarios Plus y Empresariales, OpenAI planea implementar esta función para todos los usuarios pronto. Los usuarios pueden activarla seleccionando ‘Navegar con Bing’ bajo la opción GPT-4.
La ingeniería de prompts es efectiva pero insuficiente
Los prompts sirven como la puerta de entrada al conocimiento de los LLM. Guían al modelo, proporcionando una dirección para la respuesta. Sin embargo, crear un prompt efectivo no es la solución completa para obtener lo que quieres de un LLM. Aún así, veamos algunas buenas prácticas para considerar al escribir un prompt:
- Claridad: Un prompt bien definido elimina la ambigüedad. Debe ser directo, asegurando que el modelo entienda la intención del usuario. Esta claridad a menudo se traduce en respuestas más coherentes y relevantes.
- Contexto: Especialmente para entradas extensas, la colocación de la instrucción puede influir en la salida. Por ejemplo, mover la instrucción al final de un prompt largo puede a menudo producir mejores resultados.
- Precisión en la instrucción: La fuerza de la pregunta, a menudo transmitida a través del marco “quién, qué, dónde, cuándo, por qué, cómo”, puede guiar al modelo hacia una respuesta más enfocada. Además, especificar el formato de salida deseado o el tamaño puede refinar aún más la salida del modelo.
- Manejo de la incertidumbre: Es esencial guiar al modelo sobre cómo responder cuando no esté seguro. Por ejemplo, instruir al modelo para que responda con “No lo sé” cuando esté incierto puede prevenir que genere respuestas inexactas o “alucinadas“.
- Pensamiento paso a paso: Para instrucciones complejas, guiar al modelo para que piense sistemáticamente o divida la tarea en subtareas puede llevar a salidas más completas y precisas.
En relación con la importancia de los prompts en la guía de ChatGPT, un artículo completo se puede encontrar en un artículo en Unite.ai.
Desafíos en los modelos de IA generativa
La ingeniería de prompts implica ajustar las directivas dadas al modelo para mejorar su rendimiento. Es una forma muy rentable de aumentar la precisión de su aplicación de IA generativa, requiriendo solo ajustes menores de código. Mientras que la ingeniería de prompts puede mejorar significativamente las salidas, es crucial entender las limitaciones inherentes de los modelos de lenguaje grande (LLM). Dos desafíos principales son alucinaciones y cortes de conocimiento.
- Alucinaciones: Esto se refiere a instancias donde el modelo devuelve una respuesta confiada pero incorrecta o fabricada. Aunque los LLM avanzados tienen mecanismos incorporados para reconocer y evitar tales salidas.
- Cortes de conocimiento: Cada modelo LLM tiene una fecha de fin de entrenamiento, posterior a la cual no es consciente de eventos o desarrollos. Esta limitación significa que el conocimiento del modelo está congelado en el punto de su última fecha de entrenamiento. Por ejemplo, un modelo entrenado hasta 2022 no conocería los eventos de 2023.
La generación mejorada por recuperación (RAG) ofrece una solución a estos desafíos. Permite que los modelos accedan a información externa, mitigando problemas de alucinaciones al proporcionar acceso a datos propietarios o específicos de dominio. Para los cortes de conocimiento, RAG puede acceder a información actual más allá de la fecha de entrenamiento del modelo, asegurando que la salida esté actualizada.
También permite que el LLM extraiga datos de diversas fuentes externas en tiempo real. Esto podría ser bases de conocimiento, bases de datos o incluso la vasta extensión de Internet.
Introducción a la Generación Mejorada por Recuperación
La generación mejorada por recuperación (RAG) es un marco, más que una tecnología específica, que permite a los Modelos de Lenguaje Grande acceder a datos en los que no se entrenaron. Hay múltiples formas de implementar RAG, y el mejor ajuste depende de su tarea específica y la naturaleza de sus datos.















