Ingeniería de prompts

Abordar la alucinación en los grandes modelos de lenguaje: una encuesta de técnicas de vanguardia

mm

Los grandes modelos de lenguaje (LLM) como GPT-4, PaLM y Llama han desbloqueado avances notables en las capacidades de generación de lenguaje natural. Sin embargo, un desafío persistente que limita su confiabilidad y despliegue seguro es su tendencia a alucinar – generar contenido que parece coherente pero es factualmente incorrecto o no está basado en el contexto de entrada.

A medida que los LLM siguen creciendo en poder y ubiquidad en aplicaciones del mundo real, abordar las alucinaciones se vuelve imperativo. Este artículo proporciona una visión general integral de las técnicas más recientes que los investigadores han introducido para detectar, cuantificar y mitigar las alucinaciones en los LLM.

Entendiendo la alucinación en los LLM

La alucinación se refiere a inexactitudes factuales o invenciones generadas por los LLM que no están basadas en la realidad o el contexto proporcionado. Algunos ejemplos incluyen:

  • Inventar detalles biográficos o eventos no evidenciados en el material de origen cuando se genera texto sobre una persona.
  • Proporcionar consejos médicos defectuosos al confabular efectos secundarios de medicamentos o procedimientos de tratamiento.
  • Inventar datos, estudios o fuentes no existentes para respaldar una afirmación.

Este fenómeno surge porque los LLM se entrenan en vastas cantidades de datos de texto en línea. Si bien esto les permite alcanzar fuertes capacidades de modelado de lenguaje, también significa que aprenden a extrapolar información, hacer saltos lógicos y llenar lagunas de una manera que parece convincente pero puede ser engañosa o errónea.

Algunos factores clave responsables de las alucinaciones incluyen:

  • Generalización de patrones – Los LLM identifican y extienden patrones en los datos de entrenamiento que pueden no generalizarse bien.
  • Conocimiento obsoleto – El preentrenamiento estático impide la integración de nueva información.
  • Ambigüedad – Las instrucciones vagas permiten espacio para suposiciones incorrectas.
  • Sesgos – Los modelos perpetúan y amplifican perspectivas sesgadas.
  • Falta de fundamentación – La falta de comprensión y razonamiento significa que los modelos generan contenido que no comprenden completamente.

Abordar las alucinaciones es crucial para un despliegue confiable en dominios sensibles como la medicina, el derecho, las finanzas y la educación, donde generar información incorrecta podría llevar a daños.

Taxonomía de técnicas de mitigación de alucinaciones

Los investigadores han introducido diversas técnicas para combatir las alucinaciones en los LLM, que se pueden categorizar en:

1. Ingeniería de instrucciones

Esto implica crear instrucciones cuidadosamente para proporcionar contexto y guiar al LLM hacia respuestas basadas en hechos.

  • Aumento de recuperación – Recuperar evidencia externa para basar el contenido.
  • Bucles de retroalimentación – Proporcionar retroalimentación iterativa para refinar las respuestas.
  • Ajuste de instrucciones – Ajustar las instrucciones durante el ajuste fino para comportamientos deseables.

2. Desarrollo de modelos

Crear modelos inherentemente menos propensos a alucinar a través de cambios arquitectónicos.

  • Estrategias de decodificación – Generar texto de maneras que aumenten la fidelidad.
  • Fundamentación de conocimiento – Incorporar bases de conocimiento externas.
  • Funciones de pérdida novedosas – Optimizar para fidelidad durante el entrenamiento.
  • Ajuste fino supervisado – Utilizar datos etiquetados por humanos para mejorar la factualidad.

A continuación, realizamos una encuesta de técnicas prominentes bajo cada enfoque.

Técnicas de mitigación de alucinaciones notables

Generación aumentada con recuperación

La generación aumentada con recuperación mejora los LLM al recuperar y condicionar la generación de texto en documentos de evidencia externos, en lugar de depender únicamente del conocimiento implícito del modelo. Esto basa el contenido en información verificable y actualizada, reduciendo las alucinaciones.

Técnicas prominentes incluyen:

  • RAG – Utiliza un módulo de recuperación que proporciona pasajes relevantes para un modelo sec2sec para generar a partir de ellos. Ambos componentes se entrenan de manera integral.
  • RARR – Emplea LLM para investigar afirmaciones no atribuidas en el texto generado y revisarlas para alinearlas con la evidencia recuperada.
  • Recuperación de conocimiento – Valida las generaciones inciertas utilizando conocimiento recuperado antes de producir texto.
  • LLM-Augmenter – Busca iterativamente conocimiento para construir cadenas de evidencia para las instrucciones de LLM.

Retrolimentación y razonamiento

Utilizar retroalimentación natural y razonamiento permite a los LLM refinar y mejorar sus salidas iniciales, reduciendo las alucinaciones.

CoVe emplea una técnica de verificación en cadena. El LLM primero redacta una respuesta a la consulta del usuario. Luego genera preguntas de verificación potenciales para verificar su propia respuesta, basándose en su confianza en varias afirmaciones hechas. Por ejemplo, para una respuesta que describe un nuevo tratamiento médico, CoVe puede generar preguntas como “¿Cuál es la tasa de eficacia del tratamiento?”, “¿Ha recibido aprobación regulatoria?”, “¿Cuáles son los efectos secundarios potenciales?”. Crucialmente, el LLM luego intenta responder a estas preguntas de verificación de manera independiente, sin estar sesgado por su respuesta inicial. Si las respuestas a las preguntas de verificación contradicen o no pueden respaldar las afirmaciones hechas en la respuesta original, el sistema identifica esas como posibles alucinaciones y refina la respuesta antes de presentarla al usuario.

DRESS se centra en ajustar los LLM para que se alineen mejor con las preferencias humanas a través de la retroalimentación del lenguaje natural. El enfoque permite a los usuarios no expertos proporcionar críticas en forma libre sobre las generaciones del modelo, como “Los efectos secundarios mencionados parecen exagerados” o instrucciones de refinamiento como “Por favor, también discuta la eficacia en cuanto a costos”. DRESS utiliza aprendizaje de refuerzo para entrenar a los modelos a generar respuestas condicionadas a dicha retroalimentación que se alineen mejor con las preferencias humanas. Esto mejora la interactividad mientras reduce las afirmaciones irrealistas o no respaldadas.

MixAlign aborda situaciones en las que los usuarios hacen preguntas que no corresponden directamente a los pasajes de evidencia recuperados por el sistema. Por ejemplo, un usuario puede preguntar “¿Empeorará la contaminación en China?” mientras que los pasajes recuperados discuten tendencias de contaminación a nivel global. Para evitar alucinar con contexto insuficiente, MixAlign aclara explícitamente con el usuario cuando no está seguro de cómo relacionar su pregunta con la información recuperada. Este mecanismo de retroalimentación humana en el bucle permite obtener retroalimentación para fundamentar y contextualizar correctamente la evidencia, evitando respuestas no basadas.

La técnica de Auto-reflexión entrena a los LLM para evaluar, proporcionar retroalimentación sobre y refinar iterativamente sus propias respuestas utilizando un enfoque multi-tarea. Por ejemplo, dado una respuesta generada para una consulta médica, el modelo aprende a puntuar su precisión factual, identificar cualquier afirmación contradictoria o no respaldada, y editar esas afirmaciones recuperando conocimiento relevante. Al enseñar a los LLM este bucle de retroalimentación de verificación, crítica y mejora iterativa de sus propias salidas, el enfoque reduce la alucinación ciega.

Ajuste de instrucciones

El ajuste de instrucciones permite ajustar las instrucciones proporcionadas a los LLM durante el ajuste fino para comportamientos deseables.

El método SynTra emplea una tarea de resumen sintético para minimizar la alucinación antes de transferir el modelo a conjuntos de datos de resumen reales. La tarea sintética proporciona pasajes de entrada y pide a los modelos que los resuman a través de recuperación solamente, sin abstracción. Esto entrena a los modelos a depender completamente del contenido fuente en lugar de alucinar nueva información durante la generación de resúmenes. SynTra se ha demostrado que reduce los problemas de alucinación cuando los modelos ajustados se despliegan en tareas objetivo.

UPRISE entrena un recuperador de instrucciones universal que proporciona la instrucción óptima suave para el aprendizaje de pocos disparos en tareas aguas abajo no vistas. Al recuperar instrucciones efectivas ajustadas en un conjunto diverso de tareas, el modelo aprende a generalizar y adaptarse a nuevas tareas donde carece de ejemplos de entrenamiento. Esto mejora el rendimiento sin requerir un ajuste específico de la tarea.

Arquitecturas de modelo novedosas

FLEEK es un sistema centrado en asistir a los verificadores y validadores humanos. Identifica automáticamente afirmaciones factuales potencialmente verificables hechas en un texto dado. FLEEK transforma estas afirmaciones verificables en consultas, recupera evidencia relacionada de bases de conocimiento y proporciona esta información contextual a los validadores humanos para verificar efectivamente la precisión del documento y las necesidades de revisión.

El enfoque de decodificación CAD reduce la alucinación en la generación de lenguaje a través de la decodificación consciente del contexto. Específicamente, CAD amplifica las diferencias entre la distribución de salida de un LLM cuando se condiciona a un contexto versus se genera incondicionalmente. Esto desalienta la contradicción de la evidencia contextual, dirigiendo al modelo hacia generaciones basadas.

DoLA mitiga las alucinaciones factuales al contrastar los logits de diferentes capas de redes de transformadores. Dado que el conocimiento factual tiende a localizarse en ciertas capas intermedias, amplificar las señales de esas capas factuales a través del contraste de logits de DoLA reduce las generaciones factuales incorrectas.

El marco THAM introduce un término de regularización durante el entrenamiento para minimizar la información mutua entre las entradas y las salidas alucinadas. Esto ayuda a aumentar la dependencia del modelo del contexto de entrada proporcionado en lugar de la imaginación no controlada, reduciendo las alucinaciones ciegas.

Fundamentación de conocimiento

Fundamentar las generaciones de LLM en conocimiento estructurado evita la especulación desenfrenada y la fabricación.

El modelo RHO identifica entidades en un contexto conversacional y las vincula a una base de conocimiento (KG). Hechos y relaciones relacionados con esas entidades se recuperan de la KG y se fusionan en la representación de contexto proporcionada al LLM. Esto enriquece el contexto con conocimiento basado en hechos sobre entidades o eventos mencionados, reduciendo las alucinaciones en diálogos.

HAR crea conjuntos de datos de entrenamiento contrafácticos que contienen alucinaciones generadas por el modelo para enseñar mejor la fundamentación. Dado un pasaje factual, los modelos son instados a introducir alucinaciones o distorsiones generando una versión contrafactual alterada. El ajuste fino en estos datos fuerza a los modelos a basar mejor el contenido en las fuentes factuales originales, reduciendo la improvisación.

Ajuste fino supervisado

  • Coach – Marco interactivo que responde a consultas del usuario pero también solicita correcciones para mejorar.
  • R-Tuning – Ajuste consciente de la negativa se niega a responder preguntas no respaldadas identificadas a través de lagunas en el conocimiento de los datos de entrenamiento.
  • TWEAK – Método de decodificación que clasifica las generaciones según qué tan bien los supuestos respaldan los hechos de entrada.

Desafíos y limitaciones

A pesar del progreso prometedor, algunos desafíos clave permanecen en la mitigación de las alucinaciones:

  • Las técnicas a menudo intercambian calidad, coherencia y creatividad por veracidad.
  • Dificultad en la evaluación rigurosa más allá de dominios limitados. Las métricas no capturan todas las sutilezas.
  • Muchos métodos son computacionalmente costosos, requiriendo recuperación extensiva o razonamiento autorreflexivo.
  • Dependen en gran medida de la calidad de los datos de entrenamiento y las fuentes de conocimiento externas.
  • Es difícil garantizar la generalización a través de dominios y modalidades.
  • Las raíces fundamentales de la alucinación, como la extrapolación excesiva, permanecen sin resolver.

Abordar estos desafíos probablemente requiere un enfoque multilayered que combine mejoras en los datos de entrenamiento, mejoras en la arquitectura del modelo, pérdidas que aumentan la fidelidad y técnicas de inferencia.

El camino adelante

La mitigación de alucinaciones para los LLM sigue siendo un problema de investigación abierto con progreso activo. Algunas direcciones prometedoras para el futuro incluyen:

  • Técnicas híbridas: Combinar enfoques complementarios como recuperación, fundamentación de conocimiento y retroalimentación.
  • Modelado de causalidad: Mejorar la comprensión y el razonamiento.
  • Integración de conocimiento en línea: Mantener el conocimiento del mundo actualizado.
  • Verificación formal: Proporcionar garantías matemáticas sobre el comportamiento del modelo.
  • Interpretabilidad: Construir transparencia en las técnicas de mitigación.

A medida que los LLM siguen proliferando en dominios de alto riesgo, desarrollar soluciones robustas para frenar las alucinaciones será clave para garantizar su despliegue seguro, ético y confiable. Las técnicas encuestadas en este artículo proporcionan una visión general de las técnicas propuestas hasta ahora, donde permanecen desafíos de investigación abiertos. En general, hay una tendencia positiva hacia el aumento de la factualidad del modelo, pero el progreso continuo requiere abordar limitaciones y explorar nuevas direcciones como la causalidad, la verificación y los métodos híbridos. Con esfuerzos diligentes de investigadores en diversas disciplinas, el sueño de LLM poderosos y confiables se puede traducir en realidad.

He dedicado los últimos cinco años sumergiéndome en el fascinante mundo de Machine Learning y Deep Learning. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad en curso también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.