Ingeniería de prompts

Abordar las alucinaciones en los grandes modelos de lenguaje: Una encuesta de técnicas de vanguardia

Published January 19, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Los grandes modelos de lenguaje (LLM) como GPT-4, PaLM y Llama han desbloqueado avances notables en las capacidades de generación de lenguaje natural. Sin embargo, un desafío persistente que limita su confiabilidad y despliegue seguro es su tendencia a alucinar – generar contenido que parece coherente pero es factualmente incorrecto o no está basado en el contexto de entrada.

A medida que los LLM siguen creciendo en poder y se vuelven más ubicuos en aplicaciones del mundo real, abordar las alucinaciones se vuelve imperativo. Este artículo proporciona una visión general integral de las técnicas más recientes que los investigadores han introducido para detectar, cuantificar y mitigar las alucinaciones en los LLM.

Entendiendo las alucinaciones en los LLM

Las alucinaciones se refieren a inexactitudes o invenciones factuales generadas por los LLM que no están basadas en la realidad o en el contexto proporcionado. Algunos ejemplos incluyen:

Inventar detalles biográficos o eventos no evidenciados en el material de origen al generar texto sobre una persona.
Proporcionar consejos médicos defectuosos al confabular efectos secundarios de medicamentos o procedimientos de tratamiento.
Inventar datos, estudios o fuentes no existentes para respaldar una afirmación.

Este fenómeno surge porque los LLM se entrenan en grandes cantidades de datos de texto en línea. Si bien esto les permite alcanzar fuertes capacidades de modelado de lenguaje, también significa que aprenden a extrapolar información, hacer saltos lógicos y llenar vacíos de una manera que parece convincente pero puede ser engañosa o errónea.

Algunos factores clave responsables de las alucinaciones incluyen:

Generalización de patrones – Los LLM identifican y extienden patrones en los datos de entrenamiento que pueden no generalizarse bien.
Conocimiento desactualizado – El preentrenamiento estático evita la integración de nueva información.
Ambigüedad – Las instrucciones vagas permiten espacio para suposiciones incorrectas.
Sesgos – Los modelos perpetúan y amplifican perspectivas sesgadas.
Falta de fundamentación – La falta de comprensión y razonamiento significa que los modelos generan contenido que no entienden completamente.

Abordar las alucinaciones es fundamental para un despliegue confiable en dominios sensibles como la medicina, la ley, las finanzas y la educación, donde generar información errónea podría provocar daños.

Taxonomía de técnicas de mitigación de alucinaciones

Los investigadores han introducido diversas técnicas para combatir las alucinaciones en los LLM, que se pueden categorizar en:

1. Ingeniería de instrucciones

Esto implica crear instrucciones cuidadosamente para proporcionar contexto y guiar al LLM hacia respuestas basadas en hechos y fundamentadas.

Aumento de recuperación – Recuperar evidencia externa para fundamentar el contenido.
Bucles de retroalimentación – Proporcionar retroalimentación iterativamente para refinar las respuestas.
Ajuste de instrucciones – Ajustar las instrucciones durante el ajuste fino para comportamientos deseables.

2. Desarrollo de modelos

Crear modelos inherentemente menos propensos a alucinar a través de cambios arquitectónicos.

Estrategias de descodificación – Generar texto de maneras que aumenten la fidelidad.
Fundamentación de conocimiento – Incorporar bases de conocimiento externas.
Nuevas funciones de pérdida – Optimizar para la fidelidad durante el entrenamiento.
Ajuste fino supervisado – Usar datos etiquetados por humanos para mejorar la factualidad.

A continuación, realizamos una encuesta de técnicas prominentes bajo cada enfoque.

Técnicas notables de mitigación de alucinaciones

Generación aumentada con recuperación

La generación aumentada con recuperación mejora los LLM al recuperar y condicionar la generación de texto en documentos de evidencia externos, en lugar de confiar únicamente en el conocimiento implícito del modelo. Esto fundamenta el contenido en información verificable y actualizada, reduciendo las alucinaciones.

Técnicas prominentes incluyen:

RAG – Utiliza un módulo de recuperación que proporciona pasajes relevantes para un modelo sec2sec para generar a partir de ellos. Ambos componentes se entrenan de manera integral.
RARR – Emplea LLM para investigar afirmaciones no atribuidas en el texto generado y revisarlas para alinearlas con la evidencia recuperada.
Recuperación de conocimiento – Valida las generaciones inciertas utilizando conocimiento recuperado antes de producir texto.
LLM-Augmenter – Busca iterativamente en el conocimiento para construir cadenas de evidencia para las instrucciones de los LLM.

Retróalimentación y razonamiento

Utilizar retroalimentación natural del lenguaje o autorrazonamiento permite a los LLM refinar y mejorar sus salidas iniciales, reduciendo las alucinaciones.

CoVe emplea una técnica de verificación en cadena. El LLM primero redacta una respuesta a la consulta del usuario. Luego genera preguntas de verificación potenciales para verificar su propia respuesta, basándose en su confianza en varias afirmaciones realizadas. Por ejemplo, para una respuesta que describe un nuevo tratamiento médico, CoVe puede generar preguntas como “¿Cuál es la tasa de eficacia del tratamiento?”, “¿Ha recibido aprobación regulatoria?”, “¿Cuáles son los efectos secundarios potenciales?”. Crucialmente, el LLM luego intenta responder de forma independiente a estas preguntas de verificación sin estar sesgado por su respuesta inicial. Si las respuestas a las preguntas de verificación contradicen o no pueden respaldar las afirmaciones realizadas en la respuesta original, el sistema identifica esas como posibles alucinaciones y refina la respuesta antes de presentarla al usuario.

DRESS se centra en ajustar los LLM para que se alineen mejor con las preferencias humanas a través de la retroalimentación del lenguaje natural. El enfoque permite que los usuarios no expertos proporcionen críticas en forma libre sobre las generaciones del modelo, como “Los efectos secundarios mencionados parecen exagerados” o instrucciones de refinamiento como “Por favor, también discuta la efectividad en cuanto a costos”. DRESS utiliza aprendizaje por refuerzo para entrenar a los modelos a generar respuestas condicionadas a dicha retroalimentación que se alineen mejor con las preferencias humanas. Esto mejora la interactividad mientras reduce las afirmaciones irrealistas o no respaldadas.

MixAlign se ocupa de situaciones en las que los usuarios hacen preguntas que no corresponden directamente a los pasajes de evidencia recuperados por el sistema. Por ejemplo, un usuario puede preguntar “¿Empeorará la contaminación en China?” mientras que los pasajes recuperados discuten tendencias de contaminación a nivel global. Para evitar alucinar con un contexto insuficiente, MixAlign aclara explícitamente con el usuario cuando no está seguro de cómo relacionar su pregunta con la información recuperada. Este mecanismo de retroalimentación humano en el bucle permite obtener retroalimentación para fundamentar y contextualizar correctamente la evidencia, evitando respuestas no fundamentadas.

La técnica de Auto-reflexión entrena a los LLM para evaluar, proporcionar retroalimentación sobre y refinar iterativamente sus propias respuestas utilizando un enfoque multitarea. Por ejemplo, dado una respuesta generada para una consulta médica, el modelo aprende a puntuar su precisión factual, identificar cualquier afirmación contradictoria o no respaldada, y editarlas recuperando conocimiento relevante. Al enseñar a los LLM este bucle de retroalimentación de verificación, crítica y mejora iterativa de sus propias salidas, el enfoque reduce la alucinación ciega.

Ajuste de instrucciones

El ajuste de instrucciones permite ajustar las instrucciones proporcionadas a los LLM durante el ajuste fino para comportamientos deseables.

El método SynTra emplea una tarea de resumen sintético para minimizar la alucinación antes de transferir el modelo a conjuntos de datos de resumen reales. La tarea sintética proporciona pasajes de entrada y pide a los modelos que los resuman a través de la recuperación solamente, sin abstracción. Esto entrena a los modelos para confiar completamente en el contenido con fuentes en lugar de alucinar nueva información durante la resumen. SynTra se muestra que reduce los problemas de alucinación cuando los modelos ajustados se despliegan en tareas objetivo.

UPRISE entrena a un recuperador de instrucciones universal que proporciona la instrucción suave óptima para el aprendizaje de pocos disparos en tareas de descarga no vistas. Al recuperar instrucciones efectivas ajustadas en un conjunto diverso de tareas, el modelo aprende a generalizar y adaptarse a nuevas tareas donde carece de ejemplos de entrenamiento. Esto mejora el rendimiento sin requerir un ajuste específico de la tarea.

Nuevas arquitecturas de modelos

FLEEK es un sistema centrado en asistir a los verificadores y validadores humanos. Identifica automáticamente afirmaciones factuales potencialmente verificables realizadas en un texto dado. FLEEK transforma estas afirmaciones comprobables en consultas, recupera evidencia relacionada de bases de conocimiento y proporciona esta información contextual a los validadores humanos para verificar efectivamente la precisión del documento y las necesidades de revisión.

El enfoque de descodificación CAD reduce la alucinación en la generación de lenguaje a través de la descodificación consciente del contexto. Específicamente, CAD amplifica las diferencias entre la distribución de salida de un LLM cuando se condiciona a un contexto versus generada incondicionalmente. Esto desalienta la contradicción de la evidencia contextual, dirigiendo al modelo hacia generaciones fundamentadas.

DoLA mitiga las alucinaciones factuales al contrastar los logits de diferentes capas de redes de transformadores. Dado que el conocimiento factual tiende a estar localizado en ciertas capas intermedias, amplificar las señales de esas capas factuales a través de la contrastación de logits de DoLA reduce las generaciones de hechos incorrectos.

El marco THAM introduce un término de regularización durante el entrenamiento para minimizar la información mutua entre las entradas y las salidas alucinadas. Esto ayuda a aumentar la dependencia del modelo del contexto de entrada dado en lugar de la imaginación sin restricciones, reduciendo las alucinaciones ciegas.

Fundamentación de conocimiento

Fundamentar las generaciones de los LLM en conocimiento estructurado evita la especulación y la fabricación desenfrenadas.

El modelo RHO identifica entidades en un contexto conversacional y las enlaza a un grafo de conocimiento (KG). Hechos y relaciones relacionados con esas entidades se recuperan del KG y se fusionan en la representación de contexto proporcionada al LLM. Esto reduce las alucinaciones en el diálogo al mantener las respuestas ligadas a hechos fundamentados sobre entidades o eventos mencionados.

HAR crea conjuntos de datos de entrenamiento contrafácticos que contienen alucinaciones generadas por el modelo para enseñar mejor la fundamentación. Dado un pasaje factual, los modelos se instruyen para introducir alucinaciones o distorsiones generando una versión contrafactual alterada. El ajuste fino en estos datos fuerza a los modelos a fundamentar mejor el contenido en las fuentes factuales originales, reduciendo la improvisación.

Ajuste fino supervisado

Coach – Marco interactivo que responde a las consultas del usuario pero también solicita correcciones para mejorar.
R-Tuning – Ajuste consciente de la negación que rechaza preguntas no respaldadas identificadas a través de lagunas en el conocimiento de los datos de entrenamiento.
TWEAK – Método de descodificación que clasifica las generaciones según qué tan bien los supuestos respaldan los hechos de entrada.

Desafíos y limitaciones

A pesar del progreso prometedor, algunos desafíos clave permanecen en la mitigación de las alucinaciones:

Las técnicas a menudo intercambian calidad, coherencia y creatividad por veracidad.
Dificultad en la evaluación rigurosa más allá de dominios limitados. Las métricas no capturan todas las sutilezas.
Muchos métodos son computacionalmente costosos, requiriendo recuperación extensiva o autorrazonamiento.
Dependen en gran medida de la calidad de los datos de entrenamiento y las fuentes de conocimiento externas.
Es difícil garantizar la generalización a través de dominios y modalidades.
Las raíces fundamentales de la alucinación, como la sobreextrapolación, permanecen sin resolver.

Abordar estos desafíos probablemente requiere un enfoque multilayered que combine mejoras en los datos de entrenamiento, mejoras en la arquitectura del modelo, pérdidas que mejoran la fidelidad y técnicas de inferencia.

El camino adelante

La mitigación de alucinaciones para los LLM sigue siendo un problema de investigación abierto con progreso activo. Algunas direcciones futuras prometedoras incluyen:

Técnicas híbridas: Combinar enfoques complementarios como la recuperación, la fundamentación de conocimiento y la retroalimentación.
Modelado de causalidad: Mejorar la comprensión y el razonamiento.
Integración de conocimiento en línea: Mantener el conocimiento del mundo actualizado.
Verificación formal: Proporcionar garantías matemáticas sobre el comportamiento del modelo.
Interpretabilidad: Construir transparencia en las técnicas de mitigación.

A medida que los LLM siguen proliferando en dominios de alto riesgo, desarrollar soluciones robustas para frenar las alucinaciones será clave para garantizar su despliegue seguro, ético y confiable. Las técnicas encuestadas en este artículo proporcionan una visión general de las técnicas propuestas hasta ahora, donde quedan desafíos de investigación abiertos. En general, hay una tendencia positiva hacia el mejoramiento de la factualidad del modelo, pero el progreso continuo requiere abordar limitaciones y explorar nuevas direcciones como la causalidad, la verificación y los métodos híbridos. Con esfuerzos diligentes de investigadores de diversas disciplinas, el sueño de LLM poderosos y confiables se puede traducir en realidad.

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del Aprendizaje Automático y el Aprendizaje Profundo. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad continua también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.