Contáctenos

Abordar las alucinaciones en modelos de lenguaje grandes: un estudio de técnicas de vanguardia

Ingeniería rápida

Abordar las alucinaciones en modelos de lenguaje grandes: un estudio de técnicas de vanguardia

mm

Los modelos de lenguaje grande (LLM) como GPT-4, PaLM y Llama han desbloqueado avances notables en las capacidades de generación de lenguaje natural. Sin embargo, un desafío persistente que limita su confiabilidad y su implementación segura es su tendencia a alucinar: generar contenido que parece coherente pero que es objetivamente incorrecto o no está fundamentado en el contexto de entrada.

A medida que los LLM continúan volviéndose más poderosos y ubicuos en las aplicaciones del mundo real, abordar las alucinaciones se vuelve imperativo. Este artículo proporciona una descripción general completa de las últimas técnicas que los investigadores han introducido para detectar, cuantificar y mitigar las alucinaciones en los LLM.

Comprender las alucinaciones en los LLM

La alucinación se refiere a inexactitudes fácticas o invenciones generadas por LLM que no se basan en la realidad o el contexto proporcionado. Algunos ejemplos incluyen:

  • Inventar detalles biográficos o eventos no evidenciados en el material original al generar un texto sobre una persona.
  • Proporcionar asesoramiento médico erróneo al confabular efectos secundarios de medicamentos o procedimientos de tratamiento.
  • Inventar datos, estudios o fuentes inexistentes para respaldar una afirmación.

Este fenómeno surge porque los LLM están capacitados con grandes cantidades de datos de texto en línea. Si bien esto les permite alcanzar sólidas capacidades de modelado del lenguaje, también significa que aprenden a extrapolar información, dar saltos lógicos y llenar vacíos de una manera que parece convincente pero que puede resultar engañosa o errónea.

Algunos factores clave responsables de las alucinaciones incluyen:

  • Generalización de patrones – Los LLM identifican y amplían patrones en los datos de capacitación que pueden no generalizarse bien.
  • Conocimiento obsoleto – El preentrenamiento estático impide la integración de nueva información.
  • Ambigüedad – Las indicaciones vagas dejan espacio para suposiciones incorrectas.
  • Sesgos – Los modelos perpetúan y amplifican las perspectivas sesgadas.
  • Conexión a tierra insuficiente – La falta de comprensión y razonamiento hace que los modelos generen contenidos que no comprenden del todo.

Abordar las alucinaciones es fundamental para un despliegue confiable en ámbitos sensibles como la medicina, el derecho, las finanzas y la educación, donde generar información errónea podría provocar daños.

Taxonomía de técnicas de mitigación de alucinaciones

Los investigadores han introducido diversas técnicas para combatir las alucinaciones en los LLM, que se pueden clasificar en:

1. Ingeniería rápida

Esto implica elaborar cuidadosamente indicaciones para proporcionar contexto y guiar al LLM hacia respuestas objetivas y fundamentadas.

  • Aumento de recuperación – Recuperar evidencia externa para fundamentar el contenido.
  • Circuitos de retroalimentacion – Proporcionar retroalimentación de forma iterativa para perfeccionar las respuestas.
  • sintonización rápida – Ajustar las indicaciones durante el ajuste fino de los comportamientos deseados.

2. Desarrollo de modelos

Crear modelos inherentemente menos propensos a alucinar a través de cambios arquitectónicos.

  • Estrategias de decodificación – Generar texto de manera que aumente la fidelidad.
  • Base del conocimiento – Incorporar bases de conocimiento externas.
  • Nuevas funciones de pérdida – Optimización de la fidelidad durante el entrenamiento.
  • Ajuste supervisado – Utilizar datos etiquetados por humanos para mejorar la factibilidad.

A continuación, analizamos las técnicas destacadas de cada enfoque.

Técnicas notables de mitigación de alucinaciones

Recuperación Generación Aumentada

La generación aumentada por recuperación mejora los LLM al recuperar y condicionar la generación de texto a partir de documentos de evidencia externa, en lugar de depender únicamente del conocimiento implícito del modelo. Esto fundamenta el contenido en información actualizada y verificable, lo que reduce las alucinaciones.

Las técnicas destacadas incluyen:

  • RAG – Utiliza un módulo de recuperación que proporciona pasajes relevantes para generar un modelo seq2seq. Ambos componentes están capacitados de principio a fin.
  • RARR – Emplea LLM para investigar afirmaciones no atribuidas en texto generado y revisarlas para alinearlas con la evidencia recuperada.
  • Recuperación del conocimiento – Valida generaciones inseguras utilizando el conocimiento recuperado antes de producir texto.
  • LLM-Aumentador – Busca iterativamente conocimiento para construir cadenas de evidencia para las indicaciones de LLM.

Comentarios y razonamiento

Aprovechar la retroalimentación iterativa del lenguaje natural o el razonamiento propio permite a los LLM refinar y mejorar sus resultados iniciales, reduciendo las alucinaciones.

Ensenada Emplea una técnica de cadena de verificación. El LLM primero redacta una respuesta a la consulta del usuario. A continuación, genera posibles preguntas de verificación para comprobar su propia respuesta, basándose en su confianza en diversas afirmaciones. Por ejemplo, para una respuesta que describe un nuevo tratamiento médico, CoVe puede generar preguntas como "¿Cuál es la tasa de eficacia del tratamiento?", "¿Ha recibido la aprobación regulatoria?", "¿Cuáles son los posibles efectos secundarios?". Fundamentalmente, el LLM intenta responder de forma independiente a estas preguntas de verificación sin estar sesgado por su respuesta inicial. Si las respuestas a las preguntas de verificación contradicen o no respaldan las afirmaciones de la respuesta original, el sistema las identifica como posibles alucinaciones y refina la respuesta antes de presentársela al usuario.

VESTIDO se centra en ajustar los LLM para que se alineen mejor con las preferencias humanas a través de comentarios en lenguaje natural. Este enfoque permite a los usuarios no expertos proporcionar críticas de forma libre sobre las generaciones de modelos, como "Los efectos secundarios mencionados parecen exagerados" o instrucciones de perfeccionamiento como "Por favor, discuta también la rentabilidad". DRESS utiliza el aprendizaje por refuerzo para entrenar modelos a fin de generar respuestas condicionadas a dicha retroalimentación que se alineen mejor con las preferencias humanas. Esto mejora la interactividad y al mismo tiempo reduce las declaraciones poco realistas o sin fundamento.

mezclaralinear Se ocupa de situaciones en las que los usuarios hacen preguntas que no se corresponden directamente con los pasajes de evidencia recuperados por el sistema. Por ejemplo, un usuario puede preguntar: "¿Empeorará la contaminación en China?". mientras que los pasajes recuperados analizan las tendencias de la contaminación a nivel mundial. Para evitar alucinar con un contexto insuficiente, MixAlign aclara explícitamente al usuario cuando no está seguro de cómo relacionar su pregunta con la información recuperada. Este mecanismo de intervención humana permite obtener retroalimentación para fundamentar y contextualizar correctamente la evidencia, evitando respuestas infundadas.

En el sitio web La Autorreflexión La técnica entrena a los LLM para evaluar, proporcionar retroalimentación y refinar iterativamente sus propias respuestas utilizando un enfoque de múltiples tareas. Por ejemplo, dada una respuesta generada para una consulta médica, el modelo aprende a calificar su precisión fáctica, identificar declaraciones contradictorias o no respaldadas y editarlas recuperando conocimiento relevante. Al enseñar a los LLM este ciclo de retroalimentación de verificar, criticar y mejorar iterativamente sus propios resultados, el enfoque reduce las alucinaciones ciegas.

Sintonización rápida

El ajuste rápido permite ajustar las indicaciones de instrucción proporcionadas a los LLM durante el ajuste para los comportamientos deseados.

En el sitio web SinTra El método emplea una tarea de resumen sintético para minimizar las alucinaciones antes de transferir el modelo a conjuntos de datos de resumen reales. La tarea sintética proporciona pasajes de entrada y pide a los modelos que los resuman únicamente mediante recuperación, sin abstracción. Esto entrena a los modelos para que confíen completamente en el contenido original en lugar de alucinar nueva información durante el resumen. Se ha demostrado que SynTra reduce los problemas de alucinaciones cuando se implementan modelos ajustados en tareas específicas.

LEVANTARSE entrena un recuperador de indicaciones universal que proporciona la indicación suave óptima para el aprendizaje en pocas ocasiones en tareas posteriores invisibles. Al recuperar indicaciones efectivas adaptadas a un conjunto diverso de tareas, el modelo aprende a generalizar y adaptarse a nuevas tareas para las que carece de ejemplos de capacitación. Esto mejora el rendimiento sin necesidad de realizar ajustes específicos de la tarea.

Arquitecturas de modelos novedosos

FLEECE es un sistema centrado en ayudar a los verificadores y validadores de hechos humanos. Identifica automáticamente afirmaciones fácticas potencialmente verificables realizadas en un texto determinado. FLEEK transforma estas declaraciones dignas de verificación en consultas, recupera evidencia relacionada de bases de conocimiento y proporciona esta información contextual a validadores humanos para verificar de manera efectiva la precisión del documento y las necesidades de revisión.

En el sitio web CAD El enfoque de decodificación reduce la alucinación en la generación del lenguaje mediante la decodificación sensible al contexto. Específicamente, el CAD amplifica las diferencias entre la distribución de salida de un LLM cuando se condiciona al contexto y cuando se genera incondicionalmente. Esto desalienta la evidencia contextual contradictoria, orientando el modelo hacia generaciones fundamentadas.

Departamento de LA Mitiga las alucinaciones factuales mediante el contraste de logits de diferentes capas de redes de transformadores. Dado que el conocimiento factual tiende a localizarse en ciertas capas intermedias, la amplificación de las señales de dichas capas mediante el contraste de logits de DoLA reduce la generación de datos incorrectos.

En el sitio web Tham El marco introduce un término de regularización durante el entrenamiento para minimizar la información mutua entre las entradas y las salidas alucinadas. Esto ayuda a aumentar la dependencia del modelo del contexto de entrada dado, en lugar de la imaginación descontrolada, lo que reduce las alucinaciones ciegas.

Fundamento del conocimiento

Basar a las generaciones de LLM en conocimientos estructurados evita la especulación y la fabricación desenfrenadas.

En el sitio web RHO El modelo identifica entidades en un contexto conversacional y las vincula a un gráfico de conocimiento (KG). Los hechos y relaciones relacionados sobre esas entidades se recuperan del KG y se fusionan en la representación de contexto proporcionada al LLM. Esta dirección del contexto enriquecida con conocimiento reduce las alucinaciones en el diálogo al mantener las respuestas ligadas a hechos fundamentados sobre entidades/eventos mencionados.

HAR crea conjuntos de datos de entrenamiento contrafactuales que contienen alucinaciones generadas por modelos para enseñar mejor la conexión a tierra. Dado un pasaje fáctico, se incita a los modelos a introducir alucinaciones o distorsiones generando una versión contrafactual alterada. El ajuste de estos datos obliga a los modelos a fundamentar mejor el contenido en las fuentes fácticas originales, lo que reduce la improvisación.

Ajuste supervisado

  • Coach – Marco interactivo que responde a las consultas de los usuarios pero también solicita correcciones para mejorar.
  • Sintonización R – El ajuste consciente del rechazo rechaza preguntas no respaldadas identificadas a través de lagunas de conocimiento de los datos de capacitación.
  • RETOCAR – Método de decodificación que clasifica las generaciones según qué tan bien las hipótesis respaldan los hechos de entrada.

Desafíos y limitaciones

A pesar de los avances prometedores, persisten algunos desafíos clave en la mitigación de las alucinaciones:

  • Las técnicas a menudo sacrifican calidad, coherencia y creatividad por veracidad.
  • Dificultad en una evaluación rigurosa más allá de dominios limitados. Las métricas no captan todos los matices.
  • Muchos métodos son computacionalmente costosos y requieren una recuperación extensa o un razonamiento propio.
  • Dependen en gran medida de la calidad de los datos de capacitación y de fuentes de conocimiento externas.
  • Es difícil garantizar la generalización entre dominios y modalidades.
  • Las raíces fundamentales de las alucinaciones, como la extrapolación excesiva, siguen sin resolverse.

Abordar estos desafíos probablemente requiera un enfoque de múltiples capas que combine mejoras en los datos de entrenamiento, mejoras en la arquitectura del modelo, pérdidas que mejoran la fidelidad y técnicas de tiempo de inferencia.

El camino a seguir

La mitigación de las alucinaciones para los LLM sigue siendo un problema de investigación abierto con avances activos. Algunas direcciones futuras prometedoras incluyen:

  • Técnicas híbridas: Combinar enfoques complementarios como recuperación, base de conocimientos y retroalimentación.
  • Modelado de causalidad: Mejorar la comprensión y el razonamiento.
  • Integración de conocimientos en línea: Mantener actualizado el conocimiento mundial.
  • Verificación formal: Proporcionar garantías matemáticas sobre el comportamiento del modelo.
  • Interpretabilidad: Incorporar transparencia en las técnicas de mitigación.

A medida que los LLM continúen proliferando en dominios de alto riesgo, el desarrollo de soluciones sólidas para reducir las alucinaciones será clave para garantizar su implementación segura, ética y confiable. Las técnicas analizadas en este artículo brindan una descripción general de las técnicas propuestas hasta ahora, donde aún quedan desafíos de investigación abiertos. En general, existe una tendencia positiva hacia la mejora de la factualidad del modelo, pero el progreso continuo requiere abordar las limitaciones y explorar nuevas direcciones como la causalidad, la verificación y los métodos híbridos. Con esfuerzos diligentes de investigadores de todas las disciplinas, el sueño de contar con un LLM poderoso pero confiable puede hacerse realidad.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.