Промпт-инжиниринг
Борьба с галлюцинациями в больших языковых моделях: обзор передовых методов

Большие языковые модели (LLM) типа GPT-4, PaLM и Llama открыли замечательные возможности в области генерации естественного языка. Однако постоянной проблемой, ограничивающей их надежность и безопасное использование, является их склонность к галлюцинациям – генерации контента, который кажется связным, но фактически неверен или не основан на контексте ввода.
По мере того, как LLM продолжают расти в мощности и распространении в реальных приложениях, решение проблемы галлюцинаций становится все более важным. Эта статья предоставляет всесторонний обзор последних методов, которые исследователи предложили для обнаружения, количественной оценки и смягчения галлюцинаций в LLM.
Понимание галлюцинаций в LLM
Галлюцинация означает фактические неточности или выдумки, генерируемые LLM, которые не основаны на реальности или предоставленном контексте. Некоторые примеры включают:
- Изобретение биографических деталей или событий, не подтвержденных источниками, при генерации текста о человеке.
- Предоставление ошибочных медицинских советов путем выдумки побочных эффектов препаратов или методов лечения.
- Изобретение несуществующих данных, исследований или источников для подтверждения утверждения.
Это явление возникает потому, что LLM обучаются на огромных объемах текстовых данных из интернета. Хотя это позволяет им получить сильные возможности моделирования языка, оно также означает, что они учатся экстраполировать информацию, делать логические выводы и заполнять пробелы в убедительной, но иногда вводящей в заблуждение или ошибочной форме.
Некоторые ключевые факторы, ответственные за галлюцинации, включают:
- Обобщение закономерностей – LLM выявляют и распространяют закономерности в обучающих данных, которые могут не обобщаться хорошо.
- Устаревшие знания – Статическое предварительное обучение препятствует интеграции новой информации.
- Неоднозначность – Неясные подсказки позволяют сделать неправильные предположения.
- Преимущества – Модели увековечивают и усиливают предвзятые точки зрения.
- Недостаточная основа – Отсутствие понимания и рассуждений означает, что модели генерируют контент, который они не полностью понимают.
Решение проблемы галлюцинаций имеет решающее значение для надежного использования в чувствительных областях, таких как медицина, право, финансы и образование, где генерация дезинформации может привести к вреду.
Таксономия методов смягчения галлюцинаций
Исследователи предложили различные методы для борьбы с галлюцинациями в LLM, которые можно классифицировать на:
1. Инженерия подсказок
Это предполагает тщательное создание подсказок для предоставления контекста и направления LLM к фактическим, обоснованным ответам.
- Усиление поиска – Получение внешних доказательств для обоснования контента.
- Петли обратной связи – Итеративное предоставление обратной связи для уточнения ответов.
- Настройка подсказок – Настройка подсказок во время тонкой настройки для желаемого поведения.
2. Разработка моделей
Создание моделей, которые изначально менее склонны к галлюцинациям посредством архитектурных изменений.
- Стратегии декодирования – Генерация текста способами, которые увеличивают достоверность.
- Обоснование знаний – Включение внешних баз знаний.
- Новые функции потерь – Оптимизация для достоверности во время обучения.
- Наблюдаемая тонкая настройка – Использование помеченных данными для улучшения фактичности.
Далее мы рассматриваем заметные методы в каждом подходе.
Заметные методы смягчения галлюцинаций
Усиление генерации поиска
Усиление генерации поиска улучшает LLM, получая и обуславливая генерацию текста на внешних доказательствах, а не полагаясь исключительно на неявные знания модели. Это обосновывает контент в актуальной, проверяемой информации, уменьшая галлюцинации.
Заметные методы включают:
- RAG – Использует модуль поиска, предоставляющий соответствующие отрывки для модели seq2seq для генерации. Оба компонента обучаются конечным образом.
- RARR – Использует LLM для исследования неподтвержденных утверждений в сгенерированном тексте и пересмотра их для соответствия полученным доказательствам.
- Поиск знаний – Проверяет неуверенные генерации, используя полученные знания, прежде чем производить текст.
- Усиление LLM – Итеративно ищет знания для построения цепей доказательств для подсказок LLM.
Обратная связь и рассуждение
Использование итеративной обратной связи или самоанализа позволяет LLM уточнять и улучшать свои первоначальные выходы, уменьшая галлюцинации.
CoVe использует технику цепочки проверки. LLM сначала создает черновик ответа на запрос пользователя. Затем он генерирует потенциальные вопросы проверки для проверки своей собственной ответа, основанные на его уверенности в различных утверждениях. Например, для ответа, описывающего новое медицинское лечение, CoVe может сгенерировать вопросы типа “Каков уровень эффективности лечения?”, “Получило ли оно нормативное одобрение?”, “Какие возможные побочные эффекты?”. Критически, LLM затем пытается независимо ответить на эти вопросы проверки, не будучи предвзятым своим первоначальным ответом. Если ответы на вопросы проверки противоречат или не могут подтвердить утверждения, сделанные в первоначальном ответе, система выявляет их как вероятные галлюцинации и уточняет ответ, прежде чем представить его пользователю.
DRESS фокусируется на настройке LLM для лучшего соответствия человеческим предпочтениям посредством обратной связи в естественном языке. Подход позволяет непрофессиональным пользователям предоставлять свободные критики на генерации модели, такие как “Побочные эффекты, упомянутые, кажутся преувеличенными” или инструкции по уточнению, такие как “Пожалуйста, также обсудите эффективность стоимости”. DRESS использует обучение с подкреплением для обучения моделей генерировать ответы, обусловленные такой обратной связью, которые лучше соответствуют человеческим предпочтениям. Это улучшает интерактивность, уменьшая нереалистичные или неподдержанные утверждения.
MixAlign занимается ситуациями, когда пользователи задают вопросы, которые не соответствуют напрямую доказательствам, полученным системой. Например, пользователь может задать вопрос “Ухудшится ли загрязнение в Китае?”, тогда как полученные отрывки обсуждают глобальные тенденции загрязнения. Чтобы избежать галлюцинаций с недостаточным контекстом, MixAlign явно уточняет с пользователем, когда не уверен, как связать их вопрос с полученной информацией. Этот механизм “человек в цикле” позволяет получить обратную связь для правильного обоснования и контекстуализации доказательств, предотвращая необоснованные ответы.
Техника Самоанализа обучает LLM оценивать, предоставлять обратную связь на и итеративно уточнять свои собственные ответы, используя многозадачный подход. Например, дан ответ, сгенерированный для медицинского запроса, модель учится оценить его фактическую точность, выявить любые противоречивые или неподдержанные утверждения и редактировать их, получая соответствующие знания. Обучая LLM этой петле обратной связи проверки, критики и итеративного улучшения своих собственных выходов, подход уменьшает слепые галлюцинации.
Настройка подсказок
Настройка подсказок позволяет изменять инструктивные подсказки, предоставляемые LLM во время тонкой настройки для желаемого поведения.
Метод SynTra использует синтетическую задачу суммирования для минимизации галлюцинаций, прежде чем передавать модель на реальные наборы данных суммирования. Синтетическая задача предоставляет входные отрывки и просит модели суммировать их только через поиск, без абстракции. Это обучает модели полагаться исключительно на источниковый контент, а не галлюцинировать новую информацию во время суммирования. SynTra показал уменьшение проблем с галлюцинациями, когда тонко настроенные модели развертываются на целевых задачах.
UPRISE обучает универсальный поисковый модуль подсказок, который предоставляет оптимальную мягкую подсказку для обучения с несколькими выстрелами на не виденных ранее задачах. Получая эффективные подсказки, настроенные на различных задачах, модель учится обобщать и адаптироваться к новым задачам, где у нее нет примеров обучения. Это улучшает производительность без необходимости задачно-специфической настройки.
Новые архитектуры моделей
FLEEK – это система, ориентированная на помощь человеческим проверяющим и валидаторам. Она автоматически выявляет потенциально проверяемые фактические утверждения, сделанные в данном тексте. FLEEK преобразует эти проверяемые утверждения в запросы, получает связанные доказательства из баз знаний и предоставляет эту контекстную информацию человеческим валидаторам для эффективной проверки точности документа и необходимости пересмотра.
Подход CAD к декодированию уменьшает галлюцинации в генерации языка посредством контекстно-осведомленного декодирования. Конкретно, CAD усиливает различия между распределением выхода LLM, когда оно обусловлено контекстом, и когда оно генерируется безусловно. Это препятствует контекстуальным доказательствам, направляя модель к обоснованным генерациям.
DoLA смягчает фактические галлюцинации, контрастируя логиты из различных слоев сетей трансформеров. Поскольку фактические знания склонны быть локализованы в определенных средних слоях, усиление сигналов из этих фактических слоев посредством контраста логитов DoLA уменьшает неправильные фактические генерации.
Фреймворк THAM вводит член регуляризации во время обучения для минимизации взаимной информации между входами и галлюцинированными выходами. Это помогает увеличить зависимость модели от данного контекста ввода, а не от необоснованного воображения, уменьшая слепые галлюцинации.
Обоснование знаний
Обоснование генераций LLM в структурированных знаниях предотвращает необузданную спекуляцию и выдумку.
Модель RHO выявляет сущности в контексте разговора и связывает их с базой знаний (KG). Связанные факты и отношения об этих сущностях получаются из KG и объединяются в контекстное представление, предоставляемое LLM. Это знание-обогащенное контекстное направление уменьшает галлюцинации в диалоге, сохраняя ответы, связанные с обоснованными фактами об упомянутых сущностях/событиях.
HAR создает контрфактические наборы данных, содержащие галлюцинации, сгенерированные моделью, для лучшего обучения обоснованию. Дан фактический отрывок, модели просит ввести галлюцинации или искажения, генерируя измененную контрфактическую версию. Тонкая настройка на этих данных заставляет модели лучше обосновывать контент в исходных фактических источниках, уменьшая импровизацию.
Наблюдаемая тонкая настройка
- Coach – Интерактивный фреймворк, который отвечает на запросы пользователей, но также просит исправления для улучшения.
- R-Tuning – Отказо-осведомленная настройка отказывается от неподдерживаемых вопросов, выявленных через пробелы знаний в обучающих данных.
- TWEAK – Метод декодирования, который ранжирует генерации на основе того, насколько хорошо гипотезы поддерживают входные факты.
Проблемы и ограничения
Несмотря на перспективный прогресс, некоторые ключевые проблемы остаются в смягчении галлюцинаций:
- Методы часто идут на компромисс между качеством, связностью и творчеством ради достоверности.
- Трудность в строгой оценке за пределами ограниченных областей. Метрики не отражают все нюансы.
- Многие методы вычислительно дорогие, требуя обширного поиска или самоанализа.
- В значительной степени зависят от качества обучающих данных и внешних источников знаний.
- Трудно гарантировать обобщаемость через области и модальности.
- Фундаментальные корни галлюцинаций, такие как чрезмерная экстраполяция, остаются нерешенными.
Решение этих проблем, вероятно, требует многослойного подхода, сочетающего улучшения обучающих данных, улучшения архитектуры моделей, функций потерь, повышающих достоверность, и методов времени вывода.
Дорога впереди
Смягчение галлюцинаций для LLM остается открытой проблемой исследования с активным прогрессом. Некоторые перспективные будущие направления включают:
- Гибридные методы – Объединение дополнительных подходов, таких как поиск, обоснование знаний и обратная связь.
- Моделирование причинности – Улучшение понимания и рассуждений.
- Интеграция онлайн-знаний – Поддержание мировых знаний в актуальном состоянии.
- Формальная верификация – Предоставление математических гарантий поведения модели.
- Интерпретируемость – Построение прозрачности в методы смягчения.
По мере того, как LLM продолжают распространяться по высокорисковым областям, разработка прочных решений для ограничения галлюцинаций будет иметь решающее значение для обеспечения их безопасного, этичного и надежного развертывания. Методы, рассмотренные в этой статье, предоставляют обзор методов, предложенных до сих пор, где остаются открытые проблемы исследования. В целом есть положительная тенденция к улучшению фактичности модели, но продолженный прогресс требует решения ограничений и изучения новых направлений, таких как причинность, верификация и гибридные методы. С тщательными усилиями исследователей из различных дисциплин, мечта о мощных, но достоверных LLM может быть переведена в реальность.












