Промпт-инжиниринг
Борьба с галлюцинациями в крупных языковых моделях: Обзор передовых техник

Крупные языковые модели (LLM) seperti GPT-4, PaLM и Llama открыли замечательные возможности в области генерации естественного языка. Однако постоянной проблемой, ограничивающей их надежность и безопасное развертывание, является их склонность к галлюцинациям – генерации контента, который кажется связным, но фактически неверен или не основан на контексте ввода.
По мере того, как LLM продолжают расти более мощными и повсеместными в реальных приложениях, решение проблемы галлюцинаций становится обязательным. Эта статья предоставляет всесторонний обзор последних техник, которые исследователи ввели для обнаружения, количественной оценки и смягчения галлюцинаций в LLM.
Понимание галлюцинаций в LLM
Галлюцинация относится к фактическим неточностям или выдумкам, генерируемым LLM, которые не основаны на реальности или предоставленном контексте. Некоторые примеры включают:
- Изобретение биографических деталей или событий, не подтвержденных источниками, при генерации текста о человеке.
- Предоставление ошибочных медицинских советов путем выдумки побочных эффектов препаратов или методов лечения.
- Изобретение несуществующих данных, исследований или источников для подтверждения утверждения.
Это явление возникает потому, что LLM обучаются на огромных объемах онлайн-текстовых данных. Хотя это позволяет им получить сильные возможности моделирования языка, оно также означает, что они учатся экстраполировать информацию, делать логические прыжки и заполнять пробелы в方式, который кажется убедительным, но может быть вводящим в заблуждение или ошибочным.
Некоторые ключевые факторы, ответственные за галлюцинации, включают:
- Обобщение закономерностей – LLM определяют и расширяют закономерности в обучающих данных, которые могут не обобщаться хорошо.
- Устаревшие знания – Статическая предварительная подготовка предотвращает интеграцию новой информации.
- Неоднозначность – Неясные подсказки позволяют сделать неправильные предположения.
- Преимущества – Модели увековечивают и усиливают предвзятые перспективы.
- Недостаточная основа – Недостаточное понимание и рассуждение означают, что модели генерируют контент, который они не полностью понимают.
Решение проблемы галлюцинаций имеет решающее значение для достоверного развертывания в чувствительных областях, таких как медицина, право, финансы и образование, где генерация дезинформации может привести к вреду.
Таксономия техник смягчения галлюцинаций
Исследователи ввели различные техники для борьбы с галлюцинациями в LLM, которые можно классифицировать на:
1. Инженерия подсказок
Это предполагает тщательную разработку подсказок для предоставления контекста и направления LLM к фактическим, основанным на контексте ответам.
- Усиление извлечения – Извлечение внешних доказательств для обоснования контента.
- Петли обратной связи – Итеративное предоставление обратной связи для уточнения ответов.
- Настройка подсказок – Настройка подсказок во время тонкой настройки для желаемого поведения.
2. Разработка модели
Создание моделей, которые изначально менее склонны к галлюцинациям посредством архитектурных изменений.
- Стратегии декодирования – Генерация текста способами, которые увеличивают верность.
- Обоснование знаний – Интеграция внешних баз знаний.
- Новые функции потерь – Оптимизация верности во время обучения.
- Наблюдаемая тонкая настройка – Использование помеченных данными для улучшения фактичности.
Далее мы рассматриваем заметные техники под каждым подходом.
Заметные техники смягчения галлюцинаций
Усиленная генерация извлечения
Усиленная генерация извлечения улучшает LLM, извлекая и обуславливая генерацию текста на внешних доказательственных документах, а не полагаясь исключительно на неявные знания модели. Это обосновывает контент в актуальной, проверяемой информации, снижая галлюцинации.
Заметные техники включают:
- RAG – Использует модуль извлечения, предоставляющий соответствующие отрывки для seq2seq-модели для генерации. Оба компонента обучаются конец в конец.
- RARR – Использует LLM для исследования необоснованных утверждений в сгенерированном тексте и пересмотра их для соответствия извлеченным доказательствам.
- Извлечение знаний – Проверяет неуверенные генерации, используя извлеченные знания, прежде чем производить текст.
- LLM-Augmenter – Итеративно ищет знания для построения цепочек доказательств для подсказок LLM.
Обратная связь и рассуждение
Использование итеративной обратной связи или само-рассуждения позволяет LLM уточнять и улучшать свои первоначальные выходы, снижая галлюцинации.
CoVe использует технику цепочки верификации. LLM сначала создает черновик ответа на запрос пользователя. Затем он генерирует потенциальные вопросы верификации для проверки своих собственных ответов, основанных на его уверенности в различных заявлениях. Например, для ответа, описывающего новое медицинское лечение, CoVe может сгенерировать вопросы типа “Какова эффективность лечения?”, “Получило ли оно регулирующее одобрение?”, “Какие потенциальные побочные эффекты?”. Критически, LLM затем пытается независимо ответить на эти вопросы верификации, не будучи предвзятым своим первоначальным ответом. Если ответы на вопросы верификации противоречат или не могут подтвердить заявления, сделанные в исходном ответе, система определяет их как вероятные галлюцинации и уточняет ответ, прежде чем представить его пользователю.
DRESS фокусируется на настройке LLM для лучшего соответствия человеческим предпочтениям посредством обратной связи в естественном языке. Подход позволяет непрофессиональным пользователям предоставлять свободные критики на генерации модели, такие как “Побочные эффекты, упомянутые, кажутся преувеличенными” или инструкции по уточнению, такие как “Пожалуйста, обсудите также стоимость”. DRESS использует обучение с подкреплением для обучения моделей генерировать ответы, обусловленные такой обратной связью, которые лучше соответствуют человеческим предпочтениям. Это улучшает взаимодействие, снижая нереалистичные или неподдержанные заявления.
MixAlign занимается ситуациями, когда пользователи задают вопросы, которые не соответствуют напрямую проходам, извлеченным системой. Например, пользователь может задать вопрос “Ухудшится ли загрязнение в Китае?”, тогда как извлеченные отрывки обсуждают глобальные тенденции загрязнения. Чтобы избежать галлюцинаций с недостаточным контекстом, MixAlign явно уточняет с пользователем, когда не уверен, как связать их вопрос с извлеченной информацией. Этот механизм “человек в цикле” позволяет получить обратную связь для правильного обоснования и контекстуализации доказательств, предотвращая необоснованные ответы.
Техника Само-рассуждение обучает LLM оценивать, предоставлять обратную связь на и итеративно уточнять свои собственные ответы, используя многозадачный подход. Например, для ответа, сгенерированного для медицинского запроса, модель учится оценить фактическую точность, определить любые противоречивые или неподдержанные заявления и редактировать их, извлекая соответствующие знания. Обучая LLM этому циклу обратной связи проверки, критики и итеративного улучшения своих собственных выходов, подход снижает слепые галлюцинации.
Настройка подсказок
Настройка подсказок позволяет настраивать инструкционные подсказки, предоставляемые LLM во время тонкой настройки для желаемого поведения.
Метод SynTra использует синтетическую задачу суммирования для минимизации галлюцинаций, прежде чем передать модель на реальные наборы данных суммирования. Синтетическая задача предоставляет входные отрывки и просит модели суммировать их посредством извлечения только, без абстракции. Это обучает модели полагаться полностью на источниковый контент, а не галлюцинировать новую информацию во время суммирования. SynTra показал снижение проблем галлюцинаций, когда дообученные модели развертываются на целевых задачах.
UPRISE обучает универсальный извлекатель подсказок, который предоставляет оптимальную мягкую подсказку для обучения с несколькими выстрелами на незнакомых задачах. Извлекая эффективные подсказки, настроенные на наборе задач, модель учится обобщать и адаптироваться к новым задачам, где ей не хватает примеров обучения.
Новые архитектуры моделей
FLEEK – это система, ориентированная на помощь человеческим проверяющим и верификаторам. Она автоматически определяет потенциально проверяемые фактические утверждения, сделанные в данном тексте. FLEEK преобразует эти проверяемые утверждения в запросы, извлекает связанные доказательства из баз знаний и предоставляет эту контекстную информацию человеческим верификаторам для эффективной верификации точности документа и необходимости пересмотра.
Подход CAD снижает галлюцинацию в генерации языка посредством контекстно-осведомленного декодирования. Конкретно, CAD усиливает различия между выходным распределением LLM, когда оно обусловлено контекстом, и генерируется безусловно. Это препятствует противоречивым контекстным доказательствам, направляя модель к обоснованным генерациям.
DoLA смягчает фактические галлюцинации, контрастируя логиты из разных слоев сетей трансформеров. Поскольку фактические знания склонны быть локализованы в определенных средних слоях, усиливая сигналы из этих фактических слоев посредством контраста логитов DoLA, снижает неправильные фактические генерации.
Фреймворк THAM вводит член регуляризации во время обучения для минимизации взаимной информации между входами и галлюцинированными выходами. Это помогает увеличить зависимость модели от предоставленного контекста ввода, а не от необоснованных воображений, снижая слепые галлюцинации.
Обоснование знаний
Обоснование генераций LLM в структурированных знаниях предотвращает неограниченную спекуляцию и выдумку.
Модель RHO определяет сущности в контексте разговора и связывает их с графом знаний (KG). Связанные факты и отношения об этих сущностях извлекаются из KG и объединяются в контекстное представление, предоставляемое LLM. Это обогащенное контекстом руководство снижает галлюцинации в диалоге, сохраняя ответы, привязанные к обоснованным фактам об упомянутых сущностях/событиях.
HAR создает контрфактические обучающие наборы данных, содержащие галлюцинации, сгенерированные моделью, для лучшего обучения обоснованию. Для фактического отрывка модели предлагается ввести галлюцинации или искажения, генерируя измененную контрфактическую версию. Дообучение на этих данных заставляет модели лучше обосновывать контент в исходных фактических источниках, снижая импровизацию.
Наблюдаемая тонкая настройка
- Coach – Интерактивный фреймворк, который отвечает на запросы пользователей, но также запрашивает исправления для улучшения.
- R-Tuning – Отказо-осведомленная настройка отказывается от неподдержанных вопросов, выявленных через пробелы знаний в обучающих данных.
- TWEAK – Метод декодирования, который ранжирует генерации на основе того, насколько хорошо гипотезы поддерживают входные факты.
Проблемы и ограничения
Несмотря на перспективный прогресс, некоторые ключевые проблемы остаются в смягчении галлюцинаций:
- Техники часто торгуют качеством, связностью и творчеством за верность.
- Трудность в строгой оценке за пределами ограниченных областей. Метрики не отражают все нюансы.
- Многие методы вычислительно дорогие, требуя обширного извлечения или само-рассуждения.
- Тяжело зависят от качества обучающих данных и внешних источников знаний.
- Трудно гарантировать обобщаемость на другие области и модальности.
- Фундаментальные корни галлюцинаций, такие как чрезмерная экстраполяция, остаются нерешенными.
Решение этих проблем, вероятно, требует многослойного подхода, сочетающего улучшения обучающих данных, улучшения архитектуры модели, потерь, повышающих верность, и техник времени вывода.
Дорога впереди
Смягчение галлюцинаций для LLM остается открытой проблемой исследования с активным прогрессом. Некоторые перспективные будущие направления включают:
- Гибридные техники: Объединение дополняющих подходов, таких как извлечение, обоснование знаний и обратная связь.
- Моделирование причинности: Улучшение понимания и рассуждения.
- Интеграция онлайн-знаний: Поддержание мировых знаний в актуальном состоянии.
- Формальная верификация: Предоставление математических гарантий поведения модели.
- Интерпретируемость: Построение прозрачности в техниках смягчения.
По мере того, как LLM продолжают распространяться по высоко-рисковым областям, разработка надежных решений для ограничения галлюцинаций будет ключом к обеспечению их безопасного, этичного и надежного развертывания. Техники, рассмотренные в этой статье, предоставляют обзор техник, предложенных до сих пор, где остаются открытые проблемы исследования. В целом существует положительная тенденция к улучшению фактичности модели, но продолженный прогресс требует решения ограничений и изучения новых направлений, таких как причинность, верификация и гибридные методы. С тщательными усилиями исследователей из различных дисциплин, мечта о мощных, но достоверных LLM может быть переведена в реальность.










