Быстрый инжиниринг

Борьба с галлюцинациями в больших языковых моделях: обзор передовых методов

опубликованный

4 меc. назад

19 января 2024

Большие языковые модели (LLM), такие как GPT-4, PaLM и Llama, открыли замечательные достижения в возможностях генерации естественного языка. Однако постоянной проблемой, ограничивающей их надежность и безопасное развертывание, является их склонность к галлюцинациям – созданию контента, который кажется связным, но на самом деле является неверным или необоснованным из входного контекста.

Поскольку LLM продолжает становиться все более мощным и повсеместным в реальных приложениях, борьба с галлюцинациями становится настоятельной необходимостью. В этой статье представлен всесторонний обзор новейших методов, которые исследователи представили для обнаружения, количественной оценки и смягчения галлюцинаций у LLM.

Понимание галлюцинаций в LLM

Галлюцинация относится к фактическим неточностям или вымыслам, созданным LLM, которые не основаны на реальности или предоставленном контексте. Вот некоторые примеры:

Придумывание биографических подробностей или событий, не отраженных в исходном материале, при создании текста о человеке.
Предоставление ошибочных медицинских рекомендаций путем выдумки побочных эффектов лекарств или процедур лечения.
Придумывание несуществующих данных, исследований или источников в поддержку утверждения.

Этот феномен возникает потому, что LLM обучаются на огромных объемах текстовых онлайн-данных. Хотя это позволяет им обрести сильные способности к языковому моделированию, это также означает, что они учатся экстраполировать информацию, делать логические скачки и заполнять пробелы таким образом, который кажется убедительным, но может вводить в заблуждение или ошибочно.

Некоторые ключевые факторы, ответственные за галлюцинации, включают:

Обобщение шаблона – LLM выявляют и расширяют закономерности в обучающих данных, которые не могут быть хорошо обобщены.
Устаревшие знания – Статическое предварительное обучение предотвращает интеграцию новой информации.
Двусмысленность – Расплывчатые подсказки оставляют место для неверных предположений.
Искажения – Модели увековечивают и усиливают искаженные точки зрения.
Недостаточное заземление – Отсутствие понимания и рассуждения означает, что модели создают контент, который они не до конца понимают.

Борьба с галлюцинациями имеет решающее значение для надежного применения в таких чувствительных областях, как медицина, право, финансы и образование, где создание дезинформации может привести к вреду.

Таксономия методов смягчения галлюцинаций

Исследователи представили различные методы борьбы с галлюцинациями в LLM, которые можно разделить на:

1. Оперативное проектирование

Это включает в себя тщательную разработку подсказок, обеспечивающих контекст и направляющих LLM к получению фактических и обоснованных ответов.

Поисковое увеличение – Получение внешних доказательств для обоснования содержания.
Петли обратной связи – Итеративное предоставление обратной связи для уточнения ответов.
Оперативная настройка – Корректировка подсказок во время точной настройки желаемого поведения.

2. Разработка модели

Создание моделей, менее склонных к галлюцинациям, за счет архитектурных изменений.

Стратегии декодирования – Генерация текста способами, повышающими достоверность.
Заземление знаний – Использование внешних баз знаний.
Новые функции потерь – Оптимизация точности во время тренировок.
Контролируемая тонкая настройка – Использование данных, размеченных человеком, для повышения достоверности.

Далее мы рассмотрим известные методы каждого подхода.

Известные методы борьбы с галлюцинациями

Извлечение дополненной генерации

Расширенная генерация с поиском расширяет возможности LLM, извлекая и обусловливая генерацию текста на основе документов внешних доказательств, а не полагаясь исключительно на неявные знания модели. Это основывает контент на актуальной, поддающейся проверке информации, уменьшая галлюцинации.

Известные методы включают в себя:

КГР – Использует модуль извлечения, предоставляющий соответствующие отрывки для создания модели seq2seq. Оба компонента проходят сквозное обучение.
РАРР – Привлекает специалистов LLM для исследования неатрибутивных утверждений в сгенерированном тексте и их редактирования для приведения в соответствие с полученными доказательствами.
Поиск знаний – Проверяет неуверенные поколения, используя полученные знания, прежде чем создавать текст.
LLM-Аугментатор – Итеративный поиск знаний для построения цепочек доказательств для подсказок LLM.

Обратная связь и рассуждения

Использование итеративной обратной связи на естественном языке или самоанализа позволяет LLM уточнять и улучшать свои первоначальные результаты, уменьшая галлюцинации.

КоВе использует цепочку методов проверки. LLM сначала готовит ответ на запрос пользователя. Затем он генерирует потенциальные проверочные вопросы для проверки фактов своего собственного ответа, основываясь на своей уверенности в различных сделанных заявлениях. Например, для ответа, описывающего новый метод лечения, CoVe может генерировать такие вопросы, как «Какова степень эффективности лечения?», «Получено ли оно одобрение регулирующих органов?», «Каковы потенциальные побочные эффекты?». Важно отметить, что затем LLM пытается самостоятельно ответить на эти проверочные вопросы, не подвергаясь предвзятости из-за своего первоначального ответа. Если ответы на проверочные вопросы противоречат или не могут подтвердить утверждения, содержащиеся в исходном ответе, система идентифицирует их как вероятные галлюцинации и уточняет ответ, прежде чем представить его пользователю.

ПЛАТЬЕ основное внимание уделяется настройке LLM для лучшего соответствия человеческим предпочтениям посредством обратной связи на естественном языке. Этот подход позволяет пользователям, не являющимся экспертами, предоставлять критику в свободной форме по поводу создания моделей, например: «Упомянутые побочные эффекты кажутся преувеличенными» или инструкции по уточнению, такие как «Пожалуйста, также обсудите экономическую эффективность». DRESS использует обучение с подкреплением для обучения моделей генерированию ответов, обусловленных такой обратной связью, которая лучше соответствует предпочтениям человека. Это повышает интерактивность, сокращая при этом нереалистичные или неподтвержденные заявления.

МиксАлайн касается ситуаций, когда пользователи задают вопросы, которые напрямую не соответствуют отрывкам доказательств, полученным системой. Например, пользователь может спросить: «Ухудшится ли загрязнение в Китае?» тогда как найденные отрывки обсуждают глобальные тенденции загрязнения. Чтобы избежать галлюцинаций из-за недостаточного контекста, MixAlign явно разъясняет пользователю, когда он не уверен, как связать его вопрос с полученной информацией. Этот механизм участия человека в цикле позволяет получать обратную связь, чтобы правильно обосновать и контекстуализировать доказательства, предотвращая необоснованные ответы.

Ассоциация Самоотражение Этот метод обучает LLM оценивать, предоставлять обратную связь и итеративно уточнять свои собственные ответы, используя многозадачный подход. Например, учитывая ответ, сгенерированный на медицинский запрос, модель учится оценивать его фактическую точность, выявлять любые противоречивые или неподтвержденные утверждения и редактировать их, извлекая соответствующие знания. Обучая LLM этому циклу обратной связи, состоящему из проверки, критики и итеративного улучшения своих результатов, этот подход уменьшает слепые галлюцинации.

Оперативная настройка

Оперативная настройка позволяет корректировать инструкции, предоставляемые LLM во время точной настройки желаемого поведения.

Ассоциация СинТра Метод использует задачу синтетического суммирования, чтобы минимизировать галлюцинации перед переносом модели в реальные наборы данных суммирования. Синтетическая задача предоставляет входные данные и просит модели суммировать их только посредством поиска, без абстракции. Это учит модели полностью полагаться на исходный контент, а не галлюцинировать новую информацию во время обобщения. Показано, что SynTra уменьшает проблемы с галлюцинациями при использовании точно настроенных моделей для решения целевых задач.

ВОССТАНИЕ обучает универсальному средству извлечения подсказок, которое обеспечивает оптимальную мягкую подсказку для быстрого обучения невидимым последующим задачам. Получая эффективные подсказки, настроенные на разнообразный набор задач, модель учится обобщать и адаптироваться к новым задачам, где ей не хватает обучающих примеров. Это повышает производительность без необходимости настройки под конкретную задачу.

Новые модели архитектуры

ФЛИК это система, ориентированная на помощь людям, проверяющим факты и валидаторам. Он автоматически идентифицирует потенциально проверяемые фактические утверждения, содержащиеся в данном тексте. FLEEK преобразует эти проверяемые утверждения в запросы, извлекает соответствующие данные из баз знаний и предоставляет эту контекстную информацию проверяющим-людям для эффективной проверки точности документа и потребностей в пересмотре.

Ассоциация CAD Подход к декодированию уменьшает галлюцинации при генерации языка за счет контекстно-зависимого декодирования. В частности, CAD усиливает различия между распределением результатов LLM, обусловленным контекстом, и генерируемым безоговорочно. Это препятствует противоречивым контекстуальным данным и ориентирует модель на обоснованные поколения.

ДОЛА смягчает фактические галлюцинации за счет сопоставления логитов из разных слоев трансформаторных сетей. Поскольку фактические знания имеют тенденцию локализоваться в определенных средних слоях, усиление сигналов из этих фактических слоев с помощью логит-контрастирования DoLA уменьшает количество неправильных фактических генераций.

Ассоциация ТАМ Фреймворк вводит термин регуляризации во время обучения, чтобы минимизировать взаимную информацию между входными данными и галлюцинаторными выходными данными. Это помогает повысить зависимость модели от заданного входного контекста, а не от необузданного воображения, уменьшая слепые галлюцинации.

Заземление знаний

Закрепление поколений LLM на структурированных знаниях предотвращает необузданные спекуляции и фальсификации.

Ассоциация РО Модель идентифицирует объекты в диалоговом контексте и связывает их с графом знаний (KG). Связанные факты и отношения об этих объектах извлекаются из KG и объединяются в контекстное представление, предоставляемое LLM. Такое управление контекстом, обогащенное знаниями, уменьшает галлюцинации в диалоге, сохраняя привязку ответов к обоснованным фактам об упомянутых сущностях/событиях.

HAR создает контрфактические наборы обучающих данных, содержащие галлюцинации, сгенерированные моделью, для лучшего обучения заземлению. Учитывая фактический отрывок, моделям предлагается ввести галлюцинации или искажения, создавая измененную контрфактическую версию. Точная настройка этих данных заставляет модели лучше основывать содержание на оригинальных фактических источниках, сокращая импровизацию.

Контролируемая точная настройка

Тренер – Интерактивная структура, которая отвечает на запросы пользователей, но также требует внесения исправлений для улучшения.
R-тюнинг – Настройка с учетом отказов отклоняет неподдерживаемые вопросы, выявленные из-за пробелов в знаниях в данных обучения.
TWEAK – Метод декодирования, который ранжирует поколения на основе того, насколько хорошо гипотезы подтверждают входные факты.

Проблемы и ограничения

Несмотря на многообещающий прогресс, в борьбе с галлюцинациями остаются некоторые ключевые проблемы:

Методы часто жертвуют качеством, последовательностью и креативностью ради правдивости.
Трудности в строгой оценке за пределами ограниченных областей. Метрики не отражают всех нюансов.
Многие методы требуют больших вычислительных затрат и требуют обширного поиска или самостоятельного анализа.
Сильно зависит от качества обучающих данных и внешних источников знаний.
Трудно гарантировать возможность обобщения по областям и модальностям.
Фундаментальные причины галлюцинаций, такие как чрезмерная экстраполяция, остаются невыясненными.

Решение этих проблем, вероятно, потребует многоуровневого подхода, сочетающего улучшение обучающих данных, улучшение архитектуры модели, потери, повышающие точность, и методы расчета времени вывода.

Дорога впереди

Смягчение галлюцинаций для студентов LLM остается открытой исследовательской проблемой, которая активно прогрессирует. Некоторые перспективные направления включают в себя:

Гибридные методы: Объедините взаимодополняющие подходы, такие как поиск, обоснование знаний и обратная связь.
Моделирование причинно-следственной связи: Улучшить понимание и рассуждение.
Интеграция онлайн-знаний: Постоянно обновляйте мировые знания.
Формальная проверка: Обеспечить математические гарантии поведения модели.
Интерпретируемость: Обеспечьте прозрачность методов смягчения последствий.

Поскольку LLM продолжает распространяться в областях с высокими ставками, разработка надежных решений для сокращения галлюцинаций будет иметь ключевое значение для обеспечения их безопасного, этического и надежного применения. Методы, рассмотренные в этой статье, дают обзор методов, предложенных на данный момент, но остаются более открытые исследовательские проблемы. В целом наблюдается положительная тенденция к повышению фактичности модели, но дальнейший прогресс требует устранения ограничений и изучения новых направлений, таких как причинно-следственная связь, проверка и гибридные методы. Благодаря усердным усилиям исследователей из разных дисциплин мечта о мощных, но заслуживающих доверия LLM может быть воплощена в реальность.

Учебное пособие: Как создавать и публиковать собственные GPT

Не пропустите

Обучение улучшенному внедрению текста с помощью больших языковых моделей

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.