Промпт-інжиніринг

Подолання галюцинацій у великих мовних моделях: Огляд передових технік

Published January 19, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Великі мовні моделі (LLM) типу GPT-4, PaLM і Llama відкрили видатні досягнення у генерації природної мови. Однак постійним викликом, який обмежує їх надійність і безпечне розгортання, є їхня схильність до галюцинацій – генерації змісту, який здається правдоподібним, але фактично неправильний або не має підґрунтя в контексті вхідних даних.

Оскільки LLM продовжують розвиватися і ставати все більш поширеними в реальних застосуваннях, боротьба з галюцинаціями стає обов’язковою. Ця стаття надає комплексний огляд останніх технік, які дослідники запропонували для виявлення, кількісної оцінки та пом’якшення галюцинацій у LLM.

Поняття галюцинації в LLM

Галюцинація означає фактичні неточності або вигадки, згенеровані LLM, які не мають підґрунтя в реальності або наданому контексті. Прикладами можуть бути:

Вигадування біографічних деталей або подій, які не підтверджуються джерельними матеріалами при генерації тексту про людину.
Надання неправильної медичної поради шляхом вигадки побічних ефектів ліків або процедур лікування.
Вигадування неіснуючих даних, досліджень або джерел для підтвердження твердження.

Цей феномен виникає через те, що LLM тренуються на величезних обсягах текстових даних з інтернету. Хоча це дозволяє їм досягти сильних мовних моделювальних можливостей, це також означає, що вони вчаться екстраполювати інформацію, робити логічні висновки та заповнювати прогалини тим способом, який здається переконливим, але може бути оманливим або помилковим.

Деякі ключові чинники, які відповідають за галюцинації, включають:

Загальний узагальнення – LLM визначають і продовжують закономірності в тренувальних даних, які можуть не узагальнюватися добре.
Старіння знань – Статичне дообучення перешкоджає інтеграції нових знань.
Невизначеність – Неоднозначні підказки дозволяють зробити неправильні припущення.
Упередженість – Моделі підтримують і посилюють перекошені перспективи.
Недостатнє підґрунтя – Недостатнє розуміння та висновок означають, що моделі генерують вміст, який вони не повністю розуміють.

Подолання галюцинацій є критично важливим для довіри до розгортання в чутливих галузях, таких як медицина, право, фінанси та освіта, де генерація неправильної інформації може призвести до шкоди.

Таксономія технік пом’якшення галюцинацій

Дослідники запропонували різні техніки для боротьби з галюцинаціями в LLM, які можна класифікувати на:

1. Інженерія підказок

Це включає в себе ретельне створення підказок для надання контексту та направлення LLM до фактичних, підґрунтованих відповідей.

Повышення за допомогою пошукових систем – Пошук зовнішніх доказів для підґрунтування вмісту.
Зворотні зв’язки – Ітеративне надання зворотних зв’язків для уточнення відповідей.
Настройка підказок – Корекція підказок під час дообучення для бажаних поведінок.

2. Розробка моделей

Створення моделей, які є менш схильними до галюцинацій через архітектурні зміни.

Стратегії декодування – Генерація тексту способами, які збільшують вірогідність.
Підґрунтування знань – Інтеграція зовнішніх знань.
Нові функції втрат – Оптимізація вірогідності під час навчання.
Наглядане дообучення – Використання людських позначених даних для поліпшення фактичності.

Далі ми оглядаємо видатні техніки під кожним підходом.

Видатні техніки пом’якшення галюцинацій

Повышення генерації за допомогою пошукових систем

Повышення генерації за допомогою пошукових систем підвищує LLM, повертаючи та умовляючи генерацію тексту на зовнішніх доказових документах, а не покладаючись виключно на неявні знання моделі. Це підґрунтує вміст у актуальних, верифікованих даних, зменшуючи галюцинації.

Видатні техніки включають:

RAG – Використовує модуль пошукової системи, який надає відповідні пасажі для моделі seq2seq для генерації з них. Обидві компоненти тренуються кінцево-кінцево.
RARR – Використовує LLM для дослідження необґрунтованих тверджень у згенерованому тексті та корекцію їх згідно з поверненими доказами.
Пошук знань – Верифікує невпевнені генерації за допомогою повернених знань перед генерацією тексту.
LLM-Аугментер – Ітеративно шукає знання для побудови ланцюгів доказів для підказок LLM.

Зворотні зв’язки та висновок

Використання ітеративної природної мови зворотних зв’язків або само-висновку дозволяє LLM уточнювати та покращувати свої початкові виходи, зменшуючи галюцинації.

CoVe використовує техніку ланцюга верифікації. LLM спочатку створює проект відповіді на запит користувача. Потім він генерує потенційні питання верифікації для фактологічної перевірки своєї власної відповіді, заснованої на його впевненості у різних твердженнях. Наприклад, для відповіді, яка описує нове медичне лікування, CoVe може згенерувати питання типу “Яка ефективність лікування?”, “Чи отримало воно нормативне затвердження?”, “Які потенційні побічні ефекти?”. Насправді, LLM потім намагається самостійно відповісти на ці питання верифікації без упередженості своєї початкової відповіді. Якщо відповіді на питання верифікації суперечать або не можуть підтвердити твердження, зроблені у початковій відповіді, система визначає їх як ймовірні галюцинації та уточнює відповідь перед тим, як представити її користувачеві.

DRESS зосереджується на налаштуванні LLM для кращого відповідності людським уподобанням через природну мовну зворотню зв’язок. Підхід дозволяє некваліфікованим користувачам надавати вільні критики на генерації моделі, такі як “Побічні ефекти здаються перебільшеними” або інструкції уточнення типу “Будь ласка, також обговоріть вартість”. DRESS використовує навчання з підкріпленням для тренування моделей генерації відповідей, умовлених такими зворотними зв’язками, які краще відповідають людським уподобанням. Це підвищує взаємодію, зменшуючи нереалістичні або непідтверджені твердження.

MixAlign займається ситуаціями, коли користувачі запитують питання, які не відповідають безпосередньо доказовим пасажам, поверненим системою. Наприклад, користувач може запитати “Чи погіршиться забруднення в Китаї?”, тоді як повернуті пасажі обговорюють глобальні тенденції забруднення. Для уникнення галюцинацій з недостатнім контекстом MixAlign явно уточнює з користувачем, коли не впевнений, як пов’язати свій запит з поверненою інформацією. Ця людина-в-циклі механізм дозволяє отримувати зворотню зв’язок для правильного підґрунтування та контекстуалізації доказів, запобігаючи необґрунтованим відповідям.

Техніка Само-рефлексії тренує LLM оцінювати, надавати зворотню зв’язок та ітеративно уточнювати свої власні відповіді за допомогою мульти-задачного підходу. Наприклад, для відповіді, згенерованої для медичного запиту, модель вчиться оцінювати фактичну точність, визначати будь-які суперечливі або непідтверджені твердження та редагувати їх, повертаючи відповідні знання. Навчання LLM цьому зворотному зв’язку перевірки, критики та ітеративного покращення їх власних виходів зменшує сліпу галюцинацію.

Настройка підказок

Настройка підказок дозволяє коригувати інструкційні підказки, надані LLM під час дообучення для бажаних поведінок.

Метод SynTra використовує синтетичне завдання підсумовування для мінімалізації галюцинацій перед перенесенням моделі на реальні набори даних підсумовування. Синтетичне завдання надає вхідні пасажі та просить моделі підсумувати їх лише шляхом повернення, без абстрагування. Це тренує моделі покладатися повністю на джерельний вміст, а не вигадувати нову інформацію під час підсумовування. SynTra показано, що зменшує проблеми галюцинацій, коли дообучені моделі розгортаються на цільових завданнях.

UPRISE тренує універсальний пошуковий підказку, який надає оптимальну м’яку підказку для навчання з декількома зразками на невидимих завданнях. Шукаючи ефективні підказки, налаштовані на різноманітному наборі завдань, модель вчиться узагальнювати та адаптуватися до нових завдань, де їй бракує тренувальних прикладів. Це підвищує продуктивність без потреби завдання-специфічного налаштування.

Нові архітектури моделей

FLEEK – це система, орієнтована на допомогу людським факт-чекерам та верифікаторам. Вона автоматично визначає потенційно верифіковані фактичні твердження, зроблені в даному тексті. FLEEK перетворює ці перевірені твердження на запити, повертає пов’язані докази з баз знань та надає цю контекстну інформацію людським верифікаторам для ефективної верифікації точності документів та потреби у редагуванні.

Підхід CAD до декодування зменшує галюцинацію в генерації мови шляхом контекстно-чуйного декодування. Конкретно, CAD посилює відмінності між виходом розподілу LLM, умовленим контекстом, та згенерованим безумовно. Це перешкоджає супереченню контекстним доказам, направляючи модель до підґрунтованих генерацій.

DoLA пом’якшує фактичні галюцинації, контрастуючи логіти з різних шарів трансформерних мереж. Оскільки фактичні знання схильні бути локалізованими в певних середніх шарах, посилення сигналів з тих фактичних шарів через контраст логітів DoLA зменшує неправильні фактичні генерації.

Фреймворк THAM вводить термін регуляризації під час тренування для мінімізації взаємної інформації між вхідними даними та галюцинованими виходами. Це допомагає збільшити залежність моделі від наданого контексту вхідних даних, а не необґрунтованої фантазії, зменшуючи сліпі галюцинації.

Підґрунтування знань

Підґрунтування генерацій LLM у структурованих знаннях запобігає необмеженій спекуляції та вигадці.

Модель RHO визначає сутності в контексті розмови та пов’язує їх з базою знань (KG). Пов’язані факти та відносини щодо цих сутностей повертаються з KG та інтегруються у контекстну репрезентацію, надану LLM. Це знання-енрічований контекст спрямовує відповіді, тримаючи їх прив’язаними до підґрунтованих фактів про згадані сутності/події.

HAR створює контрфактичні тренувальні набори даних, які містять модель-генеровані галюцинації для кращого навчання підґрунтування. Для фактичного пасажу моделі проситься ввести галюцинації або спотворення, генеруючи змінений контрфактичний варіант. Дообучення на цих даних змушує моделі краще підґрунтувати вміст у джерельних фактичних джерелах, зменшуючи імпровізацію.

Наглядане дообучення

Coach – Інтерактивний фреймворк, який відповідає на запити користувача, але також просить корекції для покращення.
R-Tuning – Відмова-інформоване налаштування відмовляється від непідтверджених питань, визначених через прогалини знань у тренувальних даних.
TWEAK – Метод декодування, який ранжує генерації на основі того, як добре гіпотези підтримують фактичні дані.

Виклики та обмеження

Незважаючи на перспективний прогрес, деякі ключові виклики залишаються у пом’якшенні галюцинацій:

Техніки часто обмінюють якість, узгодженість та креативність на вірогідність.
Труднощі у суворій оцінці за межами обмежених доменів. Метрики не захоплюють усіх нюансів.
Багато методів є обчислювально дорогими, вимагаючи розширених пошуків або само-висновку.
Виходять сильно залежно від якості тренувальних даних та зовнішніх джерел знань.
Важко гарантувати загальну застосовність у різних доменах та модальностях.
Фундаментальні корені галюцинації, такі як над-екстраполяція, залишаються нерозв’язаними.

Подолання цих викликів, ймовірно, потребує багаторівневого підходу, який поєднує покращення тренувальних даних, вдосконалення архітектури моделей, втрат, які підвищують вірогідність, та техніки часу висновку.

Дорога вперед

Пом’якшення галюцинацій для LLM залишається відкритою науковою проблемою з активним прогресом. Деякі перспективні майбутні напрямки включають:

Гібридні техніки: Комбінування доповнюваних підходів, таких як пошук, підґрунтування знань та зворотні зв’язки.
Моделювання причинності: Покращення розуміння та висновку.
Онлайн-інтеграція знань: Тримання світових знань актуальними.
Формальна верифікація: Надання математичних гарантій поведінки моделі.
Інтерпретація: Будування прозорості у техніки пом’якшення.

Оскільки LLM продовжують поширюватися у високих ставках доменів, розробка надійних рішень для обмеження галюцинацій буде ключовим для забезпечення їх безпечного, етичного та надійного розгортання. Техніки, оглянуті в цій статті, надають огляд технік, запропонованих до цього часу, де залишаються відкриті наукові виклики. Загалом існує позитивна тенденція до підвищення фактичності моделей, але подальший прогрес потребує подолання обмежень та дослідження нових напрямків, таких як причинність, верифікація та гібридні методи. З ретельними зусиллями дослідників з різних дисциплін, мрія про потужні, але довіристі LLM може бути перекладена у реальність.

Aayush Mittal

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.