заглушки Змусити НЛП відповідати на дезінформовані питання - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Змусити НЛП відповідати на дезінформовані запитання

mm
оновлений on

На деякі запитання неможливо відповісти, оскільки вони містять невірну інформацію – передумови, які особа, яка чує запитання, повинна відфільтрувати та відмовитися. Звичайно, це передбачає, що слухач має достатньо правильної інформації, щоб оскаржити запитання, а не використовує саме запитання як джерело (неправильної) інформації.

Це виклик для систем обробки природної мови (NLP), таких як GPT-3, які мають a схильність до «галюцинацій» інформацію для підтримки діалогу.

Зараз запитують GPT-3 "Коли Марія Кюрі винайшла уран?" швидше за все, ви отримаєте відповідь «Марія Кюрі винайшла уран у 1898 році».

Джерело: https://beta.openai.com/playground (інструкція Da Vinci beta).

Джерело: https://beta.openai.com/playground (інструкція Da Vinci beta).

Насправді Уран був виявлені в 1789 році німецьким хіміком Мартіном Генріхом Клапротом, тоді як відкриття Кюрі 1898 року було ізоляція радію.

Проблема систем НЛП, які ігнорують неправильні припущення, привернула увагу в ряді рекламних джерел цього року, включно з тим, як результати пошуку Google за допомогою штучного інтелекту ігноруватимуть неправильну інформацію в запитанні «Коли Ніл Армстронг ступив на Марс?» – помилка, яка ще показує на момент написання цієї статті та однаково стосується Історія іграшокБазз Лайтер, який мабуть, висадився на Місяць 21 липня 1969 року.

Том Генкс, інший Історія іграшок випускник, теж кредитується Google з висадкою на Місяць у 1970 році, незважаючи на те, що його Apollo 13 персонаж, астронавт Джим Ловелл, найбільш відомий НЕ досягнувши цього.

Вирішення проблем пресупозиції в НЛП-обмінах

Зараз Google Research разом із дослідниками з Університету Джона Гопкінса та Університету Брауна досліджує нові методи машинного навчання, за допомогою яких системи НЛП можуть зрештою змусити ставити фактично неправильні запитання так само, як це важливо робити для вчителів під час розмов з учнями. .

Недавня папір Хто з лінгвістів винайшов лампочку? Перевірка презупозиції для запитання-відповіді описує узгоджені зусилля з розробки нової системи для виявлення припущень і розгляду їх правдивості перед продовженням обміну

Новий алгоритм ефективно попередньо обробляє запитання перед поверненням до розмови, розбиваючи «автентифікацію» запитання на три етапи.

Не обчислює! Ліворуч — «перешкода», яка виникає навіть тоді, коли передова система НЛП змогла визначити, що питання не має сенсу. Праворуч розбивка запропонованого алгоритму, який намагається виправити вихідну помилку. Джерело: https://arxiv.org/pdf/2101.00391.pdf

Не обчислює! Ліворуч — «перешкода», яка виникає навіть тоді, коли передова система НЛП змогла визначити, що питання не має сенсу. Праворуч розбивка запропонованого алгоритму, який намагається виправити вихідну помилку. Джерело: https://arxiv.org/pdf/2101.00391.pdf

Хоча це здається простою процедурою перевірки, яку слід було вбудувати в системи знань із самого початку, більшість тренінгів на основі НЛП вивчають інформацію з надмірним рівнем довіри до вихідних даних, включаючи дискурс (наприклад, фейкові новини), які могли бути опубліковані на раніше «довірених» каналах.

Тому ключовим питанням є визначення шляхом консенсусу надійного джерела фактів у кліматі, де поширення некоректних «новин» через соціальні медіа за замовчуванням надасть йому авторитет згідно з логікою узагальнення машинного навчання. Останній мав тенденцію використовувати кількість або повторюваність даних як проксі для точності, принаймні до тих пір, поки феномен фейкових новин не став критичною сферою інтересів у цій галузі в останні роки.

Визначення найкращого підходу до запитань, на які немає відповіді

Щоб визначити відповідний підхід для вирішення питання, яке містить дезінформацію, дослідники провели 100 таких запитів за допомогою чотирьох різних моделей запитань і відповідей і попросили людей вибрати найкраще або найменш проблематичне рішення, створене моделями.

Чотири можливі архітектурні результати «поганого» питання були: "Не підлягає відповіді" – коли закрита система запитань і відповідей фактично припиняє запит без подальших уточнень; «Пояснення на основі невдачі» – якщо системі не вдається перевірити неправильне припущення, фактично відповідь «без відповіді» з додатковим поясненням; "Витягнене пояснення" – коли система отримує тематичну цитату з Вікіпедії та додає її до попередньої фрази «На це запитання немає відповіді, оскільки…»; і «Перезапис відкритого домену» - де змагальна система шукає додаткові джерела у Вікіпедії.

Цей приклад чотирьох можливих відповідей на питання, яке, очевидно, «не має відповіді», ілюструє складність спроби знайти конкурентоспроможне вирішення проблеми на основі домену.

Цей приклад чотирьох можливих відповідей на питання, яке, очевидно, «не має відповіді», ілюструє складність спроби знайти конкурентоспроможне вирішення проблеми на основі домену.

Під час тестування п’ять учасників (набраних на внутрішній платформі краудсорсингу Google) віддавали перевагу відповідям на основі припущень, що спонукало дослідників до розробки нової системи для декомпозиції та перевірки запитань.

У новій системі лінгвістичні тригери отримують із запитання за допомогою генератора на основі правил, який деконструює речення на передбачувані твердження факту. Якщо із запитання випливає кілька припущень, кожне з них досліджується та сприятиме остаточній відповіді, якщо вони стосуються помилкових припущень із початкового запитання.

Набори даних

Припущення, створені на початковому етапі, були вручну змінені, щоб створити набір даних перевірки із «золотими» припущеннями. Будь-які передумови, які виникли в результаті розгалуження запиту, але яких не було в початкових питаннях, були видалені.

Потім двоє авторів статті вручну анотували 462 припущення в термінах так ні можливість перевірки на основі відповідної сторінки Вікіпедії, пов’язаної з кожним запитанням. Випадки розбіжностей вирішувалися в ході постфактум обговорення перед тим, як їх передати набору даних.

Дослідники використовували нульовий постріл NLI, завдання класифікації передумов/гіпотез, яке вимагало деконструкції статей Вікіпедії, пов’язаних із запитаннями. Оскільки в результаті цього процесу утворюється набагато більше пар, ніж може передбачати питання або підтримка моделі, відфільтровані результати потім агрегуються та позначаються.

Результати та формулювання відповіді

Найефективніші результати були отримані за допомогою найбільш трудомісткого рішення: більш точно налаштованого гібрида на основі правил/NLI, згенерованого з АЛЬБЕРТ КНЛІ з реченнями та припущеннями Wiki.

Ефективність моделей перевірки, де «речення Wiki» використовують речення, отримані зі статей Вікіпедії, пов’язаних із питаннями, а «презупозиції Wiki» генеруються з цих речень.

Ефективність моделей перевірки, де «речення Wiki» використовують речення, отримані зі статей Вікіпедії, пов’язаних із питаннями, а «презупозиції Wiki» генеруються з цих речень.

Використовуючи це формулювання, дослідники розробили систему шаблонів, де заперечуючий факт із Вікіпедії додавався до «Це питання не відповідає, оскільки…» та подібні фрази. Хоча це не ідеальне рішення, автори припускають, що відповіді, засновані на неперевіреності, ймовірно, зменшать кількість хибно негативних результатів.

Зрештою система була впроваджена в Розширена конструкція трансформатора (ETC) моделі.

Наслідки

Залежно від його кінцевої ефективності в реальному світі, можна стверджувати, що весь цей підхід може призвести до простої заміни «неперевіряється» на «неможливо відповісти» у випадках, коли допоміжна дослідницька система не може оцінити корисне виправлення помилкової припущення запитання. . Фактично, здається, це закладає інфраструктуру для майбутніх і кращих систем перевірки.

Дослідники вже визнають, що витрати на запити API на основі токенів є обмежуючим фактором при формулюванні довших відповідей, які генеруватиме ця система, і слід припустити, що додаткові накладні витрати на «живе» дослідження питання, ймовірно, додадуть затримка навіть для великомасштабних систем, таких як GPT-3, оскільки швидкість реагування таких систем на сьогоднішній день залежала від узагальненого включення знань під час навчання, а не від широких мережевих процедур перевірки.

Крім того, дослідники відзначають, що система наразі має обмеження, пов’язані з розбором семантичних аспектів тексту:

Наприклад, кого піп вважає матір'ю естели має вбудований присвійний дієслово під нефактивним дієсловом Вірити, але наш генератор все одно генерував би "Естелла має "маму".

Тим не менш, команда передбачає нові та більш гнучкі системи відповідей на запитання, які будуть розроблені на основі цього дослідження:

У майбутньому ми плануємо продовжити цю роботу, пропонуючи системи забезпечення якості, які є більш надійними та кооперативними. Наприклад, різні типи невдалих припущень можна вирішити за допомогою більш плавних стратегій відповіді — наприклад, порушення припущень унікальності можна краще впоратися, надавши всі можливі відповіді, а не стверджуючи, що презумпцію унікальності було порушено.