Штучний інтелект
Отримання NLP для виклику невірних питань

Деякі питання незвідущі, оскільки вони містять невірну інформацію – припущення, які людина, що слухає питання, повинна фільтрувати та відкинути. Це припускає, звичайно, що слухач має достатньо правильної інформації, щоб викликати питання, а не використовувати саме питання як джерело (неправильної) інформації.
Це виклик для систем обробки природної мови (NLP), таких як GPT-3, які мають тенденцію до “галюцинації” інформації, щоб підтримувати діалог.
Наразі запит до GPT-3 “Коли Марі Кюрі винайшла Уран?” найімовірніше отримає відповідь “Марі Кюрі винайшла Уран у 1898 році”.

Джерело: https://beta.openai.com/playground (Da Vinci instruct beta).
Насправді, Уран був відкритий у 1789 році німецьким хіміком Мартіном Генріхом Клапротом, тоді як відкриття Кюрі у 1898 році було виділення радію.
Проблема систем NLP, які ігнорують неправильні припущення, увійшла в焦 увагу в ряді публічних заяв цього року, включаючи спосіб, яким результати пошуку Google, підтримувані штучним інтелектом, ігнорують неправильну інформацію у запиті “Коли Ніл Армстронг ступив на Марс?” – помилка, яка все ще існує на момент написання цієї статті, і однаково застосовується до Базза Лайтера з “Історії іграшок”, який, як кажуть, висадився на Місяці 21 липня 1969 року.
Том Генкс, інший актор з “Історії іграшок”, також згадується Google як той, хто ступив на Місяць у 1970 році, незважаючи на те, що його персонаж у фільмі “Аполлон-13”, астронавт Джим Ловелл, найбільш відомий тим, що не досяг цього.

Вирішення проблем припущень у діалогах NLP
Тепер дослідники з Google Research, разом з дослідниками з Університету Джона Хопкінса та Браунського університету, досліджують нові методи машинного навчання, за допомогою яких системи NLP можуть бути змусені викликати фактично неправильні питання тим же чином, яким це необхідно для людських учителів під час розмов з учнями.
Нещодавня робота документ Хто з лінгвістів винайшов лампу? описує зусилля щодо розробки нової системи для ідентифікації припущень та їх перевірки перед продовженням діалогу
Новий алгоритм ефективно попередньо обробляє питання перед поверненням до діалогу, розбиваючи процес “автентифікації” питання на три етапи.

Не обчислюється! Зліва, “блокування”, яке відбувається навіть тоді, коли розширена система NLP змогла визначити, що питання не має сенсу. Праворуч, розбивка запропонованого алгоритму, який намагається виправити джерельну помилку. Джерело: https://arxiv.org/pdf/2101.00391.pdf
Хоча це здається простим процесом перевірки, який мав би бути закладений у системи знань з самого початку, більшість навчальних режимів NLP навчаються інформації з надмірним рівнем довіри до джерела даних, включаючи дискурс (наприклад, фейкові новини), який міг бути опублікований на попередньо “довірених” каналах.
Отже, ключовим питанням є визначення консенсусом надійного джерела фактів у кліматі, де поширення неправильної “інформації” через соціальні медіа за умовчанням наділяє її авторитетом згідно з логікою узагальнення машинного навчання, принаймні до тих пір, поки явище фейкових новин не стало критичною областю інтересів у цій галузі в останні роки.
Визначення найкращого підходу до незвідущих питань
Щоб визначити підходящий підхід для вирішення питання, яке містить дезінформацію, дослідники провели 100 таких запитів через чотири різні моделі Q&A, і попросили людей вибрати найкраще або найменш проблематичне рішення, яке згенерували моделі.
Чотири можливі архітектурні результати “поганого” питання були: ‘Незвідуще’ – де система Q&A з закритою книгою ефективно зупиняє запит без подальшого пояснення; ‘Пояснення на основі невдачі припущення’ – де система не може перевірити неправильне припущення, ефективно “незвідуща” відповідь з доданим поясненням; ‘Видобувальне пояснення’ – де система витягує пов’язану з темою цитату з Вікіпедії та додає її до вступного “Це питання незвідуще, оскільки…”; і ‘Переписування відкритого домену’ – де конкурентна система шукає додаткові джерела з Вікіпедії.

Цей приклад чотирьох можливих відповідей на очевидно “незвідуще” питання ілюструє складність спроби конкурентного домен-орієнтованого рішення цієї проблеми.
Під час тестів п’ять учасників (рекрутованих на внутрішній платформі краудсорсингу Google) віддали перевагу відповідям на основі припущень, що змусило дослідників розробити нову структуру для розбирання та перевірки питань.
У новій системі лінгвістичні спускові механізми отримуються з питання за допомогою генератора, заснованого на правилах, який розбиває речення на передбачувані твердження факту. Якщо з питання отримано кілька припущень, кожне з них досліджується, і буде внесено свій внесок у остаточну відповідь, якщо вони звертаються до помилкових припущень з оригінального питання.
Дані
Припущення, згенеровані на початковому етапі, були вручну виправлені для створення набору даних для перевірки з “золотими” припущеннями. Будь-які припущення, які виникли під час розгалуження запиту, але які не були присутні в оригінальних питаннях, були видалені.
Два автори статті потім вручну аннотували 462 припущення щодо так/ні верифікації, заснованої на відповідній сторінці Вікіпедії, пов’язаній з кожним питанням. Випадки розбіжностей були вирішені після обговорення перед тим, як були внесені до набору даних.
Дослідники використали zero-shot NLI, завдання класифікації тези/гіпотези, яке вимагало розбирання статей Вікіпедії, пов’язаних з питаннями. Оскільки цей процес призводить до багатьох більш парних результатів, ніж питання може передбачати або модель підтримувати, відфільтровані результати потім агрегувалися та позначалися.
Результати та формулювання відповідей
Найефективніші результати були отримані найбільш трудомістким рішенням: тонко налаштованою, заснованою на правилах/НЛІ гібридною системою, згенерованою з ALBERT QNLI з реченнями Вікіпедії та припущеннями.

Виконання моделей верифікації, де “Речення Вікіпедії” використовують речення, отримані з пов’язаних статей Вікіпедії, і “Припущення Вікіпедії” – згенеровані припущення з цих речень.
За допомогою цього формулювання дослідники розробили систему шаблонів, де факт з Вікіпедії, який заперечує, додається до “Це питання незвідуще, оскільки…” та подібних фраз. Хоча це не ідеальне рішення, автори вважають, що відповіді, засновані на неверифікованості, ймовірно, скоротять кількість хибних негативів.
Система була в кінцевому підсумку реалізована у моделі Розширеної конструкції трансформера (ETC).
Наслідки
Залежно від її кінцевої продуктивності в реальному світі, можна стверджувати, що цей підхід може привести до простої заміни “неверифікованого” на “незвідуще” в тих випадках, коли система дослідження не може оцінити корисну поправку для помилкового припущення питання. Насправді, це здається інфраструктурою для майбутніх і кращих систем верифікації.
Дослідники вже визнають, що витрати на запит до API на основі токенів є обмежувальним фактором при формулюванні довших відповідей, які ця система буде генерувати, і потрібно припустити, що додаткова витрата на “живе” дослідження питання, ймовірно, додадуть затримку навіть до великомасштабних систем, таких як GPT-3, оскільки реакційність таких систем залежала від узагальненого включення знань на етапі навчання, а не від широких, мережевих процедур верифікації.
Крім того, дослідники відзначають, що система зараз має обмеження, пов’язані з розбором семантичних аспектів тексту:
Наприклад, хто вважає, що Естелла – мати Піпа, має вкладений присвійний під нефактивним дієсловом вірить, але наш генератор усе одно згенерує Естелла має мати.
Однак команда передбачає нові та більш гнучкі системи питань-відповідей, які будуть розроблені на основі цієї роботи:
У майбутньому ми плануємо продовжити цю роботу, пропонуючи системи Q&A, які будуть більш стійкими та співробітницькими. Наприклад, різні типи невдач припущення можуть бути розглянуті більш гнучкими стратегіями відповідей – наприклад, порушення припущення унікальності може бути краще оброблено шляхом надання всіх можливих відповідей, а не зазначення того, що припущення унікальності було порушено.












