Зв'язатися з нами

Боротьба за те, щоб завадити штучному інтелекту обманювати тести

Штучний Інтелект

Боротьба за те, щоб завадити штучному інтелекту обманювати тести

mm

Нові результати дослідження китайського університету дозволяють зрозуміти, чому генеративні моделі обробки природної мови, такі як GPT-3, мають тенденцію «обманювати», коли їм задають складне запитання, даючи відповіді, які можуть бути технічно правильними, але без реального розуміння чому відповідь правильна; і чому вони демонструють малу або зовсім нездатність пояснити логіку своїх «легких» відповідей. Дослідники також пропонують кілька нових методів, щоб змусити системи «інтенсивніше навчатися» під час фази навчання.

Проблема полягає в двох аспектах: по-перше, ми розробляємо системи, які намагаються досягти результатів швидко та з оптимальним використанням ресурсів. Навіть там, де, як у випадку з GPT-3, ресурси можуть бути значно більшими, ніж може зібрати середній дослідницький проект НЛП, ця культура оптимізації, орієнтованої на результати, все ще пронизує методологію, оскільки вона стала домінувати в академічних звичаях.

Отже, наші навчальні архітектури винагороджують моделі, які швидко конвергують і дають очевидно відповідні відповіді на запитання, навіть якщо модель НЛП згодом не може обґрунтувати свою відповідь або продемонструвати, як вона прийшла до своїх висновків.

Рання схильність до обману

Це відбувається тому, що модель вивчає «швидкі реакції» набагато раніше під час навчання, ніж вивчає більш складні типи отримання знань. Оскільки підвищена точність часто винагороджується без розбору під час навчання, модель надає пріоритет будь-якому підходу, який дозволить їй відповісти на запитання «досконало» і без реального розуміння.

Оскільки швидке навчання неминуче представлятиме перший Успіхів під час навчання, сесія, природно, буде відходити від складнішого завдання отримання корисної та більш повної епістемологічної перспективи, яка може містити глибші та проникливіші шари атрибуції та логіки.

Годування ШІ. «Прості» відповіді

Друга проблема полягає в тому, що незважаючи на останні дослідницькі ініціативи навчався Схильність штучного інтелекту «шахраювати» таким чином і визначила феномен «ярликів», досі не було зусиль класифікувати матеріал, що підтримує «ярлики», у наборі даних, що було б логічним першим кроком у вирішенні того, що може виявитися фундаментальним недоліком архітектури в системах машинного розуміння читання (MRC).

Новий папір, співпраця між Інститутом комп’ютерних технологій Wangxuan та Ключовою лабораторією комп’ютерної лінгвістики MOE Пекінського університету, перевіряє різні мовні моделі на нещодавно анотований набір даних який містить класифікації «легких» і «важких» рішень можливого питання.

Джерело: https://arxiv.org/pdf/2106.01024.pdf

Джерело: https://arxiv.org/pdf/2106.01024.pdf

Набір даних використовує перефразування як критерій для більш складних і глибоких відповідей, оскільки для переформулювання отриманих знань необхідно семантичне розуміння. Навпаки, «швидкі» відповіді можуть використовувати маркери, такі як дати та інші інкапсулюючі ключові слова, щоб отримати відповідь, яка є фактично точною, але без будь-якого контексту чи аргументації.

Компонент швидкого доступу в анотаціях містить відповідність слів питання (QWM) і просту відповідність (SpM). Для QWM модель використовує сутності, витягнуті з наданих текстових даних і відкидає контекст; для SpM модель визначає збіг між реченнями відповідей і питаннями, обидва з яких надаються в навчальних даних.

Скорочені дані майже «вірусні» за впливом у наборі даних

Дослідники стверджують, що набори даних, як правило, містять велику частку швидких запитань, які змушують навчених моделей покладатися на швидкі прийоми.

Дві моделі, використані в експериментах, були BiDAF і Google, БЕРТ-база. Дослідники помічають, що навіть при навчанні на варіаціях наборів даних із більшою часткою «складних» запитань обидві моделі все одно працюють краще на короткі питання, ніж на складніші перефразовані запитання, незважаючи на невелику кількість прикладів у наборах даних.

Це представляє «короткі дані» майже в контексті вірусу – їх має бути дуже мало в наборі даних, щоб їх можна було прийняти та визначити пріоритет у навчанні відповідно до звичайних стандартів і практик НЛП.

Доведення обману

Один із методів, який використовує дослідження, щоб довести крихкість швидкої відповіді, полягає в тому, щоб замінити аномальне слово «легким» словом. Якщо використовувався метод швидкого доступу, логіка «обдуреної» відповіді не може бути забезпечена; але якщо відповідь була надана з глибшого контексту та семантичної оцінки ширшого діапазону доданого тексту, система може деконструювати помилку та реконструювати правильну відповідь.

Заміна «Бейонсе» (людини) на «Америку» (місце) показує, чи має модель будь-яку базову логіку для своєї відповіді.

Заміна «Бейонсе» (людини) на «Америку» (місце) показує, чи має модель будь-яку базову логіку для своєї відповіді.

Ярлики через економічний імператив

Стосовно деяких архітектурних причин, чому ярлики мають такий пріоритет у навчальних процесах НЛП, автори коментують «Моделі MRC можуть вивчати швидкі прийоми, такі як QWM, з меншими обчислювальними ресурсами, ніж виклики розуміння, як ідентифікація перефразування».

Отже, це може бути ненавмисним результатом стандартної оптимізації та філософії збереження ресурсів у підходах до машинного розуміння читання, а також тиску на отримання результатів з обмеженими ресурсами в стислі часові рамки.

Дослідники також зазначають:

«[Оскільки] трюк швидкого доступу можна використати, щоб правильно відповісти на більшість навчальних запитань, обмежені невирішені питання, що залишилися, можуть не спонукати моделей досліджувати складні рішення, які вимагають складних навичок».

Якщо результати статті будуть згодом підтверджені, виявиться, що величезна та постійно зростаюча сфера попередньої обробки даних, можливо, потребуватиме розгляду «прихованих шпаргалок» у даних як проблеми, яку потрібно вирішити в довгостроковій перспективі, або ж переглянути архітектуру НЛП. щоб визначати пріоритетність більш складних процедур для прийому даних.