Штучний інтелект

Боротьба за припинення шахрайства штучного інтелекту під час тестів

Published June 3, 2021

Updated April 26, 2026

Martin Anderson

Нові дослідження, проведені в китайському університеті, дають уявлення про те, чому генеративні моделі обробки природної мови, такі як GPT-3, схильні “шахраювати”, коли їм задають складне питання, надавши відповіді, які можуть бути технічно правильними, але без справжнього розуміння того, чому відповідь правильна; і чому вони демонструють мало або жодної здатності пояснити логіку своїх “легких” відповідей. Дослідники також пропонують нові методи, щоб зробити системи “навчалися важче” під час фази навчання.

Проблема двоїста: по-перше, ми проектуємо системи, які намагаються досягти результатів швидко і з оптимальним використанням ресурсів. Навіть там, де, як у випадку з GPT-3, ресурси можуть бути значно більші, ніж середній проект дослідження NLP може собі дозволити, ця культура результатів-орієнтованої оптимізації все ще проникає в методологію, оскільки вона стала домінувати в академічній конвенції.

Відповідно, наші архітектури навчання винагороджують моделі, які швидко сходяться і дають явно відповідні відповіді на питання, навіть якщо модель NLP згодом не може виправдати свою відповідь або продемонструвати, як вона прийшла до своїх висновків.

Ранній нахил до шахрайства

Це відбувається тому, що модель вчиться “шорти” значно раніше в процесі навчання, ніж вона вчиться більш складних типів набору знань. Оскільки збільшення точності часто винагороджується досить безрозбірливо протягом всього процесу навчання, модель потім пріоритезує будь-який підхід, який дозволить їй відповісти на питання “гладко” і без справжнього розуміння.

Оскільки навчання шорткатів буде невідворотно представляти перші успіхи під час навчання, сесія природно віддаляється від більш складного завдання набуття корисної та більш повної епістемологічної перспективи, яка може містити глибші та більш проникливі шари атрибуції та логіки.

Кормлення штучного інтелекту “легкими” відповідями

Друга проблема полягає в тому, що хоча останні ініціативи дослідження вивчили схильність штучного інтелекту “шахраювати” таким чином, і визначили явище “шорткатів”, досі не було жодної спроби класифікувати матеріал, що дозволяє “шорти”, у внесенні даних, яке було б логічним першим кроком у вирішенні того, що може виявитися фундаментальною архітектурною помилкою в системах машинного читання (MRC).

Нова праця, спільна робота між Інститутом комп’ютерних технологій Вангуаня таМОЕ Ключової лабораторії обчислювальної лінгвістики у Пекінському університеті, тестує різні мовні моделі проти новоанотованих даних, які включають класифікації для “легких” і “складних” рішень можливого питання.

Source: https://arxiv.org/pdf/2106.01024.pdf

Дані використовують парафразування як критерій для більш складних і глибоких відповідей, оскільки семантичне розуміння необхідно для переформулювання отриманих знань. Натомість, “шорти”-відповіді можуть використовувати токени, такі як дати, та інші інкапсулюючі ключові слова, щоб надати відповідь, яка є фактично точною, але без будь-якого контексту чи розуміння.

Компонент шорткатів у анотаціях включає співпадіння слів питання (QWM) і просте співпадіння (SpM). Для QWM модель використовує сутності, витягнуті з наданих текстових даних, і відмовляється від контексту; для SpM модель визначає перекриття між реченнями відповідей і питаннями, які надані в навчальних даних.

Шорткат-дані майже “вірусні” за впливом у наборі даних

Дослідники стверджують, що набори даних схильні містити велику кількість питань-шорткатів, які роблять навчені моделі, що покладаються на шорти-трюки.

Дві моделі, використані в експериментах, були BiDAF і Google’s BERT-base. Дослідники спостерігають, що навіть коли вони навчаються на варіантах наборів даних з більшим відсотком “складних” питань, обидві моделі все ще виконують краще на питаннях-шорти, ніж на складних парафразованих питаннях, незважаючи на малий número прикладів у наборах даних.

Це представляє “шорткат-дані” майже в контексті “вірусу” – тобто потрібно дуже мало з них у наборі даних, щоб вони були прийняті та пріоритезовані під час навчання, згідно з традиційними стандартами та практиками в NLP.

Доведення шахрайства

Одним із методів, який дослідження використовує для доведення хиткості шорткат-відповіді, є заміна “легкого” сутності слова на аномальне слово. Якщо шорткат-метод був використаний, логіка “шахраївської” відповіді не може бути надана; але якщо відповідь була надана з глибшого контексту та семантичної оцінки ширшого діапазону текстових даних, то можливо для системи розібрати помилку та реконструювати правильну відповідь.

Заміна ‘Beyoncé’ (особи) на ‘America’ (місце), показує, чи має модель будь-яку логіку для своєї відповіді.

Шорти через економічну необхідність

Відносно деяких архітектурних причин, чому шорти так пріоритезуються у потоках навчання NLP, автори коментують ‘Моделі MRC можуть вивчити шорткат-трюки, як QWM, з меншими обчислювальними ресурсами, ніж виклики розуміння, як ідентифікація парафразування’.

Це, тоді, може бути ненавмисаним результатом стандартних оптимізаційних та ресурсо-зберігаючих філософій у підходах до машинного читання, та тиску на отримання результатів з обмеженими ресурсами у тісних термінах.

Дослідники також зазначають:

‘[Оскільки] шорткат-трюк можна використовувати для відповіді на більшість питань навчання правильно, обмежені нерозв’язані питання, які залишилися, можуть не мотивувати моделі досліджувати складні рішення, які вимагають складних навичок.’

Якщо результати статті згодом підтвердяться, то здається, що величезна та постійно зростаюча галузь попередньої обробки даних може потребувати розгляду “прихованих підказок” у даних як проблеми, яку потрібно вирішити в довгостроковій перспективі, або ж переглянути архітектуру NLP, щоб пріоритезувати більш складні процедури для прийому даних.