Погляд Anderson

Ланцюгова логіка доведена до “декоративності” у великих мовних моделях

mm
An AI-generated image (GPT1.5) depicting a robot cheating in an exam by using a smartphone.

Нові дослідження пропонують простий спосіб визначення того, що відполіровані крок за кроком пояснення всіх поточних лідерів мовних моделей штучного інтелекту – включаючи ChatGPT і Claude – є просто “декоративними” і зазвичай вигадуються після штучний інтелект вирішив, яка буде відповідь.

 

Минулого року серія високопрофільних досліджень від компаній, що займаються штучним інтелектом, включаючи Anthropic і Apple, вказувала на те, що так звані “моделі розуміння” часто створюють крок за кроком пояснення, які не відображають те, що насправді інформувало їхні відповіді.

Через різні причини дискусія незабаром перейшла у запальні спростування і різноманітні інтерпретації (включаючи на цьому сайті), залишаючи нерозрішеним питання щодо того, чи є ланцюгова логіка (CoT) просто косметичним доповненням, призначеним для заспокоєння кінцевих користувачів, або доказом справжнього процесу розуміння.

ChatGPT 'показує свою роботу' – але чи вже вирішив, яку відповідь дати?

ChatGPT ‘показує свою роботу’ – але чи вже вирішив, яку відповідь дати?

Показати і розказати

Тепер цікаве нове дослідження з Індії пропонує дешевий і легко повторюваний метод для визначення того, чи справжні ці вражаючі “анімації висновків” у інтерфейсах ChatGPT і інших великих мовних моделей (LLM) насправді вказують на те, що штучний інтелект працює через кроки до висновку.

Нове дослідження проводиться двома дослідниками з Індійського інституту інформаційних технологій Аллахабада (IIITA) в Аллахабаді та Національного інституту електроніки та інформаційних технологій (NIELIT) у Делі.

Автори виявили, що майже у всіх випадках, у великому сегменті пропрієтарних і відкритих мовних моделей, ланцюгова логіка, представлена користувачам, є “декоративною”, вигаданою після того, як штучний інтелект прийняв рішення про те, яку відповідь він представить.

Тестуючи такі моделі, як ChatGPT5.4, Claude Opus 4.6-R і DeepSeek-V3.2, автори виявили, що видалення будь-якого окремого кроку з 10-15 кроків ланцюгової логіки фактично змінило відповідь менше 17% часу, і що будь-який окремий крок sám був достатнім для відновлення правильної відповіді.

Автори заявляють*:

‘Регуляторні рамки для штучного інтелекту в сфері охорони здоров’я, фінансів і права все частіше вимагають “роз’яснювальних” [систем]. Наші результати свідчать про те, що стандартний підхід – запитання моделі про показ своєї роботи – забезпечує ілюзію прозорості.

‘Пояснення є плавними, відповідними галузі, і неправильними у тонкому сенсі: вони описують розуміння, яке модель не виконувала.

‘Медична штучна інтелектна система, яка пише “еозінофілія свідчить про емболію”, не обов’язково розглядала еозінофілію взагалі. Вона могла зіставити закономірності з питання до відповіді і вигадати розуміння пізніше.

‘За законом ЄС про штучний інтелект (Стаття 13) система високого ризику повинна забезпечувати “значущу інформацію про логіку, що використовується”. Наші результати свідчать про те, що ланцюгова логіка пояснень більшості передових моделей не відповідає цьому стандарту–“логіка, що використовується для отримання відповіді”, не є логікою, описаною в поясненні.’

Автори спостерігають, що дві з менших моделей, які були протестовані, порушують загальний шаблон двозначності, але тільки під дуже особливих обставин: MiniMax-M25 демонструє справжню залежність кроків при обробці сентиментального аналізу, тоді як Kimi-K25 демонструє справжню 39% потребу в ланцюговій логіці – але тільки при обробці тематичної класифікації.

У всіх інших випадках, як і у великих і відомих моделей, кроки розуміння, які були продемонстровані, здавалися цілком перформативними, тоді як моделі використовували закорочення.

Малі моделі намагаються сильніше

Крім десяти моделей API, які були протестовані, автори також протестували ряд менших відкритих моделей, які варіювалися від 0,8 до 8 мільярдів параметрів (що є досить скромним зараз), і виявили, що ці менші штучні інтелекти справді розуміють, і що ланцюгова логіка, яку вони показують, зазвичай – хоча не завжди – необхідна для отримання корисних і точних висновків.

Менші моделі демонстрували 55% потребу в крокових rozumінні, на відміну від середнього показника 11% для великих моделей, які, як стверджують автори, ‘навчилися повністю обходити багатокрокове розуміння, приймаючи правильні відповіді через внутрішні закорочення, які їхнє написане розуміння не відображає’.

Автори припускають, що чим краще модель виконує завдання, тим менше вона потребує крокових розумінь (хоча це більш дипломатичний погляд на концепцію відмови від раціонального аналізу на користь якоїсь відповіді, яка була найсильнішою у розподілі навчальних даних)††:

‘Малі моделі розуміють вірно на математиці, тому що мусть—вони не мають параметричних знань, щоб обійти.

‘Передові моделі внутрішньо засвоїли достатньо математичних закономірностей, тому що явна ланцюгова логіка стає зайвою. Ланцюгова логіка все ще підвищує точність (структуризації генерації), але окремі кроки вже не несуть унікальної інформації.’

Метод

Метод, який був використаний для тестування моделей, заснований на трьох критеріях:

Необхідність видаляє кожен крок ланцюгової логіки по черзі, а потім перевіряє, чи змінюється відповідь. Будь-який крок, видалення якого змінює результат, вважається “необхідним”; Достатність ізолює кожен крок, а потім перевіряє, чи може він сам по собі відновити відповідь, і будь-який такий крок вважається достатнім; і Чутливість до порядку перемішує кроки, а потім спостерігає, чи змінюється відповідь (оскільки справжнє розуміння повинно залежати від послідовності, а не від ключових слів).

Взяті разом, висока необхідність і низька достатність вказують на справжнє крок за кроком розуміння, тоді як низька необхідність і висока достатність вказують на пояснення, які можна видалити, переставити або скоротити без впливу на результат.

Автори відзначають, що цей метод усуває будь-яку необхідність у білий коробці моделі, оскільки його можна провести всього за кілька доларів на закритих моделях API, таких як ChatGPT і Claude, і, природно, з таким же успіхом на відкритих моделях, які можна встановити локально.

Вони також відзначають, що попередні дослідження або використовували відкриті моделі, які дозволяли внутрішній аналіз, або використовували простіші бінарні так/ні відповіді, які розкривають менше внутрішнього розуміння моделі API.

Мінімальні витрати

Автори визначають справжнє розуміння через необхідність і достатність, з високою необхідністю і низькою достатністю, які вказують на те, що кожен крок несе унікальну вагу. Навпаки, декоративне розуміння показує низьку необхідність і високу достатність, що означає, що кроки можна видалити або використовувати окремо без зміни відповіді.

Необхідність сама по собі, як зазначають автори, може приховати це, оскільки можуть існувати кілька дійсних шляхів. Тому достатність використовується для перевірки того, чи може окремий крок сам по собі закодувати результат, і чутливість до порядку перевіряє, чи залежить модель від послідовності, а не від поверхневих сигналів.

Підхід будується на рамці Intervention-Consistent Explanation (ICE), вимагає лише текстовий вхід і текстовий вихід доступу API, і для ланцюга з шести кроків включає 15 оцінок, вартістю близько 1-2 доларів за модель.

Рамка ICE класифікує поведінку моделі за необхідністю і достатністю на три шаблони: Декоративний показує низьку необхідність і високу достатність, що означає, що кроки є зайвими, і відповідь буде досягнута в будь-якому випадку. Це домінує у більшості моделей і завдань; Справжній показує високу необхідність і високу достатність, що означає, що кожен крок несе справжній сигнал (і, як згадувалося раніше, це відбувається у MiniMax-M2.5 на сентименті); і Залежний від контексту показує високу необхідність і низьку достатність, що означає, що кроки працюють тільки разом у послідовності (що відбувається у Kimi-K2.5 і MiniMax на тематичній класифікації, і у малих моделях, коли справа стосується математики).

Тести

Десять моделей API, які були протестовані за допомогою переглянутого підходу ICE, включали ChatGPT-5.4; Claude Opus 4.6-R; DeepSeek-V3.2; GPT-OSS-120B; Kimi-K2.5; Qwen3.5-397B; Qwen3.5-122B; MiniMax-M2.5; GLM-5; і Nemotron-Ultra (253B параметрів).

Кожна модель була протестована на чотирьох завданнях: класифікація сентименту (за допомогою (SST-2); математичні завдання з словами (за допомогою GSM8K); тематична класифікація (за допомогою AG News); і медичне питання-відповідь (за допомогою (MedQA). Початкові тести проводилися на Сентименті і Математиці:

Тести для десяти провідних мовних моделей, які оцінюють, як вони справляються з крок за кроком розумінням. 'Необхідність' відстежує, чи змінюється відповідь при видаленні кроку; 'достатність' перевіряє, чи може окремий крок сам по собі відновити відповідь; і 'перемішування' перевіряє, чи має значення порядок. Більшість моделей надають переконливі, але несуттєві пояснення на SST-2 і GSM8K, тоді як MiniMax-M2.5 залежить більше від своїх кроків для сентименту. Обидві MiniMax і Kimi-K2.5 демонструють справжнє крок за кроком розуміння на тематичній класифікації. Джерело - https://arxiv.org/pdf/2603.22816

Тести для десяти провідних мовних моделей, які оцінюють, як вони справляються з крок за кроком розумінням. ‘Необхідність’ відстежує, чи змінюється відповідь при видаленні кроку; ‘достатність’ перевіряє, чи може окремий крок сам по собі відновити відповідь; і ‘перемішування’ перевіряє, чи має значення порядок. Більшість моделей надають переконливі, але несуттєві пояснення на SST-2 і GSM8K, тоді як MiniMax-M2.5 залежить більше від своїх кроків для сентименту. Обидві MiniMax і Kimi-K2.5 демонструють справжнє крок за кроком розуміння на тематичній класифікації. Джерело

Автори заявляють, щодо цих результатів:

‘Більшість моделей демонструє те, що ми називаємо “Декоративним rozumінням” (Lucky Steps у taksonомії ICE)–шаблон, у якому необхідність кроку нижче 17% і достатність кроку перевищує 60% як на сентименті, так і на математиці.

‘У простих словах: ви можете видалити будь-який крок розуміння і відповідь майже ніколи не змінюється, хоча будь-який окремий крок сам по собі достатній для відновлення відповіді.’

На тесті SST-2 на сентимент GPT-5.4 майже ніколи не залежав від свого написаного розуміння, оскільки видалення кроку змінювало відповідь лише у 0,1% з 500 випадків, що вказувало на те, що пояснення було додано після того, як рішення було вже прийнято.

Claude Opus 4.6-R залежав від своїх кроків трохи більше, на рівні 14,8%, але 91% його кроків окремо могли все ще відновити відповідь; тому його довші пояснення були більш деталізованими, але все ще в основному “декоративними”.

Пізніше дослідники додали інші області і протестували знову:

Крок за кроком вірність і точність у чотирьох областях: SST-2; GSM8K; AG News; і MedQA. Більшість пар моделі-завдання залишаються декоративними, незважаючи на високу точність, з обмеженими винятками: MiniMax-M2.5 і Kimi-K2.5 демонструють контекстно-залежне або справжнє крок за кроком rozumіння на AG News, тоді як загальна продуктивність підтверджує, що низька вірність не пояснюється випадковим угадуванням.

Крок за кроком вірність і точність у чотирьох областях: SST-2; GSM8K; AG News; і MedQA. Більшість пар моделі-завдання залишаються декоративними, незважаючи на високу точність, з обмеженими винятками: MiniMax-M2.5 і Kimi-K2.5 демонструють контекстно-залежне або справжнє крок за кроком rozumіння на AG News, тоді як загальна продуктивність підтверджує, що низька вірність не пояснюється випадковим угадуванням.

Автори спостерігають:

‘Чотири області результатів підтверджують центральне відкриття: декоративне rozumіння є універсальним у всіх областях для моделей, які використовують закорочення. Claude Opus показує 1,7% необхідності на MedQA (486 прикладів, 93,4% точності) – модель пише детальні ланцюги медичного rozumіння в середньому 5,8 кроків, але видалення будь-якого кроку майже ніколи не змінює діагнозу.’

AG News показав найбільші відмінності між моделями, з Kimi-K2.5 і MiniMax, які справді залежали від своїх крок за кроком rozumінь, тоді як більшість інших систем створювали пояснення, які мали мало впливу на кінцеву відповідь.

DeepSeek-V3.2, протестований на всіх чотирьох завданнях, залишався декоративним на всьому протязі; незважаючи на те, що він писав найдовші пояснення, його відповіді рідко залежали від кроків.

Жорсткість виводу

Тести вказували на четверте явище, яке автори назвали жорсткість виводу: деякі моделі просто не схильні виводити процеси rozumіння, залежно також від теми, і можливо від інших обставин. Нижче ми бачимо rozumіння від Claude Opus при відповіді на питання про медичний стан 61-річного чоловіка; і нижче, що вивело GPT-OSS-120B:

Вербозність проти лаконічності.

Вербозність проти лаконічності.

Автори відзначають, що Жорсткість виводу залежить від завдання:

Через завдання моделі різко відрізняються у тому, як часто вони вирішують 'показати свою роботу'. Claude і DeepSeek створюють багатокрокові пояснення майже кожного разу, незалежно від області, на відміну від Qwen3.5-397B, який рідко коли робить це. Інші змінюють свою поведінку залежно від завдання, з деякими, які створюють детальні логічні ланцюги для класифікації, але значно менше для медичних питань.

Через завдання моделі різко відрізняються у тому, як часто вони вирішують ‘показати свою роботу’. Claude і DeepSeek створюють багатокрокові пояснення майже кожного разу, незалежно від області, на відміну від Qwen3.5-397B, який рідко коли робить це. Інші змінюють свою поведінку залежно від завдання, з деякими, які створюють детальні логічні ланцюги для класифікації, але значно менше для медичних питань.

Вони спостерігають:

‘Моделі, які найбільш схильні обходити rozumіння внутрішньо, також є тими, які найбільш схильні опустити rozumіння зовні. GPT-OSS-120B створює багатокрокове rozumіння для 99% питань сентименту і 100% питань тематичної класифікації–але тільки 38% медичних питань. На 62% медичних запитів воно виводить лише букву відповіді.’

Закономерність не здається випадковою: GPT-OSS-120B створює багатокрокові пояснення для майже всіх питань сентименту і питань тематичної класифікації, але міняє поведінку на медичних питаннях (де воно зазвичай не надає жодного видимого rozumіння).

Автори гіпотезують, що оскільки крокові тести вимагають написаних ланцюгів для аналізу, модель, яка відповідає одним токеном, не може бути оцінена цими методами; відсутність зовнішнього rozumіння блокує пряме вимірювання.

Паперу висновує, що моделі, вибрані для високих ставок застосувань, повинні бути протестовані на вірність разом з точністю, і пропонують, що модель, яка на 2% менш точна, але яка справді rozumіє, може бути бажанішою – не в останню чергу тому, що вона задовольняє ЄС і інші нові регуляції щодо роз’яснюваного штучного інтелекту. На даний момент, згідно з доказами, знайденими в дослідженні, майже всі LLM, які здатні до ланцюгової логіки, “обманюють”, майже завжди

Висновок

Це цікаве дослідження, яке пропонує більш широке тестування і обговорення на цю тему, ніж ми маємо можливість розглянути тут, і я рекомендую читачеві звернутися до джерельного матеріалу.

Центральне повідомлення, яке продовжується з минулорічного скандалу, полягає в тому, що платформи штучного інтелекту високих ставок можуть бути схильні до різкого і нечесного симулювання стандартів, яких їхні моделі ще не можуть задовольнити.

Крім того, розрив між масштабом і можливостями відкритих і закритих моделей, таких як ChatGPT, настільки великий, що зазвичай не можна зробити висновок про закриті моделі на основі відкритих, що поглиблює не透кість цих процесів і стандартів.

Однак справжнє білий коробочний методологічний підхід, який може охопити відкриті і закриті моделі, з’являється рідко; але справжні засоби проти “дешевих трюків” такого типу, ймовірно, траплятимуться тільки тоді, коли потужні організації, такі як ЄС, загрожуватимуть дном лінії великих порталів штучного інтелекту.

 

*Мій переклад вихідних посилань авторів на гіперпосилання.

Папер не розкриває єдиний список цих менших моделей, і включає додаткові варіанти однієї моделі, роблячи остаточний список питанням висновку.

†† Наголоси авторів.

Перша публікація середи, 25 березня 2026 року

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]