Connect with us

Ланцюгова міркування доведено ‘декоративним’ у великих мовних моделях

Погляд Anderson

Ланцюгова міркування доведено ‘декоративним’ у великих мовних моделях

mm
An AI-generated image (GPT1.5) depicting a robot cheating in an exam by using a smartphone.

Нові дослідження пропонують простий спосіб визначення того, що відполіровані крок за кроком пояснення всіх поточних лідерів мовних моделей штучного інтелекту – включаючи ChatGPT і Claude – є просто ‘декоративними’, і зазвичай вигадуються після штучний інтелект вирішив, яку відповідь надати.

 

Минулого року серія високопрофільних досліджень від компаній, що займаються штучним інтелектом, включаючи Anthropic і Apple, вказувала на те, що так звані ‘моделі міркування’ часто генерують крок за кроком пояснення, які не відображають те, що фактично вплинуло на їхні відповіді.

Через різні причини дебати незабаром перетворилися на запальні спростування і різноманітні інтерпретації (включаючи на цьому сайті), залишаючи нерозв’язаним питання щодо того, чи є ланцюгова міркування (CoT) просто косметичним доповненням, призначеним для заспокоєння кінцевих користувачів, або доказом справжнього процесу міркування.

ChatGPT 'показує свою роботу' – але чи вже вирішив, яку відповідь надати?

ChatGPT ‘показує свою роботу’ – але чи вже вирішив, яку відповідь надати?

Покажи і розкажи

Тепер цікаве нове дослідження з Індії пропонує дешевий і легко повторюваний метод для визначення того, чи справжні ці вражаючі ‘анімації висновків’ у інтерфейсах ChatGPT і інших великих мовних моделей (LLM) насправді вказують на те, що штучний інтелект працює через кроки до висновку.

Нове дослідження походило від двох дослідників з Індійського інституту інформаційних технологій Аллахабада (IIITA) в Аллахабаді та Національного інституту електроніки та інформаційних технологій (NIELIT) у Делі.

Автори виявили, що майже у всіх випадках, по всьому значному спектру пропрієтарних і відкритих мовних моделей, ланцюгова міркування, представлене користувачам, є ‘декоративним’, вигаданим після того, як штучний інтелект вирішив, яку відповідь надати.

При тестуванні таких моделей, як ChatGPT5.4, Claude Opus 4.6-R і DeepSeek-V3.2, автори виявили, що видалення будь-якого окремого кроку з 10-15 кроків CoT фактично змінило відповідь менше 17% часу, і що будь-який окремий крок сам по собі був достатнім для відновлення правильної відповіді.

Автори заявляють*:

‘Регуляторні рамки для штучного інтелекту в галузі охорони здоров’я, фінансів і права все частіше вимагають “роз’яснювальних” [систем]. Наші результати свідчать про те, що стандартний підхід – запит до моделі показати свою роботу – забезпечує ілюзію прозорості.

‘Пояснення є плавними, відповідними домені та неправильними у тонкому сенсі: вони описують міркування, яке модель не виконувала.

‘Медичний штучний інтелект, який пише “еозінофілія свідчить про емболію”, не обов’язково розглядав еозінофілію зовсім. Він міг зіставити з питання до відповіді та вигадати міркування згодом.

‘Згідно з законом ЄС про штучний інтелект (стаття 13), система високого ризику повинна надавати “значимі відомості про логіку, що застосовується”. Наші результати свідчать про те, що ланцюгова міркування з більшості передових моделей не відповідає цьому стандарту–“логіка, що застосовується” для отримання відповіді, не є логікою, описаною в поясненні.’

Автори спостерігають, що дві з менших моделей, які проходили тест, порушували загальний шаблон подвійності, але тільки у дуже особливих обставинах: MiniMax-M25 демонстрував справжню залежність кроку при обробці аналізу настрою, тоді як Kimi-K25 виявляв справжню 39% потребу в обробці CoT – але тільки при обробці класифікації тем.

У всіх інших випадках, як і у великих і відомих моделей, кроки міркування, які демонструвалися, здавалися цілком перформативними, з моделями, які замість цього використовували швидкі шляхи.

Малі моделі намагаються сильніше

Окрім десяти моделей API, які проходили тест, автори також випробовували ряд менших відкритих моделей, які варіювалися від 0,8 до 8 мільярдів параметрів (що є досить скромним зараз), і виявили, що ці менші штучні інтелекти справді міркують, і що ланцюгова міркування, яке вони показують, зазвичай – хоча не завжди – необхідне для отримання корисних і точних висновків.

Менші моделі демонстрували 55% потребу у крокових міркуваннях, на відміну від середньої 11% потреби серед великих моделей, які, як стверджують автори, ‘навчилися обходити багатокрокове міркування цілком, приходячи до правильних відповідей через внутрішні швидкі шляхи, які їхнє написане міркування не відображає’.

Автори припускають, що чим краще модель виконує завдання, тим менше вона потребує крокових міркувань (хоча це є більш дипломатичним тлумаченням концепції відмови від раціонального аналізу на користь якоїсь відповіді, яка була найсильнішою у розподілі тренувальних даних)††:

‘Малі моделі міркують вірно на математиці, оскільки мусять— їм бракує параметричної інформації, щоб обійти.

‘Передові моделі внутрішньо засвоїли достатньо математичних шаблонів, щоб явне ланцюгове міркування стало зайвим. Ланцюгова міркування все ще покращує точність (структуризацією генерації), але окремі кроки вже не несуть унікальної інформації.’

Метод

Метод, який використовувався для тестування моделей, заснований на трьох критеріях:

Необхідність видаляє кожен крок CoT по черзі, а потім перевіряє, чи змінюється відповідь. Будь-який крок, видалення якого змінює результат, вважається ‘необхідним’; Достатність ізолює кожен крок, а потім перевіряє, чи може він сам по собі відновити відповідь, причому будь-який такий крок вважається достатнім; і Чутливість до порядку перемішує кроки, а потім спостерігає, чи змінюється відповідь (оскільки справжнє міркування повинно залежати від послідовності, а не від ключових слів).

Взяті разом, висока необхідність і низька достатність вказують на справжнє крок за кроком міркування, тоді як низька необхідність і висока достатність вказують на пояснення, які можна видалити, переставити або скоротити без впливу на результат.

Автори відзначають, що цей метод усуває будь-яку необхідність у білий коробці моделі, оскільки його можна виконати за кілька доларів на закритих джерелах, API-тільки моделей, таких як ChatGPT і Claude, і, природно, з таким же успіхом на відкритих моделях, які можна встановити локально.

Вони також відзначають, що попередні дослідження або використовували відкриті моделі, які дозволяли внутрішній аналіз, або використовували простіші, двійкові так/ні відповіді, які розкривають набагато менше внутрішніх процесів міркування моделі API.

Мінімальні витрати

Автори визначають справжнє міркування через необхідність і достатність, причому висока необхідність і низька достатність вказують на те, що кожен крок має унікальну вагу. Навпаки, декоративне міркування демонструє низьку необхідність і високу достатність, що означає, що кроки можна видалити або використовувати окремо без зміни відповіді.

Необхідність сама по собі, як вони стверджують, може приховати це, оскільки можуть існувати кілька дійсних шляхів. Тому достатність використовується для перевірки того, чи будь-який окремий крок вже кодує результат, і чутливість до порядку перевіряє, чи залежить модель від послідовності, а не від поверхневих сигналів.

Підхід будується на фреймворку Intervention-Consistent Explanation (ICE), вимагає лише текст-вхід, текст-вихід API-доступу, і для шестикрокового ланцюга включає 15 оцінок, при вартості близько 1-2 долара за модель.

Фреймворк ICE класифікує поведінку моделі за необхідністю і достатністю на три шаблони: Декоративний демонструє низьку необхідність і високу достатність, що означає, що кроки є зайвими, а відповідь буде досягнута в будь-якому випадку. Це домінує у більшості моделей і завдань; Справжнє демонструє високу необхідність і високу достатність, що означає, що кожен крок несе справжній сигнал (і, як згадувалося раніше, це відбувається у MiniMax-M2.5 на аналізі настрою); і Залежний від контексту демонструє високу необхідність і низьку достатність, що означає, що кроки працюють тільки разом у послідовності (що відбувається у Kimi-K2.5 і MiniMax на класифікації тем, і у малих моделях, коли мова йде про математику).

Тести

Десять моделей API, які проходили тест, були ChatGPT-5.4; Claude Opus 4.6-R; DeepSeek-V3.2; GPT-OSS-120B; Kimi-K2.5; Qwen3.5-397B; Qwen3.5-122B; MiniMax-M2.5; GLM-5; і Nemotron-Ultra (253B параметрів).

Кожна модель проходила тест на чотирьох завданнях: класифікацію настрою (за допомогою (SST-2); математичні слово-проблеми (за допомогою GSM8K); класифікацію тем (за допомогою AG News); і медичне питання-відповідь (за допомогою (MedQA</a))).

Автори спостерігають:

‘Більшість моделей демонструють те, що ми називаємо “Декоративним міркуванням” (Щасливі кроки в taksonomії ICE) – шаблон, у якому необхідність кроку нижче 17% і достатність кроку перевищує 60% як у випадку з настроєм, так і з математикою.

‘По суті: ви можете видалити будь-який крок міркування, і відповідь майже ніколи не змінюється, проте будь-який окремий крок сам по собі достатній для відновлення відповіді.’

На тесті SST-2 GPT-5.4 майже ніколи не покладався на своє написане міркування, оскільки видалення кроку змінило відповідь лише у 0,1% з 500 випадків, що вказувало на те, що пояснення було додано після того, як рішення вже було прийнято.

Claude Opus 4.6-R залежав від своїх кроків трохи більше, на 14,8%, але 91% його кроків окремо могли все одно відновити відповідь; тому його довші пояснення були більш детальними, але все одно в основному ‘орнаментальними’.

Згодом дослідники додали інші домени та протестували знову:

Крокове вірність і точність по чотирьох доменам: SST-2; GSM8K; AG News; і MedQA. Більшість пар моделі-задачі залишаються 'декоративними', незважаючи на високу точність, з обмеженими винятками: MiniMax-M2.5 і Kimi-K2.5 демонструють контекстно-залежне або справжнє крокове міркування на AG News, тоді як загальна продуктивність підтверджує, що низька вірність не пояснюється випадковим угадуванням.

Крокове вірність і точність по чотирьох доменам: SST-2; GSM8K; AG News; і MedQA. Більшість пар моделі-задачі залишаються ‘декоративними’, незважаючи на високу точність, з обмеженими винятками: MiniMax-M2.5 і Kimi-K2.5 демонструють контекстно-залежне або справжнє крокове міркування на AG News, тоді як загальна продуктивність підтверджує, що низька вірність не пояснюється випадковим угадуванням.

Автори спостерігають:

‘Результати за чотирма доменами підтверджують центральне відкриття: декоративне міркування є універсальним по доменам для моделей, які використовують швидкі шляхи. Claude Opus показує 1,7% необхідності на MedQA (486 прикладів, 93,4% точності) – модель пише детальні ланцюги медичного міркування в середньому 5,8 кроків, проте видалення будь-якого кроку майже ніколи не змінює діагноз.’

AG News показав найбільші відмінності між моделями, з Kimi-K2.5 і MiniMax-M2.5, які справді покладалися на своє крокове міркування, та більшість інших систем, які генерували пояснення, які мали мало впливу на остаточну відповідь.

DeepSeek-V3.2, який проходив тест на всіх чотирьох завданнях, залишався декоративним протягом усього процесу; незважаючи на те, що він писав найдовші пояснення, його відповіді рідко залежали від кроків.

Жорсткість виводу

Тести вказали на четверте явище, яке автори назвали жорсткість виводу: деякі моделі просто не схильні виводити процеси міркування, залежно також від теми, і можливо від інших обставин. Нижче ми бачимо міркування від Claude Opus під час відповіді на питання про медичний статус 61-річного чоловіка; і нижче, що вивело GPT-OSS-120B:

Розгорнутість проти лаконічності.

Розгорнутість проти лаконічності.

Автори відзначають, що жорсткість виводу залежить від завдання:

Моделі різко відрізняються за частотою показу своєї роботи. Claude і DeepSeek генерують багатокрокові пояснення майже кожного разу, незалежно від домену, на відміну від Qwen3.5-397B, який рідко коли це робить. Інші змінюють свою поведінку залежно від завдання, генеруючи детальні логічні ланцюги для класифікації, проте набагато менше для медичних питань.

Моделі різко відрізняються за частотою показу своєї роботи. Claude і DeepSeek генерують багатокрокові пояснення майже кожного разу, незалежно від домену, на відміну від Qwen3.5-397B, який рідко коли це робить. Інші змінюють свою поведінку залежно від завдання, генеруючи детальні логічні ланцюги для класифікації, проте набагато менше для медичних питань.

Вони спостерігають:

‘Моделі, які найменше схильні до внутрішнього обходу міркування, також є тими, які найменше схильні до зовнішнього опущення міркування. GPT-OSS-120B генерує багатокрокове міркування для 99% питань настрою і 100% питань класифікації тем–але тільки 38% медичних питань. На 62% медичних запитів воно виводить лише одну букву відповіді.’

Застосування не здається випадковим: GPT-OSS-120B генерує багатокрокові пояснення майже для всіх питань настрою та класифікації тем, проте перемикається на одну букву відповіді для більшості медичних питань (де воно зазвичай не надає жодного видимого міркування).

Автори гіпотезують, що оскільки крокові тести вимагають написаних ланцюгів для аналізу, модель, яка відповідає одним токеном, не може бути оцінена цими методами; відсутність зовнішнього міркування тим самим блокує пряме вимірювання.

Документ закінчується висновком, що моделі, які вибираються для високопriority застосунків, повинні проходити тест на вірність поряд з точністю, і пропонують, що модель, яка на 2% менша за точністю, проте справжня у міркуванні, може бути кращою – не в останню чергу тому, що вона задовольняє регуляції ЄС та інші нові регуляції щодо роз’яснювального штучного інтелекту. На даний момент, на підставі доказів, знайдених у дослідженні, майже всі LLM, які здатні до ланцюгового міркування, ‘обманюють’, майже завжди

Висновок

Це цікаве дослідження, яке пропонує більш обширне тестування та обговорення цієї теми, ніж ми маємо можливість висвітлити тут, і я рекомендую читачеві звернутися до джерельного матеріалу.

Центральне повідомлення, яке продовжує попередні суперечки, полягає в тому, що платформи штучного інтелекту високого рівня можуть бути схильні до різкого та нечесного відхилення від стандартів, яких їхні моделі ще не можуть досягти.

Крім того, розрив між масштабом і можливостями відкритих і закритих моделей настільки великий, що зазвичай неможливо зробити висновок про закриті моделі на підставі відкритих інсталяцій, що поглиблює не透кість цих процесів і стандартів.

Однак це рідко, коли виникає справжній білий коробковий методологічний підхід, який може охопити відкриті та закриті моделі; проте справжні засоби проти ‘дешевих трюків’ цього типу, ймовірно, траплятимуться лише тоді, коли потужні органи, такі як ЄС, загрожують дном ліній великих порталів штучного інтелекту.

 

*Моя конвертація вбудованих цитат авторів у гіперпосилання.

Документ не розкриває єдиного списку цих менших моделей і включає додаткові варіанти однієї моделі, роблячи визначення остаточного списку справою висновку.

†† Наголоси авторів.

Перше опубліковане у середу, 25 березня 2026

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]