Штучний інтелект

Чому LLMs переосмислюють легкі головоломки, але здаються на складних

Published June 12, 2025

Updated April 26, 2026

Dr. Tehseen Zia

Штучний інтелект зробив суттєвий прогрес, із великими мовними моделями (LLM) та їхніми вдосконаленими аналогами, великими моделями висновку (LRM), які переозначили, як машини обробляють та генерують текст, подібний до людського. Ці моделі можуть писати статті, відповідати на питання та навіть розв’язувати математичні задачі. Однак, попри їхні вражаючі можливості, ці моделі демонструють цікаву поведінку: вони часто ускладнюють прості завдання, тоді як борються зі складними. Останнє дослідження групи дослідників компанії Apple надає цінні знання про це явище. Ця стаття досліджує, чому LLM та LRM поводяться саме так і що це означає для майбутнього штучного інтелекту.

Розуміння LLM та LRM

Щоб зрозуміти, чому LLM та LRM поводяться саме так, нам спочатку потрібно роз’яснити, що являють собою ці моделі. LLM, такі як GPT-3 або BERT, тренуються на величезних наборах даних текстів для передбачення наступного слова в послідовності. Це робить їх відмінними у завданнях, таких як генерація тексту, переклад та резюмування. Однак вони не призначені для висновку, який включає логічний висновок або розв’язування задач.

LRM являють собою новий клас моделей, розроблених для подолання цього розриву. Вони включно техніки, такі як ланцюг думок (CoT), коли модель генерує проміжні кроки висновку перед тим, як надати остаточну відповідь. Наприклад, розв’язуючи математичну задачу, LRM може розбити її на кроки, як це робить людина. Цій підхід покращує результати на складних завданнях, але стикається з труднощами при роботі з завданнями різної складності, як це показало дослідження компанії Apple.

Дослідження

Команда дослідників компанії Apple підійшла до оцінки можливостей висновку LLM та LRM інакше. Замість того, щоб покладатися на традиційні тести, такі як математичні або кодові тести, які можуть бути під впливом забруднення даних (коли моделі запам’ятовують відповіді), вони створили контрольовані середовища головоломок. До них входять відомі головоломки, такі як Вежа Ганоя, стрибки шахових дамок, головоломка про перехід через річку та світ блоків. Наприклад, Вежа Ганоя полягає у переміщенні дисків між штифтами згідно з певними правилами, із зростанням складності при додаванні дисків. Систематично регулюючи складність цих головоломок при збереженні послідовної логічної структури, дослідники спостерігають, як моделі працюють на різних рівнях складності. Цей метод дозволив їм аналізувати не тільки остаточні відповіді, але й процеси висновку, які надають глибше розуміння того, як ці моделі «думають».

Висновки про переосмислення та здачу

Дослідження визначило три різні режими результатів залежно від складності задач:

На низьких рівнях складності стандартні LLM часто працюють краще, ніж LRM, оскільки LRM схильні до переосмислення, генеруючи додаткові кроки, які не є необхідними, тоді як стандартні LLM більш ефективні.
Для задач середньої складності LRM демонструють кращу продуктивність завдяки своїй здатності генерувати детальні сліди висновку, які допомагають їм ефективно подолати ці завдання.
Для задач високої складності як LLM, так і LRM повністю припиняють працювати; LRM, зокрема, переживають повний колапс точності та зменшують зусилля висновку, незважаючи на підвищену складність.

Для простих головоломок, таких як Вежа Ганоя з одним або двома дисками, стандартні LLM були більш ефективними для надання правильних відповідей. LRM, однак, часто переосмислювали ці завдання, генеруючи довгі сліди висновку, навіть коли розв’язання було простим. Це свідчить про те, що LRM можуть імітувати перебільшені пояснення з їхніх навчальних даних, що може привести до неефективності.

У середньо складних сценаріях LRM працювали краще. Їхня здатність генерувати детальні кроки висновку дозволяла їм подолати завдання, які вимагали кількох логічних кроків. Це дозволяє їм перевершити стандартні LLM, які боролися з підтриманням послідовності.

Однак для дуже складних головоломок, таких як Вежа Ганоя з багатьма дисками, обидві моделі повністю припиняють працювати. Дивно, що LRM зменшують зусилля висновку при зростанні складності після певної точки, незважаючи на наявність достатніх обчислювальних ресурсів. Це «здачу» поведінку вказує на фундаментальне обмеження їхньої здатності масштабувати можливості висновку.

Чому це відбувається

Переосмислення простих головоломок, ймовірно, походить від того, як LLM та LRM тренуються. Ці моделі вчаться з величезних наборів даних, які включають як лаконічні, так і детальні пояснення. Для простих задач вони можуть за замовчуванням генерувати розгорнуті сліди висновку, імітуючи довгі приклади з їхніх навчальних даних, навіть коли прямої відповіді було б достатньо. Це поведінка не є суттєвою помилкою, а відображенням їхнього тренування, яке віддає пріоритет висновку над ефективністю.

Нездатність подолати складні головоломки відображає нездатність LLM та LRM вивчити логічні правила. При зростанні складності їхня залежність від зіставлення закономірностей розривається, що призводить до нестійкого висновку та колапсу продуктивності. Дослідження показало, що LRM не використовують явні алгоритми та висновок нестійкий у різних головоломках. Це підкреслює, що хоча ці моделі можуть імітувати висновок, вони не справжньо розуміють підлеглу логіку так, як це роблять люди.

Різноманітні перспективи

Це дослідження викликало дискусію в спільноті штучного інтелекту. Деякі експерти стверджують, що ці висновки можуть бути неправильно тлумачені. Вони припускають, що хоча LLM та LRM можуть не висновувати як люди, вони все ж демонструють ефективне розв’язання задач у певних межах складності. Вони підкреслюють, що «висновок» у штучному інтелекті не потребує відображення людської когніції, щоб бути цінним. Подібно, обговорення на платформах, таких як Hacker News, хвалять суворий підхід дослідження, але підкреслюють необхідність подальших досліджень для покращення висновку штучного інтелекту. Ці перспективи підкреслюють триваючу дискусію про те, що складає висновок у штучному інтелекті та як його оцінювати.

Вплив та майбутні напрямки

Висновки дослідження мають суттєвий вплив на розвиток штучного інтелекту. Хоча LRM представляють прогрес у模імізації людського висновку, їхні обмеження у обробці складних задач та масштабуванні зусиль висновку свідчать про те, що поточні моделі ще далекі від досягнення загального висновку. Це підкреслює необхідність нових методів оцінки, які фокусуються на якості та адаптивності процесів висновку, а не лише на точності остаточних відповідей.

Майбутні дослідження повинні спрямовуватися на покращення здатності моделей виконувати логічні кроки точно та регулювати зусилля висновку залежно від складності задач. Розробка тестів, які відображають реальні завдання висновку, такі як медична діагностика або юридичні аргументи, могла б надати більш значущі знання про можливості штучного інтелекту. Крім того, вирішення надмірної залежності моделей від розпізнавання закономірностей та покращення їхньої здатності узагальнювати логічні правила буде суттєвим для розвитку висновку штучного інтелекту.

Основне

Дослідження надає критичний аналіз висновкових можливостей LLM та LRM. Воно демонструє, що хоча ці моделі переосмислюють прості головоломки, вони борються зі складнішими, демонструючи їхні сильні та слабкі сторони. Хоча вони працюють добре в певних ситуаціях, їхня нездатність подолати дуже складні завдання підкреслює розрив між імітацією висновку та справжнім розумінням. Дослідження підкреслює необхідність розробки системи штучного інтелекту, яка може адаптивно висновувати на різних рівнях складності, дозволяючи їй подолати завдання з різною складністю, як це роблять люди.