Штучний інтелект

Кінець ланцюга думок? CoreThink та дослідники Каліфорнійського університету пропонують зміну парадигми в розумінні штучного інтелекту

mm

Тривалий час у сфері штучного інтелекту тривала гонка за масштабованістю. Більші моделі, більше графічних процесорів, довші запити. OpenAI, Anthropic та Google очолювали цей рух із величезними великомасштабними мовними моделями (LLM), тонкою настройкою з допомогою підкріплення та ланцюжком думок — техніками, розробленими для模уляції розуміння шляхом деталізації крок за кроком.

Але нова технічна робота під назвою CoreThink: Символічний шар розуміння для роботи з довгостроковими завданнями з допомогою LLM від CoreThink AI та дослідників Каліфорнійського університету стверджує, що ця парадигма може досягти свого ліміту. Автори роблять провокаційне твердження: LLM є потужними статистичними текстовими генераторами, але вони не є механізмами розуміння. І ланцюжок думок, метод, який найчастіше використовується для заперечення цього, є більше театральним виступом, ніж справжнім логічним висновком.

У відповідь команда представляє Загальні символи, нейросимволічний шар розуміння, розроблений для інтеграції з існуючими моделями. Їхні оцінки показують драматичні поліпшення по широкому спектру завдань з розуміння — досягнуті без додаткової настройки чи додаткових витрат на графічні процесори. Якщо цей підхід буде підтверджений, він може ознаменувати поворотний момент у тому, як системи штучного інтелекту розробляються для логіки та прийняття рішень.

Що таке ланцюжок думок — і чому це важливо

Ланцюжок думок (CoT) став одним із найбільш широко прийнятих методів у сучасному штучному інтелекті. Запитуючи модель деталізувати кроки свого розуміння перед тим, як надати відповідь, дослідники часто могли поліпшити результати бенчмарків у таких галузях, як математика, програмування та планування. На поверхні це здавалося проривом.

Тим не менш, звіт підкреслює обмеження цього підходу. Висновки CoT можуть виглядати переконливими, але дослідження показують, що вони часто не відповідають тому, що модель насправді обчислила, раціоналізуючи виводи після факту, а не відкриваючи справжню логіку. Це створює реальні ризики. У медицині правдоподібна розповідь може маскувати залежність від спurious кореляцій, що може привести до небезпечних неправильних діагнозів. У сфері права сфабриковані раціоналізації могли б бути прийняті за справжні виправдання, загрожуючи процесу та відповідальності.

У звіті також підкреслюється неефективність: ланцюжки CoT часто стають надмірно довгими при простих завданнях, тоді як при складних завданнях вони зникають у мілкому розумінні. Результатом є марна витрата обчислень, а в багатьох випадках — зниження точності. Автори роблять висновок, що ланцюжок думок є “перформативним, а не механічним” — поверхневим показом, який створює ілюзію інтерпретаційності, не забезпечуючи її насправді.

Символічний штучний інтелект: Від ранніх мрій до нових відроджень

Критика CoT запрошує до оглядання історії символічного штучного інтелекту. У перші десятиліття дослідження штучного інтелекту оберталося навколо систем, заснованих на правилах, які кодували знання у явній логічній формі. Експертні системи, такі як MYCIN, намагалися діагностувати захворювання, застосовуючи вручну створені правила, а системи виявлення шахрайства покладалися на величезні логічні набори для виявлення аномалій.

Символічний штучний інтелект мав невід’ємні сильні сторони: кожний крок його розуміння був прозорим і відстежуваним. Але ці системи були крихкими. Кодування десятків тисяч правил вимагало величезної праці, а вони боролися, коли стикалися з новими ситуаціями. Критики, такі як Хуберт Дрейфус, стверджували, що людська інтелектуальність залежить від неявних, контекстно-залежних знань, яких жоден набір правил не міг охопити. До 1990-х років символічні підходи поступилися місцем даних-орієнтованим нейронним мережам.

За останні роки відбулися відновлені зусилля по поєднанню сильних сторін обох світів через нейросимволічний штучний інтелект. Ідея проста: дозволити нейронним мережам обробляти нечіткі, сприймальні входи, такі як зображення чи текст, тоді як символічні модулі забезпечують структуроване розуміння та логічні гарантії. Але більшість цих гібридів боролися з інтеграцією. Символічні основи були надто жорсткими, тоді як нейронні модулі часто підкрадалися консистентності. Результатом були складні, важкі системи, які не могли забезпечити обіцяну інтерпретаційність.

Загальні символи: Новий шар розуміння

Шар розуміння CoreThink General Symbolics Reasoner (GSR) спрямований на подолання цих обмежень іншим підходом. Замість перекладу мови у жорсткі формальні структури чи високовимірні вкладення GSR працює повністю у природній мові. Кожний крок розуміння виражається словами, забезпечуючи збереження контексту, нюансів та модальності. Це означає, що відмінності, такі як “повинен” проти “повинно”, передаються через процес розуміння, а не абстрагуються.

Фреймворк працює шляхом парсингу вхідних даних у природній мові, застосування логічних обмежень через лінгвістичні перетворення та генерації вербальних слідів розуміння, які залишаються повністю людо-читабельними. Коли з’являються протиріччя чи помилки, вони поверхнево відображаються у сліді розуміння, дозволяючи прозорість та налагодження. Для збереження ефективності система обрізає непотрібні кроки, забезпечуючи стабільне довготривале розуміння без масштабування графічних процесорів.

Оскільки він діє як шар, а не вимагає повторної настройки, GSR може бути застосований до існуючих базових моделей. У оцінках він постійно демонстрував поліпшення точності між 30 та 60 відсотками по завданням з розуміння, все це без збільшення витрат на навчання.

Результати бенчмарків

Поліпшення найкраще ілюструються бенчмарками. На LiveCodeBench v6, який оцінює конкурентоспроможні завдання програмування, CoreThink досяг 66,6 відсоткового проходження — суттєво вище, ніж провідні моделі у своїй категорії. У SWE-Bench Lite, бенчмарку для реальних завдань з виправлення помилок, взятих з репозиторіїв GitHub, система досягла 62,3 відсоткової точності, найвищого результату, який був коли-небудь повідомлений. І на ARC-AGI-2, одному з найбільш вимогливих тестів абстрактного розуміння, він набрав 24,4 відсотка, значно випереджаючи передові моделі, такі як Claude та Gemini, які залишаються нижче 6 відсотка.

Ці цифри відображають більше, ніж просто сиру точність. У детальних випадкових дослідженнях символічний шар дозволив моделям діяти інакше. У ColumnTransformer з scikit-learn, наприклад, базова модель запропонувала поверхневий патч, який маскував помилку. Система, доповнена CoreThink, ідентифікувала проблему синхронізації у корені та виправила її комплексно. На складному виклику LeetCode базова модель неправильно застосувала динамічне програмування та зовсім провалилася, тоді як символічний шар розуміння виправив помилковий стан представлення та згенерував робоче рішення.

Як це вписується у символічне відродження

Загальні символи приєднуються до зростаючого руху спроб повернути структуру у розуміння штучного інтелекту. Класичний символічний штучний інтелект показав цінність прозорості, але не міг адаптуватися до новизни. Традиційні нейросимволічні гібриди обіцяли баланс, але часто ставали незручними. Стеки планувальників, які прикріплювали пошук до LLM, спочатку давали надію, але зруйнувалися під складністю завдань.

Останні досягнення вказують на потенціал нових гібридів. AlphaGeometry від DeepMind, наприклад, продемонстрував, що символічні структури можуть перевершити чисто нейронні моделі у геометричних завданнях. Підхід CoreThink розширює цю тенденцію. У його трубопроводі ARC-AGI детерміністичне виявлення об’єктів та символічна абстракція шаблонів поєднуються з нейронною виконавчою частиною, генеруючи результати, які значно перевершують результати систем тільки з LLM. У використанні інструментів символічний шар допомагає підтримувати контекст та забезпечувати обмеження, дозволяючи більш надійне багаторазове планування.

Ключова відмінність полягає в тому, що Загальні символи не покладаються на жорстку логіку чи масштабну повторну настройку. Розуміючи безпосередньо у мові, він залишається гнучким, зберігаючи інтерпретаційність. Це робить його легшим, ніж попередні гібриди, і, що найважливіше, практичним для інтеграції у корпоративні додатки.

Чому це важливо

Якщо ланцюжок думок є ілюзією розуміння, то галузь штучного інтелекту стикається з гострою проблемою. Підприємства не можуть покладатися на системи, які тільки здаються здатними розуміти, особливо у високих ставках середовищах, таких як медицина, право та фінанси. Робота пропонує, що справжній прогрес буде досягнутий не шляхом подальшого масштабування моделей, а шляхом переосмислення самих основ розуміння.

Загальні символи становлять одну з таких основ. Вони пропонують легкий, інтерпретаційний шар, який може покращити існуючі моделі без повторної настройки, забезпечуючи справжнє поліпшення розуміння, а не поверхневі розповіді. Для ширшої спільноти штучного інтелекту це означає можливий зсув парадигми: повернення символічного розуміння, не як крихких наборів правил, а як гнучкого компаньйона нейронного навчання.

Як автори підкреслюють: “Нам не потрібно додавати більше параметрів, щоб покращити розуміння — нам потрібно переосмислити основи.”

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.