Штучний інтелект

Упевнено помилкові: чому найрозумніші моделі штучного інтелекту найгірше коригують себе

mm

Багато хто в спільноті штучного інтелекту вважає, що наступна велика революція буде епохою самозбільшення штучного інтелекту, коли штучний інтелект зможе покращувати себе без втручання людини. Аргумент такий: коли моделі стають більш здатними, вони врешті-решт навчаться не тільки з даних, але й з самих себе. Кожен ітераційний процес би ускладнював попередній. Помилки були б визначені, виправлені та усунені. З часом це накопичення покращень могло б спровокувати інтелектуальний вибух, коли штучний інтелект починає створювати штучний інтелект. Це бачення лежить в основі великого інтересу до рекурсивного штучного інтелекту, автономних агентів та довгоочікуваного інтелектуального вибуху. У центрі цього бачення лежить здатність систем штучного інтелекту надійно виправляти свої власні помилки. Однак без надійної самокорекції самозбільшення не може бути досягнуте. Система, яка не може визначити, коли вона помиляється, не може суттєво навчитися з власних виходів, незалежно від того, наскільки потужною вона здається.

Домінуючий припущення було те, що самокорекція природно виникне, коли моделі стають більш здатними. Це переконання здається інтуїтивним. Адже сильніші моделі знають більше, розуміють краще та виконують добре завдання. Однак останні дослідження показують контрінтуїтивне відкриття, що більш просунуті моделі часто борються з виправленням своїх власних помилок, тоді як слабші моделі виконують краще самокорекцію. Це явище, відоме як парадокс точності-корекції, змушує нас переосмислити не тільки те, як системи штучного інтелекту думають, але й наскільки ми насправді готові до самозбільшення штучного інтелекту.

Поняття самозбільшення штучного інтелекту

Самозбільшення штучного інтелекту відноситься до системи штучного інтелекту, яка може визначити свої власні помилки, навчитися з них та ітеративно ускладнити своє поведінку. На відміну від традиційних моделей, які покладаються виключно на навчальні дані, відібрані людиною, самозбільшення штучного інтелекту би активно оцінювало свої власні виходи та адаптувалося з часом. Теоретично це створює зворотню зв’язку, де кожен цикл навчання будується на попередньому, що призводить до того, що часто описується як інтелектуальний вибух.

Але досягнення цієї мети далеко не тривіальне. Самозбільшення вимагає більше, ніж сурова обчислювальна потужність або більші набори даних. Воно вимагає надійної самооцінки, включаючи здатність виявляти помилки, визначати їх джерела та створювати виправлені рішення. Без цих можливостей модель не може розрізняти правильний шлях розуміння та хибний. Ітерація неправильного рішення, незалежно від того, наскільки швидко, тільки посилює помилки, а не покращує продуктивність.

Ця відмінність є критичною. У людей навчання з помилок часто включає роздуми, перевірку гіпотез та корекцію курсу. Для штучного інтелекту ці процеси повинні бути закодовані в самій системі. Якщо модель не може надійно визначити та виправити свої помилки, вона не може суттєво брати участь у самозбільшенні, і обіцянка рекурсивного інтелекту залишається теоретичною, а не практичною.

Парадокс точності-корекції

Самокорекція часто розглядається як одна здатність, але насправді це поєднання кількох окремих можливостей, які повинні бути розглянуті окремо. Мінімум, ми можемо розділити її на три вимірювані підможливості: виявлення помилок, локалізація помилок або виявлення джерела, та виправлення помилок. Виявлення помилок питає, чи може модель визначити, що її вихід неправильний. Локалізація помилок зосереджується на визначенні, де відбувається помилка. Виправлення помилок відноситься до здатності створити виправлене рішення.

Вимірюючи ці можливості окремо, дослідники показують важливі відкриття про обмеження поточних систем. Вони показують, що моделі сильно різняться за цими можливостями. Деякі моделі добре виявляють помилки, але погано їх виправляють. Інші майже не визнають помилок, але все ж таки виправляють їх через повторні спроби. Що ще важливіше, ці відкриття показують, що покращення в одному напрямку не гарантує покращення в інших.

Коли дослідники тестували просунуті моделі на складних математичних завданнях, ці моделі робили менше помилок. Ця частина була очікуваною. Що було несподіваним, було те, що коли ці моделі робили помилки, вони були менше схильні виправляти їх самостійно. Навпаки, слабші моделі, незважаючи на те, що робили більше помилок, були значно краще в виправленні своїх помилок без зовнішньої обратної зв’язки. Іншими словами, дослідники виявили, що точність та самокорекція рухалися в протилежних напрямках, парадокс, який вони називають парадоксом точності-корекції. Це відкриття викликає глибоко укорінене переконання в розробці штучного інтелекту. Ми часто припускаємо, що масштабування моделей покращує кожний аспект інтелекту. Парадокс показує, що це припущення не завжди тримається, особливо для інтроспективних можливостей.

Гіпотеза глибини помилок

Цей парадокс піднімає очевидне питання: чому слабші моделі перевершують сильніші в самокорекції? Дослідники знаходять відповідь на це питання, розглядаючи тип помилок, які роблять моделі. Вони виявили, що сильніші моделі роблять менше помилок, але помилки, які вони роблять, є “глибшими” та більш стійкими до корекції. Навпаки, слабші моделі роблять “пласкі” помилки, які легко виправляються під час другого проходу.

Дослідники називають це відкриття гіпотезою глибини помилок. Вони категоризують помилки на помилки установки, логічні помилки та помилки розрахунку. Помилки установки включають неправильне тлумачення завдання. Логічні помилки відбуваються, коли шлях розуміння структуровано хибний. Помилки розрахунку є простими арифметичними помилками. Для GPT-3.5 більшість помилок (62%) є простими помилками розрахунку. Це пласкі помилки. Коли модель запрошується “перевірити ретельно”, вона часто може знайти математичну помилку та виправити її. Для DeepSeek jedoch 77% помилок є помилками установки або логічними помилками. Це глибокі помилки. Стрільні моделі борються з цим, оскільки вони схильні закріплюватися за свій початковий шлях розуміння. Коли інтелект моделі збільшується, залишаються тільки найбільш стійкі та складні помилки.

Чому виявлення помилок не гарантує їх виправлення

Одним з най несподіваніших відкриттів дослідження є те, що виявлення помилок не корелює з здатністю виправляти помилки. Модель може правильно визначити, що її відповідь неправильна, але все ж таки не може виправити її. Інша модель може майже не виявляти помилки, але покращувати через повторні спроби. Claude-3-Haiku надає найдраматичніший приклад. Claude виявив лише 10,1% своїх власних помилок, що є найнижчим показником серед усіх протестованих моделей. Незважаючи на це слабке виявлення, він досяг найвищого внутрішнього показника корекції на рівні 29,1%. Для порівняння GPT-3.5 виявив 81,5% своїх помилок, але виправив лише 26,8%.

Це свідчить про те, що деякі моделі можуть “случайно” виправляти свої помилки, просто повторно розв’язуючи завдання через інший шлях вибірки, навіть якщо вони не визнають, що перша спроба була неправильною. Це роз’єднання є небезпечним для реального розгортання. Коли модель надто впевнена та не визнає своїх логічних помилок, вона може представити правдоподібне, але повністю неправильне пояснення як істину. У деяких випадках запрошення моделі визначити свої власні помилки робить ситуацію гіршою. Коли модель неправильно визначає, де вона пішла не так, вона закріплює себе за хибне пояснення та посилює помилку. Замість допомоги, самозгенеровані підказки можуть закрити модель у хибному шляху розуміння. Це поведінка дзеркалює людський когнітивний звичай. Як тільки ми вважаємо, що знаємо, де пішли не так, ми зупиняємося у пошуках глибших причин.

Ітерація допомагає, але не однаково

Дослідження також показують, що ітеративне відображення часто покращує результати, але не всі моделі однаково виграють від цього. Слабші моделі виграють значно від кількох раундів переосмислення, оскільки кожна ітерація дає їм ще одну можливість виправити свої поверхневі проблеми. Сильніші моделі показують набагато менші виграші від ітерації. Їхні помилки не легко вирішуються повторенням. Без зовнішнього керівництва додаткові спроби часто відтворюють той же хибний шлях розуміння в різних словах. Це відкриття свідчить про те, що техніки самозбільшення не є універсально ефективними. Їхній успіх залежить від природи помилок, які робляться, а не тільки від інтелекту моделі.

Що це означає для проектування систем штучного інтелекту

Ці відкриття мають практичні наслідки. По-перше, ми повинні припинити припускати, що вища точність означає краще самовиправлення. Системи, які покладаються на автономне самозбільшення, повинні бути протестовані явно на поведінку корекції, а не тільки на кінцеву продуктивність. По-друге, різні моделі можуть потребувати різних стратегій втручання. Слабші моделі можуть виграти від простої верифікації та ітерації. Сильніші моделі можуть потребувати зовнішньої обратної зв’язки, структурованої верифікації або інструментальної перевірки, щоб подолати глибокі помилки розуміння. По-третє, трубопроводи самокорекції повинні бути чутливими до помилок. Поняття про те, чи є завдання схильним до пласких або глибоких помилок, може інформувати, чи буде самокорекція працювати взагалі. Нарешті, оціночні бенчмарки повинні розділяти виявлення, локалізацію та виправлення. Розгляд їх як єдину міру ховає критичні слабкості, які мають значення в реальному розгортанні.

Основне

Самозбільшення штучного інтелекту залежить не тільки від виробництва правильних відповідей, але й від здатності визначити, діагностувати та переглянути неправильні. Парадокс точності-корекції показує, що сильніші моделі не автоматично краще виконують цю задачу. Коли моделі стають більш здатними, їхні помилки стають глибшими, складнішими для виявлення та більш стійкими до самокорекції. Це означає, що прогрес у масштабуванні моделей сам по собі недостатньо. Якщо ми хочемо системи штучного інтелекту, які можуть真正но навчитися з власних помилок, самокорекція повинна бути behand як окрема здатність, явно виміряна, навчена та підтримана.

Доктор Техсін Зія є доцентом COMSATS University Islamabad, який має ступінь PhD з штучного інтелекту у Віденському технічному університеті, Австрія. Спеціалізується на штучному інтелекті, машинному навчанні, науці про дані та комп'ютерному баченні, він зробив значний внесок з публікаціями в авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і служив консультантом з штучного інтелекту.