Штучний інтелект
Упевнено Помиляються: Чому Найрозумніші Моделі AI є Найгіршими у Виправленні Себе

Багато людей у спільноті AI вважає, що наступна велика революція буде епохою самоз удосконалення AI, де AI зможе покращувати себе без втручання людини. Аргумент полягає в тому, що коли моделі стають більш здатними, вони в кінцевому підсумку навчаться не тільки з даних, але й з себе. Кожен ітераційний процес буде удосконалювати попередній. Помилки будуть визначені, виправлені та усунені. З часом це накопичення покращень може спровокувати інтелектуальний вибух, де AI починає будувати AI. Ця відео підтримує більшу частину збудження навколо рекурсивного AI, автономних агентів та довгоочікуваного інтелектуального вибуху. У центрі цієї відео лежить здатність систем AI надійно виправляти свої власні помилки. Однак без надійного самовиправлення самоз удосконалення не може бути досягнуте. Система, яка не може визначити, коли вона помиляється, не може суттєво вивчити зі своїх власних виходів, незалежно від того, наскільки потужним воно здається.
Превалюючий припущення полягало в тому, що самовиправлення природно виникне, коли моделі стають більш здатними. Це переконання здається інтуїтивним. Адже сильніші моделі знають більше, розуміють краще та виконують добре завдання. Однак останні дослідження показують контрінтуїтивне відкриття, що більш просунуті моделі часто борються у виправленні своїх власних помилок, тоді як слабші моделі виконують краще самовиправлення. Це явище, відоме як парадокс точності-виправлення, змушує нас переосмислити не тільки те, як системи AI розуміють, але й наскільки ми справді готові до самоз удосконалення AI.
Розуміння Самоз удосконалення AI
Самоз удосконалення AI відноситься до системи AI, яка може визначити свої власні помилки, вивчити з них та ітеративно удосконалити свою поведінку. На відміну від традиційних моделей, які покладаються виключно на навчальні дані, відібрані людьми, самоз удосконалення AI буде активно оцінювати свої власні виходи та адаптуватися з часом. Теоретично це створює зворотній зв’язок, де кожен цикл навчання будується на попередньому, що призводить до того, що часто описується як інтелектуальний вибух.
Але досягнення цієї мети далеко не тривіальне. Самоз удосконалення вимагає більше, ніж сурова обчислювальна потужність або більші набори даних. Воно вимагає надійного самооцінювання, включаючи здатність виявити помилки, визначити їх джерела та виробити виправлені рішення. Без цих можливостей модель не може розрізнити правильний шлях розуміння та помилковий. Ітерація неправильного рішення, незалежно від того, наскільки швидко, тільки посилює помилки, а не покращує продуктивність.
Ця відмінність є критичною. У людей вивчення з помилок часто включає рефлексію, тестування гіпотез та корекцію курсу. Для AI ці процеси повинні бути закодовані в самій системі. Якщо модель не може надійно визначити та виправити свої помилки, вона не може суттєво взяти участь у самоз удосконаленні, і обіцянка рекурсивного інтелекту залишається теоретичною, а не практичною.
Парадокс Точності-Виправлення
Самовиправлення часто вважається однією можливістю, але насправді воно поєднує кілька окремих можливостей, які повинні бути розглянуті окремо. Мінімум, ми можемо розділити його на три вимірювані підможливості: виявлення помилок, локалізація помилок або виявлення джерела, та виправлення помилок. Виявлення помилок питає, чи може модель визначити, що її вихід неправильний. Локалізація помилок зосереджується на визначенні місця, де відбувається помилка. Виправлення помилок відноситься до здатності виробити виправлене рішення.
Вимірюючи ці можливості окремо, дослідники показують важливі відкриття про обмеження поточних систем. Вони показують, що моделі сильно різняться за цими можливостями. Деякі моделі добре виявляють помилки, але погано їх виправляють. Інші майже не визнають помилок, але все ж таки виправляють їх через повторні спроби. Що ще важливіше, ці відкриття показують, що покращення в одній області не гарантує покращення в інших.
Коли дослідники тестували просунуті моделі на складних математичних завданнях, ці моделі робили менше помилок. Ця частина була очікуваною. Що було неочікуваним, було відкриття, що: коли ці моделі робили помилки, вони були менш схильні виправляти їх самостійно. Навпаки, слабші моделі, незважаючи на те, що робили більше помилок, були значно краще у виправленні своїх помилок без зовнішньої обратної зв’язки. Іншими словами, дослідники виявили, що точність та самовиправлення рухались у протилежних напрямках, парадокс, який вони називають парадоксом точності-виправлення. Це відкриття викликає глибоко утримувану віру в розробці AI. Ми часто припускаємо, що масштабування моделей покращує кожний аспект інтелекту. Парадокс показує, що це припущення не завжди тримається, особливо для інтроспективних можливостей.
Гіпотеза Глибини Помилок
Цей парадокс викликає очевидне питання: чому слабші моделі перевершують сильніші у самовиправленні? Дослідники знаходять відповідь на це питання, розглядаючи тип помилок, які роблять моделі. Вони виявили, що сильніші моделі роблять менше помилок, але помилки, які вони роблять, є “глибшими” та більш стійкими до виправлення. Навпаки, слабші моделі роблять “помилкові” помилки, які легко виправляються під час другого проходу.
Дослідники називають це відкриття гіпотезою глибини помилок. Вони категоризують помилки на помилки установки, логічні помилки та розрахункові помилки. Помилки установки включають неправильне тлумачення завдання. Логічні помилки відбуваються, коли шлях розуміння є структуально пошкодженим. Розрахункові помилки є простими арифметичними помилками. Для GPT-3.5 більшість помилок (62%) є простими розрахунковими помилками. Це поверхневі помилки. Коли модель запрошується “перевірити ретельно”, вона часто може знайти математичну помилку та виправити її. Для DeepSeek, однак, 77% його помилок є помилками установки або логічними помилками. Це глибокі помилки вимагають від моделі фундаментально переосмислити свій підхід. Сильні моделі борються з цим, оскільки вони схильні закріплюватися на своєму початковому шляху розуміння. Коли інтелект моделі збільшується, залишаються тільки найбільш стійкі та важкі помилки.
Чому Виявлення Помилок Не Гарантують Виправлення Їх
Одним з найбільш несподіваних відкриттів дослідження є те, що виявлення помилок не корелює з здатністю виправляти помилки. Модель може правильно визначити, що її відповідь неправильна, але все ж таки не може виправити її. Інша модель може рідко виявляти помилки, але покращувати через повторне розв’язання. Claude-3-Haiku забезпечує найбільш драматичний приклад. Claude виявив лише 10,1% своїх власних помилок, що є найнижчим серед усіх протестованих моделей. Незважаючи на це слабке виявлення, він досяг найвищого внутрішнього корекційного коефіцієнта на рівні 29,1%. Для порівняння, GPT-3.5 виявив 81,5% своїх помилок, але виправив лише 26,8%.
Це свідчить про те, що деякі моделі можуть “случайно” виправляти свої помилки, просто розв’язуючи завдання через інший шлях вибірки, навіть якщо вони не визнають, що перша спроба була неправильною. Це роз’єднання є небезпечним для реального розгортання. Коли модель надто впевнена і не може визначити свої логічні помилки, вона може представити правдоподібне, але повністю неправильне пояснення як істину. У деяких випадках запрошення моделі визначити свої помилки робить ситуацію гіршою. Коли модель неправильно визначає, де вона пішла не так, вона закріплює себе за помилковим поясненням та посилює помилку. Навіть замість того, щоб допомагати, самозгенеровані підказки можуть закріпити модель у неправильному шляху розуміння. Це поведінка дзеркалює людську когнітивну упередженість. Як тільки ми вважаємо, що знаємо, де пішли не так, ми зупиняємося у пошуках глибших причин.
Ітерація Допомагає, Але Не Однаково
Дослідження також показує, що ітеративна рефлексія часто покращує результати, але не всі моделі однаково виграють від цього. Слабші моделі виграють значно від декількох раундів переосмислення, оскільки кожна ітерація дає їм ще одну можливість виправити свої поверхневі проблеми. Сильніші моделі показують набагато менші виграші від ітерації. Їх помилки не легко вирішуються повторенням. Без зовнішньої керівництва додаткові спроби часто відтворюють той же помилковий шлях розуміння в різних словах. Це відкриття свідчить про те, що техніки самоз удосконалення не є універсально ефективними. Їх успіх залежить від природи помилок, які робляться, а не тільки від інтелекту моделі.
Що Це Значить для Проєктування Системи AI
Ці відкриття несуть практичні наслідки. По-перше, ми повинні припинити припускати, що вища точність означає краще самовиправлення. Системи, які покладаються на автономне самоз удосконалення, повинні бути протестовані явно на корекційну поведінку, а не тільки на кінцеву продуктивність. По-друге, різні моделі можуть потребувати різних стратегій втручання. Слабші моделі можуть виграти від простої верифікації та ітерації. Сильніші моделі можуть потребувати зовнішньої обратної зв’язки, структурованої верифікації або інструментальних перевірок, щоб подолати глибокі помилки розуміння. По-третє, самовиправлення повинні бути чутливими до помилок. Поняття про те, чи є завдання схильним до поверхневих чи глибоких помилок, може інформувати, чи буде самовиправлення працювати взагалі. Нарешті, оцінювальні бенчмарки повинні розділяти виявлення, локалізацію та виправлення. Розгляд їх як однієї міри ховає критичні слабкості, які мають значення у реальному розгортанні.
Основне
Самоз удосконалення AI залежить не тільки від виробництва правильних відповідей, але й від здатності визначити, діагностувати та виправити неправильні. Парадокс точності-виправлення показує, що сильніші моделі не автоматично кращі у цьому завдання. Коли моделі стають більш здатними, їх помилки стають глибшими, важчими для виявлення та більш стійкими до самовиправлення. Це означає, що прогрес у масштабуванні моделей сам по собі не достатній. Якщо ми хочемо системи AI, які можуть справді вивчити зі своїх власних помилок, самовиправлення повинно бути розглянуто як окрема можливість, явно виміряно, навчено та підтримано.








