Штучний інтелект

Масштабування часу тестування: секретний інгредієнт нового покоління моделей з PhD-рівнем висновків

mm

Область штучного інтелекту досягла точки, коли просте додавання更多 даних або збільшення розміру моделі не є найкращим способом зробити її більш інтелектуальною. За останні кілька років ми вважали, що якщо ми побудуємо більші нейронні мережі та годуватимемо їх більшістю інтернету, вони врешті-решт стануть більш інтелектуальними. Цей підхід, відомий як закони масштабування, працював досить добре. Він дав нам моделі, які можуть писати поезію, перекладати мови та проходити іспит на адвоката. Однак ці моделі часто мали труднощі з глибокими логічними висновками, складними математичними завданнями та багатоступеневими науковими проблемами. Вони були чудовими у визначенні закономірностей, але часто не могли вирішувати завдання, які вимагають багатоступеневого висновку.

Нещодавно з’явився новий тренд, який змінює наш підхід до можливостей штучного інтелекту. Цей тренд називається масштабуванням часу тестування. Замість того, щоб зосереджуватися лише на тому, скільки модель вчиться під час фази навчання, дослідники тепер зосереджуються на тому, скільки “думає” модель, коли вона відповідає на питання. Ця зміна є секретним інгредієнтом нового покоління моделей висновків, таких як OpenAI’s o1 series, які тепер працюють на рівні студентів PhD у складних предметах, таких як фізика, хімія та біологія.

Перехід від масштабування навчання до масштабування висновків

Щоб зрозуміти, чому це велика зміна, нам потрібно розглянути, як штучний інтелект будувався до цього часу. Традиційно “інтелект” моделі визначався на основі її навчання. Це включало витрати місяців і мільйонів доларів на проходження величезної кількості даних через тисячі графічних процесорів. Як тільки навчання було завершено, модель була фактично заморожена. Коли ви запитували її питання, вона надавала відповідь майже миттєво на основі закономірностей, які вона вже вивчила. Це називається висновком або часом тестування.

Проблема з традиційним підходом полягає в тому, що модель має лише один шанс відповісти правильно. Вона обробляє запит і генерує токени один за одним без можливості “думати” або “перевірити” свою логіку перед відповіддю. Масштабування часу тестування змінює цю динаміку. Воно дозволяє моделі витратити більше обчислювальних ресурсів під час фази висновків. Як і людина, яка може відповісти на просте питання за кілька секунд, але потребує кількох хвилин або годин, щоб вирішити складну математичну задачу, моделі штучного інтелекту тепер можуть масштабувати свої зусилля залежно від складності завдання.

Визначення концепції масштабування часу тестування

Масштабування часу тестування відноситься до технік, які дозволяють моделі штучного інтелекту використовувати додаткові обчислювальні ресурси для обробки запиту в момент його надходження. У простих словах, це означає надання моделі більше “часу для думання”. Це не про те, щоб зробити модель більша; це про те, щоб зробити модель більш обдуманою. Коли модель використовує масштабування часу тестування, вона не просто генерує першу відповідь, яка спадає на думку. Замість цього вона може дослідити різні шляхи, перевірити помилки в своїй логіці та уточнити свою відповідь, перш ніж користувач побачить її.

Ця концепція часто порівнюється з тим, як працює людський мозок. Психологи часто говорять про “Систему 1” і “Систему 2” мислення. Система 1 є швидкою, інтуїтивною та емоційною. Це те, що ви використовуєте, коли розпізнаєте обличчя або керуєте автомобілем по знайомій дорозі. Система 2 є повільнішою, більш обдуманою та логічною. Це те, що ви використовуєте, коли розв’язуєте складну математичну задачу або плануєте складний проект. До недавнього часу великі мови моделі були в основному мислителями Системи 1. Масштабування часу тестування є мостом, який дозволяє їм доступитися до мислення Системи 2.

Механіка процесу висновків

Є кілька способів, якими дослідники досягають масштабування часу тестування. Одним з найбільш поширених методів є Ланцюг висновків (CoT) запиту, але в цих нових моделях це побудовано безпосередньо в систему, а не щось, про що користувач повинен запитати. Модель тренується розділяти проблему на менші логічні кроки. Роблячи це, модель може перевірити кожну частину рішення перед переходом до наступної.

Інший важливий метод включає алгоритми пошуку, такі як Монте-Карло дерево пошуку. Замість того, щоб просто передбачати наступне найбільш імовірне слово, модель генерує кілька можливих шляхів для відповіді. Вона оцінює ці шляхи та визначає, який з них найімовірніше приведе до правильного рішення. Якщо вона потрапляє в тупик або розуміє, що попередній крок був неправильним, вона може повернутися та спробувати інший підхід. Ця “попередня” можливість дуже схожа на те, як шаховий двигун оцінює тисячі потенційних ходів, перш ніж вибрати найкращий. Шукаючи через багато можливостей під час фази висновків, модель може розв’язувати набагато складніші завдання, ніж ті, які можуть бути розв’язані безпосередньо за допомогою стандартної великої мови моделі.

Чому висновок рівня PhD вимагає більше, ніж пам’ять

Причина, через яку це так важливо, полягає в тому, що висновок високого рівня в науці та математиці не може бути розв’язаний лише за допомогою пам’яті. На іспиті з фізики рівня PhD ви не можете просто повторити факт, який ви прочитали в підручнику. Вам потрібно застосувати складні принципи до нової та унікальної ситуації. Стандартні моделі часто “галлюцинують” в цих сценаріях, оскільки вони намагаються передбачити наступне слово на основі ймовірності, а не логіки.

Масштабування часу тестування дозволяє моделі вести себе як дослідник. Вона може тестувати гіпотези внутрішньо. Наприклад, якщо моделі запитується написати складний код, вона може “виконати” логіку в своєму прихованим ланцюзі висновків, визначити потенційну помилку та виправити її, перш ніж представити остаточний код. Ця можливість самокорекції дозволяє новому поколінню моделей досягати високих балів на бенчмарках, таких як Американський іспит з математики (AIME) або GPQA (складний науковий тест, розроблений експертами). Вони не просто здогадуються; вони перевіряють.

Торговельний компроміс ефективності та обчислювальних витрат

Хоча масштабування часу тестування є потужним інструментом, воно має значну ціну. У старому підході найбільш витратною частиною штучного інтелекту було навчання. Як тільки модель була розгорнута, її виконання було відносно дешевим і швидким. З масштабуванням часу тестування витрати зсуваються у бік запиту користувача. Через те, що модель виконує більше роботи, генеруючи кілька шляхів і перевіряючи свою логіку, вона потребує більше часу для відповіді та вимагає більше апаратних ресурсів.

Це створює нову економіку штучного інтелекту. Ми рухаємося до ситуації, в якій “витрата на запит” може сильно варіюватися. Просте питання про погоду може коштувати частку цента та займати секунду. Глибоке наукове дослідження може коштувати кілька доларів обчислювального часу та займати годину на обробку. Цей компроміс необхідний для досягнення високого рівня висновків, але він також означає, що розробники повинні знайти способи зробити ці моделі ефективними, щоб вони могли бути використані у великих масштабах у галузях, таких як медицина чи інженерія.

Вплив на майбутнє штучного інтелекту

Поява масштабування часу тестування свідчить про те, що ми можемо входити в нову еру розвитку штучного інтелекту. Протягом років було занепокоєння, що ми врешті-решт вичерпаємо високоякісні людські дані для навчання моделей. Якщо моделі вчаться лише з того, що люди вже написали, вони можуть досягнути свого ліміту. Однак масштабування часу тестування показує, що моделі можуть покращувати свою продуктивність, “думаячи” більше, а не просто читая більше.

Це відкриває двері до того, що штучний інтелект може робити свої власні відкриття. Якщо модель може виводити висновки щодо проблеми, якої вона ніколи не бачила раніше, вона потенційно може знайти нові рішення в матеріалознавстві, відкритті ліків або відновлюваній енергетиці. Це рухає штучний інтелект від того, щоб бути корисним помічником, який підсумовує текст, до того, щоб бути цифровим співробітником, який може допомогти розв’язати найскладніші проблеми світу. Ми бачимо перехід від “генеративного” штучного інтелекту до “висновкового” штучного інтелекту.

Основне

Масштабування часу тестування є довершеним інгредієнтом у пошуках передового штучного інтелекту. Дозволяючи моделям використовувати більше обчислювальних ресурсів під час фази висновків, ми розблокували рівень продуктивності, який раніше вважався недосяжним. Ці моделі починають демонструвати тип логіки, який відчувається набагато ближчим до людської інтелектуальності, ніж просте визначення закономірностей у минулому.

Як ми рухаємося вперед, викликом буде уточнення цих технік. Нам потрібно зробити висновок швидшим та більш доступним, а також знайти правильний баланс між “швидким” та “повільним” мисленням. Секретний інгредієнт вже не просто розмір моделі чи кількість даних, які вона бачила. Секрет полягає в тому, як модель використовує свій час для думання. Для тих, хто слідкує за прогресом штучного інтелекту, зрозуміло, що фокус змінився. Перегони вже не просто про те, хто має найбільшу модель, а про те, хто має модель, яка може виводити висновки найкраще. Ця зміна, ймовірно, визначить наступне десятиліття інновацій у галузі.

Доктор Техсін Зія є доцентом COMSATS University Islamabad, який має ступінь PhD з штучного інтелекту у Віденському технічному університеті, Австрія. Спеціалізується на штучному інтелекті, машинному навчанні, науці про дані та комп'ютерному баченні, він зробив значний внесок з публікаціями в авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і служив консультантом з штучного інтелекту.