Штучний інтелект

Лабораторія агентів: Віртуальна дослідницька команда від AMD і Джона Хопкінса

Published January 13, 2025

Updated April 26, 2026

Alex McFarland

Поки всі говорили про агентів ІІ та автоматизацію, AMD і Університет Джона Хопкінса працювали над покращенням співпраці між людьми та ІІ у дослідженнях. Їхня нова відкрита структура, Лабораторія агентів, є повною переробкою того, як наукові дослідження можуть бути прискорені завдяки співпраці людини та ІІ.

Після огляду численних структур дослідження ІІ, Лабораторія агентів виділяється своєю практичною підходом. Замість того, щоб намагатися замінити людських дослідників (як багато існуючих рішень), вона зосереджується на підвищенні їхніх можливостей шляхом обробки часоємних аспектів дослідження, залишаючи людей у водійському кріслі.

Основна інновація тут проста, але потужна: Замість того, щоб переслідувати повністю автономне дослідження (що часто призводить до сумнівних результатів), Лабораторія агентів створює віртуальну лабораторію, де кілька спеціалізованих агентів ІІ працюють разом, кожний з яких займається різними аспектами процесу дослідження, залишаючись закріпленим за людською орієнтацією.

Розбивка віртуальної лабораторії

Подумайте про Лабораторію агентів як про добре організовану дослідницьку команду, але з агентами ІІ, які грають спеціалізовані ролі. Як і в реальній лабораторії, кожен агент має конкретні обов’язки та експертизу:

Агент PhD займається літературними оглядами та плануванням дослідження
Агенти постдок допомагають удосконалити експериментальні підходи
Агенти інженерів ІІ займаються технічною реалізацією
Агенти професорів оцінюють та оцінюють результати дослідження

Що робить цю систему особливо цікавою, так це її робочий процес. На відміну від традиційних інструментів ІІ, які працюють у ізоляції, Лабораторія агентів створює колаборативне середовище, де ці агенти взаємодіють та будують на основі роботи один одного.

Процес слідує природному прогресу дослідження:

Огляд літератури: Агент PhD розшукує академічні статті за допомогою архіву arXiv, збираючи та організовуючи відповідні дослідження
Формулювання плану: Агенти PhD та постдок спільно створюють детальні плани дослідження
Реалізація: Агенти інженерів ІІ пишуть та тестують код
Аналіз та документація: Команда працює разом, щоб інтерпретувати результати та створювати комплексні звіти

Але ось де це стає справді практичним: Структура є гнучкою щодо обчислень, що означає, що дослідники можуть розподіляти ресурси на основі свого доступу до обчислювальної потужності та бюджетних обмежень. Це робить його інструментом, призначеним для реальних дослідницьких середовищ.

Schmidgall et al.

Людський фактор: Де ІІ зустрічається з експертизою

Хоча Лабораторія агентів володіє вражаючими можливостями автоматизації, справжня магія відбувається в тому, що вони називають “режимом співпілота”. У цьому режимі дослідники можуть надавати відгуки на кожному етапі процесу, створюючи справжню співпрацю між людською експертизою та допомогою ІІ.

Дані про відгук у режимі співпілота показують деякі переконливі висновки. У автономному режимі статті, згенеровані Лабораторією агентів, мали середню оцінку 3,8/10 у людській оцінці. Але коли дослідники брали участь у режимі співпілота, ці оцінки зросли до 4,38/10. Що особливо цікаво, так це те, де ці поліпшення проявлялися – статті мали значно вищі оцінки за ясністю (+0,23) та презентацією (+0,33).

Але ось реальна перевірка: навіть з людською участю ці статті все ще мали оцінки приблизно на 1,45 пункту нижче середньої прийнятої NeurIPS статті (яка становить 5,85). Це не є провалом, а є важливим висновком про те, як ІІ та людська експертиза повинні доповнювати одна одну.

Оцінка показала ще одну цікаву річ: рецензенти ІІ постійно оцінювали статті приблизно на 2,3 пункту вище, ніж людські рецензенти. Ця розбіжність підкреслює, чому людський нагляд залишається важливим у оцінці дослідження.

Schmidgall et al.

Розбивка цифр

Що справді має значення у дослідницькому середовищі? Вартість та продуктивність. Підхід Лабораторії агентів до порівняння моделей показує деякі несподівані вигоди з точки зору ефективності.

GPT-4o виділився як чемпіон зі швидкості, завершивши весь робочий процес за всього 1 165,4 секунди – це в 3,2 рази швидше, ніж o1-mini, і в 5,3 рази швидше, ніж o1-preview. Але що ще важливіше, це коштує лише 2,33 долари за статтю. У порівнянні з попередніми автономними методами дослідження, які коштували близько 15 доларів, ми бачимо зниження вартості на 84%.

Подивившись на продуктивність моделі:

o1-preview мав найвищий бал за корисність та ясність
o1-mini досяг найкращих балів за якість експериментів
GPT-4o відставав у метриках, але лідирував у вартісній ефективності

Наступні наслідки тут суттєві.

Дослідники тепер можуть вибирати свій підхід на основі своїх конкретних потреб:

Потрібна швидка прототипізація? GPT-4o пропонує швидкість та ефективність витрат
Приоритет експериментальної якості? o1-mini може бути вашим найкращим вибором
Шукаєте найполірованіший вивід? o1-preview показує перспективи

Ця гнучкість означає, що дослідницькі команди можуть адаптувати структуру до своїх ресурсів та вимог, а не бути заблокованими в одному загальному рішенні.

Нова глава у дослідженнях

Після того, як я ознайомився з можливостями та результатами Лабораторії агентів, я переконаний, що ми дивимося на суттєвий зсув у тому, як буде проводитися дослідження. Але це не є розповіддю про заміну, яка часто домінує в заголовках – це щось значно тонше та потужніше.

Хоча статті Лабораторії агентів ще не досягають стандартів топ-конференцій самостійно, вони створюють новий парадигму для прискорення дослідження. Подумайте про це, як про команду агентів ІІ-досліджень, які ніколи не сплять, кожен з яких спеціалізується на різних аспектах наукового процесу.

Наслідки для дослідників глибокі:

Час, витрачений на огляди літератури та базове програмування, можна перенаправити на творчу ідею
Ідеї дослідження, які могли бути полишені через обмеження ресурсів, стають життєздатними
Здатність швидко прототипізувати та тестувати гіпотези може привести до швидших проривів

Поточні обмеження, як розбіжність між оцінками ІІ та людськими оцінками, є можливостями. Кожна ітерація цих систем приносить нас ближче до більш складної співпраці між людьми та ІІ.

Подивившись вперед, я бачу три ключові розробки, які можуть змінити наукове відкриття:

Будуть виникати більш складні моделі співпраці між людиною та ІІ, оскільки дослідники навчаться ефективно використовувати ці інструменти
Економія витрат та часу може демократизувати дослідження, дозволяючи меншим лабораторіям та установам здійснювати більш амбіційні проекти
Здатність до швидкої прототипізації може привести до більш експериментальних підходів у дослідженнях

Ключ до максимізації цього потенціалу? Поняття того, що Лабораторія агентів та подібні структури є інструментами для посилення, а не автоматизації. Майбутнє дослідження не полягає у виборі між людською експертизою та можливостями ІІ – це про знаходження інноваційних способів їхнього поєднання.

Related Topics:artificial intelligence research

Alex McFarland

Алекс Макфарленд - журналіст та письменник з питань штучного інтелекту, який досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та виданнями з штучного інтелекту у світі.