Лідери думок

Розшифровка можливостей та викликів для агентів LLM у генеративному штучному інтелекті

mm

Ми спостерігаємо прогрес застосування генеративного штучного інтелекту, що працює на великих мовних моделях (LLM), від промптів до генерації з підтримкою пошуку (RAG) до агентів. Агенти активно обговорюються в промислових і дослідницьких колах, головним чином через потенціал цієї технології для трансформації корпоративних застосунків та забезпечення вищого рівня клієнтського досвіду. Існують загальні шаблони для побудови агентів, які дозволяють зробити перші кроки до штучного інтелекту загального призначення (AGI).

У моїй попередній статті ми розглянули шаблон інтелектуальних патернів для побудови застосунків, що працюють на LLM. Починаючи з промптів, які захоплюють проблемну область та використовують внутрішню пам’ять LLM для генерації виводу. З RAG ми доповнюємо промпт зовнішніми знаннями, знайденими з векторної бази даних, щоб контролювати вивід. Далі, ланцюгуючи виклики LLM, ми можемо побудувати робочі процеси для реалізації складних застосунків. Агенти піднімають це на новий рівень, автоматично визначаючи, як ці ланцюги LLM повинні формуватися. Давайте розглянемо детальніше.

Агенти – під капотом

Ключовий шаблон агентів полягає в тому, що вони використовують мовне розуміння LLM для створення плану вирішення задачі. LLM розуміє проблему та надає нам послідовність кроків для її вирішення. Однак це не все. Агенти не є просто системою підтримки, яка надає рекомендації щодо вирішення проблеми, а потім передає естафету вам для виконання рекомендованих кроків. Агенти оснащені інструментами для виконання дій. Страшно, правда?

Якщо ми запитаємо агента про базове питання, наприклад:

Людина: Яка компанія була заснована винахідником телефону?

Нижче наведений приклад мисленнєвих кроків, які агент може виконати.

Агент (ДУМКА):

  • Думка: Мені потрібно знайти винахідника телефону.
  • Дія: Пошук [винахідник телефону]
  • Спостереження: Олександр Ґрем Белл
  • Думка: Мені потрібно знайти компанію, засновану Олександром Ґрем Беллом
  • Дія: Пошук [компанія, заснована Олександром Ґрем Беллом]
  • Спостереження: Олександр Ґрем Белл заснував компанію American Telephone and Telegraph Company (AT&T) у 1885 році
  • Думка: Я знайшов відповідь. Я поверну її.

Агент (ВІДПОВІДЬ): Олександр Ґрем Белл заснував компанію AT&T у 1885 році

Ви можете побачити, що агент слідує методичному шляху розбиття проблеми на підпроблеми, які можна вирішити, виконавши конкретні дії. Ці дії тут рекомендовані LLM, і ми можемо відобразити їх на конкретні інструменти для реалізації цих дій. Ми могли б активувати інструмент пошуку для агента так, щоб коли він розуміє, що LLM надав пошук як дію, він викликав цей інструмент з параметрами, наданими LLM. Пошук тут відбувається в інтернеті, але також може бути перенаправлений на пошук внутрішньої бази знань, наприклад векторної бази даних. Система тепер стає самодостатньою і може вирішувати складні проблеми, слідуючи серії кроків. Фреймворки, такі як LangChain і LLaMAIndex, надають легкий спосіб побудови цих агентів та підключення до інструментів та API. Amazon недавно запустила свій фреймворк Bedrock Agents, який надає візуальний інтерфейс для проектування агентів.

Під капотом агенти слідують спеціальному стилю надсилання промптів до LLM, який робить їх генерувати план дій. Вище згаданий шаблон Думка-Дія-Спостереження популярний у типу агентів, званого ReAct (Розуміння та Дія). Інші типи агентів включають MRKL і Plan & Execute, які головним чином відрізняються своїм стилем промптів.

Для більш складних агентів дії можуть бути пов’язані з інструментами, які спричиняють зміни в джерельних системах. Наприклад, ми могли б підключити агента до інструменту, який перевіряє баланс відпусток та подає заявку на відпустку в системі ERP для співробітника. Тепер ми могли б побудувати гарний чат-бот, який взаємодіє з користувачами та через команду чату подає заявку на відпустку в системі. Ні більше складних екранів для подачі заявок на відпустку, простий уніфікований інтерфейс чату. Звучить цікаво!

Перестороги та необхідність відповідального штучного інтелекту

А що якщо у нас є інструмент, який викликає транзакції на фондовому ринку за допомогою попередньо авторизованого API? Ви побудуєте застосунок, де агент вивчає зміни фондового ринку (за допомогою інструментів) та приймає рішення про купівлю та продаж акцій. А що якщо агент продає неправильні акції, бо він галюцинує та приймає неправильне рішення? Оскільки LLM є величезними моделями, складно зрозуміти, чому вони приймають деякі рішення, тому галюцинації є поширеними в відсутності належних обмежень.

Хоча агенти й справді цікаві, ви, ймовірно, вже здогадалися, наскільки вони можуть бути небезпечними. Якщо вони галюцинують та приймають неправильну дію, це може спричинити великі фінансові втрати або серйозні проблеми в корпоративних системах. Тому відповідальний штучний інтелект стає вкрай важливим у добу застосунків, що працюють на LLM. Принципи відповідального штучного інтелекту щодо повторюваності, прозорості та підзвітності намагаються встановити обмеження на рішення, прийняті агентами, та пропонують аналіз ризиків для визначення дій, які потребують участі людини в циклі. Чим складніші агенти проектуються, тим більше уваги вони потребують, тим більше прозорості та підзвітності потрібно для того, щоб ми знали, що вони роблять.

Заключні думки

Спроможність агентів генерувати логічний шлях кроків з діями наближається до людського розуміння. Наділення їх більш потужними інструментами може надати їм надлюдські можливості. Шаблони, такі як ReAct, намагаються імітувати, як люди вирішують проблеми, і ми побачимо кращі шаблони агентів, які будуть актуальними для конкретних контекстів та галузей (банківська справа, страхування, охорона здоров’я, промисловість тощо). Майбутнє вже тут, і технологія, що стоїть за агентами, готова до використання. Водночас нам потрібно продовжувати уважно стежити за обмеженнями відповідального штучного інтелекту, щоб не побудувати Скайнет!

Dattaraj Rao, Головний науковець даних у Persistent Systems, є автором книги “Keras to Kubernetes: Подорож моделі машинного навчання у виробництво.” У Persistent Systems Dattaraj очолює лабораторію досліджень штучного інтелекту, яка досліджує найновіші алгоритми у галузі комп'ютерного зору, розуміння природної мови, ймовірнісного програмування, навчання з підкріпленням, пояснюваного штучного інтелекту тощо та демонструє їх застосування у галузі охорони здоров'я, банківської справи та промисловості. Dattaraj має 11 патентів у галузі машинного навчання та комп'ютерного зору.