Штучний інтелект

Від намірів до виконання: Як Microsoft перетворює великі мовні моделі на орієнтовані на дії штучні інтелекти

Published January 11, 2025

Updated April 26, 2026

Dr. Tehseen Zia

Великі мовні моделі (LLM) змінили спосіб, у який ми обробляємо природню мову. Вони можуть відповідати на питання, писати код і вести розмови. Однак вони не можуть виконувати реальні завдання. Наприклад, LLM може провести вас через покупку куртки, але не може зробити замовлення від вашого імені. Ця розрив між думкою і діями є великою обмеженням. Люди не просто потребують інформації; вони хочуть результати.

Щоб закрити цю розрив, Microsoft перетворює LLM на орієнтовані на дії штучні інтелекти. Надавши їм можливість планувати, розбивати завдання і взаємодіяти з реальним світом, вони надають LLM можливість ефективно керувати практичними завданнями. Цей зсув має потенціал змінити те, що можуть робити LLM, перетворюючи їх на інструменти, які автоматизують складні робочі процеси і спрощують щоденні завдання. Давайте розглянемо, що потрібно, щоб зробити це можливим, і як Microsoft підходить до цієї проблеми.

Що потрібно LLM, щоб діяти

Для того, щоб LLM могли виконувати завдання в реальному світі, їм потрібно вийти за межі розуміння тексту. Вони повинні взаємодіяти з цифровими і фізичними середовищами, адаптуючись до змінних умов. Ось деякі з можливостей, які їм потрібно:

Розуміння намірів користувача

Щоб діяти ефективно, LLM потрібно розуміти запити користувача. Входи, такі як текст або голосові команди, часто є невизначеними або неповними. Система повинна заповнювати пробіли за допомогою своїх знань і контексту запиту. Багатоступінчаті розмови можуть допомогти уточнити ці наміри, забезпечуючи те, що штучний інтелект розуміє, перш ніж виконувати дії.

Перетворення намірів на дії

Після розуміння завдання, LLM повинні перетворити його на діючі кроки. Це може включати натискання кнопок, виклик API або контроль фізичних пристроїв. LLM потрібно модифікувати свої дії до конкретного завдання, адаптуючись до середовища і розв’язуючи проблеми, які виникають.

Адаптація до змін

Реальні завдання не завжди проходять згідно з планом. LLM потрібно передбачати проблеми, коригувати кроки і знаходити альтернативи, коли виникають питання. Наприклад, якщо необхідний ресурс недоступний, система повинна знайти інший спосіб виконання завдання. Ця гнучкість забезпечує те, що процес не зупиняється, коли щось змінюється.

Спеціалізація на конкретних завданнях

Хоча LLM призначені для загального використання, спеціалізація робить їх більш ефективними. Зосереджуючись на конкретних завданнях, ці системи можуть забезпечити кращі результати з меншими ресурсами. Це особливо важливо для пристроїв з обмеженою потужністю обчислення, таких як смартфони або вбудовані системи.

Розробляючи ці навички, LLM можуть вийти за межі простої обробки інформації. Вони можуть виконувати суттєві дії, відкриваючи шлях для штучного інтелекту, щоб безшовно інтегруватися в щоденні робочі процеси.

Як Microsoft перетворює LLM

Підхід Microsoft до створення орієнтованих на дії штучних інтелектів включає структурований процес. Ключовим завданням є надання LLM можливість розуміти команди, планувати ефективно і виконувати дії. Ось, як вони це роблять:

Крок 1: Збір і підготовка даних

На першому етапі вони збирають дані, пов’язані з їхнім конкретним випадком використання: UFO Agent (описано нижче). Дані включають запити користувача, деталі середовища і дії, пов’язані з завданням. Два різних типу даних збираються на цьому етапі: по-перше, вони збирають дані про план завдання, які допомагають LLM розбити високорівневі кроки, необхідні для виконання завдання. Наприклад, “Змінити розмір шрифту в Word” може включати кроки, такі як вибір тексту і налаштування панелі інструментів. По-друге, вони збирають дані про дії завдання, які дозволяють LLM перекладати ці кроки на конкретні інструкції, такі як натискання конкретних кнопок або використання клавішних скорочень.

Ця комбінація надає моделі як загальну картину, так і детальні інструкції, необхідні для виконання завдань ефективно.

Крок 2: Навчання моделі

Після збору даних LLM уточнюються через кілька сесій навчання. На першому етапі LLM навчаються плануванню завдань, вчучи їх, як розбивати запити користувача на діючі кроки. Дані, позначені експертами, потім використовуються для навчання їх, як перекладати ці плани на конкретні дії. Щоб ще більше підвищити їх здатність розв’язувати проблеми, LLM займаються процесом само-підтримуючої експлуатації, який дозволяє їм займатися нерозв’язаними завданнями і генерувати нові приклади для безперервного навчання. Нарешті, застосовується навчання з підкріпленням, яке використовує зворотний зв’язок від успіхів і невдач для подальшого поліпшення їх процесу прийняття рішень.

Крок 3: Офлайн-тестування

Після навчання модель тестується в контрольованих середовищах, щоб забезпечити надійність. Метрики, такі як Коефіцієнт успішного виконання завдань (TSR) і Коефіцієнт успішного виконання кроків (SSR), використовуються для вимірювання продуктивності. Наприклад, тестування агента управління календарем може включати перевірку його здатності планувати зустрічі і надсилати запрошення без помилок.

Крок 4: Інтеграція в реальні системи

Після перевірки модель інтегрується в агентську структуру. Це дозволяє їй взаємодіяти з реальним світом, таким як натискання кнопок або навігація меню. Інструменти, такі як API автоматизації інтерфейсу користувача, допомагають системі ідентифікувати і маніпулювати елементами інтерфейсу користувача динамічно.

Наприклад, якщо завдання полягає в виділенні тексту в Word, агент ідентифікує кнопку виділення, вибирає текст і застосовує форматування. Компонент пам’яті міг би допомогти LLM зберігати інформацію про попередні дії, дозволяючи йому адаптуватися до нових сценаріїв.

Крок 5: Реальне тестування

Останнім кроком є онлайн-оцінка. Тут система тестується в реальних сценаріях, щоб забезпечити її здатність справлятися з несподіваними змінами і помилками. Наприклад, бот підтримки клієнтів міг би проводити користувачів через процес скидання пароля, адаптуючись до неправильних входів або відсутньої інформації. Це тестування забезпечує те, що штучний інтелект є стійким і готовим до щоденного використання.

Практичний приклад: UFO Agent

Щоб продемонструвати, як працює орієнтований на дії штучний інтелект, Microsoft розробив UFO Agent. Ця система призначена для виконання реальних завдань у середовищі Windows, перетворюючи запити користувача на виконані дії.

У своєму ядрі UFO Agent використовує LLM для інтерпретації запитів і планування дій. Наприклад, якщо користувач каже: “Виділіть слово ‘важливо’ в цьому документі”, агент взаємодіє з Word, щоб виконати завдання. Він збирає контекстну інформацію, таку як позиції елементів інтерфейсу користувача, і використовує її для планування і виконання дій.

UFO Agent використовує інструменти, такі як Windows UI Automation (UIA) API. Цей API сканує програми на предмет елементів керування, таких як кнопки або меню. Для завдання, такого як “Зберегти документ як PDF”, агент використовує UIA для ідентифікації кнопки “Файл”, знаходження опції “Зберегти як” і виконання необхідних кроків. Структуруючи дані послідовно, система забезпечує гладку роботу від навчання до реального застосування.

Передача викликів

Хоча це є цікавим розвитком, створення орієнтованого на дії штучного інтелекту супроводжується викликами. Масштабованість є великою проблемою. Навчання і розгортання цих моделей у різних завданнях вимагає значних ресурсів. Забезпечення безпеки і надійності є рівною важливим. Моделі повинні виконувати завдання без несподіваних наслідків, особливо в чутливих середовищах. І оскільки ці системи взаємодіють з приватними даними, підтримання етичних стандартів щодо конфіденційності і безпеки є також важливим.

План Microsoft зосереджується на поліпшенні ефективності, розширенні випадків використання і підтриманні етичних стандартів. З цими вдосконаленнями LLM могли б змінити те, як штучний інтелект взаємодіє з світом, роблячи їх більш практичними, адаптивними і орієнтованими на дії.

Майбутнє штучного інтелекту

Перетворення LLM на орієнтовані на дії агенти може бути революційним. Ці системи можуть автоматизувати завдання, спрощувати робочі процеси і робити технології більш доступними. Робота Microsoft над орієнтованим на дії штучним інтелектом і інструментами, такими як UFO Agent, є лише початком. По мірі того, як штучний інтелект продовжує розвиватися, ми можемо очікувати розумніших, більш здатних систем, які не просто взаємодіють з нами – вони виконують завдання.

Dr. Tehseen Zia

Доктор Техсін Зія є доцентом COMSATS University Islamabad, який має ступінь PhD з штучного інтелекту у Віденському технічному університеті, Австрія. Спеціалізується на штучному інтелекті, машинному навчанні, науці про дані та комп'ютерному баченні, він зробив значний внесок з публікаціями в авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і служив консультантом з штучного інтелекту.