заглушки Mobile-Agents: автономний мультимодальний мобільний агент із візуальним сприйняттям - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Mobile-Agents: автономний мультимодальний мобільний агент із візуальним сприйняттям

mm

опублікований

 on

Поява мультимодальних великих мовних моделей (MLLM) започаткувала нову еру агентів мобільних пристроїв, здатних розуміти світ і взаємодіяти з ним за допомогою тексту, зображень і голосу. Ці агенти знаменують значний прогрес у порівнянні з традиційним штучним інтелектом, надаючи користувачам багатший та інтуїтивно зрозуміліший спосіб взаємодії зі своїми пристроями. Використовуючи MLLM, ці агенти можуть обробляти та синтезувати величезні обсяги інформації з різних модальностей, дозволяючи їм пропонувати персоналізовану допомогу та покращувати досвід користувачів способами, які раніше неможливо було уявити.

Ці агенти оснащені найсучаснішими методами машинного навчання та передовими можливостями обробки природної мови, що дозволяє їм розуміти та генерувати текст, схожий на людину, а також інтерпретувати візуальні та звукові дані з надзвичайною точністю. Від розпізнавання об’єктів і сцен на зображеннях до розуміння голосових команд і аналізу настрою тексту, ці мультимодальні агенти обладнані для безпроблемної обробки широкого діапазону вхідних даних. Потенціал цієї технології величезний, вона пропонує більш складні та контекстуально обізнані послуги, такі як віртуальні помічники, налаштовані на людські емоції, та освітні інструменти, які адаптуються до індивідуальних стилів навчання. Вони також мають потенціал революціонізувати доступність, зробивши технологію більш доступною через мовні та сенсорні бар’єри.

У цій статті ми будемо говорити про Mobile-Agents, автономний мультимодальний агент пристрою, який спочатку використовує здатність інструментів візуального сприйняття точно ідентифікувати та знаходити візуальні та текстові елементи за допомогою зовнішнього інтерфейсу мобільної програми. Використовуючи цей сприйнятий контекст бачення, платформа Mobile-Agent автономно планує та декомпонує складну операційну задачу, а також переміщується мобільними програмами, виконуючи крок за кроком операції. Фреймворк Mobile-Agent відрізняється від існуючих рішень, оскільки він не покладається на метадані мобільної системи чи XML-файли мобільних додатків, що забезпечує простір для покращеної адаптації в різноманітних мобільних операційних середовищах орієнтованим на бачення способом. Підхід, до якого дотримується структура Mobile-Agent, усуває вимоги до індивідуальних системних налаштувань, що призводить до підвищення продуктивності та зниження вимог до комп’ютерів. 

Мобільні агенти: автономний мультимодальний агент мобільних пристроїв

У швидкоплинному світі мобільних технологій з’являється новаторська концепція: великі мовні моделі, особливо мультимодальні великі мовні моделі або MLLM, здатні генерувати широкий спектр тексту, зображень, відео та мови різними мовами. Швидкий розвиток фреймворків MLLM за останні кілька років породив нове та потужне застосування MLLM: автономні мобільні агенти. Автономні мобільні агенти — це програмні об’єкти, які діють, переміщуються та функціонують незалежно, не потребуючи прямих команд людини, розроблені для проходження мереж або пристроїв для виконання завдань, збору інформації чи вирішення проблем. 

Мобільні агенти призначені для роботи з мобільним пристроєм користувача на основі інструкцій користувача та візуальних зображень на екрані, завдання, яке вимагає від агентів як семантичного розуміння, так і можливостей візуального сприйняття. Однак існуючі мобільні агенти далекі від досконалості, оскільки вони засновані на мультимодальних моделях великих мов, і навіть поточні сучасні фреймворки MLLM, включаючи GPT-4V, не мають можливостей візуального сприйняття, необхідних для ефективної роботи мобільний агент. Крім того, хоча існуючі структури можуть генерувати ефективні операції, їм важко точно визначити позицію цих операцій на екрані, обмежуючи додатки та здатність мобільних агентів працювати на мобільних пристроях. 

Щоб вирішити цю проблему, деякі фреймворки вирішили використовувати файли макета інтерфейсу користувача, щоб допомогти GPT-4V або іншим MLLM із можливостями локалізації, причому деякі фреймворки встигають витягти активні позиції на екрані за допомогою доступу до файлів XML програми, тоді як інші фреймворки вирішив використовувати HTML-код із веб-додатків. Як можна побачити, більшість цих фреймворків покладаються на доступ до базових і локальних файлів додатків, що робить метод майже неефективним, якщо фреймворк не може отримати доступ до цих файлів. Щоб вирішити цю проблему та усунути залежність локальних агентів від базових файлів від методів локалізації, розробники працювали над Mobile-Agent, автономним мобільним агентом із вражаючими можливостями візуального сприйняття. Використовуючи свій модуль візуального сприйняття, платформа Mobile-Agent використовує знімки екрана з мобільного пристрою для точного визначення місцезнаходження операцій. Модуль візуального сприйняття містить OCR і моделі виявлення, які відповідають за ідентифікацію тексту на екрані та опис вмісту в певній області екрана мобільного пристрою. Структура Mobile-Agent використовує ретельно розроблені підказки та сприяє ефективній взаємодії між інструментами та агентами, таким чином автоматизуючи операції мобільного пристрою. 

Крім того, структура Mobile-Agents має на меті використовувати контекстуальні можливості сучасних фреймворків MLLM, таких як GPT-4V, для досягнення можливостей самостійного планування, що дозволяє моделі цілісно планувати завдання на основі історії операцій, інструкцій користувача та знімків екрана. Щоб ще більше розширити здатність агента виявляти неповні інструкції та неправильні операції, платформа Mobile-Agent запроваджує метод саморефлексії. Під керівництвом ретельно розроблених підказок агент постійно обмірковує неправильні та неприпустимі операції та зупиняє операції після виконання завдання чи інструкції. 

Загалом, внески Mobile-Agent framework можна узагальнити таким чином:

  1. Mobile-Agent діє як автономний агент мобільного пристрою, використовуючи засоби візуального сприйняття для здійснення локалізації операцій. Він методично планує кожен крок і займається самоаналізом. Примітно, що Mobile-Agent покладається виключно на знімки екрана пристрою, без використання будь-якого системного коду, демонструючи рішення, яке базується виключно на методах бачення.
  2. Mobile-Agent представляє Mobile-Eval, тест, призначений для оцінки агентів мобільних пристроїв. Цей контрольний тест включає в себе ряд із десяти найпоширеніших програм для мобільних пристроїв разом із інтелектуальними інструкціями для цих програм, класифікованих за трьома рівнями складності.

Mobile-Agent : архітектура та методологія

За своєю суттю структура Mobile-Agent складається з найсучасніших технологій Багатомодальна модель великої мови, GPT-4V, модуль виявлення тексту, який використовується для завдань локалізації тексту. Поряд з GPT-4V Mobile-Agent також використовує модуль виявлення значків для локалізації значків. 

Зорове сприйняття

Як згадувалося раніше, GPT-4V MLLM забезпечує задовільні результати для інструкцій і скріншотів, але він не може ефективно вивести місцезнаходження, де відбуваються операції. Через це обмеження структура Mobile-Agent, що реалізує модель GPT-4V, повинна покладатися на зовнішні інструменти, щоб допомогти з локалізацією операцій, таким чином полегшуючи виведення операцій на екран мобільного пристрою. 

Локалізація тексту

Платформа Mobile-Agent реалізує інструмент OCR для визначення положення відповідного тексту на екрані щоразу, коли агенту потрібно торкнутися певного тексту, що відображається на екрані мобільного. Існує три унікальних сценарії локалізації тексту. 

Сценарій 1: вказаний текст не виявлено

Проблема: OCR не може виявити вказаний текст, що може виникати на складних зображеннях або через обмеження OCR.

Відповідь: Доручіть агенту:

  • Знову виділіть текст для натискання, дозволяючи вручну виправити помилку OCR, або
  • Виберіть альтернативну операцію, наприклад використання іншого методу введення або виконання іншої дії, що відповідає поточному завданню.

Обґрунтування: Ця гнучкість необхідна для керування випадковими неточностями або галюцинаціями GPT-4V, забезпечуючи ефективну роботу агента.

Сценарій 2: Виявлено єдиний екземпляр указаного тексту

Операція: Автоматично генерувати дію для клацання центральних координат виявленого текстового поля.

Обґрунтування: Якщо виявлено лише один екземпляр, вірогідність правильної ідентифікації є високою, що робить ефективним продовження прямої дії.

Сценарій 3: Виявлено кілька екземплярів указаного тексту

Оцінка: Спочатку оцініть кількість виявлених випадків:

Багато випадків: вказує на екран, захаращений подібним вмістом, що ускладнює процес вибору.

дія: Попросіть агента повторно виділити текст, щоб уточнити вибір або налаштувати параметри пошуку.

Кілька випадків: Контрольована кількість виявлень дає змогу застосувати більш тонкий підхід.

дія: Обріжте області навколо цих екземплярів, розширивши поля виявлення тексту назовні, щоб захопити додатковий контекст. Це розширення гарантує збереження більшої кількості інформації, що допомагає приймати рішення.

Наступний крок: Намалюйте рамки виявлення на обрізаних зображеннях і пред’явіть їх агенту. Ця візуальна допомога допомагає агенту вирішити, з яким екземпляром взаємодіяти, на основі контекстних підказок або вимог завдання.

Цей структурований підхід оптимізує взаємодію між результатами оптичного розпізнавання та операціями агента, підвищуючи надійність системи та адаптивність у обробці текстових завдань у різних сценаріях. Весь процес демонструється на наступному зображенні.

Локалізація значків

Платформа Mobile-Agent реалізує інструмент виявлення піктограм, щоб визначити положення піктограми, коли агенту потрібно клацнути її на екрані мобільного пристрою. Точніше, фреймворк спочатку просить агента надати певні атрибути зображення, включаючи форму та колір, а потім фреймворк реалізує метод Grounding DINO за допомогою піктограми підказки для ідентифікації всіх піктограм, що містяться на знімку екрана. нарешті, Мобільний агентt використовує структуру CLIP для обчислення подібності між описом області клацання, обчислює подібність між видаленими значками та вибирає область із найбільшою схожістю для клацання. 

Виконання інструкції

Щоб перевести дії агентів в операції на екрані, платформа Mobile-Agent визначає 8 різних операцій. 

  • Запуск програми (назва програми): Запустіть призначену програму з інтерфейсу робочого столу.
  • Торкніться Текст (Текстова мітка): Взаємодійте з частиною екрана, яка відображає мітку «Текстова мітка».
  • Взаємодія з іконкою (опис іконки, розташування): Виберіть і торкніться зазначеної області значка, де «Опис значка» деталізує такі атрибути, як колір і форма значка. Виберіть «Місцезнаходження» з таких варіантів, як «верх», «знизу», «ліворуч», «праворуч» або «центр», можливо об’єднавши два варіанти для точної навігації та зменшення помилок.
  • Введіть текст (Input Text): Введіть заданий «Текст для введення» в активне текстове поле.
  • Прокрутка вгору та вниз: Переміщення вгору або вниз вмістом поточної сторінки.
  • Повертайся: Повернутися до попередньо переглянутої сторінки.
  • Закрити: Поверніться на робочий стіл прямо з поточного екрана.
  • зупинка: Завершіть операцію, коли завдання буде виконано.

Самопланування

Кожен крок операції виконується фреймворком ітераційно, і перед початком кожної ітерації користувач повинен надати вхідну інструкцію, а модель Mobile-Agent використовує цю інструкцію для створення системної підказки для всього процесу. Крім того, перед початком кожної ітерації фреймворк робить знімок екрана та передає його агенту. Потім агент переглядає знімок екрана, історію операцій і системні підказки, щоб вивести наступний крок операцій. 

Саморефлексія

Під час своїх операцій агент може зіткнутися з помилками, які завадять йому успішно виконати команду. Для підвищення рівня виконання інструкцій реалізовано підхід до самооцінки, що активується за двох конкретних обставин. Спочатку, якщо агент виконує помилкову або неприпустиму дію, яка зупиняє прогрес, наприклад, коли він визнає, що знімок екрана залишається незмінним після операції або відображає неправильну сторінку, йому буде запропоновано розглянути альтернативні дії або налаштувати існуючі параметри операції. По-друге, агент може пропустити деякі елементи складної директиви. Після того як агент виконає серію дій на основі свого початкового плану, йому буде запропоновано переглянути послідовність дій, останній знімок екрана та директиву користувача, щоб оцінити, чи було виконано завдання. У разі виявлення розбіжностей агенту доручається автономно генерувати нові дії для виконання директиви.

Mobile-Agent: експерименти та результати

Щоб всебічно оцінити свої можливості, платформа Mobile-Agent представляє тест Mobile-Eval, що складається з 10 часто використовуваних програм, і розробляє три інструкції для кожної програми. Перша операція є простою та охоплює лише базові операції програми, тоді як друга операція трохи складніша за першу, оскільки має деякі додаткові вимоги. Нарешті, третя операція є найскладнішою з усіх, оскільки вона містить абстрактні інструкції користувача, при цьому користувач явно не вказує, яку програму використовувати або яку операцію виконувати. 

Щоб оцінити продуктивність з різних точок зору, платформа Mobile-Agent розробляє та реалізує 4 різні показники. 

  • Su або успіх: Якщо мобільний агент виконує інструкцію, це вважається успішним. 
  • Оцінка процесу або PS: Показник Process Score вимірює точність кожного кроку під час виконання інструкцій користувача та обчислюється шляхом ділення кількості правильних кроків на загальну кількість кроків. 
  • Відносна ефективність або RE: Показник відносної ефективності — це співвідношення або порівняння між кількістю кроків, необхідних людині для виконання інструкції вручну, та кількістю кроків, необхідних агенту для виконання тієї ж інструкції. 
  • Показник завершення або CR: Показник рівня завершення ділить кількість керованих людиною кроків, які успішно виконує фреймворк, на загальну кількість кроків, виконаних людиною для виконання інструкції. Значення CR дорівнює 1, коли агент успішно виконує інструкцію. 

Результати показано на наступному малюнку. 

Спочатку для трьох заданих завдань Mobile-Agent досяг рівня виконання 91%, 82% і 82% відповідно. Хоча не всі завдання були виконані бездоганно, рівень досягнення для кожної категорії завдань перевищив 90%. Крім того, метрика PS показує, що Mobile-Agent стабільно демонструє високу ймовірність виконання точних дій для трьох завдань із рівнем успіху близько 80%. Крім того, згідно з метрикою RE, Mobile-Agent демонструє 80% ефективність у виконанні операцій на рівні, порівнянному з людською оптимальністю. Ці результати в сукупності підкреслюють кваліфікацію Mobile-Agent як помічника мобільного пристрою.

Наступний малюнок ілюструє здатність Mobile-Agent сприймати команди користувача та самостійно керувати своїми діями. Навіть за відсутності чітких деталей роботи в інструкціях, Mobile-Agent вміло інтерпретував потреби користувача, перетворюючи їх у практичні завдання. Дотримуючись цього розуміння, агент виконував інструкції за допомогою систематичного процесу планування.

Заключні думки

У цій статті ми говорили про Mobile-Agents, мультимодальний автономний агент пристрою, який спочатку використовує технології візуального сприйняття для точного виявлення та визначення як візуальних, так і текстових компонентів в інтерфейсі мобільної програми. Враховуючи цей візуальний контекст, платформа Mobile-Agent автономно окреслює та розбиває складні завдання на керовані дії, плавно переміщаючись у мобільних програмах крок за кроком. Цей фреймворк відрізняється від існуючих методологій, оскільки він не залежить від метаданих мобільної системи або XML-файлів мобільних додатків, що сприяє більшій гнучкості в різних мобільних операційних системах з акцентом на візуально-орієнтовану обробку. Стратегія, яку використовує платформа Mobile-Agent, усуває потребу в системних адаптаціях, що призводить до підвищення ефективності та зниження обчислювальних вимог.

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.