Искусственный интеллект

Mobile-Agents: автономный мультимодальный агент для мобильных устройств с визуальным восприятием

опубликованный 26 февраля 2024

Кунал Кеджривал

Появление мультимодальных моделей большого языка (MLLM) открыло новую эру агентов мобильных устройств, способных понимать мир и взаимодействовать с ним посредством текста, изображений и голоса. Эти агенты представляют собой значительный шаг вперед по сравнению с традиционным искусственным интеллектом, предоставляя пользователям более богатый и интуитивно понятный способ взаимодействия со своими устройствами. Используя MLLM, эти агенты могут обрабатывать и синтезировать огромные объемы информации из различных модальностей, что позволяет им предлагать персонализированную помощь и улучшать качество пользовательского опыта способами, которые ранее невозможно было себе представить.

Эти агенты оснащены современными методами машинного обучения и расширенными возможностями обработки естественного языка, что позволяет им понимать и генерировать текст, похожий на человеческий, а также интерпретировать визуальные и слуховые данные с поразительной точностью. Эти мультимодальные агенты способны беспрепятственно обрабатывать широкий спектр входных данных — от распознавания объектов и сцен на изображениях до понимания голосовых команд и анализа тональности текста. Потенциал этой технологии огромен: она предлагает более сложные и контекстно-ориентированные услуги, такие как виртуальные помощники, настроенные на человеческие эмоции, и образовательные инструменты, которые адаптируются к индивидуальному стилю обучения. У них также есть потенциал совершить революцию в области доступности, сделав технологии более доступными, несмотря на языковые и сенсорные барьеры.

В этой статье мы будем говорить о Mobile-Agents, автономном мультимодальном агенте устройства, который впервые использует возможности инструментов визуального восприятия для точной идентификации и определения местоположения визуальных и текстовых элементов с помощью внешнего интерфейса мобильного приложения. Используя этот воспринимаемый контекст видения, платформа Mobile-Agent автономно планирует и разлагает сложную операционную задачу, а также перемещается по мобильным приложениям, выполняя пошаговые операции. Платформа Mobile-Agent отличается от существующих решений, поскольку она не полагается на метаданные мобильной системы или XML-файлы мобильных приложений, что дает возможность повысить адаптируемость к различным мобильным операционным средам, ориентируясь на видение. Подход, которого придерживается платформа Mobile-Agent, устраняет необходимость в настройке конкретной системы, что приводит к повышению производительности и снижению требований к вычислительным ресурсам.

Mobile-Agents: автономный мультимодальный агент для мобильных устройств

В быстро меняющемся мире мобильных технологий выделяется новаторская концепция: модели большого языка, особенно мультимодальные модели большого языка или MLLM, способные генерировать широкий спектр текста, изображений, видео и речи на разных языках. Быстрое развитие систем MLLM в последние несколько лет привело к появлению нового мощного приложения MLLM: автономных мобильных агентов. Автономные мобильные агенты — это программные объекты, которые действуют, перемещаются и функционируют независимо, без необходимости прямых команд человека, и предназначены для перемещения по сетям или устройствам для выполнения задач, сбора информации или решения проблем.

Мобильные агенты предназначены для управления мобильным устройством пользователя на основе инструкций пользователя и изображений на экране. Эта задача требует от агентов как семантического понимания, так и возможностей визуального восприятия. Однако существующие мобильные агенты далеки от совершенства, поскольку они основаны на мультимодальных больших языковых моделях, и даже современные фреймворки MLLM, включая GPT-4V, не обладают возможностями визуального восприятия, необходимыми для того, чтобы служить эффективным мобильный агент. Более того, хотя существующие платформы могут генерировать эффективные операции, им сложно точно определить положение этих операций на экране, что ограничивает возможности приложений и возможности мобильных агентов работать на мобильных устройствах.

Чтобы решить эту проблему, некоторые платформы решили использовать файлы макета пользовательского интерфейса, чтобы помочь GPT-4V или другим MLLM с возможностями локализации. решил использовать HTML-код из веб-приложений. Как видно, большинство этих платформ полагаются на доступ к базовым и локальным файлам приложений, что делает метод практически неэффективным, если платформа не может получить доступ к этим файлам. Чтобы решить эту проблему и устранить зависимость локальных агентов от базовых файлов и методов локализации, разработчики работали над Mobile-Agent — автономным мобильным агентом с впечатляющими возможностями визуального восприятия. Используя модуль визуального восприятия, платформа Mobile-Agent использует снимки экрана с мобильного устройства для точного определения операций. Модуль визуального восприятия содержит модели оптического распознавания символов и обнаружения, которые отвечают за идентификацию текста на экране и описание контента в определенной области экрана мобильного телефона. Платформа Mobile-Agent использует тщательно продуманные подсказки и обеспечивает эффективное взаимодействие между инструментами и агентами, автоматизируя тем самым операции с мобильными устройствами.

Кроме того, платформа Mobile-Agents призвана использовать контекстуальные возможности современных инфраструктур MLLM, таких как GPT-4V, для достижения возможностей самопланирования, которые позволяют модели комплексно планировать задачи на основе истории операций, пользовательских инструкций и снимков экрана. Для дальнейшего повышения способности агента выявлять неполные инструкции и неправильные операции в системе Mobile-Agent реализован метод самоанализа. Под руководством тщательно составленных подсказок агент постоянно размышляет о неправильных и недопустимых операциях и останавливает операции после завершения задачи или инструкции.

В целом вклад платформы Mobile-Agent можно резюмировать следующим образом:

Mobile-Agent действует как автономный агент мобильного устройства, используя инструменты визуального восприятия для локализации операций. Он методично планирует каждый шаг и проводит самоанализ. Стоит отметить, что Mobile-Agent использует исключительно скриншоты устройств, не используя системный код, демонстрируя решение, основанное исключительно на методах визуального восприятия.
Mobile-Agent представляет Mobile-Eval — тест, предназначенный для оценки агентов мобильных устройств. Этот тест включает в себя десять наиболее часто используемых мобильных приложений, а также интеллектуальные инструкции для этих приложений, разделенные на три уровня сложности.

Мобильный агент: архитектура и методология

По своей сути платформа Mobile-Agent представляет собой современную Мультимодальная модель большого языка, GPT-4V, модуль обнаружения текста, используемый для задач локализации текста. Наряду с GPT-4V, Мобильный Агент также использует модуль обнаружения иконок для локализации иконок.

Визуальное восприятие

Как упоминалось ранее, GPT-4V MLLM обеспечивает удовлетворительные результаты для инструкций и снимков экрана, но не может эффективно выводить место, где выполняются операции. Из-за этого ограничения платформа Mobile-Agent, реализующая модель GPT-4V, должна полагаться на внешние инструменты для помощи в локализации операций, что облегчает вывод операций на экран мобильного устройства.

Локализация текста

Платформа Mobile-Agent реализует инструмент OCR для определения положения соответствующего текста на экране всякий раз, когда агенту необходимо нажать на определенный текст, отображаемый на экране мобильного телефона. Существует три уникальных сценария локализации текста.

Сценарий 1: Указанный текст не обнаружен

Выпуск: OCR не может обнаружить указанный текст, что может произойти в сложных изображениях или из-за ограничений OCR.

Ответ: Попросите агента:

Повторно выберите текст для нажатия, что позволит вручную исправить ошибку OCR, или
Выберите альтернативную операцию, например использование другого метода ввода или выполнение другого действия, соответствующего текущей задаче.

Обоснование: Эта гибкость необходима для управления случайными неточностями или галлюцинациями GPT-4V, гарантируя, что агент сможет действовать эффективно.

Сценарий 2: Обнаружен единственный экземпляр указанного текста

Условия эксплуатации: Автоматически генерировать действие по щелчку по координатам центра обнаруженного текстового поля.

Обоснование: При обнаружении только одного экземпляра вероятность правильной идентификации высока, что позволяет эффективно приступить к прямым действиям.

Сценарий 3: обнаружено несколько экземпляров указанного текста

Оценка: Сначала оценим количество обнаруженных экземпляров:

Много экземпляров: указывает на то, что экран загромождён похожим содержимым, что усложняет процесс выбора.

Действие: Попросите агента повторно выделить текст, чтобы уточнить выделение или настроить параметры поиска.

Несколько примеров: Управляемое количество обнаружений позволяет использовать более тонкий подход.

Действие: Обрезайте области вокруг этих экземпляров, расширяя поля обнаружения текста наружу, чтобы уловить дополнительный контекст. Такое расширение гарантирует сохранение большего количества информации, что помогает в принятии решений.

Следующий шаг: Нарисуйте рамки обнаружения на обрезанных изображениях и представьте их агенту. Эта визуальная помощь помогает агенту решить, с каким экземпляром взаимодействовать, основываясь на контекстных подсказках или требованиях задачи.

Этот структурированный подход оптимизирует взаимодействие между результатами OCR и операциями агента, повышая надежность и адаптивность системы при обработке текстовых задач в различных сценариях. Весь процесс показан на следующем изображении.

Локализация значков

Платформа Mobile-Agent реализует инструмент обнаружения значков, позволяющий определить положение значка, когда агенту необходимо щелкнуть по нему на экране мобильного телефона. Если быть более конкретным, платформа сначала запрашивает у агента определенные атрибуты изображения, включая форму и цвет, а затем реализует метод Grounding DINO со значком подсказки для идентификации всех значков, содержащихся на снимке экрана. Окончательно, Мобил-Агенt использует структуру CLIP для расчета сходства между описанием области щелчка, вычисляет сходство между удаленными значками и выбирает для щелчка область с наибольшим сходством.

Выполнение инструкций

Для перевода действий агентов в операции на экране платформа Mobile-Agent определяет 8 различных операций.

Запустить приложение (имя приложения): Запустите назначенное приложение из интерфейса рабочего стола.
Нажмите на Текст (Текстовая метка): Взаимодействуйте с частью экрана, отображающей метку «Текстовая метка».
Взаимодействие со значком (описание значка, расположение): Наведите курсор на указанную область значка и коснитесь ее, где в разделе «Описание значка» подробно описаны такие атрибуты, как цвет и форма значка. Выберите «Местоположение» из таких вариантов, как сверху, снизу, слева, справа или по центру, возможно, объединив два варианта для точной навигации и уменьшения ошибок.
Введите текст (Введите текст): Введите данный «Входной текст» в активное текстовое поле.
Прокрутка вверх и вниз: Перемещайтесь вверх или вниз по содержимому текущей страницы.
Вернитесь: Вернуться на ранее просмотренную страницу.
Закрыть: Вернитесь на рабочий стол прямо с текущего экрана.
Остановка: Завершите операцию, как только задача будет выполнена.

Самопланирование

Каждый шаг операции выполняется платформой итеративно, и перед началом каждой итерации пользователю необходимо предоставить входную инструкцию, а модель мобильного агента использует эту инструкцию для генерации системного приглашения для всего процесса. Более того, перед началом каждой итерации платформа делает снимок экрана и передает его агенту. Затем агент просматривает снимок экрана, историю операций и системные подсказки для вывода следующего шага операций.

Самоотражение

В процессе работы агент может столкнуться с ошибками, препятствующими успешному выполнению команды. Для повышения скорости выполнения инструкций реализована система самооценки, активируемая в двух случаях. Во-первых, если агент выполняет ошибочное или недопустимое действие, останавливающее выполнение, например, если он обнаруживает, что снимок экрана остался неизменным после операции или отображает некорректную страницу, ему будет предложено рассмотреть альтернативные действия или скорректировать параметры текущей операции. Во-вторых, агент может пропустить некоторые элементы сложной директивы. После того, как агент выполнит ряд действий на основе своего первоначального плана, ему будет предложено проверить последовательность действий, последний снимок экрана и директиву пользователя, чтобы оценить, выполнена ли задача. При обнаружении расхождений агенту поручается автономно сгенерировать новые действия для выполнения директивы.

Мобильный агент: эксперименты и результаты

Чтобы всесторонне оценить свои возможности, платформа Mobile-Agent вводит тест Mobile-Eval, состоящий из 10 часто используемых приложений, и разрабатывает три инструкции для каждого приложения. Первая операция проста и охватывает только основные операции приложения, тогда как вторая операция немного сложнее первой, поскольку имеет некоторые дополнительные требования. Наконец, третья операция является самой сложной из всех, поскольку она содержит абстрактную пользовательскую инструкцию, в которой пользователь явно не указывает, какое приложение использовать или какую операцию выполнить.

Двигаясь дальше, чтобы оценить производительность с разных точек зрения, платформа Mobile-Agent разрабатывает и реализует 4 различных показателя.

Вс или Успех: Если мобильный агент выполняет инструкции, это считается успехом.

Оценка процесса или PS: Метрика Process Score измеряет точность каждого шага во время выполнения пользовательских инструкций и рассчитывается путем деления количества правильных шагов на общее количество шагов.

Относительная эффективность или RE: Показатель относительной эффективности представляет собой соотношение или сравнение количества шагов, необходимых человеку для выполнения инструкции вручную, и количества шагов, необходимых агенту для выполнения той же инструкции.

Уровень завершения или CR: Показатель степени выполнения делит количество шагов, выполняемых человеком, которые платформа успешно выполняет, на общее количество шагов, предпринятых человеком для выполнения инструкции. Значение CR равно 1, когда агент успешно выполняет инструкцию.

Результаты продемонстрированы на следующем рисунке.

Изначально для трёх заданий Мобильный Агент достиг показателей выполнения 91%, 82% и 82% соответственно. Хотя не все задания были выполнены безупречно, показатели выполнения для каждой категории задач превысили 90%. Более того, метрика PS показывает, что Мобильный Агент стабильно демонстрирует высокую вероятность выполнения точных действий для всех трёх задач, с показателем успешности около 80%. Кроме того, согласно метрике RE, Мобильный Агент демонстрирует 80% эффективность выполнения операций на уровне, сопоставимом с оптимальным для человека. Эти результаты в совокупности подтверждают профессионализм Мобильного Агента как помощника для мобильных устройств.

На следующем рисунке показана способность мобильного агента воспринимать команды пользователя и самостоятельно координировать свои действия. Даже при отсутствии в инструкциях явных инструкций по выполнению операций мобильный агент умело интерпретировал потребности пользователя, преобразуя их в выполнимые задачи. Получив это понимание, агент выполнял инструкции посредством систематического процесса планирования.

Заключение

В этой статье мы рассказали о Mobile-Agents – многомодальном автономном агенте устройств, изначально использующем технологии визуального восприятия для точного обнаружения и локализации как визуальных, так и текстовых компонентов в интерфейсе мобильного приложения. Учитывая этот визуальный контекст, фреймворк Mobile-Agent автономно описывает и разбивает сложные задачи на управляемые действия, обеспечивая плавную пошаговую навигацию по мобильным приложениям. Этот фреймворк отличается от существующих методологий тем, что не зависит от метаданных мобильной системы или XML-файлов мобильных приложений, тем самым обеспечивая большую гибкость в различных мобильных операционных системах с акцентом на визуально-ориентированную обработку. Стратегия, используемая фреймворком Mobile-Agent, устраняет необходимость адаптации к конкретной системе, что приводит к повышению эффективности и снижению вычислительных затрат.

Кунал Кеджривал

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.