Artificial Intelligence

Mobile-Agents: автономный мультимодальный агент для мобильных устройств с визуальным восприятием

опубликованный

2 меc. назад

26 февраля 2024

Появление мультимодальных моделей большого языка (MLLM) открыло новую эру агентов мобильных устройств, способных понимать мир и взаимодействовать с ним посредством текста, изображений и голоса. Эти агенты представляют собой значительный шаг вперед по сравнению с традиционным искусственным интеллектом, предоставляя пользователям более богатый и интуитивно понятный способ взаимодействия со своими устройствами. Используя MLLM, эти агенты могут обрабатывать и синтезировать огромные объемы информации из различных модальностей, что позволяет им предлагать персонализированную помощь и улучшать качество пользовательского опыта способами, которые ранее невозможно было себе представить.

Эти агенты оснащены современными методами машинного обучения и расширенными возможностями обработки естественного языка, что позволяет им понимать и генерировать текст, похожий на человеческий, а также интерпретировать визуальные и слуховые данные с поразительной точностью. Эти мультимодальные агенты способны беспрепятственно обрабатывать широкий спектр входных данных — от распознавания объектов и сцен на изображениях до понимания голосовых команд и анализа тональности текста. Потенциал этой технологии огромен: она предлагает более сложные и контекстно-ориентированные услуги, такие как виртуальные помощники, настроенные на человеческие эмоции, и образовательные инструменты, которые адаптируются к индивидуальному стилю обучения. У них также есть потенциал совершить революцию в области доступности, сделав технологии более доступными, несмотря на языковые и сенсорные барьеры.

В этой статье мы будем говорить о Mobile-Agents, автономном мультимодальном агенте устройства, который впервые использует возможности инструментов визуального восприятия для точной идентификации и определения местоположения визуальных и текстовых элементов с помощью внешнего интерфейса мобильного приложения. Используя этот воспринимаемый контекст видения, платформа Mobile-Agent автономно планирует и разлагает сложную операционную задачу, а также перемещается по мобильным приложениям, выполняя пошаговые операции. Платформа Mobile-Agent отличается от существующих решений, поскольку она не полагается на метаданные мобильной системы или XML-файлы мобильных приложений, что дает возможность повысить адаптируемость к различным мобильным операционным средам, ориентируясь на видение. Подход, которого придерживается платформа Mobile-Agent, устраняет необходимость в настройке конкретной системы, что приводит к повышению производительности и снижению требований к вычислительным ресурсам.

Mobile-Agents: автономный мультимодальный агент для мобильных устройств

В быстро меняющемся мире мобильных технологий выделяется новаторская концепция: модели большого языка, особенно мультимодальные модели большого языка или MLLM, способные генерировать широкий спектр текста, изображений, видео и речи на разных языках. Быстрое развитие систем MLLM в последние несколько лет привело к появлению нового мощного приложения MLLM: автономных мобильных агентов. Автономные мобильные агенты — это программные объекты, которые действуют, перемещаются и функционируют независимо, без необходимости прямых команд человека, и предназначены для перемещения по сетям или устройствам для выполнения задач, сбора информации или решения проблем.

Мобильные агенты предназначены для управления мобильным устройством пользователя на основе инструкций пользователя и изображений на экране. Эта задача требует от агентов как семантического понимания, так и возможностей визуального восприятия. Однако существующие мобильные агенты далеки от совершенства, поскольку они основаны на мультимодальных больших языковых моделях, и даже современные фреймворки MLLM, включая GPT-4V, не обладают возможностями визуального восприятия, необходимыми для того, чтобы служить эффективным мобильный агент. Более того, хотя существующие платформы могут генерировать эффективные операции, им сложно точно определить положение этих операций на экране, что ограничивает возможности приложений и возможности мобильных агентов работать на мобильных устройствах.

Чтобы решить эту проблему, некоторые платформы решили использовать файлы макета пользовательского интерфейса, чтобы помочь GPT-4V или другим MLLM с возможностями локализации. решил использовать HTML-код из веб-приложений. Как видно, большинство этих платформ полагаются на доступ к базовым и локальным файлам приложений, что делает метод практически неэффективным, если платформа не может получить доступ к этим файлам. Чтобы решить эту проблему и устранить зависимость локальных агентов от базовых файлов и методов локализации, разработчики работали над Mobile-Agent — автономным мобильным агентом с впечатляющими возможностями визуального восприятия. Используя модуль визуального восприятия, платформа Mobile-Agent использует снимки экрана с мобильного устройства для точного определения операций. Модуль визуального восприятия содержит модели оптического распознавания символов и обнаружения, которые отвечают за идентификацию текста на экране и описание контента в определенной области экрана мобильного телефона. Платформа Mobile-Agent использует тщательно продуманные подсказки и обеспечивает эффективное взаимодействие между инструментами и агентами, автоматизируя тем самым операции с мобильными устройствами.

Кроме того, платформа Mobile-Agents призвана использовать контекстуальные возможности современных инфраструктур MLLM, таких как GPT-4V, для достижения возможностей самопланирования, которые позволяют модели комплексно планировать задачи на основе истории операций, пользовательских инструкций и снимков экрана. Для дальнейшего повышения способности агента выявлять неполные инструкции и неправильные операции в системе Mobile-Agent реализован метод самоанализа. Под руководством тщательно составленных подсказок агент постоянно размышляет о неправильных и недопустимых операциях и останавливает операции после завершения задачи или инструкции.

В целом вклад платформы Mobile-Agent можно резюмировать следующим образом:

Mobile-Agent выступает в роли автономного агента мобильного устройства, используя инструменты визуального восприятия для локализации операций. Он методично планирует каждый шаг и занимается самоанализом. Примечательно, что Mobile-Agent полагается исключительно на снимки экрана устройства, без использования какого-либо системного кода, демонстрируя решение, основанное исключительно на методах машинного зрения.
Mobile-Agent представляет Mobile-Eval — тест, предназначенный для оценки агентов мобильных устройств. Этот тест включает в себя десять наиболее часто используемых мобильных приложений, а также интеллектуальные инструкции для этих приложений, разделенные на три уровня сложности.

Мобильный агент: архитектура и методология

По своей сути платформа Mobile-Agent представляет собой современную Мультимодальная модель большого языка, GPT-4V, модуль обнаружения текста, используемый для задач локализации текста. Наряду с GPT-4V, Мобильный Агент также использует модуль обнаружения иконок для локализации иконок.

Визуальное восприятие

Как упоминалось ранее, GPT-4V MLLM обеспечивает удовлетворительные результаты для инструкций и снимков экрана, но не может эффективно выводить место, где выполняются операции. Из-за этого ограничения платформа Mobile-Agent, реализующая модель GPT-4V, должна полагаться на внешние инструменты для помощи в локализации операций, что облегчает вывод операций на экран мобильного устройства.

Локализация текста

Платформа Mobile-Agent реализует инструмент OCR для определения положения соответствующего текста на экране всякий раз, когда агенту необходимо нажать на определенный текст, отображаемый на экране мобильного телефона. Существует три уникальных сценария локализации текста.

Сценарий 1: Указанный текст не обнаружен

Выпуск: OCR не может обнаружить указанный текст, что может произойти в сложных изображениях или из-за ограничений OCR.

Ответ: Попросите агента:

Повторно выберите текст для нажатия, чтобы вручную исправить недосмотр OCR, или
Выберите альтернативную операцию, например использование другого метода ввода или выполнение другого действия, соответствующего текущей задаче.

Обоснование: Эта гибкость необходима для управления случайными неточностями или галлюцинациями GPT-4V, гарантируя, что агент сможет действовать эффективно.

Сценарий 2: Обнаружен единственный экземпляр указанного текста

Условия эксплуатации: Автоматически генерировать действие по щелчку по координатам центра обнаруженного текстового поля.

Обоснование: При обнаружении только одного экземпляра вероятность правильной идентификации высока, что позволяет эффективно приступить к прямым действиям.

Сценарий 3: обнаружено несколько экземпляров указанного текста

Оценка: Сначала оценим количество обнаруженных экземпляров:

Много экземпляров: указывает на то, что экран загромождён похожим содержимым, что усложняет процесс выбора.

Действие: Попросите агента повторно выделить текст, чтобы уточнить выделение или настроить параметры поиска.

Несколько примеров: Управляемое количество обнаружений позволяет использовать более тонкий подход.

Действие: Обрезайте области вокруг этих экземпляров, расширяя поля обнаружения текста наружу, чтобы уловить дополнительный контекст. Такое расширение гарантирует сохранение большего количества информации, что помогает в принятии решений.

Следующий шаг: Нарисуйте рамки обнаружения на обрезанных изображениях и представьте их агенту. Эта визуальная помощь помогает агенту решить, с каким экземпляром взаимодействовать, основываясь на контекстных подсказках или требованиях задачи.

Этот структурированный подход оптимизирует взаимодействие между результатами оптического распознавания символов и операциями агента, повышая надежность и адаптируемость системы при выполнении текстовых задач в различных сценариях. Весь процесс продемонстрирован на следующем изображении.

Локализация значков

Платформа Mobile-Agent реализует инструмент обнаружения значков, позволяющий определить положение значка, когда агенту необходимо щелкнуть по нему на экране мобильного телефона. Если быть более конкретным, платформа сначала запрашивает у агента определенные атрибуты изображения, включая форму и цвет, а затем реализует метод Grounding DINO со значком подсказки для идентификации всех значков, содержащихся на снимке экрана. Окончательно, Мобил-Агенt использует структуру CLIP для расчета сходства между описанием области щелчка, вычисляет сходство между удаленными значками и выбирает для щелчка область с наибольшим сходством.

Выполнение инструкций

Для перевода действий агентов в операции на экране платформа Mobile-Agent определяет 8 различных операций.

Запустить приложение (имя приложения): Запустите назначенное приложение из интерфейса рабочего стола.
Нажмите на Текст (Текстовая метка): Взаимодействуйте с частью экрана, отображающей метку «Текстовая метка».
Взаимодействие со значком (описание значка, расположение): Наведите курсор на указанную область значка и коснитесь ее, где в разделе «Описание значка» подробно описаны такие атрибуты, как цвет и форма значка. Выберите «Местоположение» из таких вариантов, как сверху, снизу, слева, справа или по центру, возможно, объединив два варианта для точной навигации и уменьшения ошибок.
Введите текст (Введите текст): Введите данный «Входной текст» в активное текстовое поле.
Прокрутка вверх и вниз: Перемещайтесь вверх или вниз по содержимому текущей страницы.
Вернитесь: Вернуться на ранее просмотренную страницу.
Закрыть: Вернитесь на рабочий стол прямо с текущего экрана.
Остановка: Завершите операцию, как только задача будет выполнена.

Самопланирование

Каждый шаг операции выполняется платформой итеративно, и перед началом каждой итерации пользователю необходимо предоставить входную инструкцию, а модель мобильного агента использует эту инструкцию для генерации системного приглашения для всего процесса. Более того, перед началом каждой итерации платформа делает снимок экрана и передает его агенту. Затем агент просматривает снимок экрана, историю операций и системные подсказки для вывода следующего шага операций.

Самоотражение

В ходе своей работы агент может столкнуться с ошибками, которые не позволяют ему успешно выполнить команду. Для повышения скорости выполнения инструкций был реализован подход самооценки, активирующийся при двух конкретных обстоятельствах. Первоначально, если агент выполняет ошибочное или недопустимое действие, которое останавливает прогресс, например, когда он распознает, что снимок экрана остается неизменным после операции или отображает неправильную страницу, ему будет предложено рассмотреть альтернативные действия или настроить параметры существующей операции. Во-вторых, агент может пропустить некоторые элементы сложной директивы. Как только агент выполнит серию действий на основе своего первоначального плана, ему будет предложено просмотреть последовательность действий, последний снимок экрана и указание пользователя, чтобы оценить, выполнена ли задача. При обнаружении несоответствий агенту ставится задача самостоятельно сгенерировать новые действия для выполнения директивы.

Мобильный агент: эксперименты и результаты

Чтобы всесторонне оценить свои возможности, платформа Mobile-Agent вводит тест Mobile-Eval, состоящий из 10 часто используемых приложений, и разрабатывает три инструкции для каждого приложения. Первая операция проста и охватывает только основные операции приложения, тогда как вторая операция немного сложнее первой, поскольку имеет некоторые дополнительные требования. Наконец, третья операция является самой сложной из всех, поскольку она содержит абстрактную пользовательскую инструкцию, в которой пользователь явно не указывает, какое приложение использовать или какую операцию выполнить.

Двигаясь дальше, чтобы оценить производительность с разных точек зрения, платформа Mobile-Agent разрабатывает и реализует 4 различных показателя.

Вс или Успех: Если мобильный агент выполняет инструкции, это считается успехом.

Оценка процесса или PS: Метрика Process Score измеряет точность каждого шага во время выполнения пользовательских инструкций и рассчитывается путем деления количества правильных шагов на общее количество шагов.

Относительная эффективность или RE: Показатель относительной эффективности представляет собой соотношение или сравнение количества шагов, необходимых человеку для выполнения инструкции вручную, и количества шагов, необходимых агенту для выполнения той же инструкции.

Уровень завершения или CR: Показатель степени выполнения делит количество шагов, выполняемых человеком, которые платформа успешно выполняет, на общее количество шагов, предпринятых человеком для выполнения инструкции. Значение CR равно 1, когда агент успешно выполняет инструкцию.

Результаты продемонстрированы на следующем рисунке.

Первоначально по трем заданным задачам Мобильный Агент достиг показателей выполнения 91%, 82% и 82% соответственно. Хотя не все задачи были выполнены безупречно, уровень достижений по каждой категории задач превысил 90%. Кроме того, метрика PS показывает, что Мобильный агент последовательно демонстрирует высокую вероятность выполнения точных действий для трех задач с вероятностью успеха около 80%. Кроме того, по метрике RE Мобильный-Агент демонстрирует 80% эффективность выполнения операций на уровне, сравнимом с человеческой оптимальностью. В совокупности эти результаты подчеркивают компетентность мобильного агента в качестве помощника по работе с мобильными устройствами.

Следующий рисунок иллюстрирует способность мобильного агента воспринимать команды пользователя и независимо организовывать свои действия. Даже при отсутствии в инструкциях подробных подробностей работы Мобильный Агент умело интерпретировал потребности пользователя, превращая их в практические задачи. Следуя этому пониманию, агент выполнял инструкции посредством систематического процесса планирования.

Заключение

В этой статье мы говорили о Mobile-Agents, мультимодальном агенте автономного устройства, который изначально использует технологии визуального восприятия для точного обнаружения и определения как визуальных, так и текстовых компонентов в интерфейсе мобильного приложения. Учитывая этот визуальный контекст, платформа Mobile-Agent автономно выделяет и разбивает сложные задачи на управляемые действия, плавно перемещаясь по мобильным приложениям шаг за шагом. Эта платформа отличается от существующих методологий, поскольку она не зависит от метаданных мобильной системы или XML-файлов мобильных приложений, тем самым обеспечивая большую гибкость в различных мобильных операционных системах с упором на визуальную обработку. Стратегия, используемая в платформе Mobile-Agent, устраняет необходимость адаптации к конкретной системе, что приводит к повышению эффективности и снижению вычислительных требований.

Эмпатический ИИ: трансформация психиатрической помощи и не только с помощью эмоционального интеллекта

Не пропустите

Мета раскрывает стратегию выборов в Парламент ЕС 2024 года

Кунал Кеджривал

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.

Unite.ИИ

Mobile-Agents: автономный мультимодальный агент для мобильных устройств с визуальным восприятием

Artificial Intelligence

Mobile-Agents: автономный мультимодальный агент для мобильных устройств с визуальным восприятием

Оглавление

Mobile-Agents: автономный мультимодальный агент для мобильных устройств