인공지능

모바일 에이전트: 자율적 다중 모드 모바일 디바이스 에이전트 및 시각적 인식

게시일 2024년 2월 26일

업데이트일 2026년 5월 22일

작성자

Kunal Kejriwal

다중 모드 대규모 언어 모델(Multimodal Large Language Model, MLLM)의 등장으로 모바일 디바이스 에이전트가 새로운 시대를 맞이했습니다. 이러한 에이전트는 텍스트, 이미지, 음성 등을 통해 세계와 상호작용할 수 있으며 전통적인 AI보다 더 풍부하고 직관적인 사용자 인터페이스를 제공합니다. MLLM을 활용하여 이러한 에이전트는 다양한 모드에서大量의 정보를 처리하고 합성할 수 있으며, 사용자에게 개인화된 도움을 제공하고 이전에 불가능했던 사용자 경험을 향상시킬 수 있습니다.

이러한 에이전트는 최신 기계 학습 기술과 고급 자연어 처리 기능을 사용하여 인간과 같은 텍스트를 이해하고 생성할 수 있으며, 시각적 및 청각적 데이터를 해석할 수 있습니다. 이미지에서 객체와 장면을 인식하고 음성 명령을 이해하며 텍스트 감정을 분석할 수 있는 이러한 다중 모드 에이전트는 다양한 입력을 원활하게 처리할 수 있습니다. 이 기술의 잠재력은 매우 크며, 더 정교하고 상황에 맞는 서비스를 제공할 수 있습니다. 예를 들어, 인간의 감정에 맞춰진 가상 어시스턴트와 개인의 학습 스타일에 적응하는 교육 도구를 제공할 수 있습니다. 또한 기술을 더 접근하기 쉽게 만들 수 있으며, 언어와 감각 장벽을 극복할 수 있습니다.

이 기사에서는 모바일 에이전트에 대해 논의할 것입니다. 모바일 에이전트는 자율적 다중 모드 디바이스 에이전트로, 시각적 인식 도구를 사용하여 모바일 애플리케이션의 프론트엔드 인터페이스에서 시각적 및 텍스트 요소를 정확하게 식별하고 위치를 지정합니다. 이 인식된 시각적 컨텍스트를 사용하여 모바일 에이전트 프레임워크는 복잡한 작업을 자동으로 계획하고 분해하며, 단계별 작업을 통해 모바일 애플리케이션을 탐색합니다. 모바일 에이전트 프레임워크는 기존 솔루션과 달리 모바일 시스템 메타데이터 또는 모바일 애플리케이션의 XML 파일에 의존하지 않으므로 다양한 모바일 운영 환경에서 더 나은 적응성을 제공할 수 있습니다. 모바일 에이전트 프레임워크가 사용하는 접근 방식은 시스템별 사용자 지정의 필요성을 제거하여 성능을 향상시키고 계산 요구를 줄입니다.

모바일 에이전트: 자율적 다중 모드 모바일 디바이스 에이전트

모바일 기술의 빠르게 발전하는 세계에서, 한 개념이 두드러집니다. 대규모 언어 모델, 특히 다중 모드 대규모 언어 모델(Multimodal Large Language Model, MLLM)은 다양한 언어에서 텍스트, 이미지, 비디오, 음성을 생성할 수 있습니다. 지난 몇 년 동안 MLLM 프레임워크의 빠른 개발로 새로운 응용 프로그램이 등장했습니다. 자율적 모바일 에이전트입니다. 자율적 모바일 에이전트는 직접적인 인간의 명령 없이 독립적으로 작동하며, 네트워크 또는 디바이스를 통해 작업을 수행하거나 정보를 수집하거나 문제를 해결하도록 설계된 소프트웨어 엔티티입니다.

모바일 에이전트는 사용자의 모바일 디바이스를 사용자의 지시에 따라 작동하도록 설계되었습니다. 이는 에이전트가 의미적 이해와 시각적 인식 능력을 모두具备해야 함을 의미합니다. 그러나 기존의 모바일 에이전트는 완벽하지 않습니다. 왜냐하면它们는 다중 모드 대규모 언어 모델을 기반으로 하며, 현재의 상태에서 가장先進的な MLLM 프레임워크인 GPT-4V도 시각적 인식 능력이 부족하여 효율적인 모바일 에이전트로 작동할 수 없습니다. 또한, 기존 프레임워크는 작업을 효과적으로 생성할 수 있지만, 이러한 작업의 위치를 정확하게 화면에 표시하는 데 어려움을 겪습니다. 이는 모바일 에이전트가 모바일 디바이스에서 작동하는 능력을 제한합니다.

이 문제를 해결하기 위해 일부 프레임워크는 사용자 인터페이스 레이아웃 파일을 사용하여 GPT-4V 또는 다른 MLLM에 대한 위치 지정 능력을 지원했습니다. 일부 프레임워크는 애플리케이션의 XML 파일에 접근하여 작업의 위치를 화면에서 정확하게 식별할 수 있도록 했습니다. 다른 프레임워크는 웹 애플리케이션의 HTML 코드를 사용했습니다. 대부분의 이러한 프레임워크는 기본 및 로컬 애플리케이션 파일에 접근하는 데 의존합니다. 따라서 이러한 파일에 접근할 수 없는 경우 이러한 방법은 거의 효과적이지 않습니다. 이 문제를 해결하고 로컬 에이전트가 이러한 파일에 대한 의존도를 제거하기 위해 개발자들은 모바일 에이전트를 만들었습니다. 모바일 에이전트는 인상적인 시각적 인식 능력을 갖춘 자율적 모바일 에이전트입니다. 모바일 에이전트 프레임워크는 모바일 디바이스의 스크린샷을 사용하여 작업을 정확하게 위치를 지정합니다. 시각적 인식 모듈은 텍스트를 식별하고 특정 영역의 내용을 설명하는 OCR 및 감지 모델을 포함합니다. 모바일 에이전트 프레임워크는 효율적인 상호작용을促進하기 위해 신중하게 설계된 프롬프트를 사용합니다.

さらに, 모바일 에이전트 프레임워크는 상태에서 가장先進的な MLLM 프레임워크인 GPT-4V의 컨텍스트 기능을 사용하여 작업을 계획하고, 사용자 지시와 스크린샷을 전체적으로 고려하여 작업을 계획할 수 있습니다. 또한, 모바일 에이전트 프레임워크는 잘못된 지시나 작업을 식별하기 위해 자체 반성 방법을 도입했습니다. 신중하게 설계된 프롬프트의 지시에 따라, 에이전트는 잘못된 작업이나 무효한 작업을 반성하고, 작업이 완료되면 작업을 중지합니다.

전반적으로, 모바일 에이전트 프레임워크의 기여는 다음과 같이 요약할 수 있습니다.

모바일 에이전트는 시각적 인식 도구를 사용하여 작업의 위치를 지정하고, 단계적으로 계획하고, 반성합니다. 특히, 모바일 에이전트는 디바이스의 스크린샷만을 사용하여 작업을 수행하며, 시스템 코드 또는 XML 파일을 사용하지 않습니다.
모바일 에이전트는 모바일 디바이스 에이전트를 평가하기 위한 벤치마크인 모바일-이발을 도입했습니다. 이 벤치마크에는 10개의 가장 일반적인 모바일 애플리케이션이 포함되어 있으며, 각 애플리케이션에 대한 지능형 지시가 3개의 난이도 수준으로 분류되어 있습니다.

모바일 에이전트: 아키텍처 및 방법론

모바일 에이전트 프레임워크의 핵심은 상태에서 가장先進的な 다중 모드 대규모 언어 모델인 GPT-4V와 텍스트 감지 모듈을 포함합니다. GPT-4V와 함께, 모바일 에이전트는 아이콘 감지 모듈을 사용하여 아이콘의 위치를 지정합니다.

시각적 인식

앞서 언급한 대로, GPT-4V MLLM은 지시와 스크린샷에 대해 만족할 만한 결과를 제공하지만, 작업의 위치를 효과적으로 출력하지 못합니다. 이러한 제한으로 인해, GPT-4V 모델을 구현하는 모바일 에이전트 프레임워크는 작업의 위치를 지정하기 위해 외부 도구에 의존해야 합니다.

텍스트 위치 지정

모바일 에이전트 프레임워크는 텍스트의 위치를 지정하기 위해 OCR 도구를 구현합니다. 에이전트가 모바일 화면에 표시된 특정 텍스트를 터치해야 할 때, OCR은 해당 텍스트의 위치를 감지합니다. 텍스트 위치 지정에는 세 가지 고유한 시나리오가 있습니다.

시나리오 1: 지정된 텍스트가 감지되지 않음

문제: OCR이 지정된 텍스트를 감지하지 못할 수 있습니다. 이는 복잡한 이미지 또는 OCR의 제한으로 인해 발생할 수 있습니다.

응답: 에이전트에게 텍스트를 다시 선택하거나 다른 입력 방법을 사용하도록 지시합니다.

OCR의 오류를 수정하기 위해 텍스트를 다시 선택하거나, 다른 작업을 수행합니다.

이유: 이 유연성은 GPT-4V의 잠재적인 부정확성 또는 환각을 관리하기 위해 필요합니다.

시나리오 2: 지정된 텍스트의 단일 인스턴스 감지

작업: 감지된 텍스트 상자의 중심 좌표를 클릭하는 작업을 자동으로 생성합니다.

정당화: 단일 인스턴스가 감지되면, 올바른 식별의 가능성이 높아지므로, 직접적인 작업을 수행하는 것이 효율적입니다.

시나리오 3: 지정된 텍스트의 다중 인스턴스 감지

평가: 감지된 인스턴스의 수를 평가합니다.

많은 인스턴스: 화면이 유사한 내용으로杂乱합니다.

작업: 에이전트에게 텍스트를 다시 선택하거나 검색 매개변수를 조정하도록 지시합니다.

적은 인스턴스: 감지된 인스턴스의 수가 적습니다.

작업: 해당 인스턴스 주변의 영역을 자르고, 텍스트 감지 상자를 확장하여 추가적인 컨텍스트를 캡처합니다.

다음 단계: 자른 이미지에 감지 상자를 그리고, 에이전트에게 이를 표시합니다. 이는 에이전트가 작업을 수행하는 데 도움이 됩니다.

이 구조화된 접근 방식은 OCR 결과와 에이전트 작업 사이의 상호작용을 최적화하며, 시스템의 신뢰성과 다양한 시나리오에서 작업을 처리하는 능력을 향상시킵니다.

아이콘 위치 지정

모바일 에이전트 프레임워크는 아이콘의 위치를 지정하기 위해 아이콘 감지 도구를 구현합니다. 특히, 프레임워크는 에이전트에게 아이콘의 특정 속성(예: 모양, 색상)을 제공하도록 요청합니다. 그런 다음, 프레임워크는 Grounding DINO 방법과 프롬프트 아이콘을 사용하여 스크린샷 내의 모든 아이콘을 식별합니다. 마지막으로, 모바일 에이전트는 CLIP 프레임워크를 사용하여 클릭 영역의 설명과 아이콘의 유사성을 계산하고, 가장 높은 유사성을 갖는 영역을 클릭합니다.

지시 실행

에이전트가 화면에서 작업을 수행하도록 하기 위해, 모바일 에이전트 프레임워크는 8가지 다른 작업을 정의합니다.

애플리케이션 실행 (애플리케이션 이름): 지정된 애플리케이션을 데스크톱 인터페이스에서 시작합니다.
텍스트 터치 (텍스트 레이블): 화면에서 “텍스트 레이블”을 표시하는 부분을 터치합니다.
아이콘 상호작용 (아이콘 설명, 위치): 지정된 아이콘 영역을 대상으로 하여, “아이콘 설명”은 아이콘의 속성(예: 색상, 모양)을 상세히 설명합니다. “위치”는 상단, 하단, 왼쪽, 오른쪽, 또는 중앙을 선택하여 精密한 탐색을 수행합니다.
텍스트 입력 (입력 텍스트): 활성화된 텍스트 필드에 주어진 “입력 텍스트”를 입력합니다.
스크롤 업 & 다운: 현재 페이지의 내용을 위아래로 탐색합니다.
뒤로 가기: 이전에 표시된 페이지로 돌아갑니다.
닫기: 현재 화면에서 데스크톱으로 직접 돌아갑니다.
중지: 작업이 완료되면 작업을 중지합니다.

자체 계획

모바일 에이전트 모델은 사용자 지시, 작업 기록, 및 시스템 프롬프트를 사용하여 다음 작업 단계를 생성합니다. 또한, 사용자는 각 반복의 시작 전에 입력 지시를 제공해야 하며, 프레임워크는 스크린샷을 캡처하여 에이전트에게 제공합니다.

자체 반성

에이전트는 작업을 수행하는 동안 오류를 마주할 수 있습니다. 이러한 오류는 작업을 성공적으로 수행하는 것을 방해할 수 있습니다. 작업 지시를 완수하기 위해, 자체 평가 접근 방식을 구현했습니다. 이는 두 가지 특정 상황에서 활성화됩니다. 첫째, 에이전트가 잘못된 작업을 수행하거나, 작업이 중지되면, 에이전트는 대체 작업이나 기존 작업의 매개변수를 조정하도록 지시받습니다. 둘째, 에이전트는 복잡한 지시에 일부 요소를 놓칠 수 있습니다. 에이전트가 초기 계획에 따라 일련의 작업을 수행한 후, 에이전트는 작업이 완료되었는지 평가하고, 사용자 지시와 최신 스크린샷을 검토합니다. 만약 차이가 있으면, 에이전트는 지시를 수행하기 위해 새로운 작업을 자동으로 생성합니다.

모바일 에이전트: 실험 및 결과

모바일 에이전트 프레임워크의 능력을全面적으로 평가하기 위해, 모바일 에이전트 프레임워크는 10개의 일반적인 애플리케이션으로 구성된 모바일-이발 벤치마크를 도입했습니다. 또한, 각 애플리케이션에 대해 3개의 지시를 설계했습니다. 첫 번째 작업은 기본적인 애플리케이션 작업만을 다룹니다. 두 번째 작업은 첫 번째 작업보다 조금 더 복잡하며, 추가적인 요구 사항이 있습니다. 세 번째 작업은 가장 복잡하며, 사용자가 명시적으로 애플리케이션 또는 작업을 지정하지 않은 추상적인 사용자 지시를 포함합니다.

또한, 모바일 에이전트 프레임워크는 다양한 관점에서 성능을 평가하기 위해 4개의 다른 지표를 설계하고 구현했습니다.

성공 또는 성공: 모바일 에이전트가 지시를 완료하면, 이것은 성공으로 간주됩니다.

프로세스 점수 또는 PS: 프로세스 점수 지표는 사용자 지시를 실행하는 동안 각 단계의 정확성을 측정하며, 올바른 단계의 수를 총 단계 수로 나눈 값입니다.

상대적 효율성 또는 RE: 상대적 효율성 점수는 인간이 지시를 수동으로 수행하는 데 필요한 단계 수와 에이전트가 동일한 지시를 수행하는 데 필요한 단계 수의 비율입니다.

완료율 또는 CR: 완료율 지표는 에이전트가 성공적으로 완료한 인간 운영 단계의 수를 인간이 지시를 완료하는 데 필요한 총 단계 수로 나눈 값입니다. CR의 값은 1일 때 에이전트가 지시를 성공적으로 완료하면 1이 됩니다.

결과는 다음 그림에示されて 있습니다.

초기적으로, 세 가지 작업에 대해, 모바일 에이전트는 각각 91%, 82%, 82%의 완료율을 달성했습니다. 모든 작업이 완벽하게 수행되지는 않았지만, 각 작업 범주에 대한 달성률은 90%를 초과했습니다. 또한, PS 지표는 모바일 에이전트가 세 가지 작업에서 모두 약 80%의 정확도를 보였으며, 높은 정확도의 작업을 수행할 수 있음을 보여줍니다. 또한, RE 지표에 따르면, 모바일 에이전트는 인간의 최적성 수준에서 작업을 수행하는 데 약 80%의 효율성을 보였습니다. 이러한 결과는 모바일 에이전트의 능력을 모바일 디바이스 어시스턴트로서 입증합니다.

다음 그림은 모바일 에이전트가 사용자 지시를 이해하고, 독립적으로 작업을 계획하는 능력을 보여줍니다. 사용자 지시에서 작업의詳細을 명시적으로 지정하지 않더라도, 모바일 에이전트는 사용자의 필요를 해석하고, 이를 작업으로 변환했습니다. 이후, 에이전트는 체계적인 계획 과정을 통해 지시를 수행했습니다.

최종 생각

이 기사에서, 모바일 에이전트에 대해 논의했습니다. 모바일 에이전트는 시각적 인식 기술을 사용하여 모바일 애플리케이션의 인터페이스에서 시각적 및 텍스트 요소를 정확하게 식별하고 위치를 지정하는 자율적 다중 모드 디바이스 에이전트입니다. 이 인식된 시각적 컨텍스트를 사용하여, 모바일 에이전트 프레임워크는 복잡한 작업을 자동으로 계획하고 분해하며, 단계별 작업을 통해 모바일 애플리케이션을 탐색합니다. 모바일 에이전트 프레임워크는 기존 솔루션과 달리 모바일 시스템 메타데이터 또는 모바일 애플리케이션의 XML 파일에 의존하지 않으므로, 다양한 모바일 운영 환경에서 더 나은 적응성을 제공할 수 있습니다. 모바일 에이전트 프레임워크가 사용하는 접근 방식은 시스템별 사용자 지정의 필요성을 제거하여 성능을 향상시키고 계산 요구를 줄입니다.