Kontakt z nami

Artificial Intelligence

Agenci mobilni: autonomiczny, multimodalny agent urządzeń mobilnych z percepcją wzrokową

mm

Opublikowany

 on

Pojawienie się wielomodalnych modeli wielkojęzycznych (MLLM) zapoczątkowało nową erę agentów urządzeń mobilnych, zdolnych do rozumienia świata i interakcji ze światem za pomocą tekstu, obrazów i głosu. Agenci ci stanowią znaczący postęp w porównaniu z tradycyjną sztuczną inteligencją, zapewniając użytkownikom bogatszy i bardziej intuicyjny sposób interakcji z urządzeniami. Wykorzystując MLLM, agenci ci mogą przetwarzać i syntetyzować ogromne ilości informacji pochodzących z różnych modalności, umożliwiając im oferowanie spersonalizowanej pomocy i ulepszanie doświadczeń użytkowników w sposób wcześniej niewyobrażalny.

Agenci ci korzystają z najnowocześniejszych technik uczenia maszynowego i zaawansowanych możliwości przetwarzania języka naturalnego, co pozwala im rozumieć i generować tekst przypominający ludzki, a także interpretować dane wizualne i dźwiękowe z niezwykłą dokładnością. Od rozpoznawania obiektów i scen na obrazach po rozumienie poleceń mówionych i analizowanie nastrojów w tekście – te multimodalne agenty są wyposażone tak, aby bezproblemowo obsługiwać szeroki zakres danych wejściowych. Potencjał tej technologii jest ogromny, oferując bardziej wyrafinowane i świadome kontekstowo usługi, takie jak wirtualni asystenci dostrojeni do ludzkich emocji i narzędzia edukacyjne dostosowujące się do indywidualnych stylów uczenia się. Mają także potencjał, aby zrewolucjonizować dostępność, czyniąc technologię bardziej dostępną ponad barierami językowymi i sensorycznymi.

W tym artykule będziemy mówić o Mobile-Agents, autonomicznym, multimodalnym agencie dla urządzeń, który w pierwszej kolejności wykorzystuje zdolność narzędzi do percepcji wizualnej w celu dokładnego identyfikowania i lokalizowania elementów wizualnych i tekstowych za pomocą interfejsu aplikacji mobilnej. Korzystając z tego postrzeganego kontekstu wizji, platforma Mobile-Agent planuje i rozkłada złożone zadania operacyjne w sposób autonomiczny oraz nawiguje po aplikacjach mobilnych poprzez operacje krok po kroku. Framework Mobile-Agent różni się od istniejących rozwiązań tym, że nie opiera się na metadanych systemu mobilnego ani plikach XML aplikacji mobilnych, co pozwala na lepszą adaptację w różnych mobilnych środowiskach operacyjnych w sposób skoncentrowany na wizji. Podejście stosowane w środowisku Mobile-Agent eliminuje wymagania dotyczące dostosowywania specyficznego dla systemu, co skutkuje zwiększoną wydajnością i niższymi wymaganiami obliczeniowymi. 

Agenci mobilni: autonomiczny, multimodalny agent urządzeń mobilnych

W szybko zmieniającym się świecie technologii mobilnej wyróżnia się pionierska koncepcja: modele wielkojęzykowe, zwłaszcza multimodalne modele wielkojęzykowe, czyli MLLM, zdolne do generowania szerokiej gamy tekstu, obrazów, filmów i mowy w różnych językach. Szybki rozwój struktur MLLM w ciągu ostatnich kilku lat doprowadził do nowego i potężnego zastosowania MLLM: autonomicznych agentów mobilnych. Autonomiczni agenci mobilni to jednostki oprogramowania, które działają, poruszają się i działają niezależnie, bez konieczności bezpośrednich poleceń człowieka, zaprojektowane do przeglądania sieci lub urządzeń w celu wykonywania zadań, zbierania informacji lub rozwiązywania problemów. 

Agenci mobilni są projektowani do obsługi urządzenia mobilnego użytkownika w oparciu o instrukcje użytkownika i wizualizacje na ekranie, co wymaga od agentów posiadania zarówno zrozumienia semantycznego, jak i zdolności percepcji wzrokowej. Jednakże istniejący agenci mobilni są dalecy od doskonałości, ponieważ opierają się na multimodalnych modelach dużych języków, a nawet w obecnym najnowocześniejszym środowisku MLLM, w tym GPT-4V, brakuje zdolności percepcji wizualnej wymaganych, aby służyć jako skuteczny agent mobilny. Co więcej, chociaż istniejące struktury mogą generować efektywne operacje, mają trudności z dokładnym zlokalizowaniem miejsca tych operacji na ekranie, co ogranicza aplikacje i zdolność agentów mobilnych do działania na urządzeniach mobilnych. 

Aby rozwiązać ten problem, niektóre frameworki zdecydowały się wykorzystać pliki układu interfejsu użytkownika, aby pomóc GPT-4V lub innym MLLM w możliwościach lokalizacyjnych, przy czym niektóre frameworki potrafią wyodrębnić przydatne pozycje na ekranie poprzez dostęp do plików XML aplikacji, podczas gdy inne frameworki zdecydowała się na użycie kodu HTML z aplikacji internetowych. Jak widać, większość tych frameworków opiera się na dostępie do bazowych i lokalnych plików aplikacji, co czyni tę metodę prawie nieskuteczną, jeśli framework nie może uzyskać dostępu do tych plików. Aby rozwiązać ten problem i wyeliminować zależność lokalnych agentów od plików bazowych od metod lokalizacji, programiści pracowali nad Mobile-Agent, autonomicznym agentem mobilnym z imponującymi możliwościami percepcji wizualnej. Wykorzystując moduł percepcji wizualnej, platforma Mobile-Agent wykorzystuje zrzuty ekranu z urządzenia mobilnego w celu dokładnego lokalizowania operacji. Moduł percepcji wizualnej zawiera modele OCR i detekcji, które odpowiadają za identyfikację tekstu na ekranie i opisanie treści w określonym obszarze ekranu mobilnego. Framework Mobile-Agent wykorzystuje starannie opracowane podpowiedzi i umożliwia efektywną interakcję pomiędzy narzędziami a agentami, automatyzując w ten sposób operacje na urządzeniach mobilnych. 

Co więcej, platforma Mobile-Agents ma na celu wykorzystanie możliwości kontekstowych najnowocześniejszych platform MLLM, takich jak GPT-4V, w celu uzyskania możliwości samoplanowania, które pozwalają modelowi na całościowe planowanie zadań w oparciu o historię operacji, instrukcje użytkownika i zrzuty ekranu. Aby jeszcze bardziej zwiększyć zdolność agenta do identyfikowania niekompletnych instrukcji i błędnych operacji, środowisko Mobile-Agent wprowadza metodę autorefleksji. Pod wpływem starannie opracowanych podpowiedzi agent konsekwentnie analizuje nieprawidłowe i nieprawidłowe operacje i wstrzymuje je po ukończeniu zadania lub instrukcji. 

Ogólnie rzecz biorąc, wkład platformy Mobile-Agent można podsumować w następujący sposób:

  1. Mobile-Agent pełni funkcję autonomicznego agenta urządzenia mobilnego, wykorzystującego narzędzia percepcji wizualnej do lokalizacji operacji. Metodycznie planuje każdy krok i angażuje się w introspekcję. Warto zauważyć, że Mobile-Agent opiera się wyłącznie na zrzutach ekranu urządzeń, bez użycia żadnego kodu systemowego, prezentując rozwiązanie oparte wyłącznie na technikach wizyjnych.
  2. Mobile-Agent wprowadza Mobile-Eval, benchmark zaprojektowany do oceny agentów na urządzeniach mobilnych. Ten test porównawczy obejmuje dziesięć najczęściej używanych aplikacji mobilnych wraz z inteligentnymi instrukcjami dla tych aplikacji, podzielonymi na trzy poziomy trudności.

Mobile-Agent: architektura i metodologia

W swej istocie środowisko Mobile-Agent składa się z najnowocześniejszego rozwiązania Multimodalny model wielkojęzykowy, GPT-4V, moduł wykrywania tekstu używany do zadań lokalizacji tekstu. Oprócz GPT-4V, Mobile-Agent wykorzystuje również moduł wykrywania ikon w celu lokalizacji ikon. 

Percepcja wzrokowa

Jak wspomniano wcześniej, GPT-4V MLLM zapewnia zadowalające wyniki w zakresie instrukcji i zrzutów ekranu, ale nie pozwala efektywnie określić lokalizacji, w której odbywają się operacje. Z powodu tego ograniczenia platforma Mobile-Agent wdrażająca model GPT-4V musi opierać się na narzędziach zewnętrznych, które pomagają w lokalizacji operacji, ułatwiając w ten sposób wyświetlanie operacji na ekranie telefonu komórkowego. 

Lokalizacja tekstu

Framework Mobile-Agent implementuje narzędzie OCR, które wykrywa pozycję odpowiedniego tekstu na ekranie za każdym razem, gdy agent musi dotknąć określonego tekstu wyświetlanego na ekranie telefonu komórkowego. Istnieją trzy unikalne scenariusze lokalizacji tekstu. 

Scenariusz 1: Nie wykryto określonego tekstu

Kwestia: OCR nie wykrywa określonego tekstu, co może wystąpić w przypadku złożonych obrazów lub z powodu ograniczeń OCR.

Odpowiedź: Poinstruuj agenta, aby:

  • Wybierz ponownie tekst do podbicia, umożliwiając ręczną korektę niedopatrzenia OCR, lub
  • Wybierz alternatywną operację, na przykład użycie innej metody wprowadzania lub wykonanie innej czynności związanej z bieżącym zadaniem.

Rozumowanie: Ta elastyczność jest konieczna, aby poradzić sobie ze sporadycznymi niedokładnościami lub halucynacjami GPT-4V, zapewniając, że agent może nadal skutecznie działać.

Scenariusz 2: Wykryto pojedyncze wystąpienie określonego tekstu

Działanie: Automatycznie wygeneruj akcję kliknięcia środkowych współrzędnych wykrytego pola tekstowego.

Usprawiedliwienie: W przypadku wykrycia tylko jednego przypadku prawdopodobieństwo prawidłowej identyfikacji jest wysokie, co pozwala na podjęcie bezpośrednich działań.

Scenariusz 3: Wykryto wiele wystąpień określonego tekstu

Oszacowanie: Najpierw oceń liczbę wykrytych instancji:

Wiele przypadków: oznacza ekran zaśmiecony podobną zawartością, co komplikuje proces wyboru.

Akcja: Poproś agenta o ponowne zaznaczenie tekstu, mając na celu uściślenie wyboru lub dostosowanie parametrów wyszukiwania.

Kilka przypadków: Rozsądna liczba wykryć pozwala na bardziej zróżnicowane podejście.

Akcja: Przytnij regiony wokół tych wystąpień, rozszerzając pola wykrywania tekstu na zewnątrz, aby uchwycić dodatkowy kontekst. To rozszerzenie zapewnia zachowanie większej ilości informacji, co pomaga w podejmowaniu decyzji.

Następny krok: Narysuj pola wykrywania na przyciętych obrazach i pokaż je agentowi. Ta pomoc wizualna pomaga agentowi w podjęciu decyzji, z którą instancją należy wejść w interakcję, w oparciu o wskazówki kontekstowe lub wymagania dotyczące zadania.

To ustrukturyzowane podejście optymalizuje interakcję między wynikami OCR a operacjami agenta, zwiększając niezawodność systemu i możliwości adaptacji w obsłudze zadań tekstowych w różnych scenariuszach. Cały proces pokazano na poniższym obrazku.

Lokalizacja ikony

Platforma Mobile-Agent implementuje narzędzie do wykrywania ikon, które pozwala zlokalizować położenie ikony, gdy agent musi ją kliknąć na ekranie urządzenia mobilnego. Mówiąc dokładniej, framework najpierw żąda od agenta podania określonych atrybutów obrazu, w tym kształtu i koloru, a następnie framework implementuje metodę Grounding DINO z ikoną podpowiedzi w celu zidentyfikowania wszystkich ikon zawartych na zrzucie ekranu. Wreszcie, Agent mobilnyt wykorzystuje framework CLIP do obliczenia podobieństwa opisu obszaru kliknięcia, oblicza podobieństwo usuniętych ikon i wybiera region o największym podobieństwie dla kliknięcia. 

Wykonanie instrukcji

Aby przełożyć akcje na operacje na ekranie wykonywane przez agentów, framework Mobile-Agent definiuje 8 różnych operacji. 

  • Uruchom aplikację (nazwa aplikacji): Zainicjuj wyznaczoną aplikację z poziomu interfejsu pulpitu.
  • Stuknij w Tekst (etykieta tekstowa): Wejdź w interakcję z częścią ekranu wyświetlającą etykietę „Etykieta tekstowa”.
  • Interakcja z ikoną (opis ikony, lokalizacja): Wybierz i dotknij określonego obszaru ikon, gdzie „Opis ikony” zawiera szczegółowe informacje na temat atrybutów, takich jak kolor i kształt ikony. Wybierz „Lokalizacja” spośród opcji takich jak góra, dół, lewa, prawa lub środek, ewentualnie łącząc dwie w celu precyzyjnej nawigacji i ograniczenia błędów.
  • Wprowadź tekst (tekst wejściowy): Wpisz podany „Tekst wejściowy” w aktywnym polu tekstowym.
  • Przewiń w górę i w dół: Nawiguj w górę lub w dół po zawartości bieżącej strony.
  • Wróć: Wróć do poprzednio przeglądanej strony.
  • Blisko: Przejdź z powrotem na pulpit bezpośrednio z bieżącego ekranu.
  • Postój: Zakończ operację po wykonaniu zadania.

Samoplanowanie

Każdy etap operacji wykonywany jest iteracyjnie przez framework i przed rozpoczęciem każdej iteracji użytkownik jest zobowiązany do podania instrukcji wejściowej, a model Mobile-Agent wykorzystuje tę instrukcję do wygenerowania podpowiedzi systemowej dla całego procesu. Co więcej, przed rozpoczęciem każdej iteracji framework przechwytuje zrzut ekranu i przekazuje go agentowi. Następnie agent obserwuje zrzut ekranu, historię operacji i monity systemowe, aby wyświetlić kolejny etap operacji. 

Autorefleksja

Podczas swoich działań agent może napotkać błędy, które uniemożliwiają mu pomyślne wykonanie polecenia. Aby zwiększyć wskaźnik realizacji instrukcji, wdrożono podejście samooceny, aktywujące się w dwóch określonych okolicznościach. Początkowo, jeśli agent wykona wadliwą lub nieprawidłową akcję, która wstrzymuje postęp, na przykład gdy rozpozna, że ​​zrzut ekranu pozostaje niezmieniony po operacji lub wyświetla nieprawidłową stronę, zostanie poproszony o rozważenie alternatywnych działań lub dostosowanie parametrów istniejącej operacji. Po drugie, agent może pominąć pewne elementy złożonej dyrektywy. Gdy agent wykona serię działań w oparciu o początkowy plan, zostanie poproszony o przejrzenie sekwencji działań, najnowszego zrzutu ekranu i wskazówek użytkownika, aby ocenić, czy zadanie zostało wykonane. W przypadku wykrycia rozbieżności agent ma za zadanie samodzielnie wygenerować nowe działania w celu spełnienia dyrektywy.

Mobile-Agent: Eksperymenty i wyniki

Aby kompleksowo ocenić swoje możliwości, framework Mobile-Agent wprowadza test porównawczy Mobile-Eval składający się z 10 powszechnie używanych aplikacji i projektuje trzy instrukcje dla każdej aplikacji. Pierwsza operacja jest prosta i obejmuje jedynie podstawowe operacje aplikacji, natomiast druga operacja jest nieco bardziej złożona niż pierwsza, ponieważ ma pewne dodatkowe wymagania. Wreszcie trzecia operacja jest najbardziej złożona ze wszystkich, ponieważ zawiera abstrakcyjne instrukcje użytkownika, w których użytkownik nie określa wyraźnie, której aplikacji użyć ani jaką operację wykonać. 

Idąc dalej, aby ocenić wydajność z różnych perspektyw, platforma Mobile-Agent projektuje i implementuje 4 różne wskaźniki. 

  • Su lub sukces: Jeśli agent mobilny wykona instrukcje, uznaje się to za sukces. 
  • Wynik procesu lub PS: Metryka Wyniku Procesu mierzy dokładność każdego kroku podczas wykonywania instrukcji użytkownika i jest obliczana poprzez podzielenie liczby poprawnych kroków przez całkowitą liczbę kroków. 
  • Wydajność względna lub RE: Względny wynik wydajności to stosunek lub porównanie liczby kroków potrzebnych człowiekowi do ręcznego wykonania instrukcji z liczbą kroków potrzebnych agentowi do wykonania tej samej instrukcji. 
  • Wskaźnik ukończenia lub CR: Metryka współczynnika ukończenia dzieli liczbę kroków wykonywanych przez człowieka, które platforma pomyślnie ukończyła, przez całkowitą liczbę kroków wykonanych przez człowieka w celu wykonania instrukcji. Wartość CR wynosi 1, gdy agent pomyślnie wykona instrukcję. 

Wyniki przedstawiono na poniższym rysunku. 

Początkowo dla trzech zadanych zadań Mobile-Agent osiągał stopień realizacji odpowiednio 91%, 82% i 82%. Chociaż nie wszystkie zadania zostały wykonane bezbłędnie, wskaźniki realizacji w każdej kategorii zadań przekroczyły 90%. Co więcej, wskaźnik PS pokazuje, że agent mobilny konsekwentnie wykazuje wysokie prawdopodobieństwo wykonania dokładnych działań w ramach trzech zadań, a wskaźnik powodzenia wynosi około 80%. Dodatkowo, według metryki RE, Mobile-Agent wykazuje 80% skuteczność w wykonywaniu operacji na poziomie porównywalnym z optymalnością człowieka. Wyniki te łącznie podkreślają biegłość agenta mobilnego jako asystenta urządzenia mobilnego.

Poniższy rysunek ilustruje zdolność Mobile-Agenta do rozpoznawania poleceń użytkownika i niezależnego koordynowania jego działań. Nawet przy braku jednoznacznych szczegółów operacji w instrukcjach, Mobile-Agent umiejętnie zinterpretował potrzeby użytkownika, przekształcając je w możliwe do wykonania zadania. Kierując się tym zrozumieniem, agent wykonał instrukcje w drodze systematycznego procesu planowania.

Final Thoughts

W tym artykule mówiliśmy o Mobile-Agents, multimodalnym autonomicznym agencie urządzenia, który początkowo wykorzystuje technologie percepcji wizualnej do precyzyjnego wykrywania i identyfikowania komponentów wizualnych i tekstowych w interfejsie aplikacji mobilnej. Mając na uwadze ten kontekst wizualny, platforma Mobile-Agent autonomicznie opisuje i dzieli skomplikowane zadania na możliwe do wykonania działania, płynnie poruszając się krok po kroku po aplikacjach mobilnych. Struktura ta różni się od istniejących metodologii, ponieważ nie jest zależna od metadanych systemu mobilnego ani plików XML aplikacji mobilnych, zapewniając w ten sposób większą elastyczność w różnych mobilnych systemach operacyjnych, ze szczególnym uwzględnieniem przetwarzania wizualnego. Strategia zastosowana w środowisku Mobile-Agent eliminuje potrzebę adaptacji specyficznych dla systemu, co prowadzi do poprawy wydajności i zmniejszenia wymagań obliczeniowych.

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.