Vernetzen Sie sich mit uns

KĂŒnstliche Intelligenz

Mobile-Agents: Autonomer multimodaler Agent fĂŒr mobile GerĂ€te mit visueller Wahrnehmung

mm

Das Aufkommen multimodaler großer Sprachmodelle (MLLM) hat eine neue Ära mobiler GerĂ€teagenten eingelĂ€utet, die in der Lage sind, die Welt ĂŒber Text, Bilder und Sprache zu verstehen und mit ihr zu interagieren. Diese Agenten stellen einen erheblichen Fortschritt gegenĂŒber herkömmlicher KI dar und bieten Benutzern eine umfassendere und intuitivere Möglichkeit, mit ihren GerĂ€ten zu interagieren. Durch die Nutzung von MLLM können diese Agenten große Mengen an Informationen aus verschiedenen ModalitĂ€ten verarbeiten und synthetisieren und so personalisierte UnterstĂŒtzung anbieten und die Benutzererfahrung auf bisher unvorstellbare Weise verbessern.

Diese Agenten basieren auf modernsten maschinellen Lerntechniken und fortschrittlichen Funktionen zur Verarbeitung natĂŒrlicher Sprache, sodass sie menschenĂ€hnliche Texte verstehen und generieren sowie visuelle und akustische Daten mit bemerkenswerter Genauigkeit interpretieren können. Von der Erkennung von Objekten und Szenen in Bildern ĂŒber das Verstehen gesprochener Befehle bis hin zur Analyse der Textstimmung sind diese multimodalen Agenten in der Lage, ein breites Spektrum an Eingaben nahtlos zu verarbeiten. Das Potenzial dieser Technologie ist enorm und bietet anspruchsvollere und kontextbewusstere Dienste, wie zum Beispiel virtuelle Assistenten, die auf menschliche Emotionen abgestimmt sind, und pĂ€dagogische Tools, die sich an individuelle Lernstile anpassen. Sie haben auch das Potenzial, die ZugĂ€nglichkeit zu revolutionieren und Technologie ĂŒber Sprach- und Sinnesbarrieren hinweg zugĂ€nglicher zu machen.

In diesem Artikel sprechen wir ĂŒber Mobile-Agents, einen autonomen multimodalen GerĂ€teagenten, der zunĂ€chst die FĂ€higkeit visueller Wahrnehmungstools nutzt, um die visuellen und textlichen Elemente mit der Front-End-Schnittstelle einer mobilen Anwendung genau zu identifizieren und zu lokalisieren. Unter Verwendung dieses wahrgenommenen Visionskontexts plant und zerlegt das Mobile-Agent-Framework die komplexe Betriebsaufgabe autonom und navigiert Schritt fĂŒr Schritt durch die mobilen Apps. Das Mobile-Agent-Framework unterscheidet sich von bestehenden Lösungen, da es nicht auf Metadaten mobiler Systeme oder XML-Dateien der mobilen Anwendungen angewiesen ist, was Raum fĂŒr eine verbesserte AnpassungsfĂ€higkeit an verschiedene mobile Betriebsumgebungen auf visionsorientierte Weise bietet. Der vom Mobile-Agent-Framework verfolgte Ansatz macht systemspezifische Anpassungen ĂŒberflĂŒssig, was zu einer verbesserten Leistung und geringeren Rechenanforderungen fĂŒhrt. 

Mobile-Agents: Autonomer multimodaler Agent fĂŒr mobile GerĂ€te

In der schnelllebigen Welt der mobilen Technologie sticht ein bahnbrechendes Konzept hervor: Große Sprachmodelle, insbesondere multimodale große Sprachmodelle oder MLLMs, die in der Lage sind, eine breite Palette von Texten, Bildern, Videos und Sprache in verschiedenen Sprachen zu generieren. Die rasante Entwicklung von MLLM-Frameworks in den letzten Jahren hat zu einer neuen und leistungsstarken Anwendung von MLLMs gefĂŒhrt: autonome mobile Agenten. Autonome mobile Agenten sind Softwareeinheiten, die unabhĂ€ngig agieren, sich bewegen und funktionieren, ohne dass direkte menschliche Befehle erforderlich sind, und die dazu konzipiert sind, Netzwerke oder GerĂ€te zu durchqueren, um Aufgaben zu erledigen, Informationen zu sammeln oder Probleme zu lösen. 

Mobile Agents dienen dazu, das mobile GerĂ€t des Benutzers auf der Grundlage der Benutzeranweisungen und der Bildschirmvisualisierungen zu bedienen. Diese Aufgabe erfordert, dass die Agenten sowohl ĂŒber semantisches VerstĂ€ndnis als auch ĂŒber visuelle WahrnehmungsfĂ€higkeiten verfĂŒgen. Bestehende mobile Agenten sind jedoch alles andere als perfekt, da sie auf multimodalen großen Sprachmodellen basieren, und selbst den aktuellen hochmodernen MLLM-Frameworks, einschließlich GPT-4V, fehlen die visuellen WahrnehmungsfĂ€higkeiten, die fĂŒr eine effiziente Funktion erforderlich sind mobiler Agent. DarĂŒber hinaus können bestehende Frameworks zwar effektive VorgĂ€nge generieren, haben jedoch Schwierigkeiten, die Position dieser VorgĂ€nge genau auf dem Bildschirm zu lokalisieren, was die Anwendungen und die FĂ€higkeit mobiler Agenten, auf mobilen GerĂ€ten zu arbeiten, einschrĂ€nkt. 

Um dieses Problem zu lösen, haben sich einige Frameworks dafĂŒr entschieden, die Layoutdateien der BenutzeroberflĂ€che zu nutzen, um GPT-4V oder andere MLLMs mit Lokalisierungsfunktionen zu unterstĂŒtzen, wobei einige Frameworks es schaffen, umsetzbare Positionen auf dem Bildschirm zu extrahieren, indem sie auf die XML-Dateien der Anwendung zugreifen, wĂ€hrend andere Frameworks es schaffen entschied sich fĂŒr die Verwendung des HTML-Codes aus den Webanwendungen. Wie man sieht, sind die meisten dieser Frameworks auf den Zugriff auf zugrunde liegende und lokale Anwendungsdateien angewiesen, was die Methode nahezu wirkungslos macht, wenn das Framework nicht auf diese Dateien zugreifen kann. Um dieses Problem anzugehen und die AbhĂ€ngigkeit lokaler Agenten von den zugrunde liegenden Dateien der Lokalisierungsmethoden zu beseitigen, haben Entwickler an Mobile-Agent gearbeitet, einem autonomen mobilen Agenten mit beeindruckenden visuellen WahrnehmungsfĂ€higkeiten. Mithilfe seines visuellen Wahrnehmungsmoduls verwendet das Mobile-Agent-Framework Screenshots vom MobilgerĂ€t, um VorgĂ€nge genau zu lokalisieren. Das visuelle Wahrnehmungsmodul enthĂ€lt OCR- und Erkennungsmodelle, die fĂŒr die Identifizierung von Text auf dem Bildschirm und die Beschreibung des Inhalts in einem bestimmten Bereich des mobilen Bildschirms verantwortlich sind. Das Mobile-Agent-Framework verwendet sorgfĂ€ltig gestaltete Eingabeaufforderungen und ermöglicht eine effiziente Interaktion zwischen den Tools und den Agenten, wodurch der Betrieb mobiler GerĂ€te automatisiert wird. 

DarĂŒber hinaus zielt das Mobile-Agents-Framework darauf ab, die kontextbezogenen FĂ€higkeiten moderner MLLM-Frameworks wie GPT-4V zu nutzen, um Selbstplanungsfunktionen zu erreichen, die es dem Modell ermöglichen, Aufgaben auf der Grundlage des Betriebsverlaufs, Benutzeranweisungen und Screenshots ganzheitlich zu planen. Um die FĂ€higkeit des Agenten, unvollstĂ€ndige Anweisungen und falsche VorgĂ€nge zu erkennen, weiter zu verbessern, fĂŒhrt das Mobile-Agent-Framework eine Selbstreflexionsmethode ein. Unter Anleitung sorgfĂ€ltig ausgearbeiteter Eingabeaufforderungen denkt der Agent kontinuierlich ĂŒber fehlerhafte und ungĂŒltige VorgĂ€nge nach und stoppt die VorgĂ€nge, sobald die Aufgabe oder Anweisung abgeschlossen ist. 

Insgesamt lassen sich die BeitrÀge des Mobile-Agent-Frameworks wie folgt zusammenfassen:

  1. Mobile-Agent fungiert als autonomer Agent fĂŒr MobilgerĂ€te und nutzt visuelle Wahrnehmungstools zur Lokalisierung von VorgĂ€ngen. Er plant jeden Schritt methodisch und fĂŒhrt Selbstbeobachtung durch. Mobile-Agent nutzt ausschließlich GerĂ€te-Screenshots und verzichtet auf den Einsatz von Systemcode. Damit prĂ€sentiert er eine Lösung, die rein auf visuellen Techniken basiert.
  2. Mobile-Agent stellt Mobile-Eval vor, einen Benchmark zur Bewertung von Agenten fĂŒr mobile GerĂ€te. Dieser Benchmark umfasst eine Auswahl der zehn am hĂ€ufigsten verwendeten mobilen Apps sowie intelligente Anleitungen fĂŒr diese Apps, kategorisiert in drei Schwierigkeitsstufen.

Mobile-Agent: Architektur und Methodik

Im Kern entspricht das Mobile-Agent-Framework dem neuesten Stand der Technik Multimodales großes Sprachmodell, das GPT-4V, ein Texterkennungsmodul, das fĂŒr Textlokalisierungsaufgaben verwendet wird. Neben GPT-4V verwendet Mobile-Agent auch ein Icon-Erkennungsmodul zur Icon-Lokalisierung. 

Visuelle Wahrnehmung

Wie bereits erwĂ€hnt, liefert das GPT-4V MLLM zufriedenstellende Ergebnisse fĂŒr Anweisungen und Screenshots, es gelingt ihm jedoch nicht, den Ort, an dem die VorgĂ€nge stattfinden, effektiv auszugeben. Aufgrund dieser EinschrĂ€nkung muss das Mobile-Agent-Framework, das das GPT-4V-Modell implementiert, auf externe Tools zurĂŒckgreifen, um die Lokalisierung von VorgĂ€ngen zu unterstĂŒtzen und so die Ausgabe von VorgĂ€ngen auf dem mobilen Bildschirm zu erleichtern. 

Textlokalisierung

Das Mobile-Agent-Framework implementiert ein OCR-Tool, um die Position des entsprechenden Textes auf dem Bildschirm zu erkennen, wann immer der Agent auf einen bestimmten Text tippen muss, der auf dem mobilen Bildschirm angezeigt wird. Es gibt drei einzigartige Textlokalisierungsszenarien. 

Szenario 1: Kein angegebener Text erkannt

Problem: Die OCR erkennt den angegebenen Text nicht, was bei komplexen Bildern oder aufgrund von OCR-EinschrÀnkungen der Fall sein kann.

Antwort: Weisen Sie den Agenten an, entweder:

  • WĂ€hlen Sie den Text erneut aus, um ihn zu antippen und eine manuelle Korrektur des OCR-Fehlers zu ermöglichen, oder
  • WĂ€hlen Sie einen alternativen Vorgang, z. B. die Verwendung einer anderen Eingabemethode oder das AusfĂŒhren einer anderen Aktion, die fĂŒr die jeweilige Aufgabe relevant ist.

Argumentation: Diese FlexibilitÀt ist notwendig, um gelegentliche Ungenauigkeiten oder Halluzinationen von GPT-4V zu bewÀltigen und sicherzustellen, dass der Agent weiterhin effektiv vorgehen kann.

Szenario 2: Einzelne Instanz des angegebenen Texts erkannt

Bedienung: Generieren Sie automatisch eine Aktion zum Klicken auf die Mittelkoordinaten des erkannten Textfelds.

Rechtfertigung: Da nur eine Instanz erkannt wird, ist die Wahrscheinlichkeit einer korrekten Identifizierung hoch, sodass es effizient ist, mit einer direkten Aktion fortzufahren.

Szenario 3: Mehrere Instanzen des angegebenen Texts erkannt

Bewertung: Bewerten Sie zunÀchst die Anzahl der erkannten Instanzen:

Viele Instanzen: Zeigt an, dass der Bildschirm mit Ă€hnlichen Inhalten ĂŒberfĂŒllt ist, was den Auswahlprozess erschwert.

Aktion: Bitten Sie den Agenten, den Text erneut auszuwÀhlen, um die Auswahl zu verfeinern oder die Suchparameter anzupassen.

Einige FĂ€lle: Eine ĂŒberschaubare Anzahl von Erkennungen ermöglicht eine differenziertere Vorgehensweise.

Aktion: Schneiden Sie die Bereiche um diese Instanzen zu und erweitern Sie die Texterkennungsfelder nach außen, um zusĂ€tzlichen Kontext zu erfassen. Durch diese Erweiterung wird sichergestellt, dass mehr Informationen erhalten bleiben, was die Entscheidungsfindung erleichtert.

NĂ€chster Schritt: Zeichnen Sie Erkennungsfelder auf die zugeschnittenen Bilder und prĂ€sentieren Sie sie dem Agenten. Diese visuelle UnterstĂŒtzung hilft dem Agenten bei der Entscheidung, mit welcher Instanz er interagieren möchte, basierend auf kontextuellen Hinweisen oder Aufgabenanforderungen.

Dieser strukturierte Ansatz optimiert die Interaktion zwischen OCR-Ergebnissen und Agentenoperationen und verbessert die ZuverlÀssigkeit und AnpassungsfÀhigkeit des Systems bei der Bearbeitung textbasierter Aufgaben in verschiedenen Szenarien. Der gesamte Prozess wird in der folgenden Abbildung veranschaulicht.

Symbollokalisierung

Das Mobile-Agent-Framework implementiert ein Symbolerkennungstool, um die Position eines Symbols zu lokalisieren, wenn der Agent auf dem mobilen Bildschirm darauf klicken muss. Genauer gesagt fordert das Framework den Agenten zunĂ€chst auf, bestimmte Attribute des Bildes bereitzustellen, einschließlich Form und Farbe, und implementiert dann die Grounding DINO-Methode mit dem Eingabeaufforderungssymbol, um alle im Screenshot enthaltenen Symbole zu identifizieren. Endlich, Mobile-Agent verwendet das CLIP-Framework, um die Ähnlichkeit zwischen der Beschreibung des Klickbereichs zu berechnen, berechnet die Ähnlichkeit zwischen den gelöschten Symbolen und wĂ€hlt den Bereich mit der höchsten Ähnlichkeit fĂŒr einen Klick aus. 

BefehlsausfĂŒhrung

Um die Aktionen der Agenten in Operationen auf dem Bildschirm umzusetzen, definiert das Mobile-Agent-Framework 8 verschiedene Operationen. 

  • Anwendung starten (App-Name): Starten Sie die gewĂŒnschte Anwendung ĂŒber die Desktop-OberflĂ€che.
  • Tippen Sie auf Text (Textbeschriftung): Interagieren Sie mit dem Bildschirmbereich, in dem die Beschriftung „Textbeschriftung“ angezeigt wird.
  • Mit dem Symbol interagieren (Symbolbeschreibung, Position): Zielen Sie auf den angegebenen Symbolbereich und tippen Sie darauf, wo unter „Symbolbeschreibung“ Attribute wie Farbe und Form des Symbols aufgefĂŒhrt sind. WĂ€hlen Sie „Standort“ aus Optionen wie „Oben“, „Unten“, „Links“, „Rechts“ oder „Mitte“ und kombinieren Sie möglicherweise zwei fĂŒr eine prĂ€zise Navigation und um Fehler zu reduzieren.
  • Text eingeben (Eingabetext): Geben Sie den angegebenen „Eingabetext“ in das aktive Textfeld ein.
  • Nach oben und unten scrollen: Navigieren Sie nach oben oder unten durch den Inhalt der aktuellen Seite.
  • Geh zurĂŒck: Kehren Sie zur zuvor angezeigten Seite zurĂŒck.
  • Close: Navigieren Sie direkt vom aktuellen Bildschirm zurĂŒck zum Desktop.
  • Lahm: Schließen Sie den Vorgang ab, sobald die Aufgabe erledigt ist.

Selbstplanung

Jeder Schritt der Operation wird vom Framework iterativ ausgefĂŒhrt, und vor Beginn jeder Iteration muss der Benutzer eine Eingabeanweisung bereitstellen, und das Mobile-Agent-Modell verwendet die Anweisung, um eine Systemaufforderung fĂŒr den gesamten Prozess zu generieren. DarĂŒber hinaus erfasst das Framework vor Beginn jeder Iteration einen Screenshot und leitet ihn an den Agenten weiter. Der Agent beobachtet dann den Screenshot, den Vorgangsverlauf und die Systemaufforderungen, um den nĂ€chsten Schritt der VorgĂ€nge auszugeben. 

Selbstreflexion

WĂ€hrend seiner Operationen kann der Agent auf Fehler stoßen, die ihn an der erfolgreichen AusfĂŒhrung eines Befehls hindern. Um die AnweisungserfĂŒllungsrate zu verbessern, wurde ein Selbstevaluierungsansatz implementiert, der unter zwei bestimmten UmstĂ€nden aktiviert wird. FĂŒhrt der Agent eine fehlerhafte oder ungĂŒltige Aktion aus, die den Fortschritt stoppt (z. B. wenn er erkennt, dass der Screenshot nach der Operation unverĂ€ndert bleibt oder eine falsche Seite anzeigt), wird er angewiesen, alternative Aktionen in Betracht zu ziehen oder die Parameter der bestehenden Operation anzupassen. Zweitens kann es vorkommen, dass der Agent einige Elemente einer komplexen Anweisung ĂŒbersieht. Nachdem der Agent eine Reihe von Aktionen basierend auf seinem ursprĂŒnglichen Plan ausgefĂŒhrt hat, wird er aufgefordert, seine Aktionssequenz, den letzten Screenshot und die Anweisung des Benutzers zu ĂŒberprĂŒfen, um festzustellen, ob die Aufgabe abgeschlossen wurde. Werden Unstimmigkeiten festgestellt, wird der Agent beauftragt, selbststĂ€ndig neue Aktionen zu generieren, um die Anweisung zu erfĂŒllen.

Mobile-Agent: Experimente und Ergebnisse

Um seine FĂ€higkeiten umfassend zu bewerten, fĂŒhrt das Mobile-Agent-Framework den Mobile-Eval-Benchmark ein, der aus 10 hĂ€ufig verwendeten Anwendungen besteht, und entwirft drei Anweisungen fĂŒr jede Anwendung. Der erste Vorgang ist unkompliziert und deckt nur grundlegende AnwendungsvorgĂ€nge ab, wĂ€hrend der zweite Vorgang etwas komplexer als der erste ist, da er einige zusĂ€tzliche Anforderungen mit sich bringt. Schließlich ist die dritte Operation die komplexeste von allen, da sie abstrakte Benutzeranweisungen enthĂ€lt, bei denen der Benutzer nicht explizit angibt, welche App verwendet oder welche Operation ausgefĂŒhrt werden soll. 

Um die Leistung aus verschiedenen Perspektiven zu bewerten, entwirft und implementiert das Mobile-Agent-Framework vier verschiedene Metriken. 

  • Su oder Erfolg: Wenn der mobile Agent die Anweisungen ausfĂŒhrt, gilt dies als Erfolg. 
  • Prozessbewertung oder PS: Die Prozessbewertung misst die Genauigkeit jedes Schritts wĂ€hrend der AusfĂŒhrung der Benutzeranweisungen und wird berechnet, indem die Anzahl der korrekten Schritte durch die Gesamtzahl der Schritte dividiert wird. 
  • Relative Effizienz oder RE: Der relative Effizienzwert ist ein VerhĂ€ltnis oder Vergleich zwischen der Anzahl der Schritte, die ein Mensch benötigt, um die Anweisung manuell auszufĂŒhren, und der Anzahl der Schritte, die der Agent benötigt, um dieselbe Anweisung auszufĂŒhren. 
  • Abschlussrate oder CR: Die Abschlussratenmetrik dividiert die Anzahl der vom Menschen ausgefĂŒhrten Schritte, die das Framework erfolgreich abschließt, durch die Gesamtzahl der Schritte, die ein Mensch zum Abschließen der Anweisung unternimmt. Der Wert von CR ist 1, wenn der Agent die Anweisung erfolgreich abschließt. 

Die Ergebnisse sind in der folgenden Abbildung dargestellt. 

ZunĂ€chst erreichte der Mobile-Agent fĂŒr die drei gestellten Aufgaben Abschlussquoten von 91 %, 82 % bzw. 82 %. Obwohl nicht alle Aufgaben fehlerfrei ausgefĂŒhrt wurden, lag die Erfolgsquote fĂŒr jede Aufgabenkategorie bei ĂŒber 90 %. DarĂŒber hinaus zeigt die PS-Metrik, dass der Mobile-Agent fĂŒr die drei Aufgaben stets eine hohe Wahrscheinlichkeit aufweist, prĂ€zise Aktionen auszufĂŒhren, mit Erfolgsquoten von etwa 80 %. Laut der RE-Metrik weist der Mobile-Agent zudem eine Effizienz von 80 % bei der AusfĂŒhrung von VorgĂ€ngen auf einem Niveau auf, das mit der menschlichen OptimalitĂ€t vergleichbar ist. Diese Ergebnisse unterstreichen insgesamt die Kompetenz des Mobile-Agent als mobiler GerĂ€teassistent.

Die folgende Abbildung veranschaulicht die FĂ€higkeit des Mobile-Agenten, Benutzerbefehle zu erfassen und seine Aktionen selbststĂ€ndig zu orchestrieren. Auch ohne explizite Details in den Anweisungen interpretierte der Mobile-Agent die Benutzeranforderungen geschickt und setzte sie in umsetzbare Aufgaben um. Auf dieser Grundlage fĂŒhrte der Agent die Anweisungen mithilfe eines systematischen Planungsprozesses aus.

Abschließende Gedanken

In diesem Artikel haben wir ĂŒber Mobile-Agents gesprochen, einen multimodalen autonomen GerĂ€teagenten, der zunĂ€chst visuelle Wahrnehmungstechnologien nutzt, um sowohl visuelle als auch textuelle Komponenten innerhalb der BenutzeroberflĂ€che einer mobilen Anwendung prĂ€zise zu erkennen und zu lokalisieren. Mit diesem visuellen Kontext im Hinterkopf skizziert und zerlegt das Mobile-Agent-Framework die komplexen Aufgaben selbststĂ€ndig in ĂŒberschaubare Aktionen und ermöglicht so eine reibungslose Schritt-fĂŒr-Schritt-Navigation durch mobile Anwendungen. Dieses Framework hebt sich von bestehenden Methoden ab, da es nicht von den Metadaten des mobilen Systems oder den XML-Dateien der mobilen Apps abhĂ€ngt. Dadurch ermöglicht es eine grĂ¶ĂŸere FlexibilitĂ€t ĂŒber verschiedene mobile Betriebssysteme hinweg und konzentriert sich auf die visuell zentrierte Verarbeitung. Die vom Mobile-Agent-Framework verwendete Strategie macht systemspezifische Anpassungen ĂŒberflĂŒssig, was zu verbesserter Effizienz und geringerem Rechenaufwand fĂŒhrt.

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen VerstĂ€ndnis fĂŒr KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.