škrbina Mobile-Agents: Autonomni multimodalni agent za mobilne uređaje s vizualnom percepcijom - Unite.AI
Povežite se s nama

Umjetna inteligencija

Mobile-Agents: autonomni multimodalni mobilni uređaj agent s vizualnom percepcijom

mm

Objavljeno

 on

Pojava multimodalnih velikih jezičnih modela (MLLM) otvorila je novu eru agenata mobilnih uređaja, sposobnih za razumijevanje i interakciju sa svijetom putem teksta, slika i glasa. Ovi agenti označavaju značajan napredak u odnosu na tradicionalnu umjetnu inteligenciju, pružajući korisnicima bogatiji i intuitivniji način interakcije sa svojim uređajima. Korištenjem MLLM-a, ti agenti mogu obraditi i sintetizirati ogromne količine informacija iz različitih modaliteta, što im omogućuje da ponude personaliziranu pomoć i poboljšaju korisnička iskustva na načine koji su prije bili nezamislivi.

Ovi agenti pokreću se najsuvremenijim tehnikama strojnog učenja i naprednim mogućnostima obrade prirodnog jezika, što im omogućuje razumijevanje i generiranje ljudskog teksta, kao i tumačenje vizualnih i slušnih podataka s izuzetnom točnošću. Od prepoznavanja objekata i scena na slikama do razumijevanja izgovorenih naredbi i analize sentimenta teksta, ovi multimodalni agenti opremljeni su za besprijekorno rukovanje širokim rasponom unosa. Potencijal ove tehnologije je golem, nudi sofisticiranije i kontekstualno svjesnije usluge, kao što su virtualni pomoćnici usklađeni s ljudskim emocijama i obrazovni alati koji se prilagođavaju individualnim stilovima učenja. Također imaju potencijal revolucionirati pristupačnost, čineći tehnologiju pristupačnijom preko jezičnih i osjetilnih barijera.

U ovom ćemo članku govoriti o Mobile-Agents, autonomnom multimodalnom agentu za uređaje koji prvi iskorištava sposobnost alata za vizualnu percepciju da točno identificira i locira vizualne i tekstualne elemente s prednjim sučeljem mobilne aplikacije. Koristeći ovaj uočeni kontekst vizije, Mobile-Agent okvir planira i autonomno rastavlja složeni radni zadatak i kreće se kroz mobilne aplikacije kroz operacije korak po korak. Okvir Mobile-Agent razlikuje se od postojećih rješenja jer se ne oslanja na metapodatke mobilnog sustava ili XML datoteke mobilnih aplikacija, dopuštajući prostor za poboljšanu prilagodljivost u različitim mobilnim operativnim okruženjima na način usmjeren na viziju. Pristup koji slijedi okvir Mobile-Agent eliminira zahtjeve za prilagodbama specifičnim za sustav što rezultira poboljšanim performansama i nižim računalnim zahtjevima. 

Mobilni agenti: Autonomni multimodalni agent za mobilne uređaje

U brzom svijetu mobilne tehnologije, pionirski koncept pojavljuje se kao istaknuti: veliki jezični modeli, posebno multimodalni veliki jezični modeli ili MLLM koji mogu generirati široku lepezu teksta, slika, videa i govora na različitim jezicima. Brzi razvoj MLLM okvira u posljednjih nekoliko godina doveo je do nove i moćne primjene MLLM-a: autonomnih mobilnih agenata. Autonomni mobilni agenti softverski su entiteti koji djeluju, kreću se i funkcioniraju neovisno, bez potrebe za izravnim ljudskim naredbama, dizajnirani da prolaze kroz mreže ili uređaje radi izvršavanja zadataka, prikupljanja informacija ili rješavanja problema. 

Mobilni agenti dizajnirani su za upravljanje korisničkim mobilnim uređajem na temelju korisničkih uputa i vizualnih prikaza na ekranu, što je zadatak koji od agenata zahtijeva da posjeduju i semantičko razumijevanje i sposobnosti vizualne percepcije. Međutim, postojeći mobilni agenti daleko su od savršenih budući da se temelje na multimodalnim velikim jezičnim modelima, a čak i trenutno najsuvremeniji MLLM okviri uključujući GPT-4V nemaju sposobnosti vizualne percepcije potrebne da služe kao učinkovit mobilni agent. Nadalje, iako postojeći okviri mogu generirati učinkovite operacije, teško im je locirati položaj tih operacija na zaslonu, ograničavajući aplikacije i sposobnost mobilnih agenata da rade na mobilnim uređajima. 

Kako bi riješili ovaj problem, neki su okviri odlučili iskoristiti datoteke izgleda korisničkog sučelja kako bi pomogli GPT-4V ili drugim MLLM-ovima s mogućnostima lokalizacije, pri čemu su neki okviri uspjeli izdvojiti djelotvorne pozicije na zaslonu pristupanjem XML datotekama aplikacije, dok su drugi okviri odlučio koristiti HTML kod iz web aplikacija. Kao što se može vidjeti, većina ovih okvira oslanja se na pristup temeljnim i lokalnim aplikacijskim datotekama, čineći metodu gotovo neučinkovitom ako okvir ne može pristupiti tim datotekama. Kako bi riješili ovaj problem i eliminirali ovisnost lokalnih agenata o temeljnim datotekama o metodama lokalizacije, programeri su radili na Mobile-Agentu, autonomnom mobilnom agentu s impresivnim mogućnostima vizualne percepcije. Koristeći svoj modul vizualne percepcije, okvir Mobile-Agent koristi snimke zaslona s mobilnog uređaja za točno lociranje operacija. Modul vizualne percepcije sadrži OCR i modele detekcije koji su odgovorni za prepoznavanje teksta unutar zaslona i opisivanje sadržaja unutar određenog područja zaslona mobilnog telefona. Okvir Mobile-Agent koristi pažljivo izrađene upite i olakšava učinkovitu interakciju između alata i agenata, automatizirajući tako operacije mobilnog uređaja. 

Nadalje, okvir Mobile-Agents ima za cilj iskoristiti kontekstualne mogućnosti najsuvremenijih MLLM okvira kao što je GPT-4V kako bi se postigle sposobnosti samoplaniranja koje modelu omogućuju holističko planiranje zadataka na temelju povijesti operacija, korisničkih uputa i snimaka zaslona. Kako bi dodatno poboljšao sposobnost agenta da identificira nepotpune upute i pogrešne operacije, okvir Mobile-Agent uvodi metodu samorefleksije. Pod vodstvom pažljivo izrađenih upita, agent dosljedno razmišlja o netočnim i nevažećim operacijama i zaustavlja operacije nakon što se zadatak ili uputa dovrši. 

Sve u svemu, doprinosi okvira Mobile-Agent mogu se sažeti na sljedeći način:

  1. Mobile-Agent djeluje kao autonomni agent mobilnog uređaja, koristeći alate vizualne percepcije za lokalizaciju operacija. Metodički planira svaki korak i uključuje se u introspekciju. Naime, Mobile-Agent oslanja se isključivo na snimke zaslona uređaja, bez upotrebe bilo kakvog sistemskog koda, prikazujući rješenje koje se isključivo temelji na tehnikama vida.
  2. Mobile-Agent predstavlja Mobile-Eval, referentnu vrijednost osmišljenu za procjenu agenata mobilnih uređaja. Ovo mjerilo uključuje niz od deset najčešće korištenih mobilnih aplikacija, zajedno s inteligentnim uputama za te aplikacije, kategorizirane u tri razine težine.

Mobile-Agent : Arhitektura i metodologija

U svojoj srži, okvir Mobile-Agent sastoji se od vrhunske tehnologije Multimodalni model velikog jezika, GPT-4V, modul za detekciju teksta koji se koristi za zadatke lokalizacije teksta. Zajedno s GPT-4V, Mobile-Agent također koristi modul za otkrivanje ikona za lokalizaciju ikona. 

Vizualna percepcija

Kao što je ranije spomenuto, GPT-4V MLLM daje zadovoljavajuće rezultate za upute i snimke zaslona, ​​ali ne uspijeva učinkovito prikazati lokaciju na kojoj se odvijaju operacije. Zbog ovog ograničenja, okvir Mobile-Agent koji implementira model GPT-4V mora se oslanjati na vanjske alate za pomoć pri lokalizaciji operacija, čime se olakšava izlaz operacija na mobilnom zaslonu. 

Lokalizacija teksta

Okvir Mobile-Agent implementira OCR alat za otkrivanje položaja odgovarajućeg teksta na zaslonu kad god agent treba dodirnuti određeni tekst prikazan na zaslonu mobilnog telefona. Postoje tri jedinstvena scenarija lokalizacije teksta. 

Scenarij 1: Navedeni tekst nije otkriven

Problem: OCR ne uspijeva otkriti navedeni tekst, što se može dogoditi u složenim slikama ili zbog OCR ograničenja.

Odgovor: Uputite agenta da:

  • Ponovno odaberite tekst za dodirivanje, omogućujući ručnu ispravku previda OCR-a ili
  • Odaberite alternativnu operaciju, kao što je korištenje druge metode unosa ili izvođenje druge radnje relevantne za zadatak koji imate.

Rasuđivanje: Ova fleksibilnost je neophodna za upravljanje povremenim netočnostima ili halucinacijama GPT-4V, osiguravajući da agent i dalje može učinkovito nastaviti.

Scenarij 2: Otkrivena jedna instanca navedenog teksta

Operacija: Automatski generirajte radnju za klik na središnje koordinate otkrivenog tekstnog okvira.

Opravdanje: Sa samo jednom otkrivenom instancom, vjerojatnost ispravne identifikacije je velika, što čini učinkovitim nastaviti s izravnom radnjom.

Scenarij 3: Otkriveno više instanci navedenog teksta

Procjena: Prvo procijenite broj otkrivenih slučajeva:

Mnogi slučajevi: Označava zaslon pretrpan sličnim sadržajem, što komplicira proces odabira.

Akcijski: Zatražite od agenta da ponovno odabere tekst, s ciljem pročišćavanja odabira ili prilagođavanja parametara pretraživanja.

Nekoliko primjera: Broj otkrivanja kojim se može upravljati omogućuje nijansiraniji pristup.

Akcijski: Izrežite područja oko ovih instanci, proširujući okvire za otkrivanje teksta prema van kako biste uhvatili dodatni kontekst. Ovo proširenje osigurava očuvanje više informacija, što pomaže u donošenju odluka.

Sljedeći korak: Nacrtajte okvire za otkrivanje na izrezanim slikama i predočite ih agentu. Ova vizualna pomoć pomaže agentu u odlučivanju s kojom instancom komunicirati, na temelju kontekstualnih tragova ili zahtjeva zadatka.

Ovaj strukturirani pristup optimizira interakciju između OCR rezultata i operacija agenta, poboljšavajući pouzdanost sustava i prilagodljivost u rukovanju tekstualnim zadacima u različitim scenarijima. Cijeli proces prikazan je na sljedećoj slici.

Lokalizacija ikona

Okvir Mobile-Agent implementira alat za otkrivanje ikona za lociranje položaja ikone kada agent treba kliknuti na nju na zaslonu mobilnog telefona. Da budemo precizniji, okvir prvo traži od agenta da pruži specifične atribute slike uključujući oblik i boju, a zatim okvir implementira Grounding DINO metodu s ikonom odzivnika za identifikaciju svih ikona sadržanih na snimci zaslona. Konačno, Mobile-Agent koristi okvir CLIP za izračunavanje sličnosti između opisa regije klika, izračunava sličnost između izbrisanih ikona i odabire regiju s najvećom sličnošću za klik. 

Izvršenje instrukcija

Kako bi se radnje agenata prevele u radnje na zaslonu, okvir Mobile-Agent definira 8 različitih operacija. 

  • Pokreni aplikaciju (naziv aplikacije): Pokrenite naznačenu aplikaciju sa sučelja radne površine.
  • Dodirnite Tekst (tekstualna oznaka): Komunicirajte s dijelom zaslona koji prikazuje oznaku "Tekstualna oznaka".
  • Interakcija s ikonom (opis ikone, lokacija): Ciljajte i dodirnite određeno područje ikone, gdje "Opis ikone" daje detalje o atributima poput boje i oblika ikone. Odaberite "Lokaciju" među opcijama kao što su gore, dolje, lijevo, desno ili središte, po mogućnosti kombinirajući dvije za preciznu navigaciju i smanjenje pogrešaka.
  • Unesite tekst (Unos teksta): Unesite zadani "Tekst za unos" u aktivno tekstualno polje.
  • Pomicanje gore i dolje: Krećite se gore ili dolje kroz sadržaj trenutne stranice.
  • Idi natrag: Povratak na prethodno pregledanu stranicu.
  • Zatvoriti: Vratite se na radnu površinu izravno s trenutnog zaslona.
  • Jadan: Završite operaciju nakon što je zadatak izvršen.

Samoplaniranje

Okvir svaki korak operacije izvršava iterativno, a prije početka svake iteracije korisnik mora unijeti instrukciju za unos, a model Mobile-Agent koristi instrukciju za generiranje odziva sustava za cijeli proces. Nadalje, prije početka svake iteracije okvir snima snimku zaslona i šalje je agentu. Agent zatim promatra snimak zaslona, ​​povijest operacija i upite sustava za izlaz sljedećeg koraka operacija. 

Razmišljanje o sebi

Tijekom svojih operacija agent se može suočiti s pogreškama koje ga sprječavaju u uspješnom izvršavanju naredbe. Kako bi se povećala stopa ispunjavanja instrukcija, implementiran je pristup samoevaluacije, koji se aktivira pod dvije specifične okolnosti. U početku, ako agent izvrši pogrešnu ili nevažeću radnju koja zaustavlja napredak, primjerice kada prepozna da snimka zaslona ostaje nepromijenjena nakon operacije ili prikazuje netočnu stranicu, bit će usmjeren na razmatranje alternativnih radnji ili prilagođavanje parametara postojeće operacije. Drugo, agent bi mogao propustiti neke elemente složene direktive. Nakon što agent izvrši niz radnji na temelju svog početnog plana, od njega će se tražiti da pregleda svoj redoslijed radnji, najnoviju snimku zaslona i upute korisnika kako bi procijenio je li zadatak dovršen. Ako se pronađu nedosljednosti, agent ima zadatak samostalno generirati nove akcije za ispunjavanje direktive.

Mobilni agent: Eksperimenti i rezultati

Kako bi sveobuhvatno procijenio svoje sposobnosti, okvir Mobile-Agent uvodi mjerilo Mobile-Eval koje se sastoji od 10 često korištenih aplikacija i dizajnira tri upute za svaku aplikaciju. Prva operacija je jednostavna i pokriva samo osnovne operacije aplikacije, dok je druga operacija malo složenija od prve jer ima neke dodatne zahtjeve. Konačno, treća operacija je najsloženija od svih budući da sadrži apstraktne korisničke upute pri čemu korisnik ne navodi eksplicitno koju aplikaciju koristiti ili koju operaciju treba izvesti. 

Idući dalje, za procjenu izvedbe iz različitih perspektiva, okvir Mobile-Agent dizajnira i implementira 4 različite metrike. 

  • Su ili uspjeh: Ako mobilni agent ispuni upute, to se smatra uspjehom. 
  • Rezultat procesa ili PS: Metrika Process Score mjeri točnost svakog koraka tijekom izvršavanja korisničkih uputa, a izračunava se dijeljenjem broja ispravnih koraka s ukupnim brojem koraka. 
  • Relativna učinkovitost ili RE: Relativna ocjena učinkovitosti je omjer ili usporedba između broja koraka koji su potrebni čovjeku da ručno izvrši instrukciju i broja koraka koji su potrebni agentu da izvrši istu instrukciju. 
  • Stopa završetka ili CR: Metrika stope dovršetka dijeli broj koraka kojima upravlja čovjek i koje okvir uspješno dovrši s ukupnim brojem koraka koje je čovjek poduzeo da dovrši instrukciju. Vrijednost CR je 1 kada agent uspješno izvrši instrukciju. 

Rezultati su prikazani na sljedećoj slici. 

U početku, za tri zadana zadatka, mobilni agent postigao je stope dovršenosti od 91%, 82%, odnosno 82%. Iako nisu svi zadaci izvršeni besprijekorno, stope postignuća za svaku kategoriju zadataka premašile su 90%. Nadalje, PS metrika otkriva da mobilni agent dosljedno pokazuje visoku vjerojatnost izvršavanja točnih radnji za tri zadatka, sa stopama uspjeha oko 80%. Dodatno, prema RE metrici, Mobile-Agent pokazuje 80% učinkovitosti u izvođenju operacija na razini usporedivoj s ljudskom optimalnošću. Ovi rezultati zajedno naglašavaju stručnost mobilnog agenta kao pomoćnika mobilnog uređaja.

Sljedeća slika ilustrira sposobnost Mobile-Agenta da shvati korisničke naredbe i samostalno upravlja svojim radnjama. Čak i u nedostatku eksplicitnih pojedinosti o radu u uputama, Mobile-Agent je vješto interpretirao potrebe korisnika, pretvarajući ih u zadatke koji se mogu izvršiti. Slijedeći to razumijevanje, agent je izvršio upute putem sustavnog procesa planiranja.

Final Misli

U ovom smo članku govorili o Mobile-Agents, multimodalnom autonomnom agentu uređaja koji u početku koristi tehnologije vizualne percepcije za precizno otkrivanje i precizno određivanje vizualnih i tekstualnih komponenti unutar sučelja mobilne aplikacije. Imajući na umu ovaj vizualni kontekst, okvir Mobile-Agent autonomno ocrtava i rastavlja zamršene zadatke u upravljive radnje, glatko se krećući kroz mobilne aplikacije korak po korak. Ovaj se okvir izdvaja od postojećih metodologija jer ne ovisi o metapodacima mobilnog sustava ili XML datotekama mobilnih aplikacija, čime se omogućuje veća fleksibilnost u različitim mobilnim operativnim sustavima s fokusom na vizualno usmjerenu obradu. Strategija koju primjenjuje okvir Mobile-Agent uklanja potrebu za prilagodbama specifičnim za sustav, što dovodi do poboljšane učinkovitosti i smanjenih računalnih zahtjeva.

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.