tynkä Mobiiliagentit: Autonominen multimodaalinen mobiililaiteagentti visuaalisella havainnolla - Unite.AI
Liity verkostomme!

Tekoäly

Mobiiliagentit: Autonominen multimodaalinen mobiililaiteagentti visuaalisella havainnolla

mm

Julkaistu

 on

Multimodaalisten suurten kielimallien (MLLM) tulo on käynnistänyt mobiililaitteiden agenttien uuden aikakauden, joka pystyy ymmärtämään maailmaa ja olemaan vuorovaikutuksessa sen kanssa tekstin, kuvien ja äänen avulla. Nämä agentit ovat merkittävä edistysaskel perinteiseen tekoälyyn verrattuna ja tarjoavat käyttäjille rikkaamman ja intuitiivisemman tavan olla vuorovaikutuksessa laitteidensa kanssa. Hyödyntämällä MLLM:ää, nämä agentit voivat käsitellä ja syntetisoida valtavia määriä tietoa eri muodoista, jolloin he voivat tarjota henkilökohtaista apua ja parantaa käyttäjäkokemusta tavoilla, joita aiemmin ei voinut kuvitella.

Nämä agentit käyttävät huippuluokan koneoppimistekniikoita ja kehittyneitä luonnollisen kielen prosessointiominaisuuksia, joiden avulla ne voivat ymmärtää ja luoda ihmisen kaltaista tekstiä sekä tulkita visuaalista ja kuulotietoa huomattavalla tarkkuudella. Nämä multimodaaliset agentit on varustettu käsittelemään saumattomasti monenlaisia ​​syötteitä aina kuvien kohteiden ja kohtausten tunnistamisesta puhuttujen komentojen ymmärtämiseen ja tekstin tunteiden analysointiin. Tämän teknologian potentiaali on valtava, ja se tarjoaa kehittyneempiä ja kontekstuaalisesti tietoisempia palveluita, kuten ihmisen tunteisiin virittyviä virtuaalisia avustajia ja yksilöllisiin oppimistyyliin mukautuvia opetusvälineitä. Niillä on myös potentiaalia mullistaa saavutettavuus tehden teknologiasta helpommin lähestyttävän kieli- ja aistiesteiden ylitse.

Tässä artikkelissa puhumme Mobile-Agentsista, autonomisesta multimodaalisesta laiteagentista, joka ensin hyödyntää visuaalisen havainnoinnin työkalujen kykyä tunnistaa ja paikantaa visuaaliset ja tekstielementit mobiilisovelluksen käyttöliittymän avulla tarkasti. Käyttämällä tätä havaittua visiokontekstia Mobile-Agent -kehys suunnittelee ja hajottaa monimutkaisen toimintatehtävän itsenäisesti ja navigoi mobiilisovelluksissa vaiheittaisten toimintojen kautta. Mobile-Agent -kehys eroaa olemassa olevista ratkaisuista, koska se ei ole riippuvainen mobiilijärjestelmien metadatan tai mobiilisovellusten XML-tiedostoista, mikä antaa tilaa parannetulle sopeutumiskyvylle erilaisissa mobiilikäyttöympäristöissä visiokeskeisellä tavalla. Mobile-Agent-kehyksen noudattama lähestymistapa eliminoi järjestelmäkohtaisten mukautusten vaatimuksen, mikä johtaa parempaan suorituskykyyn ja alhaisempiin laskentavaatimuksiin. 

Mobiiliagentit: Autonominen multimodaalinen mobiililaiteagentti

Mobiiliteknologian nopeatempoisessa maailmassa uraauurtava konsepti nousee esiin erottuvaksi joukoksi: suuret kielimallit, erityisesti multimodaaliset suuret kielimallit tai MLLM:t, jotka pystyvät tuottamaan laajan valikoiman tekstiä, kuvia, videoita ja puhetta eri kielillä. MLLM-kehysten nopea kehitys viime vuosina on synnyttänyt uuden ja tehokkaan MLLM-sovelluksen: autonomiset mobiiliagentit. Autonomiset mobiiliagentit ovat ohjelmistokokonaisuuksia, jotka toimivat, liikkuvat ja toimivat itsenäisesti ilman suoria ihmiskäskyjä ja jotka on suunniteltu kulkemaan verkkojen tai laitteiden läpi tehtävien suorittamiseksi, tietojen keräämiseksi tai ongelmien ratkaisemiseksi. 

Mobiiliagentit on suunniteltu ohjaamaan käyttäjän mobiililaitetta käyttäjän ohjeiden ja näytön visuaalien pohjalta, mikä tehtävä edellyttää agenteilta sekä semanttista ymmärrystä että visuaalisia havaintoja. Nykyiset mobiiliagentit eivät kuitenkaan ole läheskään täydellisiä, koska ne perustuvat multimodaalisiin suuriin kielimalleihin, ja jopa nykyisillä MLLM-kehyksillä, mukaan lukien GPT-4V, puuttuu visuaalinen havaintokyky, jota tarvitaan tehokkaana liikkuva agentti. Lisäksi vaikka olemassa olevat viitekehykset voivat tuottaa tehokkaita toimintoja, niillä on vaikeuksia paikantaa näiden toimintojen sijainti tarkasti näytöllä, mikä rajoittaa mobiiliagenttien sovelluksia ja kykyä toimia mobiililaitteissa. 

Tämän ongelman ratkaisemiseksi jotkin viitekehykset päättivät hyödyntää käyttöliittymän asettelutiedostoja auttamaan GPT-4V:tä tai muita lokalisointiominaisuuksia omaavia MLLM:itä, ja jotkut puitteet onnistuivat poimimaan toimivia paikkoja näytöllä käyttämällä sovelluksen XML-tiedostoja, kun taas toiset puitteet. päätti käyttää verkkosovellusten HTML-koodia. Kuten voidaan nähdä, suurin osa näistä kehyksistä luottaa taustalla olevien ja paikallisten sovellustiedostojen käyttöön, mikä tekee menetelmästä lähes tehottoman, jos kehys ei pääse käsiksi näihin tiedostoihin. Tämän ongelman ratkaisemiseksi ja paikallisten agenttien riippuvuuden poistamiseksi lokalisointimenetelmien taustalla olevista tiedostoista kehittäjät ovat työstäneet Mobile-Agentin, autonomisen mobiiliagentin, jolla on vaikuttavat visuaaliset havainnointiominaisuudet. Visuaalisen havaintomoduulinsa avulla Mobile-Agent-kehys käyttää mobiililaitteen kuvakaappauksia toimintojen paikantamiseen tarkasti. Visuaalinen havaintomoduuli sisältää tekstintunnistus- ja tunnistusmallit, jotka vastaavat tekstin tunnistamisesta näytössä ja sisällön kuvaamisesta mobiilinäytön tietyllä alueella. Mobile-Agent-kehys käyttää huolella laadittuja kehotteita ja mahdollistaa tehokkaan vuorovaikutuksen työkalujen ja agenttien välillä, mikä automatisoi mobiililaitteen toimintaa. 

Lisäksi Mobile-Agents-kehys pyrkii hyödyntämään huippuluokan MLLM-kehysten, kuten GPT-4V:n, kontekstuaalisia ominaisuuksia saavuttaakseen itsesuunnitteluominaisuudet, joiden avulla malli voi suunnitella tehtäviä kokonaisvaltaisesti toimintahistorian, käyttöohjeiden ja kuvakaappausten perusteella. Parantaakseen edelleen agentin kykyä tunnistaa puutteelliset ohjeet ja väärät toiminnot, Mobile-Agent-kehys ottaa käyttöön itseheijastusmenetelmän. Huolellisesti laadittujen kehotteiden ohjauksessa agentti pohtii virheellisiä ja virheellisiä toimintoja johdonmukaisesti ja pysäyttää toiminnot, kun tehtävä tai ohje on suoritettu. 

Kaiken kaikkiaan Mobile-Agent-kehyksen panokset voidaan tiivistää seuraavasti:

  1. Mobile-Agent toimii autonomisena mobiililaiteagenttina, joka käyttää visuaalisia havainnointityökaluja toiminnan lokalisointiin. Se suunnittelee järjestelmällisesti jokaisen askeleen ja harjoittaa itsetutkiskelua. Erityisesti Mobile-Agent luottaa yksinomaan laitteen kuvakaappauksiin ilman järjestelmäkoodia ja esittelee ratkaisun, joka perustuu puhtaasti visiotekniikoihin.
  2. Mobile-Agent esittelee Mobile-Evalin, vertailuarvon, joka on suunniteltu arvioimaan mobiililaitteiden agentteja. Tämä vertailuarvo sisältää joukon kymmentä yleisimmin käytettyä mobiilisovellusta sekä älykkäitä ohjeita näille sovelluksille, jotka on luokiteltu kolmeen vaikeustasoon.

Mobiiliagentti: Arkkitehtuuri ja metodologia

Pohjimmiltaan Mobile-Agent-kehys koostuu uusimmasta tekniikasta Multimodaalinen laajakielinen malli, GPT-4V, tekstintunnistusmoduuli, jota käytetään tekstin lokalisointitehtäviin. GPT-4V:n lisäksi Mobile-Agent käyttää myös kuvakkeiden tunnistusmoduulia kuvakkeiden lokalisointiin. 

Näköaisti

Kuten aiemmin mainittiin, GPT-4V MLLM antaa tyydyttävät tulokset ohjeista ja kuvakaappauksista, mutta se ei pysty tulostamaan toimintojen sijaintia tehokkaasti. Tästä rajoituksesta johtuen GPT-4V-mallia toteuttavan Mobile-Agent-kehyksen on turvauduttava ulkoisiin työkaluihin, jotka auttavat toiminnan lokalisoinnissa, mikä helpottaa toimintojen tulostamista mobiilinäytölle. 

Tekstin lokalisointi

Mobile-Agent-kehys toteuttaa OCR-työkalun, joka havaitsee vastaavan tekstin sijainnin näytöllä aina, kun agentin täytyy napauttaa tiettyä mobiilinäytöllä näkyvää tekstiä. On olemassa kolme ainutlaatuista tekstin lokalisointiskenaariota. 

Skenaario 1: Ei määritettyä tekstiä havaittu

Ongelma: Tekstintunnistus ei havaitse määritettyä tekstiä, mikä voi esiintyä monimutkaisissa kuvissa tai OCR-rajoitusten vuoksi.

Vastaus: Neuvo agenttia joko:

  • Valitse napautettava teksti uudelleen, jotta OCR:n valvonta voidaan korjata manuaalisesti, tai
  • Valitse vaihtoehtoinen toiminto, kuten käyttämällä eri syöttötapaa tai suorittamalla jokin muu käsillä olevaan tehtävään liittyvä toiminto.

päättely: Tämä joustavuus on välttämätön GPT-4V:n satunnaisten epätarkkuuksien tai hallusinaatioiden hallitsemiseksi ja varmistaa, että aine voi silti toimia tehokkaasti.

Skenaario 2: Yksi määritetyn tekstin esiintymä havaittu

Käyttö: Luo automaattisesti toiminto napsauttaaksesi havaitun tekstiruudun keskikoordinaatteja.

Perustelut: Kun vain yksi tapaus havaitaan, oikean tunnistamisen todennäköisyys on korkea, joten suoran toimenpiteen suorittaminen on tehokasta.

Skenaario 3: Määritetyn tekstin useita esiintymiä havaittu

Arviointi: Arvioi ensin havaittujen tapausten määrä:

Monet tapaukset: Osoittaa, että näyttö on täynnä samanlaista sisältöä, mikä vaikeuttaa valintaprosessia.

Toiminta: Pyydä agenttia valitsemaan teksti uudelleen tavoitteena tarkentaa valintaa tai säätää hakuparametreja.

Muutama tapaus: Hallittavissa oleva ilmaisujen määrä mahdollistaa monipuolisemman lähestymistavan.

Toiminta: Rajaa näiden esiintymien ympärillä olevia alueita laajentamalla tekstintunnistusruutuja ulospäin saadaksesi lisäkontekstia. Tämä laajennus varmistaa, että tietoa säilyy enemmän, mikä auttaa päätöksenteossa.

Seuraava askel: Piirrä tunnistuslaatikot rajattuihin kuviin ja esitä ne agentille. Tämä visuaalinen apu auttaa agenttia päättämään, minkä ilmentymän kanssa hän on vuorovaikutuksessa kontekstuaalisten vihjeiden tai tehtävävaatimusten perusteella.

Tämä jäsennelty lähestymistapa optimoi OCR-tulosten ja agenttitoimintojen välisen vuorovaikutuksen, mikä parantaa järjestelmän luotettavuutta ja mukautumiskykyä tekstipohjaisten tehtävien käsittelyssä eri skenaarioissa. Koko prosessi on esitetty seuraavassa kuvassa.

Kuvakkeen lokalisointi

Mobile-Agent-kehys toteuttaa kuvakkeen tunnistustyökalun, joka paikantaa kuvakkeen sijainnin, kun agentin on napsautettava sitä mobiilinäytöllä. Tarkemmin sanottuna kehys pyytää ensin agenttia antamaan kuvan tietyt attribuutit, mukaan lukien muodon ja värin, ja sitten kehys toteuttaa Grounding DINO -menetelmän kehotekuvakkeella tunnistaakseen kaikki kuvakaappauksessa olevat kuvakkeet. Lopuksi, Mobile-Agent käyttää CLIP-kehystä laskeakseen napsautusalueen kuvauksen samankaltaisuuden, laskee poistettujen kuvakkeiden samankaltaisuuden ja valitsee alueen, jolla on suurin samankaltaisuus napsautuksella. 

Ohjeen toteutus

Mobiiliagenttikehys määrittelee 8 erilaista toimintoa, jotta agentit voivat muuntaa toiminnot näytöllä oleviksi toimiksi. 

  • Käynnistä sovellus (sovelluksen nimi): Käynnistä määritetty sovellus työpöydän käyttöliittymästä.
  • Napauta Teksti (tekstitunniste): Ole vuorovaikutuksessa sen näyttöosan kanssa, jossa on teksti "Tekstitarra".
  • Vuorovaikutus kuvakkeen kanssa (kuvakkeen kuvaus, sijainti): Kohdista ja napauta määritettyä kuvakealuetta, jossa "Kuvakkeen kuvaus" sisältää tietoja attribuuteista, kuten kuvakkeen väristä ja muodosta. Valitse "Sijainti" vaihtoehdoista, kuten ylhäältä, alhaalta, vasemmalta, oikealta tai keskeltä. Yhdistämällä mahdollisesti kaksi vaihtoehtoa tarkan navigoinnin ja virheiden vähentämiseksi.
  • Kirjoita teksti (syötä teksti): Syötä annettu "Syötä teksti" aktiiviseen tekstikenttään.
  • Vieritä ylös ja alas: Selaa ylös- tai alaspäin nykyisen sivun sisällössä.
  • Mene takaisin: Palaa aiemmin katsotulle sivulle.
  • Kiinni: Siirry takaisin työpöydälle suoraan nykyisestä näytöstä.
  • Pysäyttää: Päätä toimenpide, kun tehtävä on suoritettu.

Itsesuunnittelu

Kehys suorittaa toiminnon jokaisen vaiheen iteratiivisesti, ja ennen kunkin iteraation alkua käyttäjän on annettava syöttökäsky, ja Mobile-Agent-malli käyttää käskyä luodakseen järjestelmäkehotteen koko prosessille. Lisäksi kehys kaappaa kuvakaappauksen ja syöttää sen agentille ennen jokaisen iteraation alkua. Agentti tarkkailee sitten kuvakaappausta, toimintahistoriaa ja järjestelmäkehotteita toimintojen seuraavan vaiheen tulostamiseksi. 

Itse heijastus

Toiminnan aikana agentti saattaa kohdata virheitä, jotka estävät sitä suorittamasta komentoa onnistuneesti. Ohjeiden toteutumisasteen parantamiseksi on otettu käyttöön itsearviointitapa, joka aktivoituu kahdessa erityistilanteessa. Aluksi, jos agentti suorittaa virheellisen tai virheellisen toiminnon, joka pysäyttää edistymisen, esimerkiksi kun se tunnistaa, että kuvakaappaus pysyy muuttumattomana toiminnan jälkeen tai näyttää väärän sivun, se ohjataan harkitsemaan vaihtoehtoisia toimia tai säätämään olemassa olevan toiminnon parametreja. Toiseksi agentti saattaa jättää huomiotta joitain monimutkaisen direktiivin osia. Kun agentti on suorittanut sarjan toimintoja alkuperäisen suunnitelmansa perusteella, sitä pyydetään tarkistamaan toimintosarjansa, viimeisin kuvakaappaus ja käyttäjän ohje arvioidakseen, onko tehtävä suoritettu. Jos poikkeavuuksia havaitaan, agentin tehtävänä on luoda itsenäisesti uusia toimia direktiivin täyttämiseksi.

Mobiiliagentti: Kokeilut ja tulokset

Arvioidakseen kykyjään kokonaisvaltaisesti Mobile-Agent -kehys esittelee Mobile-Eval benchmarkin, joka koostuu 10 yleisesti käytetystä sovelluksesta ja suunnittelee kolme ohjetta kullekin sovellukselle. Ensimmäinen toiminto on yksinkertainen ja kattaa vain perussovellustoiminnot, kun taas toinen toiminto on hieman monimutkaisempi kuin ensimmäinen, koska sillä on joitain lisävaatimuksia. Lopuksi kolmas operaatio on monimutkaisin niistä kaikista, koska se sisältää abstrakteja käyttäjäohjeita, joissa käyttäjä ei nimenomaisesti määritä mitä sovellusta käyttää tai mitä toimintoa tulee suorittaa. 

Arvioidakseen suorituskykyä eri näkökulmista, Mobile-Agent -kehys suunnittelee ja toteuttaa 4 erilaista mittaria. 

  • Su tai menestys: Jos mobiiliagentti suorittaa ohjeet, sen katsotaan onnistuneen. 
  • Prosessipisteet tai PS: Process Score -metriikka mittaa kunkin vaiheen tarkkuutta käyttäjän ohjeiden suorittamisen aikana, ja se lasketaan jakamalla oikeiden vaiheiden lukumäärä vaiheiden kokonaismäärällä. 
  • Suhteellinen tehokkuus tai RE: Suhteellinen tehokkuuspiste on suhde tai vertailu askelmäärän välillä, joka ihmiseltä kuluu käskyn suorittamiseen manuaalisesti, ja niiden vaiheiden lukumäärän välillä, jotka agentti suorittaa saman käskyn suorittamiseen. 
  • Valmistumisaste tai CR: Valmistumisasteen metriikka jakaa ihmisen suorittamien vaiheiden määrän, jotka viitekehys suorittaa onnistuneesti, niiden vaiheiden kokonaismäärällä, jotka ihminen on suorittanut käskyn suorittamiseksi. CR:n arvo on 1, kun agentti suorittaa käskyn onnistuneesti. 

Tulokset on esitetty seuraavassa kuvassa. 

Aluksi mobiiliagentti saavutti kolmessa annetussa tehtävässä 91 %, 82 % ja 82 %. Vaikka kaikkia tehtäviä ei suoritettu virheettömästi, kunkin tehtäväluokan saavutusaste ylitti 90%. Lisäksi PS-mittari paljastaa, että Mobile-Agent osoittaa jatkuvasti suuren todennäköisyyden suorittaa tarkkoja toimia näissä kolmessa tehtävässä, ja onnistumisprosentti on noin 80 %. Lisäksi RE-metriikan mukaan Mobile-Agentin tehokkuus on 80 % toimintojen suorittamisessa ihmisen optimaalisuuteen verrattavissa olevalla tasolla. Nämä tulokset korostavat yhdessä Mobile-agentin pätevyyttä mobiililaitteen avustajana.

Seuraava kuva havainnollistaa Mobile-Agentin kykyä tarttua käyttäjän komentoihin ja ohjata toimintaansa itsenäisesti. Vaikka ohjeissa ei ollutkaan täsmällisiä toimintatietoja, Mobile-Agent tulkitsi taitavasti käyttäjän tarpeet ja muutti ne toimiviksi tehtäviksi. Tämän ymmärryksen mukaisesti agentti toteutti ohjeet systemaattisen suunnitteluprosessin kautta.

Loppuajatukset

Tässä artikkelissa olemme puhuneet Mobile-Agentsista, multimodaalisesta autonomisesta laiteagentista, joka käyttää aluksi visuaalisen havainnoinnin tekniikoita havaitakseen ja paikantaakseen tarkasti sekä visuaalisia että tekstikomponentteja mobiilisovelluksen käyttöliittymässä. Tämän visuaalisen kontekstin mielessä Mobile-Agent-kehys hahmottelee ja jakaa itsenäisesti monimutkaiset tehtävät hallittaviin toimintoihin ja liikkuu sujuvasti mobiilisovelluksissa askel askeleelta. Tämä kehys erottuu olemassa olevista menetelmistä, koska se ei ole riippuvainen mobiilijärjestelmän metatiedoista tai mobiilisovellusten XML-tiedostoista, mikä mahdollistaa suuremman joustavuuden eri mobiilikäyttöjärjestelmissä keskittyen visuaaliseen käsittelyyn. Mobile-Agent-kehyksen käyttämä strategia eliminoi järjestelmäkohtaisten mukautusten tarpeen, mikä parantaa tehokkuutta ja pienentää laskentavaatimuksia.

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.