Refresh

This website www.unite.ai/ku/mobile-agents-autonomous-multi-modal-mobile-device-agent-with-visual-perception/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

stub Nûnerên Mobîl: Nûnera Amûra Mobîl a Xweser Pir-modal Bi Têgihîştina Dîtbar - Unite.AI
Girêdana bi me

Îstîxbaratê ya sûnî

Mobîl-Agent: Nûnera Amûra Mobîl a Xweser a Pir-modal Bi Têgihîştina Dîtbar

mm

Published

 on

Hatina Modelên Zimanên Mezin ên Multimodal (MLLM) serdemek nû ya ajanên cîhaza mobîl destnîşan kiriye, ku dikarin bi navgîniya nivîs, wêne û deng bi cîhanê re têbigihîjin û bi hev re têkilî daynin. Van nûneran li ser AI-ya kevneşopî pêşkeftinek girîng nîşan didin, ji bo ku bikarhêner bi cîhazên xwe re têkilî daynin rêyek dewlemendtir û xwerû peyda dikin. Bi karanîna MLLM-ê, van ajan dikarin jimarek berfireh agahiyê ji modalîteyên cihêreng pêvajo bikin û berhev bikin, rê bidin wan ku arîkariya kesane pêşkêşî bikin û ezmûnên bikarhêner bi awayên ku berê nedihatin xeyalkirin zêde bikin.

Van ajanên bi destê dewletê-ji-the-art hêz fêrbûna makîneyê teknîk û pêşketî proseskirina zimanên xwezayî jêhatîbûn, rê dide wan ku têgihiştin û nivîsek mîna mirovî biafirînin, û hem jî daneyên dîtbarî û bihîstî bi rastiyek berbiçav şîrove bikin. Ji naskirina hêman û dîmenên di wêneyan de heya têgihîştina fermanên axaftinê û analîzkirina hesta nivîsê, van ajanên pirmodal têne saz kirin ku bi rengek bêkêmasî destwerdanek berfireh bigirin. Potansiyela vê teknolojiyê berfereh e, karûbarên sofîstîketir û haydartir pêşkêşî dike, wek arîkarên virtual ku bi hestên mirovî û amûrên perwerdehiyê yên ku bi şêwazên fêrbûna kesane ve girêdayî ne. Di heman demê de potansiyela wan heye ku şoreşa gihîştinê bikin, ku teknolojiyê li seranserê ziman û astengên hestî nêzîktir bikin.

Di vê gotarê de, em ê li ser Mobile-Agents bipeyivin, kargêrek amûrek pir-modal a xweser a ku pêşî jêhatîbûna amûrên têgihîştina dîtbarî bi kar tîne da ku hêmanên dîtbar û tekstî yên bi navbeynkariya pêş-dawiya serîlêdana mobîl re bi rengek rast nas bike û bibîne. Bi karanîna vê çarçoweya dîtinê ya têgihîştî, çarçoweya Mobîl-Agent peywira operasyonê ya tevlihev bi xweserî plan dike û vediqetîne, û di nav sepanên mobîl de bi navgîniya operasyonên gav bi gav rêve dibe. Çarçoveya Mobile-Agent ji çareseriyên heyî cûda dibe ji ber ku ew xwe dispêre metadata pergala mobîl an pelên XML yên sepanên desta, cîhê ji bo adaptasyona pêşkeftî di nav hawîrdorên cihêreng ên xebitandina mobîl de bi rengek navendek dîtbarî dihêle. Nêzîkatiya ku ji hêla çarçoweya Mobile-Agent ve tê şopandin, hewcedariya xwerûkirina pergalê-taybetî ku di encamê de performansa pêşkeftî, û hewcedariyên komputerê kêmtir dibe, ji holê radike. 

Mobîl-Ajans: Ajansê Amûra Mobîl a Xweser Pir-modal

Di cîhana bilez a teknolojiya mobîl de, têgehek pêşeng wekî serpêhatiyek derdikeve holê: Modelên Zimanên Mezin, nemaze Modelên Zimanên Mezin ên Pirrjimar an MLLM-yên ku dikarin rêzek berfireh ji nivîs, wêne, vîdyo û axaftinê li ser zimanên cihêreng biafirînin. Pêşkeftina bilez a çarçoveyên MLLM di çend salên çûyî de rê li ber serîlêdanek nû û bihêz a MLLM vekiriye: ajanên mobîl ên xweser. Nûnerên mobîl ên xweser sazûmanên nermalavê ne ku serbixwe tevdigerin, tevdigerin û kar dikin, bêyî ku hewcedariya fermanên rasterast ên mirovî hebe, ku ji bo derbaskirina toran an cîhazan hatine sêwirandin da ku peywiran pêk bînin, agahdarî berhev bikin, an pirsgirêkan çareser bikin. 

Nûnerên Mobîl ji bo xebitandina cîhaza mobîl a bikarhêner li ser bingeha rêwerzên bikarhêner û dîmenên dîmenderê hatine sêwirandin, peywirek ku pêdivî ye ku ajan xwedî hem têgihîştina semantîk û hem jî kapasîteyên têgihîştina dîtbarî bin. Lêbelê, ajansên mobîl ên heyî ji bêkêmasî dûr in ji ber ku ew li ser bingeha modelên zimanên mezin ên pir-modal in, û tewra çarçoveyên hunerî yên MLLM-ê yên heyî, tevî GPT-4V, kêmasiyên têgihîştina dîtbarî ne ku hewce ne ku wekî kargêrek karûbarê kar bikin. agent mobile. Digel vê yekê, her çend çarçoveyên heyî dikarin operasyonên bi bandor biafirînin, ew têdikoşin ku pozîsyona van operasyonan bi rengek rast li ser ekranê bi cih bikin, serîlêdan û şiyana ajanên mobîl ku li ser cîhazên mobîl tevdigerin sînordar dikin. 

Ji bo çareserkirina vê pirsgirêkê, hin çarçove hilbijart ku pelên sêwirana navbeynkariya bikarhêner bikar bînin da ku alîkariya GPT-4V an MLLM-yên din ên bi kapasîteyên herêmîbûnê re bikin, digel ku hin çarçeweyên ku bi gihîştina pelên XML yên serîlêdanê ve rêve dibin ku pozîsyonên çalak li ser ekranê derxînin. hilbijart ku koda HTML-ê ji serîlêdanên malperê bikar bîne. Wekî ku tê dîtin, piraniya van çarçoweyan bi gihîştina pelên serîlêdana bingehîn û herêmî ve girêdayî ne, heke çarçove nikaribe bigihîje van pelan, rêbaz hema hema bêbandor dike. Ji bo çareserkirina vê pirsgirêkê û rakirina girêdayîbûna ajanên herêmî bi pelên bingehîn ên li ser rêbazên herêmîkirinê, pêşdebiran li ser Mobile-Agent, kargêrek mobîl a xweser a xwedan kapasîteyên têgihîştina dîtbarî yên balkêş xebitîne. Bi karanîna modula xweya têgihîştina dîtbarî, çarçoweya Mobile-Agent dîmenên ji cîhaza mobîl bikar tîne da ku operasyonan rast bi cih bike. Modula têgihîştina dîtbar OCR û modelên tespîtkirinê vedihewîne ku berpirsiyar in ku nivîsê di hundurê ekranê de nas bikin û naverokê di nav herêmek taybetî ya ekrana mobîl de diyar bikin. Çarçoveya Mobil-Agent bi baldarî hatî çêkirin bi kar tîne û danûstendina bikêrhatî di navbera amûr û ajanan de hêsantir dike, bi vî rengî karûbarên cîhaza mobîl otomatîk dike. 

Digel vê yekê, çarçoweya Mobile-Agents armanc dike ku kapasîteyên çarçovê yên çarçoweyên MLLM-ya hunerî yên mîna GPT-4V bikar bîne da ku bigihîje kapasîteyên xwe-plansaziyê ku destûrê dide modelê ku li ser bingeha dîroka operasyonê, rêwerzên bikarhêner û dîmenên dîmenan bi tevahî plansaz bike. Ji bo zêdekirina kapasîteya ajansê ji bo naskirina rêwerzên netemam û operasyonên xelet, çarçoweya Mobile-Agent rêbazek xwe-refleksê destnîşan dike. Di bin rêberiya şîretên bi baldarî hatine çêkirin de, ajan bi domdarî li ser operasyonên nerast û nederbasdar radiweste, û gava ku kar an rêwerz qediya ye operasyonan rawestîne. 

Bi tevayî, beşdariyên çarçoweya Mobil-Agent dikare bi vî rengî were kurt kirin:

  1. Mobile-Agent wekî kargêrek cîhaza mobîl a xweser tevdigere, ku amûrên têgihîştina dîtbar bikar tîne da ku herêmîkirina operasyonê pêk bîne. Ew bi metodek her gavê plan dike û di hundurê xwe de tevdigere. Nemaze, Mobile-Agent bi taybetî xwe dispêre dîmenên cîhazê, bêyî karanîna kodek pergalê, çareseriyek ku bi tenê li ser teknîkên dîtinê ye destnîşan dike.
  2. Mobile-Agent Mobile-Eval destnîşan dike, pîvanek ku ji bo nirxandina ajanên cîhaza mobîl hatî çêkirin. Vê pîvanê cûrbecûr deh sepanên mobîl ên ku herî gelemperî têne bikar anîn, digel rêwerzên aqilmend ên ji bo van sepanan, di sê astên dijwariyê de têne categorîzekirin vedihewîne.

Mobile-Agent: Mîmarî û Rêbaz

Di bingeha xwe de, çarçoveya Mobile-Agent ji rewşek hunerî pêk tê Modela Ziman a Mezin a Multimodal, GPT-4V, modulek vedîtina nivîsê ku ji bo karên herêmîkirina nivîsê tê bikar anîn. Digel GPT-4V, Mobile-Agent ji bo cîhkirina îkonê modulek tespîtkirina îkonê jî bikar tîne. 

Têgihîştina Visual

Wekî ku berê hate behs kirin, GPT-4V MLLM ji bo rêwerz û dîmenan encamên têrker peyda dike, lê ew nekare cîhê ku operasyon lê diqewimin bi bandor derxe. Ji ber vê tixûbdarkirinê, çarçoweya Mobil-Agent ku modela GPT-4V bicîh tîne pêdivî ye ku xwe bispêre amûrên derveyî da ku alîkariya herêmîkirina operasyonê bike, bi vî rengî derketina operasyonan li ser ekrana mobîl hêsan bike. 

Herêmîkirina Nivîsar

Çarçoveya Mobile-Agent amûrek OCR-ê bicîh tîne da ku gava ku ajan pêdivî ye ku li ser nivîsarek taybetî ya ku li ser ekrana mobîl tê xuyang kirin, pozîsyona nivîsa têkildar li ser ekranê bibîne. Sê senaryoyên herêmîkirina nivîsê ya bêhempa hene. 

Senaryo 1: Nivîsarek diyarkirî nehat dîtin

Pirs: OCR nikare nivîsa diyarkirî, ku dibe ku di wêneyên tevlihev de an ji ber sînorên OCR-ê de çêbibe, nas bike.

Bersiv: Telîmat bide nûnerê ku:

  • Nivîsarê ji bo lêdanê ji nû ve hilbijêrin, ku rê bidin serrastkirina bi destan a çavdêriya OCR, an
  • Operasyonek alternatîf hilbijêrin, wek mînak bikaranîna rêbazek têketinê ya cûda an pêkanîna çalakiyek din a têkildar bi peywira li dest.

Bersivk: Ev nermbûn hewce ye ku meriv carinan carinan xeletî an halusînasyonên GPT-4V birêve bibe, û pê ewle bibe ku ajan hîn jî bi bandor bimeşe.

Senaryo 2: Yekane mînakek Nivîsara Diyarkirî Hat Tesbîtkirin

Emelî: Otomatîk çalakiyek çêbikin ku li ser hevrêzên navendî yên qutiya nivîsê ya naskirî bikirtînin.

Bersivkirinî: Digel ku tenê yek mînakek were tespît kirin, îhtîmala nasîna rast pir zêde ye, ku ew karîger e ku meriv bi çalakiyek rasterast bimeşe.

Senaryo 3: Gelek Nimûneyên Nivîsarên Diyarkirî Hatin Tesbîtkirin

Bellîkirinî: Pêşîn, hejmara bûyerên hatine tespîtkirin binirxînin:

Gelek Mînak: Dîmenderek ku bi naverokek bi heman rengî tevlihevkirî nîşan dide, pêvajoya hilbijartinê tevlihev dike.

action: Daxwaza ajanê bikin ku nivîsê ji nû ve hilbijêrin, armanc ew e ku vebijarkê safî bike an pîvanên lêgerînê rast bike.

Çend mînak: Hejmarek birêkûpêk a tespîtan rê dide nêzîkatiyek nuwaze.

action: Herêmên li dora van mînakan biçînin, qutiyên vedîtina nivîsê ber bi derve ve berfireh bikin da ku çarçoveyek din bigirin. Ev berfirehbûn piştrast dike ku bêtir agahdarî têne parastin, di biryargirtinê de dibe alîkar.

Pêveka din: Li ser wêneyên jêkirî qutiyên tespîtê xêz bikin û wan pêşkêşî ajan bikin. Ev arîkariya dîtbarî ji ajanê re dibe alîkar ku biryar bide ku bi kîjan nimûneyê re têkilî daynin, li ser bingeha îşaretên hevokî an hewcedariyên peywirê.

Vê nêzîkatiya sazkirî danûstendina di navbera encamên OCR û operasyonên ajansê de xweştir dike, pêbawerî û adaptasyona pergalê di birêvebirina peywirên-based nivîsê de di nav senaryoyên cihêreng de zêde dike. Tevahiya pêvajoyê di wêneya jêrîn de tê destnîşan kirin.

Icon Localization

Çarçoveya Mobile-Agent amûrek vedîtina îkonê pêk tîne da ku gava ku ajan pêdivî ye ku li ser ekrana mobîl li ser bikirtîne cihê îkonê bibîne. Ji bo ku bêtir taybetî be, çarçove pêşî ji ajanê daxwaz dike ku taybetmendiyên taybetî yên wêneyê tevî şekl û reng peyda bike, û dûv re çarçove rêbaza Grounding DINO bi îkona bilez re bicîh tîne da ku hemî îkonên ku di nav dîmenderê de hene nas bike. Paşan, Mobile-Agent çarçoweya CLIP-ê bi kar tîne da ku wekheviya di navbera danasîna herêma klîk de bihesibîne, û wekheviya di navbera îkonên jêbirin de hesab dike, û ji bo klîk devera ku wekheviya herî bilind e hildibijêre. 

Pêkanîna Instruction

Ji bo wergerandina kiryaran ji hêla ajanan ve li operasyonên li ser ekranê, çarçoveya Mobile-Agent 8 operasyonên cihêreng diyar dike. 

  • Serlêdana Destpêkirinê (Navê Serlêdanê): Serlêdana destnîşankirî ji navgîniya sermaseyê dest pê bikin.
  • Li ser Nivîsar (Nîşana Nivîsarê) bikirtînin: Bi beşa ekranê ya ku nîşana "Etîketa Nivîsê" nîşan dide re têkilî daynin.
  • Bi îkonê re têkilî daynin (Rêvekirina îkonê, Cih): Qada îkonê ya diyarkirî armanc bikin û bikirtînin, ku li wir "Rêvekirina îkonê" taybetmendiyên mîna reng û şiklê îkonê hûrgulî dike. Ji vebijarkên wekî jor, jêrîn, çep, rast, an navend "Cih" hilbijêrin, dibe ku ji bo navîgasyonek rastîn û kêmkirina xeletiyan duyan bi hev re bikin.
  • Nivîsê binivîse (Nivîsa Têketinê): "Texta Têketinê" ya hatî dayîn têxin qada nivîsa çalak.
  • Bigerin ser û jêr: Di nav naveroka rûpela heyî de ber bi jor an berjêr bigerin.
  • Min himbêz bike: Vegere rûpela berê hatî dîtin.
  • Nêzîkî: Vegere sermaseyê rasterast ji dîmendera heyî.
  • Rawestandin: Dema ku peywir biqede operasyonê biqedînin.

Xwe-Plansazkirin

Her gavê operasyonê ji hêla çarçovê ve bi dûbare tê darve kirin, û berî destpêka her dubarekirinê, ji bikarhêner tê xwestin ku rêwerzek têketinê peyda bike, û modela Mobile-Agent rêwerzê bikar tîne da ku ji bo tevahiya pêvajoyê bilezek pergalê çêbike. Wekî din, berî destpêkirina her dubarekirinê, çarçoveyek dîmenek dikişîne û wê ji ajansê re vedigire. Dûv re ajan dîmen, dîroka operasyonê, û pergalê dişopîne ku gava paşîn a operasyonan derxe. 

Xwe-Refleksiyon

Di dema operasyonên xwe de, dibe ku ajan bi xeletiyan re rû bi rû bimîne ku nehêle ku ew fermanek bi serfirazî bicîh bîne. Ji bo zêdekirina rêjeya bicihanîna talîmatê, nêzîkatiyek xwe-nirxandinê hatî sepandin, ku di bin du mercên taybetî de çalak dibe. Di destpêkê de, heke ajan çalakiyek xelet an nederbasdar ku pêşkeftinê rawestîne pêk bîne, wek mînak dema ku ew nas dike ku dîmenê piştî operasyonê neguhezîne an rûpelek nerast nîşan bide, ew ê were rêve kirin ku kiryarên alternatîf bifikire an pîvanên operasyona heyî rast bike. Ya duyemîn, dibe ku ajan hin hêmanên rêwerzek tevlihev winda bike. Gava ku ajan li ser bingeha plansaziya xweya destpêkê rêzek çalakiyan pêk anî, dê jê were xwestin ku rêzika çalakiya xwe, dîmena herî dawî, û rêwerznameya bikarhêner binirxîne da ku binirxîne ka peywir qediya ye. Ger nakokî werin dîtin, ajan tê peywirdar kirin ku bi xweber kiryarên nû çêbike da ku rêwerzê bicîh bîne.

Mobile-Agent: Ceribandin û Encam

Ji bo ku şiyanên xwe bi berfirehî binirxîne, çarçoveya Mobile-Agent pîvana Mobile-Eval ku ji 10 sepanên bi gelemperî têne bikar anîn pêk tê destnîşan dike, û ji bo her serîlêdanê sê rêwerzan sêwirîne. Operasyona yekem rasterast e, û tenê operasyonên serîlêdanê yên bingehîn vedigire lê operasyona duyemîn ji ya yekem hinekî tevlihevtir e ji ber ku hin hewcedariyên wê hene. Di dawiyê de, operasyona sêyem ji hemîyan tevlihevtir e ji ber ku ew rêwerzên bikarhênerek abstrakt dihewîne ku bikarhêner bi eşkere diyar nake ka kîjan sepanê bikar bîne an kîjan operasyonê bike. 

Bi rê ve diçin, ji bo nirxandina performansê ji perspektîfên cihêreng, çarçoweya Mobile-Agent 4 metrîkên cihêreng sêwirandin û bicîh tîne. 

  • Su an Serkeftin: Ger ajan-mobîl talîmatan biqedîne, ew serketî tê hesibandin. 
  • Encama pêvajoyê an PS: Metrîka Pêvajoya Pêvajoyê rastbûna her gavê di dema cîbicîkirina rêwerzên bikarhêner de dipîve, û ew bi dabeşkirina hejmara gavên rast li ser tevaya gavan tê hesibandin. 
  • Bandoriya Relatîf an RE: Pûana bikêrhatina nisbî rêjeyek an berhevdanek e di navbera hejmara gavên ku mirov jê re digire da ku talîmatê bi destan pêk bîne, û hejmara gavên ku ew digire ajan ji bo pêkanîna heman fermanê. 
  • Rêjeya Temambûnê an CR: Metrîka rêjeya qedandinê hejmara gavên ku ji hêla mirovan ve têne xebitandin ku çarçove bi serfirazî bi serketî diqedîne bi tevaya gavên ku ji hêla mirovek ve hatî avêtin ji bo temamkirina rêwerzan dabeş dike. Nirxa CR 1 e dema ku ajan talîmatê bi serfirazî temam dike. 

Encam di jimareya jêrîn de têne xuyang kirin. 

Di destpêkê de, ji bo sê peywirên hatine dayîn, Mobile-Agent bi rêzê ve rêjeyên qedandina% 91%, 82% û 82% gihîşt. Digel ku ne hemî peywir bi rengek bêkêmasî hatine bicîh kirin, rêjeyên destkeftiyê ji bo her kategoriya peywirê ji% 90 derbas kir. Wekî din, metrika PS-ê diyar dike ku Mobile-Agent bi domdarî îhtîmalek mezin a pêkanîna çalakiyên rast ji bo sê peywiran nîşan dide, bi rêjeyên serfiraziyê li dora 80%. Wekî din, li gorî metrîka RE, Mobile-Agent di pêkanîna operasyonan de di astek ku bi xweşbîniya mirovî re tê berhev kirin de 80% karîgerî nîşan dide. Van encaman bi hev re jêhatîbûna Mobile-Agent wekî arîkarek cîhaza mobîl destnîşan dikin.

Nîgara jêrîn kapasîteya Mobile-Agent destnîşan dike ku emrên bikarhêner bigire û bi serbixwe kiryarên xwe organîze bike. Tewra di nebûna hûrguliyên operasyonê yên eşkere di rêwerzan de, Mobile-Agent hewcedariyên bikarhêner bi jêhatî şîrove kir, wan veguherand karên çalak. Li dû vê têgihiştinê, ajan rêwerzan bi pêvajoyek plansaziya sîstematîkî pêk anî.

Thoughts Final

Di vê gotarê de me li ser Mobile-Agents, kargêrek amûrek xweser a pir-modal a ku di destpêkê de teknolojiyên têgihîştina dîtbarî bikar tîne da ku hem hêmanên dîtbar û hem jî tekstî di nav pêwendiya serîlêdanek mobîl de bi rastî kifş bike û destnîşan bike. Bi vê çarçoweya dîtbarî di hişê xwe de, çarçoweya Mobîl-Agent bi xweber xêz dike û peywirên tevlihev di nav kiryarên rêvebirinê de vediqetîne, bi hêsanî gav bi gav di nav sepanên mobîl de rêve dibe. Ev çarçove ji metodolojiyên heyî derdikeve ji ber ku ew ne girêdayî metadata pergala mobîl an pelên XML yên sepanên mobîl e, bi vî rengî nermbûnek mezin di nav pergalên xebitandinê yên cihêreng ên mobîl de bi hûrgulî li ser pêvajoya dîtbar-navendî hêsantir dike. Stratejiya ku ji hêla çarçoweya Mobile-Agent ve hatî xebitandin hewcedariya adaptasyonên pergalê-taybetî ji holê radike, ku rê li ber çêtirbûna kargêriyê û kêmkirina daxwazên hesabkirinê vedike.

"Bi pîşeyê endezyar, bi dil nivîskar". Kunal nivîskarek teknîkî ye ku bi evîn û têgihîştina kûr a AI û ML-ê ye, ku ji bo hêsankirina têgehên tevlihev di van waran de bi navgîniya belgeyên xwe yên balkêş û agahdar ve hatî veqetandin.