stub Mobilieji agentai: autonominis daugiarūšis mobiliųjų įrenginių agentas su vizualiniu suvokimu – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

Mobilieji agentai: autonominis daugiarūšis mobiliųjų įrenginių agentas su vizualiniu suvokimu

mm

paskelbta

 on

Multimodalinių didelių kalbų modelių (MLLM) atsiradimas pradėjo naują mobiliųjų įrenginių agentų erą, galinčią suprasti pasaulį ir bendrauti su juo per tekstą, vaizdus ir balsą. Šie agentai žymi didelę pažangą, palyginti su tradiciniu AI, suteikdami vartotojams turtingesnį ir intuityvesnį būdą sąveikauti su savo įrenginiais. Naudodami MLLM, šie agentai gali apdoroti ir sintezuoti daugybę informacijos iš įvairių būdų, todėl jie gali pasiūlyti asmeninę pagalbą ir pagerinti vartotojo patirtį anksčiau neįsivaizduojamais būdais.

Šie agentai yra aprūpinti naujausiais mašininio mokymosi metodais ir pažangiomis natūralios kalbos apdorojimo galimybėmis, leidžiančiomis suprasti ir generuoti į žmogų panašų tekstą, taip pat nepaprastai tiksliai interpretuoti vaizdo ir klausos duomenis. Nuo objektų ir scenų atpažinimo vaizduose iki sakytinių komandų supratimo ir teksto jausmų analizės – šios daugiarūšės priemonės yra pritaikytos sklandžiai apdoroti daugybę įvesties duomenų. Šios technologijos potencialas yra didžiulis, nes ji siūlo sudėtingesnes ir kontekstą suvokiančias paslaugas, pvz., virtualius pagalbininkus, prisitaikančius prie žmogaus emocijų, ir mokymo priemones, prisitaikančias prie individualių mokymosi stilių. Jie taip pat gali pakeisti prieinamumą, todėl technologijos tampa lengviau pasiekiamos per kalbos ir jutimo kliūtis.

Šiame straipsnyje kalbėsime apie „Mobile-Agents“ – autonominį daugiarūšio įrenginio agentą, kuris pirmiausia išnaudoja vizualinio suvokimo įrankių gebėjimą tiksliai identifikuoti ir rasti vaizdinius ir tekstinius elementus naudojant mobiliosios programos priekinę sąsają. Naudodama šį suvokiamą vizijos kontekstą, „Mobile-Agent“ sistema savarankiškai planuoja ir išskaido sudėtingą operacijos užduotį ir naršo mobiliąsias programėles, atlikdama žingsnis po žingsnio operacijas. „Mobile-Agent“ sistema skiriasi nuo esamų sprendimų, nes ji nesiremia mobiliosios sistemos metaduomenimis arba mobiliųjų programų XML failais, o tai suteikia galimybę geriau prisitaikyti įvairiose mobiliosiose operacinėse aplinkose į viziją orientuotu būdu. „Mobile-Agent“ sistemos taikomas metodas pašalina konkrečių sistemos pritaikymų reikalavimą, dėl kurio padidėja našumas ir sumažėja skaičiavimo reikalavimai. 

Mobilieji agentai: autonominis daugiarūšis mobiliųjų įrenginių agentas

Sparčiame mobiliųjų technologijų pasaulyje išryškėja novatoriška koncepcija: didelių kalbų modeliai, ypač daugiarūšiai didelių kalbų modeliai arba MLLM, galintys generuoti platų teksto, vaizdų, vaizdo įrašų ir kalbos įvairovę įvairiomis kalbomis. Spartus MLLM sistemų vystymasis per pastaruosius kelerius metus paskatino naują ir galingą MLLM taikymą: autonominius mobiliuosius agentus. Savarankiški mobilieji agentai yra programinės įrangos subjektai, kurie veikia, juda ir veikia nepriklausomai, nereikalaujant tiesioginių žmogaus komandų, skirtų tinklams ar įrenginiams atlikti užduotis, rinkti informaciją ar spręsti problemas. 

Mobilieji agentai yra skirti valdyti naudotojo mobilųjį įrenginį, remiantis vartotojo instrukcijomis ir ekrano vaizdiniais elementais. Ši užduotis reikalauja, kad agentai turėtų tiek semantinio supratimo, tiek vizualinio suvokimo galimybes. Tačiau esami mobilieji agentai toli gražu nėra tobuli, nes jie yra pagrįsti daugiarūšiais didelių kalbų modeliais, ir net dabartinėse MLLM sistemose, įskaitant GPT-4V, trūksta vizualinio suvokimo gebėjimų, reikalingų efektyviam naudojimui. mobilusis agentas. Be to, nors esamos sistemos gali generuoti efektyvias operacijas, joms sunku tiksliai nustatyti šių operacijų vietą ekrane, o tai riboja mobiliųjų agentų programas ir galimybes veikti mobiliuosiuose įrenginiuose. 

Kad išspręstų šią problemą, kai kurios sistemos pasirinko panaudoti vartotojo sąsajos išdėstymo failus, kad padėtų GPT-4V ar kitiems MLLM, turintiems lokalizavimo galimybes, o kai kurios sistemos sugebėdavo išgauti tinkamas pozicijas ekrane, pasiekdamos programos XML failus, o kitos sistemos. pasirinko naudoti HTML kodą iš žiniatinklio programų. Kaip matyti, dauguma šių sistemų priklauso nuo prieigos prie pagrindinių ir vietinių programų failų, todėl metodas tampa beveik neveiksmingas, jei sistema negali pasiekti šių failų. Norėdami išspręsti šią problemą ir pašalinti vietinių agentų priklausomybę nuo pagrindinių failų, susijusių su lokalizavimo metodais, kūrėjai dirbo su „Mobile-Agent“, autonominiu mobiliuoju agentu, turinčiu įspūdingų vizualinio suvokimo galimybių. Naudodama savo vizualinio suvokimo modulį, Mobile-Agent sistema naudoja ekrano kopijas iš mobiliojo įrenginio, kad tiksliai nustatytų operacijų vietą. Vaizdo suvokimo modulyje yra OCR ir aptikimo modeliai, kurie yra atsakingi už teksto identifikavimą ekrane ir turinio apibūdinimą tam tikrame mobiliojo telefono ekrano regione. „Mobile-Agent“ sistema naudoja kruopščiai parengtus raginimus ir palengvina veiksmingą įrankių ir agentų sąveiką, taip automatizuojant mobiliojo įrenginio operacijas. 

Be to, mobiliųjų agentų sistema siekia panaudoti šiuolaikinių MLLM sistemų, tokių kaip GPT-4V, kontekstines galimybes, kad būtų galima savarankiškai planuoti, leidžiančią modeliui planuoti užduotis pagal operacijų istoriją, vartotojo instrukcijas ir ekrano kopijas visapusiškai. Siekiant dar labiau pagerinti agento gebėjimą atpažinti neišsamias instrukcijas ir neteisingas operacijas, Mobile-Agent sistema pristato savirefleksijos metodą. Vadovaudamasis kruopščiai parengtais raginimais, agentas nuosekliai apmąsto neteisingas ir netinkamas operacijas ir sustabdo operacijas, kai įvykdoma užduotis arba nurodymas. 

Apskritai mobiliojo agento sistemos indėlį galima apibendrinti taip:

  1. „Mobile-Agent“ veikia kaip savarankiškas mobiliojo įrenginio agentas, naudodamas vizualinio suvokimo įrankius operacijos lokalizavimui. Ji metodiškai planuoja kiekvieną žingsnį ir įsitraukia į savistabą. Pažymėtina, kad „Mobile-Agent“ remiasi tik įrenginio ekrano kopijomis, nenaudojant jokio sistemos kodo, ir demonstruoja sprendimą, pagrįstą tik regėjimo technikomis.
  2. „Mobile-Agent“ pristato „Mobile-Eval“ – etaloną, skirtą mobiliųjų įrenginių agentams įvertinti. Į šį etaloną įtraukta dešimt dažniausiai naudojamų mobiliųjų programų, taip pat išmaniosios šių programų instrukcijos, suskirstytos į tris sudėtingumo lygius.

Mobilusis agentas: architektūra ir metodika

Iš esmės mobiliojo agento sistemą sudaro naujausios technologijos Multimodalinis didžiosios kalbos modelis, GPT-4V, teksto aptikimo modulis, naudojamas teksto lokalizavimo užduotims atlikti. Kartu su GPT-4V, „Mobile-Agent“ taip pat naudoja piktogramų aptikimo modulį piktogramoms lokalizuoti. 

Vizualinis suvokimas

Kaip minėta anksčiau, GPT-4V MLLM pateikia patenkinamus instrukcijų ir ekrano kopijų rezultatus, tačiau nepavyksta efektyviai išvesti vietos, kurioje atliekamos operacijos. Dėl šio apribojimo mobiliojo agento sistema, įgyvendinanti GPT-4V modelį, turi pasikliauti išoriniais įrankiais, padedančiais lokalizuoti operaciją ir taip palengvinti operacijų išvestį mobiliojo telefono ekrane. 

Teksto lokalizavimas

Mobiliojo agento sistema įdiegia OCR įrankį, kad aptiktų atitinkamo teksto padėtį ekrane, kai agentui reikia bakstelėti konkretų tekstą, rodomą mobiliojo telefono ekrane. Yra trys unikalūs teksto lokalizavimo scenarijai. 

1 scenarijus: neaptikta jokio nurodyto teksto

Problema: OCR neaptinka nurodyto teksto, kuris gali atsirasti sudėtinguose vaizduose arba dėl OCR apribojimų.

Atsako: Nurodykite agentą:

  • Iš naujo pasirinkite tekstą, kurį norite bakstelėti, kad būtų galima rankiniu būdu ištaisyti OCR priežiūrą, arba
  • Pasirinkite alternatyvią operaciją, pvz., naudokite kitą įvesties metodą arba atlikite kitą veiksmą, susijusį su atliekama užduotimi.

Priežastys: Šis lankstumas būtinas norint valdyti atsitiktinius GPT-4V netikslumus ar haliucinacijas, užtikrinant, kad agentas vis dar galėtų veiksmingai veikti.

2 scenarijus: aptiktas vienas nurodyto teksto pavyzdys

Operacija: Automatiškai sugeneruokite veiksmą, kad spusteltumėte aptikto teksto laukelio centrines koordinates.

Pagrindimas: Aptikus tik vieną atvejį, teisingo identifikavimo tikimybė yra didelė, todėl efektyvu imtis tiesioginių veiksmų.

3 scenarijus: aptikti keli nurodyto teksto atvejai

Vertinimas: Pirmiausia įvertinkite aptiktų atvejų skaičių:

Daug atvejų: rodo, kad ekranas užgriozdintas panašiu turiniu, apsunkinantis atrankos procesą.

Veiksmas: Paprašykite agento iš naujo pasirinkti tekstą, siekiant patikslinti pasirinkimą arba pakoreguoti paieškos parametrus.

Keletas atvejų: Valdomas aptikimų skaičius leidžia taikyti išsamesnį požiūrį.

Veiksmas: Apkarpykite sritis aplink šiuos atvejus, išplėsdami teksto aptikimo laukelius į išorę, kad užfiksuotumėte papildomą kontekstą. Šis išplėtimas užtikrina, kad išsaugoma daugiau informacijos, padedanti priimti sprendimus.

Kitas žingsnis: Ant apkarpytų vaizdų nupieškite aptikimo langelius ir pateikite juos agentui. Ši vaizdinė pagalba padeda agentui nuspręsti, su kuriuo egzemplioriumi bendrauti, remiantis kontekstiniais įkalčiais arba užduoties reikalavimais.

Šis struktūrinis metodas optimizuoja OCR rezultatų ir agento operacijų sąveiką, padidindamas sistemos patikimumą ir gebėjimą prisitaikyti tvarkant tekstu pagrįstas užduotis įvairiuose scenarijuose. Visas procesas parodytas toliau pateiktame paveikslėlyje.

Piktogramų lokalizavimas

„Mobile-Agent“ sistema įgyvendina piktogramų aptikimo įrankį, leidžiantį nustatyti piktogramos vietą, kai agentui reikia spustelėti ją mobiliojo telefono ekrane. Konkrečiau kalbant, sistema pirmiausia prašo agento pateikti konkrečius vaizdo atributus, įskaitant formą ir spalvą, o tada sistema įgyvendina Grounding DINO metodą su raginimo piktograma, kad nustatytų visas ekrano kopijoje esančias piktogramas. Pagaliau, Mobile-Agent naudoja CLIP sistemą, kad apskaičiuotų paspaudimo srities aprašymo panašumą, apskaičiuoja ištrintų piktogramų panašumą ir pasirenka regioną, kurio paspaudimo panašumas yra didžiausias. 

Instrukcijos vykdymas

Norėdami paversti veiksmus agentų operacijomis ekrane, Mobile-Agent sistema apibrėžia 8 skirtingas operacijas. 

  • Paleisti programą (programos pavadinimas): Paleiskite nurodytą programą iš darbalaukio sąsajos.
  • Bakstelėkite Tekstas (teksto etiketė): Sąveikaukite su ekrano dalimi, kurioje rodoma etiketė „Teksto etiketė“.
  • Sąveika su piktograma (piktogramos aprašymas, vieta): Nukreipkite ir bakstelėkite nurodytą piktogramos sritį, kurioje „Piktogramos aprašymas“ išsamiai aprašo atributus, pvz., piktogramos spalvą ir formą. Pasirinkite „Vieta“ iš parinkčių, pvz., viršuje, apačioje, kairėje, dešinėje arba centre, galbūt sujungdami dvi, kad būtų galima tiksliai naršyti ir sumažinti klaidų.
  • Įveskite tekstą (įveskite tekstą): Įveskite nurodytą „Įvesti tekstą“ į aktyvų teksto lauką.
  • Slinkite aukštyn ir žemyn: Naršykite aukštyn arba žemyn šio puslapio turinį.
  • Eik atgal: Grįžti į anksčiau žiūrėtą puslapį.
  • Uždaryti: Grįžkite į darbalaukį tiesiai iš dabartinio ekrano.
  • Sustabdyti: Atlikę užduotį, užbaikite operaciją.

Savarankiškas planavimas

Kiekvienas operacijos veiksmas kartojamas sistemos, o prieš kiekvienos iteracijos pradžią vartotojas turi pateikti įvesties nurodymą, o „Mobile-Agent“ modelis naudoja instrukcijas, kad sugeneruotų sistemos raginimą visam procesui. Be to, prieš pradedant kiekvieną iteraciją, sistema užfiksuoja ekrano kopiją ir pateikia ją agentui. Tada agentas stebi ekrano kopiją, operacijų istoriją ir sistemos raginimus išvesti kitą operacijų veiksmą. 

Savirefleksija

Veikdamas agentas gali susidurti su klaidomis, kurios neleidžia sėkmingai vykdyti komandos. Siekiant padidinti instrukcijų įvykdymo rodiklį, buvo įdiegtas savęs vertinimo metodas, kuris suaktyvinamas dviem konkrečiomis aplinkybėmis. Iš pradžių, jei agentas atlieka klaidingą ar netinkamą veiksmą, kuris sustabdo pažangą, pvz., atpažinęs, kad ekrano kopija po operacijos lieka nepakitusi arba rodomas neteisingas puslapis, jis bus nukreiptas apsvarstyti alternatyvius veiksmus arba pakoreguoti esamos operacijos parametrus. Antra, agentas gali praleisti kai kuriuos sudėtingos direktyvos elementus. Kai agentas atliks keletą veiksmų pagal pradinį planą, jis bus paragintas peržiūrėti veiksmų seką, naujausią ekrano kopiją ir vartotojo nurodymus, kad įvertintų, ar užduotis buvo atlikta. Jei randama neatitikimų, agentui pavesta savarankiškai generuoti naujus veiksmus, kad būtų įvykdyta direktyva.

Mobilusis agentas: eksperimentai ir rezultatai

Siekiant visapusiškai įvertinti savo gebėjimus, Mobile-Agent sistema pristato Mobile-Eval etaloną, susidedantį iš 10 dažniausiai naudojamų programų, ir kiekvienai programai sukuria tris instrukcijas. Pirmoji operacija yra nesudėtinga ir apima tik pagrindines programos operacijas, o antroji operacija yra šiek tiek sudėtingesnė nei pirmoji, nes jai keliami tam tikri papildomi reikalavimai. Galiausiai, trečioji operacija yra sudėtingiausia iš visų, nes joje yra abstraktūs vartotojo nurodymai, o vartotojas aiškiai nenurodo, kurią programą naudoti ar kokią operaciją atlikti. 

Norėdami įvertinti našumą iš skirtingų perspektyvų, mobiliojo agento sistema kuria ir įgyvendina 4 skirtingas metrikas. 

  • Su arba sėkmė: Jei mobilusis agentas įvykdo instrukcijas, tai laikoma sėkminga. 
  • Proceso balas arba PS: Proceso balo metrika matuoja kiekvieno žingsnio tikslumą vykdant vartotojo instrukcijas ir apskaičiuojama teisingų žingsnių skaičių padalijus iš bendro žingsnių skaičiaus. 
  • Santykinis efektyvumas arba RE: Santykinis efektyvumo balas yra santykis arba palyginimas tarp žingsnių, kurių žmogus turi atlikti rankiniu būdu, ir veiksmų, kurių agentas atlieka tą pačią komandą, skaičiaus. 
  • Užbaigimo rodiklis arba CR: Užbaigimo rodiklio metrika padalija žmogaus atliekamų veiksmų, kuriuos sistema sėkmingai atlieka, skaičių iš viso žingsnių, kuriuos žmogus atliko, kad užbaigtų instrukciją. CR reikšmė yra 1, kai agentas sėkmingai įvykdo komandą. 

Rezultatai parodyti toliau pateiktame paveikslėlyje. 

Iš pradžių, atliekant tris nurodytas užduotis, mobiliojo agento atlikimo rodikliai buvo atitinkamai 91%, 82% ir 82%. Nors ne visos užduotys buvo atliktos nepriekaištingai, kiekvienos užduočių kategorijos pasiekimų rodikliai viršijo 90%. Be to, PS metrika atskleidžia, kad „Mobile-Agent“ nuolat rodo didelę tikimybę atlikti tikslius veiksmus atliekant tris užduotis, o sėkmės rodikliai yra apie 80%. Be to, pagal RE metriką, mobilusis agentas pasižymi 80% efektyvumu, kai atlieka tokias operacijas, kurios yra panašios į žmogaus optimalumą. Šie rezultatai kartu pabrėžia mobiliojo agento, kaip mobiliojo įrenginio asistento, įgūdžius.

Toliau pateiktame paveikslėlyje parodyta mobiliojo agento galimybė suvokti vartotojo komandas ir savarankiškai organizuoti savo veiksmus. Net jei instrukcijose nėra aiškios operacijos informacijos, „Mobile-Agent“ tinkamai interpretavo vartotojo poreikius, paversdamas juos veiksmingomis užduotimis. Remdamasis šiuo supratimu, agentas vykdė nurodymus sistemingai planuodamas.

Baigiamosios mintys

Šiame straipsnyje kalbėjome apie „Mobile-Agents“ – daugiarūšį autonominio įrenginio agentą, kuris iš pradžių naudoja vizualinio suvokimo technologijas, kad būtų galima tiksliai aptikti ir tiksliai nustatyti vaizdinius ir tekstinius komponentus mobiliosios programos sąsajoje. Atsižvelgdama į šį vaizdinį kontekstą, Mobile-Agent sistema autonomiškai apibrėžia sudėtingas užduotis ir suskaido jas į valdomus veiksmus, sklandžiai žingsnis po žingsnio naršydama mobiliąsias programas. Ši sistema išsiskiria iš esamų metodikų, nes ji nepriklauso nuo mobiliosios sistemos metaduomenų ar mobiliųjų programų XML failų, todėl įvairiose mobiliose operacinėse sistemose užtikrinamas didesnis lankstumas, daugiausia dėmesio skiriant vaizdiniam apdorojimui. „Mobile-Agent“ sistemos naudojama strategija pašalina konkrečių sistemos pritaikymų poreikį, todėl padidėja efektyvumas ir sumažėja skaičiavimo poreikis.

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.