stuacach Gníomhairí Móibíleacha: Gníomhaire Gléas Soghluaiste Uathrialach Ilmhódúil le Dearcadh Amhairc - Unite.AI
Ceangail le linn

Faisnéise Saorga

Gníomhairí Soghluaiste: Gníomhaire Gléas Soghluaiste Ilmhódúil Uathrialach le hAmharc Amhairc

mm

foilsithe

 on

Tá teacht ar Mhúnlaí Ilmhódacha Teangacha Móra (MLLM) tar éis teacht ar ré nua de ghníomhairí gléasanna soghluaiste, atá in ann an domhan a thuiscint agus idirghníomhú leis trí théacs, íomhánna agus guth. Is dul chun cinn suntasach é na gníomhairí seo thar AI traidisiúnta, ag soláthar bealach níos saibhre agus níos iomasach d'úsáideoirí chun idirghníomhú lena gcuid feistí. Trí MLLM a ghiaráil, is féidir leis na gníomhairí seo méideanna ollmhóra faisnéise ó mhodhanna éagsúla a phróiseáil agus a shintéisiú, rud a chuireann ar a gcumas cúnamh pearsantaithe a thairiscint agus eispéiris úsáideoirí a fheabhsú ar bhealaí nach bhféadfaí a shamhlú roimhe seo.

Tá na gníomhairí seo á gcumhachtú ag teicnící meaisínfhoghlama úrscothacha agus ardchumais phróiseála teanga nádúrtha, rud a ligeann dóibh téacs cosúil le daonna a thuiscint agus a ghiniúint, chomh maith le sonraí amhairc agus éisteachta a léirmhíniú le cruinneas iontach. Ó rudaí agus radhairc in íomhánna a aithint go dtí orduithe labhartha a thuiscint agus anailís a dhéanamh ar mheon an téacs, tá na gníomhairí ilmhódacha seo feistithe chun raon leathan ionchuir a láimhseáil gan stró. Tá poitéinseal ollmhór ag an teicneolaíocht seo, ag tairiscint seirbhísí níos sofaisticiúla agus níos feasaí ar an gcomhthéacs, mar chúntóirí fíorúla atá in oiriúint do mhothúcháin dhaonna agus uirlisí oideachais a chuireann in oiriúint do stíleanna foghlama aonair. Tá an cumas acu freisin inrochtaineacht a athrú ó bhonn, rud a fhágann go mbeidh an teicneolaíocht níos sochaideartha thar bhacainní teanga agus céadfacha.

San Airteagal seo, beimid ag caint faoi Mobile-Gníomhairí, gníomhaire feiste uathrialach ilmhódúil a ghiaráil ar dtús ar chumas na n-uirlisí dearcadh amhairc chun na heilimintí amhairc agus téacs a aithint agus a aimsiú go cruinn le comhéadan tosaigh feidhmchláir shoghluaiste. Ag baint úsáide as an gcomhthéacs radhairc seo, déanann an creat Gníomhaire Soghluaiste an tasc oibríochta casta a phleanáil agus a dhianscaoileadh go huathrialach, agus déanann sé nascleanúint trí na haipeanna soghluaiste trí oibríochtaí céim ar chéim. Ní hionann an creat Gníomhaire Soghluaiste agus na réitigh atá ann cheana féin toisc nach bhfuil sé ag brath ar mheiteashonraí an chórais mhóibíligh ná ar chomhaid XML na bhfeidhmchlár soghluaiste, rud a fhágann go bhfuil spás ann le haghaidh inoiriúnaitheacht fheabhsaithe thar timpeallachtaí oibriúcháin soghluaiste éagsúla ar bhealach físlárnach. Cuireann an cur chuige a leantar leis an gcreat Gníomhaire Soghluaiste deireadh leis an gceanglas maidir le saincheapadh córas-shonrach as a dtiocfaidh feidhmíocht fheabhsaithe, agus ceanglais ríomhaireachta níos ísle. 

Soghluaiste-Gníomhairí: Gníomhaire Uathrialach Ilmhódúil Gléas Soghluaiste

I ndomhan gasta na teicneolaíochta soghluaiste, tagann coincheap ceannródaíoch chun cinn mar sheasamh: Múnlaí Móra Teanga, go háirithe Múnlaí Ilmhódacha Teangacha Móra nó MLLManna atá in ann raon leathan téacs, íomhánna, físeáin agus cainte a ghiniúint thar theangacha éagsúla. Tá forbairt mhear creataí MLLM le blianta beaga anuas tar éis cur i bhfeidhm nua agus cumhachtach MLLManna: gníomhairí uathrialacha soghluaiste. Is éard atá i ngníomhairí soghluaiste uathrialacha ná aonáin bhogearraí a ghníomhaíonn, a ghluaiseann agus a fheidhmíonn go neamhspleách, gan gá le horduithe daonna díreacha, atá deartha chun líonraí nó gléasanna a thrasnú chun tascanna a dhéanamh, faisnéis a bhailiú nó fadhbanna a réiteach. 

Tá Gníomhairí Soghluaiste deartha chun gléas soghluaiste an úsáideora a oibriú ar bhonn na dtreoracha úsáideora agus na n-amharc scáileáin, tasc a éilíonn go mbeadh tuiscint shéimeantach agus cumas braite amhairc ag na gníomhairí. Mar sin féin, tá gníomhairí soghluaiste atá ann cheana féin i bhfad ó foirfe ós rud é go bhfuil siad bunaithe ar mhúnlaí teanga mór ilmhódach, agus fiú an staid reatha creataí MLLM lena n-áirítear GPT-4V easpa cumais dearcadh amhairc ag teastáil chun fónamh mar éifeachtach. gníomhaire soghluaiste. Ina theannta sin, cé gur féidir le creataí atá ann cheana oibríochtaí éifeachtacha a ghiniúint, bíonn sé ag streachailt leo suíomh na n-oibríochtaí sin a aimsiú go cruinn ar an scáileán, rud a chuireann srian ar fheidhmchláir agus ar chumas oibreán soghluaiste oibriú ar ghléasanna soghluaiste. 

Chun dul i ngleic leis an tsaincheist seo, roghnaigh roinnt creataí comhaid leagan amach an chomhéadain úsáideora a ghiaráil chun cabhrú leis an GPT-4V nó MLLManna eile le cumais logánaithe, agus d'éirigh le roinnt creataí suíomhanna inghníomhaithe a bhaint as an scáileán trí rochtain a fháil ar chomhaid XML an fheidhmchláir agus creataí eile roghnaigh an cód HTML a úsáid ó na feidhmchláir ghréasáin. Mar is léir, bíonn tromlach de na creataí seo ag brath ar rochtain a fháil ar chomhaid feidhmchláir bhunúsacha agus áitiúla, rud a fhágann nach bhfuil an modh éifeachtach mura bhfuil an creat in ann rochtain a fháil ar na comhaid seo. Chun aghaidh a thabhairt ar an tsaincheist seo agus deireadh a chur le spleáchas gníomhairí áitiúla ar chomhaid bhunúsacha ar na modhanna logánaithe, d'oibrigh forbróirí ar Mobile-Agent, gníomhaire soghluaiste uathrialach a bhfuil cumas mórthaibhseach amhairc aige. Ag baint úsáide as a mhodúl dearcadh amhairc, úsáideann an creat Gníomhaire Soghluaiste scáileáin scáileáin ón ngléas soghluaiste chun oibríochtaí a aimsiú go cruinn. Sa mhodúl dearcadh amhairc tá OCR agus samhlacha braite atá freagrach as téacs a aithint laistigh den scáileán agus cur síos a dhéanamh ar an ábhar laistigh de réigiún sonrach den scáileán soghluaiste. Úsáideann an creat Gníomhaire Soghluaiste leideanna atá déanta go cúramach agus éascaíonn sé idirghníomhú éifeachtach idir na huirlisí agus na gníomhairí, agus mar sin uathoibriú na n-oibríochtaí gléasanna soghluaiste. 

Ina theannta sin, tá sé mar aidhm ag an gcreat Gníomhairí Soghluaiste úsáid a bhaint as inniúlachtaí comhthéacsúla na gcreatanna MLLM úrscothacha mar GPT-4V chun cumais féinphleanála a bhaint amach a ligeann don tsamhail tascanna a phleanáil bunaithe ar stair na hoibríochta, treoracha úsáideora agus scáileáin scáileáin go hiomlánaíoch. Chun tuilleadh feabhais a chur ar chumas an ghníomhaire treoracha neamhiomlána agus oibríochtaí míchearta a aithint, tugann an creat Gníomhaire Soghluaiste modh féinmhachnaimh isteach. Faoi threoir leideanna atá déanta go cúramach, déanann an gníomhaire machnamh comhsheasmhach ar oibríochtaí míchearta agus neamhbhailí, agus cuireann sé stop leis na hoibríochtaí a luaithe a bhíonn an tasc nó an teagasc críochnaithe. 

Ar an iomlán, is féidir rannchuidiú an chreata Gníomhaire Soghluaiste a achoimriú mar seo a leanas:

  1. Feidhmíonn Gníomhaire Soghluaiste mar ghníomhaire uathrialach gléas soghluaiste, ag baint úsáide as uirlisí dearcadh amhairc chun logánú oibríochta a dhéanamh. Pleanálann sé gach céim go modhúil agus glacann sé le hintrbhreathnú. Go háirithe, braitheann Mobile-Gníomhaire go heisiach ar screenshots gléas, gan úsáid a bhaint as aon chód córais, ag taispeáint réiteach atá bunaithe go hiomlán ar theicnící fís.
  2. Tugann Mobile-Agent isteach Mobile-Eval, tagarmharc atá deartha chun gníomhairí gléas soghluaiste a mheas. Áiríonn an tagarmharc seo éagsúlacht de na deich n-aip shoghluaiste is coitianta a úsáidtear, chomh maith le treoracha cliste do na haipeanna seo, atá catagóirithe i dtrí leibhéal deacrachta.

Gníomhaire Soghluaiste : Ailtireacht agus Modheolaíocht

Ag a chroílár, tá an creat Gníomhaire Soghluaiste den scoth Múnla Mórtheanga Ilmhódúil, an GPT-4V, modúl braite téacs a úsáidtear le haghaidh tascanna logánaithe téacs. Mar aon le GPT-4V, fostaíonn Mobile-Gníomhaire modúl braite deilbhíní le haghaidh logánú deilbhíní. 

Dearcadh Amhairc

Mar a luadh níos luaithe, seachadann an GPT-4V MLLM torthaí sásúla le haghaidh treoracha agus screenshots, ach go mainneoidh sé an suíomh a aschur go héifeachtach ina dtarlaíonn na hoibríochtaí. Mar gheall ar an teorannú seo, ní mór don chreat Gníomhaire Soghluaiste a chuireann an tsamhail GPT-4V chun feidhme an tsamhail GPT-XNUMXV a bheith ag brath ar uirlisí seachtracha chun cabhrú le logánú na hoibríochta, rud a éascóidh aschur na n-oibríochtaí ar an scáileán soghluaiste. 

Logánú Téacs

Cuireann an creat Gníomhaire Soghluaiste uirlis OCR i bhfeidhm chun suíomh an téacs comhfhreagrach ar an scáileán a bhrath aon uair is gá don ghníomhaire leas a bhaint as téacs ar leith atá ar taispeáint ar an scáileán soghluaiste. Tá trí chás uathúla logánaithe téacs ann. 

Cás 1: Níor Braitheadh ​​Téacs Sonraithe ar bith

Eisiúint: Theipeann ar an OCR an téacs sonraithe a bhrath, rud a d’fhéadfadh tarlú in íomhánna casta nó mar gheall ar theorainneacha OCR.

Freagra: Tabhair treoir don ghníomhaire ceachtar:

  • Roghnaigh an téacs le haghaidh cnagadh, ag ligean do cheartú láimhe ar mhaoirseacht an OCR, nó
  • Roghnaigh oibríocht eile, mar shampla modh ionchuir difriúil a úsáid nó gníomh eile a dhéanamh a bhaineann leis an tasc atá idir lámha.

Réasúnaíocht: Tá an tsolúbthacht seo riachtanach chun míchruinneas nó siabhránachtaí ócáideacha GPT-4V a bhainistiú, ag cinntiú gur féidir leis an ngníomhaire dul ar aghaidh go héifeachtach fós.

Cás 2: Cás Aonair de Théacs Sonraithe a Braitheadh

Oibríocht: Gin gníomh go huathoibríoch chun cliceáil ar chomhordanáidí lár an bhosca téacs braite.

Fírinniú: Agus gan ach cás amháin aimsithe, tá an dóchúlacht go n-aithneofar ceart go leor, rud a fhágann go bhfuil sé éifeachtach dul ar aghaidh le gníomh díreach.

Cás 3: Cásanna Iolracha de Théacs Sonraithe a Braitheadh

Measúnú: Ar dtús, déan measúnú ar líon na gcásanna braite:

Go leor Cásanna: Léiríonn sé scáileán cluttered le hábhar comhchosúil, rud a chuireann casta ar an bpróiseas roghnúcháin.

Gníomh: Iarr ar an ngníomhaire an téacs a athroghnú, ag iarraidh an roghnúchán a bheachtú nó na paraiméadair chuardaigh a choigeartú.

Cúpla cás: Ligeann líon braite inláimhsithe do chur chuige níos nuance.

Gníomh: Bearr na réigiúin thart ar na cásanna seo, ag leathnú na mboscaí braite téacs amach chun comhthéacs breise a ghabháil. Cinntíonn an leathnú seo go gcaomhnaítear tuilleadh faisnéise, ag cuidiú le cinnteoireacht.

An chéad chéim eile: Tarraing boscaí braite ar na híomhánna gearrtha agus cuir i láthair an ghníomhaire iad. Cuidíonn an cúnamh amhairc seo leis an ngníomhaire cinneadh a dhéanamh maidir leis an gcás ar cheart idirghníomhú leis, bunaithe ar leideanna comhthéacsúla nó ar riachtanais thasc.

Déanann an cur chuige struchtúrtha seo an t-idirghníomhú idir torthaí OCR agus oibríochtaí gníomhairí a bharrfheabhsú, ag cur le hiontaofacht agus inoiriúnaitheacht an chórais maidir le láimhseáil tascanna bunaithe ar théacs thar chásanna éagsúla. Léirítear an próiseas iomlán san íomhá seo a leanas.

Logánú Deilbhín

Cuireann an creat Gníomhaire Soghluaiste uirlis braite deilbhíní i bhfeidhm chun suíomh deilbhín a aimsiú nuair is gá don ghníomhaire cliceáil air ar an scáileán soghluaiste. Chun a bheith níos sainiúla, iarrann an creat ar an ngníomhaire ar dtús tréithe sonracha na híomhá a sholáthar lena n-áirítear cruth agus dath, agus ansin cuireann an creat an modh Grounding DINO i bhfeidhm leis an deilbhín pras chun na deilbhíní go léir atá sa screenshot a aithint. Ar deireadh, Gníomhaire SoghluaisteFostaíonn t creat CLIP chun an chosúlacht idir an cur síos ar an réigiún cliceáil a ríomh, agus ríomhann sé an chosúlacht idir na deilbhíní scriosta, agus roghnaíonn sé an réigiún leis an cosúlacht is airde le haghaidh cliceáil. 

Forghníomhú Treorach

Chun na gníomhartha a aistriú ina n-oibríochtaí ar an scáileán ag na gníomhairí, sainmhíníonn an creat Gníomhaire Soghluaiste 8 n-oibríochtaí éagsúla. 

  • Seoladh Feidhmchlár (Ainm na hAipe): Cuir tús leis an bhfeidhmchlár ainmnithe ón gcomhéadan deisce.
  • Tap ar Téacs (Lipéad Téacs): Idirghníomhaigh leis an gcuid scáileáin a thaispeánann an lipéad “Text Lipéad”.
  • Idirghníomhaigh le Deilbhín (Cur síos ar Dheilbhín, Suíomh): Dírigh agus tapáil an limistéar deilbhín sonraithe, áit a sonraíonn “Cur síos ar Dheilbh” tréithe amhail dath agus cruth an íocón. Roghnaigh “Suíomh” ó roghanna ar nós barr, bun, clé, ar dheis, nó lár, b’fhéidir dhá cheann a chomhcheangal le haghaidh nascleanúint bheacht agus chun botúin a laghdú.
  • Iontráil Téacs (Ionchur Téacs): Cuir isteach an “Ionchur Téacs” a thugtar isteach sa réimse gníomhach téacs.
  • Scrollaigh Suas & Síos: Déan nascleanúint suas nó síos tríd an ábhar ar an leathanach seo.
  • Dul ar ais: Fill ar an leathanach ar breathnaíodh air roimhe seo.
  • Dún: Téigh ar ais go dtí an deasc díreach ón scáileán reatha.
  • Stop: Cuir an oibríocht i gcrích nuair a bheidh an tasc curtha i gcrích.

Féinphleanáil

Déanann an creat gach céim den oibríocht go atriallach, agus roimh thús gach atriallta, ní mór don úsáideoir treoir ionchuir a sholáthar, agus úsáideann an tsamhail Gníomhaire Soghluaiste an treoir chun córas pras a ghiniúint don phróiseas iomlán. Ina theannta sin, roimh thús gach atriallta, gabhann an creat seat scáileáin agus cothaíonn sé don ghníomhaire é. Ansin breathnaíonn an gníomhaire an scáileáin, stair na hoibríochta, agus leideanna an chórais chun an chéad chéim eile de na hoibríochtaí a aschur. 

Féin-Machnamh

Le linn a chuid oibríochtaí, d'fhéadfadh go mbeadh earráidí ag an ngníomhaire a chuireann cosc ​​air ordú a fhorghníomhú go rathúil. Chun cur le ráta comhlíonta an teagaisc, tá cur chuige féinmheastóireachta i bhfeidhm, ag feidhmiú faoi dhá chúinse ar leith. Ar dtús, má dhéanann an gníomhaire gníomh lochtach nó neamhbhailí a chuireann stad ar dhul chun cinn, mar shampla nuair a aithníonn sé go bhfuil an scáileán fós gan athrú tar éis na hoibríochta nó má thaispeánann sé leathanach mícheart, díreofar é chun gníomhartha eile a mheas nó paraiméadair na hoibríochta atá ann cheana a choigeartú. Ar an dara dul síos, d'fhéadfadh go gcaillfeadh an gníomhaire roinnt gnéithe de threoir chasta. Nuair a bheidh sraith gníomhartha curtha i gcrích ag an ngníomhaire bunaithe ar a phlean tosaigh, spreagfar é chun athbhreithniú a dhéanamh ar a sheicheamh gníomhaíochta, ar an scáileán scáileáin is déanaí, agus ar threoir an úsáideora chun a mheasúnú an bhfuil an tasc críochnaithe. Má aimsítear neamhréireachtaí, cuirtear de chúram ar an ngníomhaire gníomhartha nua a ghiniúint go huathrialach chun an treoir a chomhlíonadh.

Mobile-Gníomhaire : Turgnaimh agus Torthaí

Chun a chumais a mheas go cuimsitheach, tugann an creat Gníomhaire Soghluaiste isteach tagarmharc Soghluaiste-Eval comhdhéanta de 10 n-iarratas a úsáidtear go coitianta, agus déanann sé trí threoir a dhearadh do gach feidhmchlár. Tá an chéad oibríocht simplí, agus ní chlúdaíonn sí ach oibríochtaí bunúsacha feidhmchláir ach tá an dara oibríocht beagán níos casta ná an chéad oibríocht toisc go bhfuil roinnt riachtanas breise ann. Mar fhocal scoir, is é an tríú oibríocht an ceann is casta díobh go léir toisc go bhfuil teagasc teibí don úsáideoir ann agus ní shonraíonn an t-úsáideoir go sainráite cén aip atá le húsáid nó cén oibríocht atá le déanamh. 

Ag bogadh ar aghaidh, chun an fheidhmíocht a mheas ó pheirspictíochtaí éagsúla, déanann an creat Gníomhaire Soghluaiste 4 mhéadracht dhifriúla a dhearadh agus a chur i bhfeidhm. 

  • Su or Success: Má chomhlánaíonn an gníomhaire soghluaiste na treoracha, meastar gur éirigh leis. 
  • Scór Próisis nó PS: Tomhaiseann an Scór Próisis méadrach cruinneas gach céim le linn na treoracha úsáideora a fhorghníomhú, agus ríomhtar é trí líon na gcéimeanna cearta a roinnt ar líon iomlán na gcéimeanna. 
  • Éifeachtúlacht Choibhneasta nó RE: Is é an scór éifeachtúlachta coibhneasta ná cóimheas nó comparáid idir líon na gcéimeanna a thógann sé ar an duine an teagasc a dhéanamh de láimh, agus líon na gcéimeanna a thógann sé ar an ngníomhaire an teagasc céanna a fhorghníomhú. 
  • Ráta Críochnaithe nó CR: Roinneann méadrach an ráta críochnaithe líon na gcéimeanna arna n-oibriú ag an duine a chríochnaíonn an creat go rathúil agus líon iomlán na gcéimeanna a ghlac duine chun an teagasc a chomhlánú. Is é luach CR ná 1 nuair a chríochnaíonn an gníomhaire an treoir go rathúil. 

Léirítear na torthaí san fhigiúr seo a leanas. 

Ar dtús, do na trí thasc a tugadh, bhain an Gníomhaire Soghluaiste rátaí críochnaithe de 91%, 82%, agus 82%, faoi seach. Cé nár cuireadh gach tasc i gcrích go neamhbhalbh, sháraigh na rátaí gnóthachtála do gach catagóir tasc 90%. Ina theannta sin, taispeánann an PS méadrach go léiríonn an Gníomhaire Soghluaiste go seasta go bhfuil dóchúlacht ard ann go ndéanfaidh sé gníomhartha cruinne do na trí thasc, agus rátaí ratha thart ar 80%. Ina theannta sin, de réir méadrach RE, léiríonn an Gníomhaire Soghluaiste éifeachtúlacht 80% i gcomhlíonadh oibríochtaí ag leibhéal atá inchomparáide le barrmhaitheas an duine. Leagann na torthaí seo le chéile béim ar inniúlacht an Ghníomhaire Soghluaiste mar chúntóir gléas soghluaiste.

Léiríonn an figiúr seo a leanas cumas an Ghníomhaire Soghluaiste chun orduithe úsáideora a thuiscint agus a ghníomhartha a stiúradh go neamhspleách. Fiú in éagmais sonraí oibríochta soiléire sna treoracha, rinne an Gníomhaire Soghluaiste riachtanais an úsáideora a léirmhíniú go cumasach, agus iad á n-aistriú ina dtascanna inghníomhaithe. Tar éis na tuisceana seo, rinne an gníomhaire na treoracha trí phróiseas pleanála córasach.

Smaointe Deiridh

San Airteagal seo, labhair muid faoi Mobile-Gníomhairí, gníomhaire gléasanna uathrialaitheacha ilmhódacha a úsáideann teicneolaíochtaí dearcadh amhairc ar dtús chun comhpháirteanna amhairc agus téacsacha laistigh de chomhéadan feidhmchláir shoghluaiste a bhrath agus a aimsiú go beacht. Agus an comhthéacs amhairc seo san áireamh, leagann an creat Gníomhaire Soghluaiste amach go neamhspleách agus miondealaítear na tascanna casta ina ngníomhartha soláimhsithe, ag seoladh go réidh trí fheidhmchláir shoghluaiste céim ar chéim. Seasann an creat seo amach ó na modheolaíochtaí atá ann cheana féin toisc nach mbraitheann sé ar mheiteashonraí an chórais mhóibíligh ná ar chomhaid XML na n-aipeanna móibíleacha, rud a éascaíonn solúbthacht níos mó thar chórais oibriúcháin soghluaiste éagsúla le fócas ar phróiseáil amhairc-lárnach. Seachnaíonn an straitéis atá in úsáid ag an gcreat Gníomhaire Soghluaiste ón ngá atá le hoiriúnuithe a bhaineann go sonrach le córais, as a dtiocfaidh éifeachtúlacht fheabhsaithe agus éilimh ríomhaireachta laghdaithe.

"Innealtóir de réir gairme, scríbhneoir ó chroí". Is scríbhneoir teicniúil é Kunal a bhfuil grá agus tuiscint dhomhain aige ar AI agus ar ML, atá tiomanta do choincheapa casta sna réimsí seo a shimpliú trína dhoiciméadú mealltach agus faisnéiseach.