stubbur Fretta: Vísa og jörðu við hvaða granularity sem er - Unite.AI
Tengja við okkur

Artificial Intelligence

Fretta: Vísa og jörðu á hvaða granularity sem er

mm

Útgefið

 on

FRÉTTA: VIÐAÐU OG JARÐIÐ Á HVERJU KORNI

Að virkja rýmisskilning í sýn-tungumálanámslíkönum er áfram kjarnarannsóknaráskorun. Þessi skilningur byggir á tveimur mikilvægum hæfileikum: jarðtengingu og tilvísun. Tilvísun gerir líkaninu kleift að túlka merkingarfræði ákveðinna svæða nákvæmlega, en jarðtenging felur í sér að nota merkingarfræðilegar lýsingar til að staðsetja þessi svæði.

Hönnuðir hafa kynnt Ferret, Multimodal Large Language Model (MLLM), sem getur skilið staðbundna tilvísun þvert á hvaða kornleika eða lögun sem er í mynd og nákvæmlega jarðtengdar lýsingar á opnum orðaforða. Ferret notar nýja blendinga framsetningu sem sameinar samfellda eiginleika og stakur hnit til að tákna myndsvæði. Staðvísandi sjónsýnistakarinn hans sér um mismunandi strjálleika í lögun, sem gerir honum kleift að vinna úr fjölbreyttum svæðisinntakum eins og frjálsu formum, afmörkunarreitum og punktum.

Nálgun Ferret gerir henni kleift að skara fram úr í klassískri jarðtengingu og tilvísunarverkefnum og fara fram úr öðrum MLLMs í staðsetningar-krefjandi og svæðisbundnum fjölþættum samskiptum. Þessi grein kafar ofan í arkitektúr og aðferðafræði Ferret og dregur fram glæsilega frammistöðu þess í ýmsum fjölþættum tungumálaverkefnum. Við skulum kanna þetta nánar.

Fretta: Frábær árangur í tilvísunar- og jarðtengingarverkefnum

Að vísa í líkan er hæfileiki sem gerir líkaninu kleift að skilja merkingarfræði tiltekinna tiltekinna svæða nákvæmlega en jarðtenging gerir það nauðsynlegt fyrir líkanið að nota gefnar merkingarfræðilegar lýsingar til að staðsetja svæðin. Þrátt fyrir að þeir gætu verið mismunandi hvað varðar verkefni sitt, hafa bæði tilvísun og jarðtenging sama grundvallarhugtakið: samræma staðbundna merkingarfræði og upplýsingar. Hins vegar, þrátt fyrir að deila sömu hugmynd, læra núverandi líkön jarðtengingu og tilvísun fyrir sig. Þó að aðferðin virki er hún hindrun í að ná mannlegum getu þar sem menn geta lært af einu verkefni og beitt lærdómnum óaðfinnanlega í önnur verkefni og geta áreynslulaust samþætt jarðtengingar-/tilvísunargetu við rökhugsun og daglega samræður. The Ferret ramma sækir innblástur frá ofangreindu bili í núverandi MLLM ramma og rannsakar þrjár meginspurningar:

  1. Hvernig á að sameina jarðtengingar- og tilvísunargetu í rammanum og hvernig mun sameining þeirra gagnast hvert öðru?
  2. Menn nota fjölhæfar tegundir svæða eins og kassa, punkt, skrípa, frjálst form til að vísa til? Hvernig á að tákna þessi fjölhæfu svæði?
  3. Hvernig á að gera jarðtengingu og tilvísunarkennslu fylgjandi, öflugum og opnum orðaforða, sem eru mikilvægar fyrir hagnýt og rauntíma notkun þeirra?

Fretta ramminn er ný tilvísun og grundvöllur Multimodal Large Language Model sem reynir að miða við þessar spurningar. Fretta ramminn velur a Multimodal Large Language Model sem grunnur þess vegna ótrúlegrar heimssýnar þeirra og tungumálaskilningshæfileika. Ennfremur, til að sameina jarðtengingu og tilvísunargetu, táknar Ferret ramma hnit svæða í náttúrulegu tölulegu formi. Hins vegar, í reynd, er óhagkvæmt að nota kassahnit eða jafnvel staka punkta til að tákna fjölhæf svæðisform eins og krot, högg eða flókna marghyrninga þar sem þessi form eru mikilvæg fyrir aukna nákvæmni og alhliða samspil manneskju og líkana. Til að takast á við þetta mál notar Ferret ramma staðbundinn sjónrænan sýnishorn sem fær sjónræn svæði fyrir svæði óháð lögun, þannig að semja með mismunandi dreifingu í þessum formum. Ramminn sameinar síðan samfellda sjónræna eiginleika með aðskildum hnitum til að tákna sjónræn svæði í inntakinu, sem leiðir til sköpunar á blendingssvæðisframsetningu í Ferret. 

Ferret ramminn notar ofangreindar aðferðir til að leysa inntak sem blandar frjálsu formi texta við tilvísuð svæði og er fær um að mynda hnitin fyrir hvern jarðtendan hlut með óaðfinnanlegum hætti með því að búa til texta til að jarðtengja nefnda hluti í úttakinu. Með því að gera það er Ferret fyrsta ramminn til að vinna úr frjálsum inntakssvæðum í fjölþættum stórum tungumálalíkönum. Ennfremur gleypir Ferret ramma ótrúlega opna orðaforða getu staðbundinnar staðsetningar og skilnings, sem gerir rammanum kleift að ná betri frammistöðu þegar hann er metinn á hefðbundnum grunni og tilvísunarverkefnum. 

Ferret ramminn sækir innblástur í þrjá núverandi gervigreindarramma, þar á meðal Multimodal Large Language Models, MLLMs for Referring and Grounding, og Unifying Grounding og VL Understanding. 

Innleiðing stórra tungumálalíkana, þar á meðal GPT, DALL-E, PaLM, LLaMA og BLOOM, hefur breytt landslaginu í NLP rannsóknum, sem hefur leitt til umtalsverðra framfara í fjölþættum mállíkönum. Fyrri fjölmóta tungumálalíkönin beindust fyrst og fremst að myndtextagerð í stórum stíl, þar sem nokkur áberandi dæmi voru PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3 og PaLI-X. Hins vegar, þar sem Flamingo ramminn náði skilvirkri samþættingu LLMs með fyrirfram þjálfuðum CLIP myndkóðara í gegnum krosshliða athyglisblokkir sem leiddu til ótrúlegrar fjölþættrar námsgetu með fáum skotum. Núverandi rannsóknir eru að leita leiða til að nýta fyrirfram þjálfuð stór tungumálalíkön fyrir sjónræna kennslustillingu með athyglisverðum dæmum MiniGPT-4, Otter, InstructBLIP og fleira. Það sem meira er er að nýlegar gerðir eins og Emu og GILL hafa sýnt ótrúlegan árangur við að nota MLLMs til myndagerðar og endurheimt myndar. Ferret ramminn vísar einnig til fyrri rannsókna sem beinast að því að sameina texta og afmörkun ramma fyrir Vision Language líkön. 

Fretta: Aðferðafræði og arkitektúr

Hybrid-svæðisfulltrúar

Punktur, kassi og frjáls form eru þrjú ríkjandi snið sem tungumálalíkan notar þegar vísað er til ákveðinna svæða. Annars vegar er hægt að tákna punktinn og kassasniðið nákvæmlega með hnitum, kortlagning frjáls form form er svolítið krefjandi þar sem frjáls form form eru fjölhæf. Þar sem form eru fjölhæf, geta frjálst form náð yfir margs konar svæði, þar á meðal grímur, marghyrninga og krot. Að nota hnit til að sýna form í frjálsu formi er flókið verkefni sem hindrar getu líkansins til að læra að koma á fylgni milli svæða og samsvarandi hnita. Ennfremur er notkun hnita fyrir form í frjálsu formi reikningslega dýr og óljós. 

Til að takast á við þetta vandamál og til að alhæfa yfir öll þrjú sniðin, leggur Ferret ramminn til blendingur svæðisframsetning sem sameinar samfellda sjónræna eiginleika með aðskildum hnitum til að vísa til tiltekins svæðis. 

Fyrir samfellda sjónræna eiginleika, fyrir tiltekið svæði, smíðar Ferret ramma fyrst 2D tvíundargrímu af sömu stærð og myndin og merkir gildi 1 innan marksvæðisins á meðan það gefur gildi 0 utan svæðisins. Líkanið dregur síðan út tvöfalda grímuna ásamt útdregnu myndeiginleikakortinu og sendir það síðan til staðbundins sjónsýnistækis. 

arkitektúr

Arkitektúr Ferret líkansins samanstendur af þremur meginþáttum

  1. Myndkóðari til að draga út innfellingar mynda. 
  2. A Spatial Aware Visual Samples til að draga út svæðisbundna samfellda eiginleika. 
  3. Stórt tungumálalíkan til að móta texta, mynd og svæðiseiginleika í sameiningu. 

Myndin er fyrst færð inn í forþjálfaða sjónkóðarann ​​til að draga út innfellingar myndarinnar. Fyrir textainnslátt notar ramminn fyrst fyrirfram þjálfaðan LLM auðkenni til að auðkenna textaröðina og varpar síðan þessum táknum inn í textainnfellingar. Fyrir svæði sem vísað er til, bætir Ferret sérstakt tákn og hnitin sem staðgengill fyrir samfellda eiginleika á eftir svæðisheitinu. Ef nafn svæðisins er óþekkt eða flókið að lýsa því vegna þess að nokkrir hlutir eru teknir inn, notar ramminn bara svæðis- eða svæðisheiti. 

Ein helsta áskorunin sem fjallar um svæði sem vísað er til er að lögun þeirra getur verið mjög mismunandi, sem þýðir að þau geta haft mismunandi lögun og eru ekki bara takmörkuð við rétthyrningakassa eða punkta. Ekki er hægt að vinna úr tilvísuðum svæðum með óregluleg lögun með hefðbundnum aðferðum eins og vinnslu sem byggir á rist, þar með talið plástra athygli eða sveigjutækni. Til að takast á við þetta mál leggur Ferret ramminn til staðbundinn sjónrænan sýnishorn. Fyrir tiltekið útdráttarkort með tvöfaldri svæðisgrímu tekur Ferret líkanið fyrst af handahófi N fjölda punkta innan tvíundarsvæðisgrímunnar. 

Fyrir hvern einstakan punkt fær líkanið eiginleika sinn með því að framkvæma tvílínuleg innskot. N punktarnir eru síðan færðir inn í foss af blokkum þar sem hver þeirra fer í gegnum þrjú mismunandi stig: sýnatöku, söfnun og sameiningu. Í sýnatökufasa er tekin sýni úr föstum fjölda punkta úr N fjölda punkta sem eru tiltækir með því að nota FPS eða fjarlægsta punkta sýnatöku reiknirit sem tryggir fullnægjandi umfang. Í öðru skrefi, fyrir hvern úrtakspunkt, leitar ramminn að k næstu nágrönnum sínum úr hópi tiltækra N punkta. Fyrir hvern hóp sameinar líkanið síðan eiginleika úrtakspunkts við nágrannapunkta hans. Í lokaskrefinu framkvæmir Ferret ramma hámarkssamsöfnun til að sameina k nágrannaeiginleika í einn eiginleika til að virka sem framsetning fyrir punktinn sem sýnishornið er. Með því að framkvæma þessi þrjú skref, er Ferret ramma skilin eftir með færri punkta en hefur rými með meiri þéttleika vegna þess að það inniheldur ekki aðeins eiginleika staðbundinna nágranna heldur einnig hlutfallslega stöðu þeirra. 

Myndun sjónrænna gagna með GPT aðstoð

Samræðuleiðbeiningarstillingargögn eru mikilvæg fyrir Multimodal Stór tungumálalíkön hjálpa þeir ekki aðeins við að umbreyta núverandi gagnasafni með sniðmátum, heldur hjálpa þeir líkaninu að skilja ásetning mannsins og búa til viðeigandi viðbrögð. Meirihluti MLLMs notar nokkurra skota hvetjandi aðferð til að fá sjónræn leiðbeiningarstillingargögn, þar sem líkanið veitir textalýsingu á senum í myndinni ásamt mannlegum samræðum sem fáar myndatökur. Hins vegar beinast núverandi leiðbeiningastillingaraðferðir fyrst og fremst að því að lýsa allri myndinni án þess að tilgreina landtengdar upplýsingar sérstaklega. Ferret ramminn leggur áherslu á svæðisbundna þekkingu til að safna gögnum um tilvísunar- og jarðkennslustillingar í þremur skrefum. 

  1. Auk þess að nota alþjóðlega myndatexta og hluti, veitir ramminn táknræna senulýsingu sem lýsir líkamlegu sambandi milli svæðistexta og hluta en gefur einnig upp hnit þeirra. 
  2. Fyrir samræður sem eru skrifaðar af mönnum bætir ramminn við hnitum á eftir jarðbundnum hlutum eða svæðum annaðhvort í inntakinu eða úttakinu eða hvort tveggja með samræðunum einbeita sér fyrst og fremst að sérstökum svæðum sem hjálpar til við að hvetja mállíkanið óbeint til að fylgja svipuðum mynstrum fyrir nýja samræðumyndun. 
  3. Það gæti verið mögulegt að samræðan sem ramman myndar fylgir kannski ekki reglum og mynstrum eins og leiðbeiningar eru um af fáum skotum og kerfisfyrirmælum. Til að takast á við þetta mál notar ramminn aftur tungumálalíkan til að betrumbæta samræðurnar sem líkanið myndaði í upphafi. 

Staðbundin neikvæð námuvinnsla

Fyrri rannsóknir hafa sýnt að fjölþætt stór tungumálalíkön hafa miklar líkur á ofskynjunum þegar svarað er já eða nei spurningum. Til að tryggja að Fretta líkanið ofskynja ekki við svipaðar aðstæður, notar ramminn staðbundna neikvæða námuvinnslu nálgun með myndskilyrtri flokkastaðsetningu og merkingarfræðilegri skilyrtri flokkunarstaðsetningu. Báðar þessar aðferðir biðja líkanið um að staðfæra tiltekna hlutaflokka sem gera líkaninu kleift að þekkja fjarveru ákveðinna hluta í myndinni. 

Fretta: Niðurstöður og tilraunir

Til að greina frammistöðu þess er Ferret ramma metinn á hefðbundnum jarðtengingum og tilvísunarviðmiðum, eftir það er ramminn metinn í flóknari fjölþættu spjallverkefni og prófuð tilvísunar-og-jörð getu hans. 

Geta líkansins til að skilja tilvísun er metin út frá því hversu nákvæmlega líkan getur skilið merkingarfræði svæðisins sem vísað er til miðað við tilvísað svæði í myndinni eða spurningunni. Til að mæla nákvæmni líkansins eru hlutir, helstu merkingarfræði fyrst tekin til greina þar sem hún er ekki aðeins grundvallaratriði heldur einnig auðvelt að skilgreina. Til að líkja eftir fjölhæfni á mannlegu stigi kemur ramminn í stað staðsetningar hlutarins innan myndarinnar með frjálsu formi, kassa og punkti. Fyrir frjálst form myndar líkanið af handahófi högg innan Ground Truth hlutarins til eftirlíkingar. Fyrir kassa notar Ferret ramman jarðsannleikamarkaboxið sem LVIS íhlutinn gefur. Að lokum, fyrir punkt, tekur líkanið tilviljunarkennt sýnishorn af punkti innan jarðsannleikahlutarins sem er einnig nálægt mörkum jarðsannleikahlutarins. Niðurstöðurnar fyrir þrjár gerðir tilvísana eru sýndar á eftirfarandi mynd. 

Ferret ramminn sýnir ótrúlega frammistöðu í tilvísunarsamræðuverkefnum, sem gerir pláss fyrir samþættingu við mismunandi sjónræn námsverkefni, sérstaklega þau sem hafa jarðtengingarúttak. Til að meta jarðtengingargetu sína, leggur Ferret ramma sig fyrst til að mæla sjónræn jarðtengingarverkefni með skapandi hugmyndafræði. Ramminn metur síðan hæfni sína í grunntextaverkefnum til að mæla samsvörun milli svæðanna og orðanna. 

Í verkefnum fyrir sjónræna jarðtengingu miðar ramminn að því að tengja tungumálafyrirspurnir í samræmd svæði myndarinnar og eins og sést á eftirfarandi mynd sýnir Ferret ramman ótrúlega frammistöðu í öllum viðmiðum og árangurinn er sambærilegur við þann sem næst með sérhæfðar fínstillingaraðferðir. 

Fyrir jarðtengd textatextaverkefni þarf líkanið að búa til myndatexta og síðan jarða mynduð nafnorð við myndsvæði. Lokaspáin sem líkanið gerir samanstendur af þremur hlutum: sjónrænum svæðum sem kassa, textatexta og jarðtengingu milli kassa og orða. Niðurstöðurnar eru sýndar á eftirfarandi mynd og eins og sjá má skilar ramminn frammistöðu sem er sambærileg við nýjustu aðferðirnar. 

Að lokum, fjölþætt spjall er einn af eftirsóttustu möguleikunum innan MLLM, og núverandi MLLMs meta fyrst og fremst nákvæmar lýsingar, samtal og flókna rökhugsun með tungumálalíkaninu sem dómara. Hins vegar, þar sem ekkert gagnasafn metur fjölþætt spjall með skyldubundnum tilvísunar- eða jarðtengingaraðgerðum, skilur það eftir skarð. Til að brúa þetta bil nær Ferret ramminn yfir þrjár svæðisbundnar spurningar til að meta tilvísunar- og jarðtengingargetu þess í fjölþættum spjallverkefnum. Niðurstöðurnar eru sýndar á eftirfarandi mynd. 

Að lokum er Ferret ramman borinn beint saman við nýjustu GPT ramma og niðurstöðurnar eru sýndar hér að neðan. 

Final Thoughts

Í þessari grein höfum við talað um Ferret, fjölþætt stórt tungumálalíkan sem sýnir ótrúlega jarðtengingu og tilvísunargetu. Ferret ramma getur vísað til myndsvæða óháð lögun þess og getur komið á fót grunni fyrir texta sem líkanið spáir fyrir um sjálfkrafa. Ferret notar staðbundinn sjónrænan sýnataka sem er fær um að meðhöndla mismunandi strjálleika sem birtist með mismunandi formum til að draga út samfellda eiginleika fjölhæfra svæða. Fyrir vikið getur Ferret ramman lagt inn fjölbreytt svæðisinntak, þar á meðal frjálst form formara, afmarkandi reiti og punkta. 

"Verkfræðingur að atvinnu, rithöfundur utanbókar". Kunal er tæknilegur rithöfundur með djúpa ást og skilning á gervigreind og ML, tileinkað því að einfalda flókin hugtök á þessum sviðum með grípandi og upplýsandi skjölum.