Umjetna inteligencija
Tvor: Pogledajte i samljete na bilo kojoj granularnosti

Omogućavanje prostornog razumijevanja u modelima vizualno-jezičnog učenja ostaje ključni istraživački izazov. Ovo razumijevanje podupire dvije ključne sposobnosti: uzemljenje i upućivanje. Upućivanje omogućuje modelu da točno interpretira semantiku određenih regija, dok utemeljenje uključuje korištenje semantičkih opisa za lokalizaciju tih regija.
Programeri su predstavili Ferret, multimodalni model velikog jezika (MLLM), koji može razumjeti prostorno upućivanje u bilo kojoj granularnosti ili obliku na slici i točno utemeljiti opise otvorenog vokabulara. Ferret koristi novi hibridni prikaz koji kombinira kontinuirane značajke i diskretne koordinate za predstavljanje područja slike. Njegov vizualni uzorkivač koji je svjestan prostora obrađuje različite rijetke oblike, što mu omogućuje obradu različitih ulaznih podataka regije kao što su oblici slobodnog oblika, granični okviri i točke.
Ferretov pristup omogućuje mu izvrsnost u klasičnim zadacima uzemljenja i referenciranja te nadmašuje druge MLLM-ove u multimodalnoj komunikaciji koja zahtijeva lokalizaciju i temeljena je na regiji. Ovaj članak istražuje Ferretovu arhitekturu i metodologiju, ističući njegove impresivne performanse u raznim multimodalnim jezičnim zadacima. Istražimo to dalje.
Tvor: Vrhunska izvedba u zadacima upućivanja i prizemljenja
Upućivanje u model je sposobnost koja modelu omogućuje točno razumijevanje semantike danih specifičnih regija, dok temeljenje čini bitnim da model koristi dane semantičke opise za lokalizaciju regija. Iako se mogu razlikovati u svojim zadacima, i upućivanje i uzemljenje imaju isti temeljni koncept: usklađivanje prostorne semantike i informacija. Međutim, unatoč tome što dijele isti koncept, postojeći modeli uče individualno uzemljenje i upućivanje. Iako metoda funkcionira, ona predstavlja prepreku u postizanju sposobnosti sličnih ljudskim budući da ljudi mogu učiti iz jednog zadatka i neprimjetno primijeniti naučeno na druge zadatke te su sposobni bez napora integrirati sposobnosti uzemljenja/upućivanja s razmišljanjem i dnevnim dijalogom. Okvir Ferret crpi inspiraciju iz gore spomenute praznine u postojećim MLLM okvirima i proučava tri glavna pitanja:
- Kako objediniti mogućnosti uzemljenja i upućivanja u okvir i kako će njihova unisonost koristiti jedna drugoj?
- Ljudi koriste raznovrsne vrste regija kao što su kutija, točka, škrabotina, slobodni oblici za upućivanje? Kako predstaviti ove svestrane regije?
- Kako napraviti utemeljenje i upućivanje koji slijede upute, robustan i otvoren vokabular, koji su kritični za njihovu praktičnu primjenu i primjenu u stvarnom vremenu?
Okvir Ferret je novi referentni i temeljni multimodalni model velikog jezika koji pokušava odgovoriti na ta pitanja. Okvir Ferret odabire a Multimodalni model velikog jezika kao njegov temelj zahvaljujući njihovoj izvanrednoj globalnoj viziji i mogućnostima razumijevanja jezika. Nadalje, kako bi se ujedinile mogućnosti uzemljenja i upućivanja, okvir Ferret predstavlja koordinate regija u numeričkom obliku prirodnog jezika. Međutim, u praksi je neučinkovito koristiti okvirne koordinate ili čak pojedinačne točke za predstavljanje raznolikih oblika područja kao što su škrabotine, crte ili složeni poligoni jer su ti oblici ključni za poboljšanu preciznost i univerzalniju interakciju između čovjeka i modela. Kako bi se uhvatio u koštac s ovim problemom, okvir Ferret koristi vizualni uzorkivač svjestan prostora koji stječe vizualne regije za regije bez obzira na oblik, pregovarajući tako s različitom rijetkošću u tim oblicima. Okvir zatim kombinira kontinuirane vizualne značajke s diskretnim koordinatama za predstavljanje vizualnih regija u unosu, što rezultira stvaranjem hibridne reprezentacije regije u Ferretu.
Okvir Ferret primjenjuje gore navedene metode za rješavanje ulaza koji miješa tekst slobodnog oblika s navedenim regijama i može besprijekorno generirati koordinate za svaki objekt koji se može uzemljiti s generiranjem teksta za uzemljenje spomenutih objekata u izlazu. Čineći to, Ferret je prvi okvir koji obrađuje slobodno oblikovane ulazne regije u multimodalnim modelima velikih jezika. Nadalje, okvir Ferret apsorbira izvanredne sposobnosti otvorenog vokabulara prostorne lokalizacije i razumijevanja, omogućujući okviru da postigne vrhunsku izvedbu kada se procjenjuje na konvencionalnim zadacima utemeljenja i upućivanja.
Nastavljajući dalje, okvir Ferret traži inspiraciju iz tri postojeća okvira umjetne inteligencije uključujući multimodalne modele velikih jezika, MLLM-ove za upućivanje i uzemljenje te Unifying Grounding i VL Understanding.
Uvođenje velikih jezičnih modela uključujući GPT, DALL-E, PaLM, LLaMA i BLOOM promijenilo je krajolik u istraživanju NLP-a, što je rezultiralo značajnim napretkom multimodalnih jezičnih modela. Raniji multimodalni jezični modeli prvenstveno su bili usredotočeni na generiranje slike i teksta velikih razmjera, a neki značajni primjeri su PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3 i PaLI-X. Međutim, budući da je okvir Flamingo postigao učinkovitu integraciju LLM-a s unaprijed uvježbanim CLIP koderom slike kroz blokove pažnje s unakrsnim vratima, što je rezultiralo izvanrednim multimodalnim mogućnostima učenja u nekoliko snimaka. Trenutačno istraživanje traži načine za korištenje unaprijed obučenih velikih jezičnih modela za ugađanje vizualnih uputa, a zapaženi primjeri su miniGPT-4, Otter, InstructBLIP i više. Štoviše, nedavni modeli poput Emua i GILLa pokazali su izvanredan uspjeh u korištenju MLLM-ova za generiranje i dohvaćanje slika. Okvir Ferret također se odnosi na prethodna istraživanja koja su usmjerena na objedinjavanje teksta i izlaza graničnog okvira za modele Vision Language.
Ferret : Metodologija i arhitektura
Reprezentacije hibridnih regija
Točkasti, okvirni i slobodni oblici tri su dominantna formata koja jezični model koristi kada se odnosi na određene regije. S jedne strane, format točke i okvira može se točno predstaviti koordinatama, mapiranje oblika slobodnog oblika pomalo je izazovno jer su oblici slobodnog oblika svestrani. Budući da su svestrani, oblici slobodnog oblika mogu obuhvatiti široku lepezu područja uključujući maske, poligone i škrabotine. Korištenje koordinata za prikazivanje oblika slobodnih oblika složen je zadatak koji sprječava sposobnost modela da nauči uspostaviti korelaciju između regija i odgovarajućih koordinata. Nadalje, korištenje koordinata za oblike slobodnih oblika računalno je skupo i nejasno.
Kako bi se uhvatio u koštac s ovim problemom i generalizirao u sva tri formata, okvir Ferret predlaže hibridni prikaz regije koji sinergizira kontinuirane vizualne značajke s diskretnim koordinatama za referiranje na određenu regiju.
Za kontinuirane vizualne značajke, za danu regiju, okvir Ferret prvo konstruira 2D binarnu masku iste veličine kao i slika i označava vrijednost 1 unutar ciljane regije dok izvan regije dodjeljuje vrijednost 0. Model zatim ekstrahira binarnu masku zajedno s izdvojenom kartom značajki slike, a zatim je šalje prostorno osviještenom vizualnom uzorku.
Arhitektura
Arhitektura modela Ferret sastoji se od tri glavne komponente
- Koder slike za izdvajanje ugrađenih slika.
- Prostorno svjesni vizualni uzorci za izdvajanje regionalnih kontinuiranih značajki.
- Veliki jezični model za zajedničko modeliranje teksta, slike i značajki regije.
Slika se najprije unosi u prethodno obučeni vizualni koder za izdvajanje umetnutih slika. Za tekstualne unose, okvir najprije koristi unaprijed obučeni LLM tokenizator za tokeniziranje tekstualnog niza, a zatim projicira te tokene u tekstualne umetke. Za navedene regije Ferret dodaje poseban token i koordinate kao rezervirano mjesto za kontinuirane značajke nakon naziva regije. Ako je naziv regije nepoznat ili ga je složeno opisati kao rezultat uključivanja nekoliko objekata, okvir koristi samo naziv područja ili regije.
Jedan od glavnih izazova u radu s navedenim regijama je da njihov oblik može biti prilično različit, što znači da mogu imati različite oblike, a nisu ograničeni samo na pravokutne okvire ili točke. Referirana područja s nepravilnim oblicima ne mogu se obraditi tradicionalnim metodama kao što je obrada temeljena na mreži, uključujući tehnike zakrpe ili konvolucije. Kako bi se uhvatio u koštac s ovim problemom, okvir Ferret predlaže prostorno osviješteni vizualni uzorkivač. Za danu ekstrahiranu mapu značajki s maskom binarne regije, model Ferret prvo nasumično uzorkuje N točaka unutar maske binarne regije.
Za svaku pojedinačnu točku model dobiva svoje obilježje izvođenjem bilinearne interpolacije. N točaka se zatim unose u vodopad blokova pri čemu svaki od njih prolazi kroz tri različite faze: uzorkovanje, prikupljanje i udruživanje. U fazi uzorkovanja, fiksni broj točaka uzorkuje se od N dostupnih točaka koristeći FPS ili algoritam uzorkovanja najdalje točke koji jamči odgovarajuću pokrivenost. U drugom koraku, za svaku točku uzorka, okvir traži svojih k najbližih susjeda iz skupa dostupnih N točaka. Za svaku grupu, model zatim stapa značajke uzorka sa susjednim točkama. U završnom koraku, okvir Ferret provodi maksimalno udruživanje kako bi stopio k susjednih značajki u jednu značajku koja djeluje kao reprezentacija uzorkovane točke. Izvođenjem ova tri koraka, okvir Ferret ostaje s manje točaka, ali ima prostor veće gustoće jer ne samo da uključuje značajke lokalnih susjeda, već i njihove relativne položaje.
GPT-potpomognuto generiranje vizualnih podataka
Podaci o podešavanju uputa za dijalog od ključne su važnosti za Multimodal Veliki jezični modeli ne samo da pomažu u pretvaranju postojećeg skupa podataka pomoću predložaka, već također pomažu modelu razumjeti ljudsku namjeru i generirati odgovarajući odgovor. Većina MLLM-ova koristi se metodom odziva s nekoliko snimaka za dobivanje podataka o podešavanju vizualnih uputa, pri čemu model pruža tekstualni opis scena na slici zajedno s ljudskim komentarisanim dijalozima kao demonstracije s nekoliko snimaka. Međutim, postojeće metode podešavanja instrukcija usredotočuju se primarno na opisivanje cijele slike bez eksplicitnog specificiranja informacija koje se odnose na prostor. Okvir Ferret naglašava regionalno znanje za prikupljanje referentnih i zemaljskih podataka o podešavanju uputa u tri koraka.
- Uz korištenje globalnih opisa i objekata, okvir pruža simbolički opis scene koji opisuje fizički odnos između opisa regije i objekata, a također daje njihove koordinate.
- Za dijaloge s ljudskim komentarima, okvir dodaje koordinate nakon uzemljenih objekata ili regija bilo u ulazu ili izlazu ili u oba s dijalozima koji se primarno fokusiraju na određene regije što pomaže u poticanju jezičnog modela da implicitno slijedi slične obrasce za novu generaciju dijaloga.
- Moguće je da dijalog koji generira okvir možda ne slijedi pravila i obrasce prema uputama u nekoliko primjera i uputama sustava. Kako bi se uhvatio u koštac s ovim problemom, okvir ponovno koristi jezični model za pročišćavanje dijaloga koje je model inicijalno generirao.
Prostorno negativno rudarenje
Prethodna istraživanja pokazala su da multimodalni veliki jezični modeli imaju veliku vjerojatnost haluciniranja kada odgovaraju na pitanja Da ili Ne. Kako bi se osiguralo da model Ferret ne halucinira u sličnim uvjetima, okvir koristi pristup prostornog negativnog rudarenja s lokalizacijom kategorije uvjetovanom slikom i lokalizacijom kategorije uvjetovanom semantikom. Obje ove metode traže od modela lokalizaciju specifičnih kategorija objekata koje omogućuju modelu da prepozna odsutnost određenih objekata na slici.
Tvor: Rezultati i pokusi
Kako bi se analizirala njegova izvedba, okvir Ferret ocjenjuje se na konvencionalnim referentnim vrijednostima za uzemljenje i upućivanje, nakon čega se okvir procjenjuje u složenijem multimodalnom zadatku čavrljanja i testiranju njegovih sposobnosti upućivanja i uzemljenja.
Sposobnost modela da razumije referencu procjenjuje se prema tome koliko točno model može razumjeti semantiku referencirane regije s obzirom na referenciranu regiju na slici ili pitanju. Da bi se izmjerila točnost modela, prvo se razmatraju objekti, najosnovnija semantika jer nije samo temeljna, već ju je i lako definirati. Kako bi oponašao svestranost na ljudskoj razini, okvir zamjenjuje lokaciju objekta unutar slike slobodnim oblikom, okvirom i točkom. Za oblik slobodnog oblika, model nasumično generira poteze unutar Ground Truth objekta za simulaciju. Za box, okvir Ferret koristi granični okvir istinitosti tla koji pruža LVIS komponenta. Konačno, za točku, model nasumično uzorkuje točku unutar temeljnog istinitog objekta koja je također blizu granice temeljnog istinitog objekta. Rezultati za tri vrste referiranja prikazani su na sljedećoj slici.
Okvir Ferret pokazuje izvanrednu izvedbu u zadacima referentnog dijaloga, stvarajući prostor za integraciju s različitim zadacima vizualnog učenja, posebno onima s uzemljenim rezultatima. Kako bi se procijenila njegova sposobnost uzemljenja, okvir Ferret prvo se podvrgava usporedbi zadataka vizualnog uzemljenja s generativnom paradigmom. Okvir zatim procjenjuje svoju sposobnost na utemeljenim zadacima titlovanja za mjerenje usklađenosti između regija i riječi.
U zadacima vizualnog uzemljenja, okvir ima za cilj utemeljiti jezične upite u usklađene regije slike, a kao što se može vidjeti na sljedećoj slici, okvir Ferret pokazuje izvanrednu izvedbu u svim referentnim vrijednostima, a izvedba je usporediva s onom koju postiže specijalizirane metode finog podešavanja.
Za zadatke temeljenog opisa, model treba generirati opis, a zatim prizemljiti generirane imeničke fraze na područja slike. Konačno predviđanje napravljeno modelom sastoji se od tri komponente: vizualnih regija kao okvira, tekstualnih naslova i temeljnih poravnanja između okvira i riječi. Rezultati su prikazani na sljedećoj slici, a kao što se može vidjeti, okvir pruža performanse usporedive s najsuvremenijim metodama.
Naposljetku, multimodalno čavrljanje jedna je od najpoželjnijih mogućnosti unutar MLLM-a, a postojeći MLLM-ovi primarno ocjenjuju detaljne opise, razgovor i složeno razmišljanje s jezičnim modelom kao sucem. Međutim, budući da niti jedan skup podataka ne ocjenjuje multimodalno čavrljanje s obaveznim radnjama upućivanja ili uzemljenja, ostavlja prazninu. Kako bi se premostio ovaj jaz, okvir Ferret pokriva tri regionalna pitanja za procjenu njegovih mogućnosti upućivanja i uzemljenja u multimodalnim zadacima čavrljanja. Rezultati su prikazani na sljedećoj slici.
Konačno, okvir Ferret uspoređuje se izravno s najnovijim GPT okvirom, a rezultati su prikazani u nastavku.
Final Misli
U ovom smo članku govorili o Ferretu, multimodalnom velikom jezičnom modelu koji pokazuje izvanredne mogućnosti utemeljenja i upućivanja. Okvir Ferret može se odnositi na regije slike bez obzira na njihov oblik i može uspostaviti temelj za tekst koji automatski predviđa model. Ferret koristi vizualni uzorkivač koji je svjestan prostora i sposoban je nositi se s različitom rijetkošću prikazanom različitim oblicima kako bi izvukao kontinuirane značajke raznolikih regija. Kao rezultat toga, okvir Ferret može unositi različite podatke o regijama, uključujući oblike slobodnog oblika, granične okvire i točke.