škrbina Mini-Gemini: Istraživanje potencijala višemodalnih modela jezika vizije - Unite.AI
Povežite se s nama

Umjetna inteligencija

Mini-Gemini: Istraživanje potencijala višemodalnih jezičnih modela vizije

mm

Objavljeno

 on

Mini-Gemini: Istraživanje potencijala višemodalnih jezičnih modela vizije

Napredak u veliki jezični modeli značajno su ubrzali razvoj obrada prirodnog jezika, odnosno NLP-a. Uvođenje okvira transformatora pokazalo se kao prekretnica, olakšavajući razvoj novog vala jezičnih modela, uključujući OPT i BERT, koji pokazuju duboko lingvističko razumijevanje. Nadalje, početak GPT-a ili Generative Pre-trained Transformer modela uveo je novu paradigmu s autoregresijskim modeliranjem i uspostavio robusnu metodu za predviđanje i generiranje jezika. Pojava jezičnih modela kao što su GPT-4, ChatGPT, Mixtral, LLaMA i drugi dodatno je potaknula brzu evoluciju, pri čemu svaki model pokazuje poboljšane performanse u zadacima koji uključuju složenu jezičnu obradu. Među postojećim metodama, podešavanje instrukcija pojavilo se kao ključna tehnika za pročišćavanje rezultata unaprijed obučenih velikih jezičnih modela, a integracija tih modela sa specifičnim alatima za vizualne zadatke istaknula je njihovu prilagodljivost i otvorila vrata za buduće primjene. Oni se protežu daleko izvan tradicionalne tekstualne obrade LLM-a i uključuju multimodalne interakcije.

Nadalje, konvergencija obrade prirodnog jezika i modela računalnog vida dovela je do VLM-ova ili modela jezika vida, koji kombiniraju lingvističke modele i modele vida kako bi se postiglo međumodalno razumijevanje i sposobnost zaključivanja. Integracija i pojava vizualnih i jezičnih modela odigrali su ključnu ulogu u napredovanju zadataka koji zahtijevaju i jezičnu obradu i vizualno razumijevanje. Pojava revolucionarnih modela poput CLIP-a dodatno je premostila jaz između zadataka vida i jezičnih modela, pokazujući izvedivost i praktičnost višemodalnih primjena. Noviji okviri kao što su LLaMA i BLIP koriste prilagođene podatke o uputama za osmišljavanje učinkovitih strategija koje demonstriraju moćne mogućnosti modela. Dodatno, kombiniranje velikih jezičnih modela sa izlaznim slikama je u fokusu nedavnih multimodalnih istraživanja, s novijim metodama koje mogu zaobići izravno generiranje korištenjem pristupa pronalaženja slika za proizvodnju izlaznih slika i isprepletenih tekstova.

Uz to, i unatoč brzom napretku u modelima jezika vizije koji olakšavaju osnovno razmišljanje i vizualni dijalog, još uvijek postoji značajan jaz u izvedbi između naprednih modela poput GPT-4 i modela jezika vizije. Mini-Gemini pokušaj je smanjivanja jaza koji postoji između modela jezika vizije i naprednijih modela iskopavanjem potencijala VLM-ova za bolju izvedbu iz tri aspekta: generiranje vođeno VLM-om, podaci visoke kvalitete i vizualni tokeni visoke rezolucije. Kako bi se poboljšali vizualni tokeni, okvir Mini-Gemini predlaže korištenje dodatnog vizualnog kodera za preciziranje visoke rezolucije bez povećanja broja vizualnih tokena. Okvir Mini-Gemini dalje konstruira skup podataka visoke kvalitete u pokušaju promicanja preciznog razumijevanja slika i generiranja temeljenog na razmišljanju. Sveukupno, okvir Mini-Gemini pokušava iskopati potencijal modela jezika vizije i ima za cilj osnažiti postojeće okvire sa slikovnim razmišljanjem, razumijevanjem i generativnim sposobnostima istovremeno. Ovaj članak ima za cilj detaljno pokriti okvir Mini-Gemini, a mi istražujemo mehanizam, metodologiju, arhitekturu okvira zajedno s njegovom usporedbom s najsuvremenijim okvirima. Pa krenimo. 

Mini-Gemini: Ubrzavanje višemodalnih VLM-ova

Tijekom godina, veliki jezični modeli su se razvili i sada se mogu pohvaliti izvanrednim multimodalnim sposobnostima i postaju bitan dio trenutnih modela jezika vizije. Međutim, postoji jaz između multimodalne izvedbe velikih jezičnih modela i modela jezika vizije s nedavnim istraživanjem koje traži načine za kombiniranje vizije s velikim jezičnim modelima pomoću slika i videa. Za same zadatke vida, rezolucija slike je ključni element za eksplicitno usprkos okolnom okruženju s minimalnim vizualnim halucinacijama. Kako bi premostili jaz, istraživači razvijaju modele za poboljšanje vizualnog razumijevanja u sadašnjosti modeli jezika vizije, a dva najčešća pristupa su: povećanje rezolucije i povećanje broja vizualnih tokena. Iako povećanje broja vizualnih tokena sa slikama veće razlučivosti poboljšava vizualno razumijevanje, povećanje je često popraćeno povećanim računalnim zahtjevima i povezanim troškovima, posebno kada se obrađuje više slika. Nadalje, mogućnosti postojećih modela, kvaliteta postojećih podataka i primjenjivost ostaju neadekvatni za ubrzani razvojni proces, ostavljajući istraživače pred pitanjem, “kako ubrzati razvoj modela jezika vizije uz prihvatljive troškove"?

Okvir Mini-Gemini pokušaj je odgovora na pitanje jer pokušava istražiti potencijal modela jezika vizije s tri aspekta: VLM-vođeno generiranje ili proširene aplikacije, podaci visoke kvalitete i vizualni tokeni visoke rezolucije. Prvo, okvir Mini-Gemini implementira ConvNet arhitekturu za učinkovito generiranje kandidata više rezolucije, poboljšavajući vizualne detalje uz zadržavanje broja vizualnih tokena za veliki jezični model. Okvir Mini-Gemini ujedinjuje javno dostupne skupove podataka visoke kvalitete u pokušaju poboljšanja kvalitete podataka i integrira ta poboljšanja s najsuvremenijim generativnim i velikim jezičnim modelima s pokušajem poboljšanja performansi VLM-ova i poboljšanja korisničko iskustvo. Višestruka strategija koju implementira okvir Mini-Gemini omogućuje mu istraživanje skrivenih mogućnosti modela jezika vizije i postiže značajan napredak uz evidentna ograničenja resursa. 

Općenito, okvir Mini-Gemini koristi paradigmu bilo koje prema bilo kojoj budući da je sposoban rukovati i tekstom i slikama kao ulazom i izlazom. Konkretno, okvir Mini-Gemini uvodi učinkovit cjevovod za poboljšanje vizualnih tokena za ulazne slike i ima sustav dvostrukog kodera koji se sastoji od dvostrukih kodera: prvi koder je za slike visoke razlučivosti, dok je drugi koder za niske kvalitetno vizualno ugrađivanje. Tijekom zaključivanja, koderi rade u mehanizmu pažnje, gdje koder niske rezolucije generira vizualne upite, dok koder visoke rezolucije daje ključ i vrijednosti za referencu. Kako bi povećao kvalitetu podataka, okvir Mini-Gemini prikuplja i proizvodi više podataka na temelju javnih izvora, uključujući upute orijentirane na zadatak, podatke koji se odnose na generaciju i odgovore visoke razlučivosti, pri čemu povećana količina i poboljšana kvaliteta poboljšavaju ukupnu izvedbu i mogućnostima modela. Nadalje, okvir Mini-Gemini podržava istovremeno generiranje teksta i slika kao rezultat integracije modela jezika vizije s naprednim generativnim modelima. 

Mini-Gemini : Metodologija i arhitektura

U svojoj srži, okvir Mini-Gemini je konceptualno jednostavan i sastoji se od tri komponente. 

  1. Okvir koristi kodere dvostrukog vida za pružanje vizualnih umetanja niske rezolucije i kandidata visoke rezolucije. 
  2. Okvir predlaže implementaciju rudarenja informacija o zakrpama za provođenje rudarenja na razini zakrpa između vizualnih upita niske rezolucije i regija visoke rezolucije. 
  3. Okvir Mini-Gemini koristi veliki jezični model za spajanje teksta sa slikama za istovremeno stvaranje i razumijevanje. 

Koderi dvostrukog vida

Okvir Mini-Gemini može obrađivati ​​i tekstualne i slikovne unose, s mogućnošću rukovanja njima pojedinačno ili u kombinaciji. Kao što je prikazano na sljedećoj slici, okvir Mini-Gemini započinje proces korištenjem bilinearne interpolacije za generiranje slike niske razlučivosti iz odgovarajuće slike visoke razlučivosti. 

Okvir zatim obrađuje te slike i kodira ih u višemrežno vizualno ugrađivanje u dva paralelna toka slika. Konkretnije, okvir Mini-Gemini održava tradicionalni cjevovod za tokove niske razlučivosti i koristi Visual Transformer prethodno obučen za CLIP za kodiranje vizualnih umetanja, olakšavajući modelu da očuva dalekosežni odnos između vizualnih zakrpa za naknadne interakcije u velikom jeziku modeli. Za tokove visoke razlučivosti, okvir Mini-Gemini usvaja koder temeljen na CNN ili Convolution Neural Networks za prilagodljivu i učinkovitu obradu slike visoke rezolucije. 

Iskopavanje informacija o zakrpama

S koderima dvostrukog vida koji generiraju LR ugrađene i HR značajke, okvir Mini-Gemini predlaže implementaciju patch info mininga s ciljem proširenja potencijala modela jezika vizije s poboljšanim vizualnim tokenima. Kako bi se održao broj vizualnih tokena za učinkovitost u velikim jezičnim modelima, okvir Mini-Gemini uzima vizualna ugrađivanja niske rezolucije kao upit i ima za cilj dohvatiti relevantne vizualne znakove od kandidata za HR značajke, pri čemu okvir uzima Karta značajki HR kao ključ i vrijednost.

Kao što je prikazano na gornjoj slici, formula sažima proces pročišćavanja i sintetiziranja vizualnih znakova, što dovodi do generiranja naprednih vizualnih tokena za kasniju obradu velikog jezičnog modela. Proces osigurava da okvir može ograničiti rudarenje za svaki upit na njegovu odgovarajuću podregiju u mapi značajki HR-a s brojem značajki po pikselima, što rezultira poboljšanom učinkovitošću. Zahvaljujući ovom dizajnu, okvir Mini-Gemini može izdvojiti detalje HR značajki bez povećanja broja vizualnih tokena i održava ravnotežu između računalne izvedivosti i bogatstva detalja. 

Generiranje teksta i slika

Okvir Mini-Gemini spaja vizualne tokene i ulazne tekstualne tokene kao ulaz u velike jezične modele za autoregresivno generiranje. Za razliku od tradicionalnih modela jezika vizije, okvir Mini-Gemini podržava generiranje samo teksta kao i tekstualne slike kao ulaz i izlaz, tj. bilo koji zaključak, a to je rezultat ove izvanredne sposobnosti razumijevanja i zaključivanja slike i teksta, Mini-Gemini može generirati slike visoke kvalitete. Za razliku od nedavnih radova koji se fokusiraju na jaz u domeni između tekstualnih umetanja generacijskih modela i velikih jezičnih modela, okvir Mini-Gemini pokušava optimizirati jaz u domeni jezičnih upita prevođenjem korisničkih uputa u upite visoke kvalitete koji proizvode slike relevantne za kontekst u modelima latentne difuzije. Nadalje, za bolje razumijevanje finog podešavanja instrukcija i usklađivanja unakrsnih modaliteta, okvir Mini-Gemini prikuplja uzorke iz javno dostupnih skupova podataka visoke kvalitete i koristi GPT-4 turbo okvir za daljnju konstrukciju skupa podataka koji slijede 13K instrukcija za podršku generiranju slika. 

Mini-Gemini : Eksperimenti i rezultati

Kako bi se procijenila njegova izvedba, okvir Mini-Gemini instanciran je s unaprijed obučenim okvirom ConvNext-L za koder HR vida i s CLIP-om unaprijed obučenim Transformator vida za LR vision koder. Kako bi se osigurala učinkovitost obuke, okvir Mini-Gemini održava dva enkodera vida fiksnima i optimizira projektore rudarenja informacija o zakrpama u svim fazama i optimizira veliki jezični model tijekom same faze podešavanja instrukcija. 

Sljedeća tablica uspoređuje izvedbu okvira Mini-Gemini s najsuvremenijim modelima u različitim postavkama, a također uzima u obzir privatne modele. Kao što se može primijetiti, Mini-Gemini nadmašuje postojeće okvire u širokom rasponu LLM-ova dosljedno pri normalnoj rezoluciji i pokazuje vrhunske performanse kada je konfiguriran s Gemma-2B u kategoriji učinkovitih modela. Nadalje, kada se koriste veći i veliki jezični modeli, skalabilnost okvira Mini-Gemini je očita. 

Kako bi se procijenila njegova izvedba na visokoj razlučivosti i proširenim vizualnim tokenima, eksperimenti se izvode s veličinom unosa od 672 za LR vidni koder i 1536 za vizualni koder. Kao što je ranije spomenuto, glavna svrha HR vizualnog kodera je ponuditi kandidatske informacije visoke rezolucije. Kao što se može primijetiti, okvir Mini-Gemini pruža vrhunsku izvedbu u usporedbi s najsuvremenijim okvirima. 

Nadalje, kako bi procijenili sposobnost vizualnog razumijevanja okvira Mini-Gemini u postavkama stvarnog svijeta, programeri primjenjuju model na različite zadatke zaključivanja i razumijevanja kao što je prikazano na sljedećoj slici. Kao što se može primijetiti, okvir Mini-Gemini može riješiti široku lepezu složenih zadataka zahvaljujući implementaciji patch info mininga i visokokvalitetnim podacima. Ali ono što je još impresivnije jest činjenica da okvir Mini-Gemini pokazuje oštroumno dodavanje detalja koji nadilazi puko umijeće prepoznavanja i zamršene elemente opisuje na zamršen način. 

Sljedeća slika daje sveobuhvatnu procjenu generativnih sposobnosti okvira Mini-Gemini. 

U usporedbi s novijim modelima kao što su ChatIllusion i AnyGPT, okvir Mini-Gemini pokazuje jače multimodalne sposobnosti razumijevanja, što mu omogućuje generiranje tekst u sliku opisi koji se bolje usklađuju s uputama za unos i rezultiraju odgovorima slike i teksta s većom konceptualnom sličnošću. Ono što je još impresivnije je činjenica da okvir Mini-Gemini pokazuje izvanrednu vještinu u stvaranju visokokvalitetnog sadržaja korištenjem višemodelnih ljudskih uputa samo s tekstualnim podacima za obuku, sposobnost koja ilustrira robusnu semantičku interpretaciju Mini-Gemini i vještine poravnanja slike i teksta. 

Final Misli

U ovom smo članku govorili o Mini-Gemini, snažnom i pojednostavljenom okviru za višemodalne jezične modele vizije. Primarni cilj okvira Mini-Gemini je iskoristiti latentne mogućnosti modela jezika vizije korištenjem podataka visoke kvalitete, strateškog dizajna okvira i proširenog funkcionalnog opsega. Mini-Gemini pokušaj je smanjivanja jaza koji postoji između modela jezika vizije i naprednijih modela iskopavanjem potencijala VLM-ova za bolju izvedbu iz tri aspekta: generiranje vođeno VLM-om, podaci visoke kvalitete i vizualni tokeni visoke rezolucije. Kako bi se poboljšali vizualni tokeni, okvir Mini-Gemini predlaže korištenje dodatnog vizualnog kodera za preciziranje visoke rezolucije bez povećanja broja vizualnih tokena. Okvir Mini-Gemini dalje konstruira skup podataka visoke kvalitete u pokušaju promicanja preciznog razumijevanja slika i generiranja temeljenog na razmišljanju. Sveukupno, okvir Mini-Gemini pokušava iskopati potencijal modela jezika vizije i ima za cilj osnažiti postojeće okvire sa slikovnim razmišljanjem, razumijevanjem i generativnim sposobnostima istovremeno.

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.