Connect with us

Tekoäly

Mini-Gemini: Kaivamassa monimodalisten visuaalisen kielen mallien potentiaalia

mm
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Edistysaskelit suurten kielen mallien kehityksessä ovat merkittävästi kiihdyttäneet luonnollisen kielen prosessoinnin eli NLP:n kehitystä. Transformer-kehyksen esittely osoittautui merkittäväksi, ja se mahdollisti uuden aallon kielen mallien kehittämisen, mukaan lukien OPT ja BERT, jotka osoittavat syvää lingvististä ymmärrystä. Lisäksi GPT:n eli Generative Pre-trained Transformer -mallien kehittäminen toi uuden paradigman, jossa on käytössä autoregressiivinen mallinnus, ja se tarjosi vankilan menetelmän kielen ennustamiseen ja generointiin. Kielen mallien, kuten GPT-4, ChatGPT, Mixtral, LLaMA ja muiden, kehitys on edistynyt nopeasti, ja jokainen malli on osoittanut parannettua suorituskykyä monimutkaisissa kielen prosessoinnin tehtävissä. Olemassa olevien menetelmien joukossa ohjeistuksen säätö on noussut tärkeäksi tekniikaksi suurten esikoulutettujen kielen mallien tulosten hienosäätöön, ja näiden mallien integrointi tiettyjen työkalujen kanssa visuaalisissa tehtävissä on korostanut niiden soveltuvuutta ja avannut ovia tuleville sovelluksille. Nämä ulottuvat perinteisen tekstipohjaisen LLM:n prosessoinnin ulkopuolelle ja kattavat monimodaalisen vuorovaikutuksen.

Lisäksi luonnollisen kielen prosessoinnin ja tietokoneen näkömallien yhdistyminen on johtanut VLM:ien eli Visuaalisen Kielen Mallien kehittymiseen, jotka yhdistävät lingvistiset ja visuaaliset mallit saavuttaakseen monimodaalisen ymmärryksen ja päättelykyvyn. Visuaalisten ja lingvististen mallien yhdistäminen on ollut tärkeässä roolissa tehtävien edistämisessä, jotka vaativat sekä kielen prosessointia että visuaalista ymmärrystä. CLIP-mallin kaltaisten vallankumouksellisten mallien kehitys on edelleen siltaa visuaalisten tehtävien ja kielen mallien välillä, osoittaen monimodaalisten sovellusten toteuttamiskelpoisuuden ja käytännöllisyyden. Uudemmat kehykset, kuten LLaMA ja BLIP, hyödyntävät räätälöityjä ohjeistusdataa kehittääkseen tehokkaita strategioita, jotka osoittavat mallin voimakkaat kyvyt. Lisäksi suurten kielen mallien yhdistäminen kuvatulosteiden kanssa on viimeaikaisen monimodaalisen tutkimuksen keskipisteenä, ja viimeaikaiset menetelmät pystyvät ohittamaan suoran generoinnin käyttämällä kuvan hakumetodia tuottamaan kuvatulosteita ja vuorovaikutteisia tekstejä.

Kuitenkin, ja huolimatta nopeasta edistymisestä visuaalisten kielen mallien kehityksessä, joka mahdollistaa perustason päättelyn ja visuaalisen dialogin, on edelleen merkittävä suorituskykyero edistyneiden mallien, kuten GPT-4, ja visuaalisten kielen mallien välillä. Mini-Gemini on yritys kaventaa tätä kuilua visuaalisten kielen mallien ja edistyneempien mallien välillä kaivamalla VLM:ien potentiaalia kolmesta näkökulmasta: VLM-ohjattu generointi, laadukas data ja korkearesoluutioinen visuaalinen tokeni. Visuaalisten tokenien parantamiseksi Mini-Gemini-kehyksen on ehdotettu käyttämään lisäksi visuaalista koodaria korkearesoluutioisen hienosäätöön ilman visuaalisten tokenien määrän lisäämistä. Mini-Gemini-kehyksen on myös ehdotettu rakentamaan laadukas tietokanta ymmärtämään tarkasti kuvia ja perustella generointia. Kaiken kaikkiaan Mini-Gemini-kehyksen tavoitteena on kaivaa visuaalisten kielen mallien potentiaalia ja antaa olemassa oleville kehyksille kuvapäättely-, ymmärrys- ja generointikykyjä samanaikaisesti. Tämä artikkeli tavoittelee kattaa Mini-Gemini-kehyksen syvällisemmin, ja tutkimme kehyksen mekanismin, metodologian, arkkitehtuurin ja sen vertailun valtavirtakehyksiin. Joten aloitetaan.

Mini-Gemini: Kiihdyttämällä monimodaalista VLM:ia

Viime vuosina suuret kielen mallit ovat kehittyneet, ja ne ovat saavuttaneet merkittäviä monimodaalisia kykyjä, ja ovat tulleessa osaksi nykyisiä visuaalisten kielen malleja. Kuitenkin, on edelleen kuilu monimodaalisen suorituskyvyn välillä suurten kielen mallien ja visuaalisten kielen mallien välillä, ja viimeaikainen tutkimus etsii keinoja yhdistää visuaalisuutta suurten kielen mallien kanssa käyttämällä kuvia ja videoita. Visuaalisten tehtävien osalta, kuvan resoluutio on tärkeä tekijä, joka mahdollistaa ympäristön ymmärtämisen vähäisellä visuaalisella hallucinaatiolla. Kuilun siltaamiseksi tutkijat kehittävät malleja parantamaan visuaalista ymmärrystä nykyisissä visuaalisten kielen malleissa, ja kaksi yleisintä lähestymistapaa ovat: resoluution lisääminen ja visuaalisten tokenien määrän lisääminen. Vaikka visuaalisten tokenien määrän lisääminen korkearesoluutioisilla kuvilla parantaa visuaalista ymmärrystä, se usein lisää laskennallisia vaatimuksia ja kustannuksia, erityisesti kun prosessoidaan useita kuvia. Lisäksi olemassa olevien mallien kyvyt, olemassa olevan datan laatu ja soveltuvuus ovat edelleen riittämättömiä nopean kehitysprosessin kannalta, jättäen tutkijat kysymään, “miten kiihdyttää visuaalisten kielen mallien kehitystä hyväksyttävillä kustannuksilla”?

Mini-Gemini-kehyksen on tarkoitus vastata tähän kysymykseen, ja se yrittää kaivaa visuaalisten kielen mallien potentiaalia kolmesta näkökulmasta: VLM-ohjattu generointi, laadukas data ja korkearesoluutioinen visuaalinen tokeni. Ensinnäkin, Mini-Gemini-kehyksen toteuttaa ConvNet-arkkitehtuurin generoimaan korkearesoluutioisia ehdokkaita tehokkaasti, parantaen visuaalista yksityiskohtaisuutta samalla, kun visuaalisten tokenien määrä säilyy suurten kielen mallien kannalta. Mini-Gemini-kehyksen yhdistää julkaistuja laadukkaita tietoja parantamaan datan laatua, ja integroi nämä parannukset valtavirtakehyksien kanssa generoivien ja suurten kielen mallien kanssa pyrkien parantamaan VLM:ien suorituskykyä ja käyttäjäkokemusta. Monitahoisen strategian, jonka Mini-Gemini-kehyksen toteuttaa, mahdollistaa sen kaivaa piileviä kykyjä visuaalisten kielen malleissa, ja saavuttaa merkittäviä edistysaskelia näkyvin resurssirajoituksin.

Yleisesti, Mini-Gemini-kehyksen käyttää “mitä tahansa – mitä tahansa” -paradigman, koska se pystyy käsittelemään sekä tekstiä että kuvia syötteenä ja tulosteena. Erityisesti, Mini-Gemini-kehyksen esittää tehokkaan putken visuaalisten tokenien parantamiseksi syötekuvista, ja se sisältää kaksinkertaisen koodarin, joka koostuu kahdesta koodarista: ensimmäinen koodari on korkearesoluutioisille kuville, ja toinen koodari on matalalaatuisille visuaalisille upotuksille. Inferenssin aikana koodarit toimivat huomion mekanismin avulla, jossa matalaresoluutioinen koodari generoi visuaalisia kysymyksiä, ja korkearesoluutioinen koodari tarjoaa avaimet ja arvot viittaamiseen.

Mini-Gemini: Menetelmä ja Arkkitehtuuri

Perimmältään, Mini-Gemini-kehyksen on konseptuaalisesti yksinkertainen, ja se koostuu kolmesta komponentista.

  1. Keheyksen käyttää kaksinkertaisia visuaalisia koodareita tarjoamaan matalaresoluutioisia visuaalisia upotuksia ja korkearesoluutioisia ehdokkaita.
  2. Keheyksen ehdottaa toteuttaa patch-info-kaivamista suorittamaan kaivamista patch-tasolla matalaresoluutioisten visuaalisten kysymysten ja korkearesoluutioisten alueiden välillä.
  3. Mini-Gemini-kehyksen käyttää suurta kielen mallia yhdistämään tekstin ja kuvan sekä generoinnissa että ymmärtämisessä samanaikaisesti.

Kaksinkertaiset Visuaaliset Koodarit

Mini-Gemini-kehyksen pystyy käsittelemään sekä teksti- että kuvasyötteen, ja se voi käsitellä niitä joko yksinään tai yhdessä. Kuten seuraavasta kuvasta voidaan nähdä, Mini-Gemini-kehyksen aloittaa prosessin käyttämällä bilineaarista interpolointia generoimaan matalaresoluutioinen kuva vastaavasta korkearesoluutioisesta kuvasta.

Keheyksen prosessoi nämä kuvat ja koodaa ne monigrid-visual-embeddiin kahdessa rinnakkaisessa kuvavirrassa. Tarkemmin sanottuna, Mini-Gemini-kehyksen säilyttää perinteisen putken matalaresoluutioisille virroille, ja se käyttää CLIP-esikoulutettua Visuaalista Transformeria koodaamaan visuaaliset upotukset, jolloin malli säilyttää pitkän aikavälin suhteen visuaalisten patchien välillä seuraavien suurten kielen mallien vuorovaikutuksissa. Korkearesoluutioisille virroille, Mini-Gemini-kehyksen käyttää CNN-pohjaista koodaria sopeutuvasti ja tehokkaasti korkearesoluutioisen kuvan prosessointiin.

Patch-Info-Kaivaminen

Kun kaksinkertaiset visuaaliset koodarit generoivat LR-upotukset ja HR-ominaisuudet, Mini-Gemini-kehyksen ehdottaa toteuttaa patch-info-kaivamista laajentaakseen visuaalisten kielen mallien potentiaalia parantamaan visuaalisia tokenien laatua. Jotta visuaalisten tokenien määrä säilytetään suurten kielen mallien kannalta tehokkaasti, Mini-Gemini-kehyksen ottaa matalaresoluutioisen visuaalisen upotuksen kysymyksenä, ja se pyrkii hakemaan merkityksellisiä visuaalisia vihjeitä HR-ominaisuus-ehdokkaista, ja kehyksen ottaa HR-ominaisuuskartan avaimena ja arvona.

Kuten edellä olevasta kuvasta voidaan nähdä, kaava kattaa prosessin visuaalisten vihjeiden hienosäätöä ja synteesiä, mikä johtaa edistyneiden visuaalisten tokenien generointiin seuraavassa suuressa kielen mallin prosessoinnissa. Prosessi varmistaa, että kaivaminen jokaiselle kysymykselle rajoitetaan sen vastaavaan alueeseen HR-ominaisuuskartassa, ja se johtaa parantuneeseen tehokkuuteen. Tämän suunnittelun ansiosta, Mini-Gemini-kehyksen pystyy kaivamaan HR-ominaisuus-yksityiskohtia ilman visuaalisten tokenien määrän lisäämistä, ja se säilyttää tasapainon laskennallisen toteuttamiskelpoisuuden ja yksityiskohtaisuuden välillä.

Teksti- ja Kuvagenerointi

Mini-Gemini-kehyksen yhdistää visuaaliset tokenit ja syöte-teksti-tokenit suuren kielen mallin syötteenä auto-regressiiviselle generoinnille. Toisin kuin perinteiset visuaaliset kielen mallit, Mini-Gemini-kehyksen tukee sekä teksti-vain että teksti-kuvagenerointia syötteenä ja tulosteena, eli “mitä tahansa – mitä tahansa” -päätelmä, ja se on tulosta siitä, että se on saavuttanut erinomaisen kuvan ja tekstin ymmärryksen ja päättelykyvyn, ja se pystyy generoimaan laadukkaita kuvia. Toisin kuin viimeaikaiset työt, jotka keskittyvät domain-erolle teksti-upotuksien ja generoivien mallien välillä, Mini-Gemini-kehyksen pyrkii optimoimaan tämän eron kielen ohjeistuksen alueella kääntämällä käyttäjän ohjeistuksia laadukkaiksi ohjeistuksiksi, jotka tuottavat kontekstiin liittyviä kuvia latentti-diffuusiomalleissa. Lisäksi, paremman ymmärryksen saavuttamiseksi ohjeistuksen hienosäätöön ja monimodaaliseen tasapainoon, Mini-Gemini-kehyksen kerää näytteitä julkisesti saatavilla olevista laadukkaista tietoista, ja se käyttää GPT-4-turbo-kehyksen rakentamaan 13K ohjeistuksen seuraamisen tietokannan tukemaan kuvagenerointia.

Mini-Gemini: Kokeet ja Tulokset

Arvioidakseen suorituskykyään, Mini-Gemini-kehyksen on toteutettu esikoulutetulla ConvNext-L-kehyksellä HR-näkökoodariksi, ja CLIP-esikoulutetulla Visuaalisella Transformerilla LR-näkökoodariksi. Varmistamaan koulutuksen tehokkuuden, Mini-Gemini-kehyksen pitää kaksi visuaalista koodaria kiinni, ja se optimoi patch-info-kaivamisen projektoreita kaikissa vaiheissa, ja se optimoi suuren kielen mallin ohjeistuksen säätövaiheessa.

Seuraava taulukko vertaa Mini-Gemini-kehyksen suorituskykyä valtavirtakehyksiin eri asetuksissa, ja se ottaa huomioon myös yksityiset mallit. Kuten voidaan havaita, Mini-Gemini-kehyksen ylittää olemassa olevat kehykset laajasti eri suurten kielen mallien kanssa, ja se osoittaa erinomaisen suorituskyvyn, kun se on konfiguroitu Gemma-2B:llä tehokkaiden mallien luokassa. Lisäksi, kun suurempia suuria kielen malleja käytetään, Mini-Gemini-kehyksen skaalautuvuus on näkyvissä.

Arvioidakseen suorituskykyään korkearesoluutioisilla kuvilla ja laajennetuilla visuaalisilla tokeneilla, kokeet on suoritettu syötekokoelmalla, jonka koko on 672 LR-näkökoodarille, ja 1536 visuaalisen koodarin koko. Kuten mainittiin aiemmin, HR-visuaalisen koodarin pääasiallinen tarkoitus on tarjota korkearesoluutioinen ehdokasinformaatio. Kuten voidaan havaita, Mini-Gemini-kehyksen osoittaa erinomaisen suorituskyvyn verrattuna valtavirtakehyksiin.

Lisäksi, arvioidakseen visuaalisen ymmärryksen Mini-Gemini-kehyksessä todellisissa tilanteissa, kehittäjät soveltavat mallia moniin eri päättely- ja ymmärrystehtäviin, kuten seuraavasta kuvasta voidaan nähdä. Kuten voidaan havaita, Mini-Gemini-kehyksen pystyy ratkaisemaan laajan valikoiman monimutkaisia tehtäviä patch-info-kaivamisen ja laadukkaan datan toteuttamisen ansiosta. Mutta mikä on vielä vaikuttavampaa, on se, että Mini-Gemini-kehyksen osoittaa tarkkaa huomiota yksityiskohtiin, joka ulottuu yli pelkän tunnistamiskyvyn, ja se kuvailee yksityiskohtia yksityiskohtaisesti.

Seuraava kuva tarjoaa kattavan arvion Mini-Gemini-kehyksen generoivista kyvyistä.

Kun verrataan viimeaikaisiin malleihin, kuten ChatIllusion ja AnyGPT, Mini-Gemini-kehyksen osoittaa vahvempaa monimodaalista ymmärrystä, mikä mahdollistaa sen generoimaan “teksti-kuvaksi” -kuvauksia, jotka ovat paremmin linjassa syöteohjeiden kanssa, ja se johtaa kuvasta tekstin vastauksiin, joilla on vahvempi konseptuaalinen samankaltaisuus. Mikä on vielä vaikuttavampaa, on se, että Mini-Gemini-kehyksen osoittaa merkittävää taituruutta generoimassa laadukasta sisältöä monimodaalisilla ihmisen ohjeistuksilla vain tekstipohjaisella koulutusdatalla, mikä osoittaa Mini-Gemini-kehyksen vankkaa semanttista tulkintaa ja kuvan-tekstin tasapainoa.

Lopputulemat

Tässä artikkelissa olemme keskustelleet Mini-Gemini-kehyksestä, joka on voimakas ja suoraviivainen kehyksen visuaalisten kielen mallien monimodaaliseen toteuttamiseen. Mini-Gemini-kehyksen pääasiallinen tavoite on kaivaa visuaalisten kielen mallien piileviä kykyjä laadukkaan datan, strategisen suunnittelun ja laajennetun toiminnallisen ulottuvuuden avulla. Mini-Gemini on yritys kaventaa kuilua, joka on visuaalisten kielen mallien ja edistyneempien mallien välillä, kaivamalla VLM:ien potentiaalia kolmesta näkökulmasta: VLM-ohjattu generointi, laadukas data ja korkearesoluutioinen visuaalinen tokeni. Visuaalisten tokenien parantamiseksi Mini-Gemini-kehyksen ehdottaa käyttämään lisäksi visuaalista koodaria korkearesoluutioisen hienosäätöön ilman visuaalisten tokenien määrän lisäämistä. Mini-Gemini-kehyksen rakentaa myös laadukkaan tietokannan edistääkseen tarkan ymmärryksen kuvista ja perustella generointia. Kaiken kaikkiaan, Mini-Gemini-kehyksen pyrkii kaivamaan visuaalisten kielen mallien potentiaalia ja antaa olemassa oleville kehyksille kuvapäättely-, ymmärrys- ja generointikykyjä samanaikaisesti.

Ammattina insinööri, sydämen vuoksi kirjailija. Kunal on tekninen kirjailija, jolla on syvä rakkaus ja ymmärrys AI: sta ja ML: stä, omistautunut yksinkertaistamaan monimutkaisia käsitteitä näissä aloissa hänen viihdyttävän ja informatiivisen dokumentaationsa kautta.