Tekoäly

Mini-Gemini: Kiihdyttämällä monimodaalisia VLM-malleja

Julkaistu 26. huhtikuuta 2024

Päivitetty 21. toukokuuta 2026

Tekijä

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Suuret kielen mallit ovat edistyneet merkittävästi, ja ne ovat nykyään osa tärkeitä visuaalisen kielen malleja. On kuitenkin ero suurten kielen mallien ja visuaalisen kielen mallien välillä, ja tutkijat etsivät keinoja yhdistää visuaalisen ja kielen mallit kuvien ja videoiden avulla. Visuaalisissa tehtävissä kuvan resoluutio on tärkeä tekijä, jotta ympäristö voidaan havainnoida minimoiden visuaalinen hallucinaatio. Tutkijat kehittävät malleja, jotka parantavat visuaalista ymmärrystä nykyisissä visuaalisen kielen malleissa, ja kaksi yleisintä lähestymistapaa ovat: resoluution lisääminen ja visuaalisten tokenien määrän lisääminen. Vaikka korkeampi resoluutio ja suurempi määrä visuaalisia tokenien parantaa visuaalista ymmärrystä, se vaatii usein enemmän laskentaresursseja ja kustannuksia, erityisesti kun useita kuvia prosessoidaan. Lisäksi nykyisten mallien ominaisuudet, datan laatu ja soveltuvuus ovat riittämättömiä nopean kehitysprosessin kannalta, joten tutkijat pohtivat, “miten voitaisiin kiihdyttää visuaalisen kielen mallien kehitystä hyväksyttävillä kustannuksilla”?

Mini-Gemini on yritys vastata tähän kysymykseen. Se pyrkii tutkimaan visuaalisen kielen mallien potentiaalia kolmesta näkökulmasta: VLM-ohjatun generoinnin, korkealaatuisen datan ja korkearesoluutioisten visuaalisten tokenien. Mini-Gemini kehittää ConvNet-arkkitehtuurin, joka mahdollistaa korkearesoluutioisten ehdokkaiden tehokkaan generoinnin ilman visuaalisten tokenien määrän lisäämistä. Mini-Gemini yhdistää julkisesti saatavilla olevat korkealaatuiset datat ja integroi nämä parannukset viimeisimmän sukupolven generatiivisilla ja suurilla kielen malleilla, jotta parantaa VLM-mallien suorituskykyä ja käyttäjäkokemusta. Monitahoisen strategian ansiosta Mini-Gemini pystyy tutkimaan visuaalisen kielen mallien piileviä kykyjä ja saavuttaa merkittäviä edistysaskeleita näkyvillä resurssirajoituksilla.

Yleisesti ottaen Mini-Gemini käyttää “mitä tahansa mihin tahansa” -paradigmaa, koska se pystyy käsittelemään sekä tekstiä että kuvia sekä syötteenä että tulosteena. Erityisesti Mini-Gemini esittelee tehokkaan putken korkearesoluutioisten visuaalisten tokenien parantamiseksi syötekuvista, ja se sisältää kaksinkertaisen koodausjärjestelmän, joka koostuu kahdesta koodaajasta: ensimmäinen koodaaja on korkearesoluutioisille kuville, ja toinen koodaaja on matalalaatuisille visuaalisille upotoksille. Inferenssin aikana koodaajat toimivat huomioimekanismina, jossa matalaresoluutioinen koodaaja luo visuaalisia kyselyjä, ja korkearesoluutioinen koodaaja tarjoaa avain- ja arvoparit viittaukseksi.

Mini-Gemini: Menetelmä ja Arkkitehtuuri

Mini-Gemini koostuu kolmesta komponentista:

Kehys käyttää kaksinkertaista visuaalista koodausta, joka tarjoaa matalaresoluutioisia visuaalisten upotusten ja korkearesoluutioisia ehdokkaita.
Kehys ehdottaa patch-tiedon kaivamista, jotta voidaan suorittaa kaivaminen patch-tasolla matalaresoluutioisten visuaalisten kyselyjen ja korkearesoluutioisten alueiden välillä.
Mini-Gemini käyttää suurta kielen mallia yhdistämään tekstin ja kuvan sekä generoinnin että ymmärryksen vuoksi samanaikaisesti.

Kaksinkertaiset Visuaaliset Koodaajat

Mini-Gemini voi käsitellä sekä teksti- että kuvasyötteen, ja se voi käsitellä niitä joko yksin tai yhdessä. Kuten seuraavasta kuvasta voidaan nähdä, Mini-Gemini aloittaa prosessin käyttämällä bilineaarista interpolointia korkearesoluutioisen kuvan muodostamiseksi matalaresoluutioisesta kuvasta.

Kehys prosessoi nämä kuvat ja koodaa ne moniruutuisiin visuaalisiin upotusten, ja se ylläpitää perinteistä putkea matalaresoluutioisille virroille ja käyttää CLIP-koulutettua visuaalista muunnostelijaa visuaalisten upotusten koodaamiseen, jotta malli voi säilyttää pitkän aikavälin suhteen visuaalisten patchien välillä seuraavien suurten kielen mallien vuorovaikutuksissa. Korkearesoluutioisille virroille Mini-Gemini ottaa käyttöön CNN-pohjaisen koodaajan joustavalle ja tehokkaalle korkearesoluutioiselle kuvankäsittelylle.

Patch-tiedon Kaivaminen

Kaksinkertaisen visuaalisen koodauksen generoitua matalaresoluutioisia upotusten ja korkearesoluutioisia piirteitä, Mini-Gemini ehdottaa patch-tiedon kaivamista, jotta voidaan laajentaa visuaalisen kielen mallien potentiaalia parantamalla visuaalisten tokenien laatua. Jotta voidaan ylläpitää visuaalisten tokenien määrää suurten kielen mallien tehokkuuden vuoksi, Mini-Gemini ottaa matalaresoluutioiset visuaaliset upotukset kyselyksi ja pyrkii hakemaan merkityksellisiä visuaalisia vihjeitä korkearesoluutioisista piirteistä, ja kehys ottaa korkearesoluutioisen piirtekartan avaimena ja arvona.

Kuten edellisestä kuvasta voidaan nähdä, kaava kattaa visuaalisten vihjeiden tarkentamis- ja synteesiprosessin, joka johtaa edistyneiden visuaalisten tokenien generointiin seuraavassa suuressa kielen mallin prosessoinnissa. Prosessi varmistaa, että kehys voi rajoittaa kaivamisen kullekin kyselylle vastaavaan alueeseen korkearesoluutioisessa piirtekartassa pikselikohtaisen piirteiden määrän kanssa, mikä johtaa parantuneeseen tehokkuuteen. Tämän suunnittelun ansiosta Mini-Gemini pystyy hakemaan korkearesoluutioisten piirteiden yksityiskohtia ilman visuaalisten tokenien määrän lisäämistä, ja se ylläpitää tasapainoa laskennallisen toteutettavuuden ja yksityiskohtien rikkauden välillä.

Tekstin ja Kuvan Generointi

Mini-Gemini yhdistää visuaaliset tokenit ja syöte-tekstin tokenit suurten kielen mallien auto-regressiiviseen generointiin. Toisin kuin perinteiset visuaaliset kielen mallit, Mini-Gemini tukee sekä teksti- että teksti-kuvagenerointia sekä syötteenä että tulosteena, eli “mitä tahansa mihin tahansa” -inferenssi, ja se on tulosta erinomaisesta kuvan ja tekstin ymmärryksestä ja päättelykyvystä, ja Mini-Gemini pystyy generoimaan korkealaatuisia kuvia.

Mini-Gemini: Kokeet ja Tulokset

Arvioidakseen suorituskykyään, Mini-Gemini kehys on toteutettu esikoulutetun ConvNext-L-kehyskokeella korkearesoluutioiselle visuaaliselle koodaajalle, ja CLIP-koulutetulla visuaalisella muunnostelijalla matalaresoluutioiselle visuaaliselle koodaajalle. Varmistamaan koulutuksen tehokkuuden, Mini-Gemini pitää kaksi visuaalista koodaajaa kiinni ja optimoi patch-tiedon kaivamisen projektorit kaikissa vaiheissa, ja optimoi suuren kielen mallin ohjausvaiheessa itsessään.

Seuraava taulukko vertaa Mini-Gemini-kehyskokeen suorituskykyä valmiiden mallien kanssa eri aseteluissa, ja se ottaa huomioon myös yksityiset mallit. Kuten voidaan nähdä, Mini-Gemini ylittää olemassa olevat kehykset laajasti eri suurten kielen mallien kanssa normaaleilla resoluutioilla, ja se osoittaa erinomaisen suorituskyvyn, kun se on konfiguroitu Gemma-2B:lle tehokkaiden mallien luokassa. Lisäksi, kun suurempia suuria kielen malleja käytetään, Mini-Gemini-kehyskokeen skaalautuvuus on näkyvissä.

Arvioidakseen suorituskykyään korkearesoluutioisilla ja laajennetuilla visuaalisilla tokenien kanssa, kokeet suoritetaan syötekokoelman kokoelmalla 672:lle matalaresoluutioiselle visuaaliselle koodaajalle ja 1536:lle visuaaliselle koodaajalle. Kuten mainittiin aiemmin, korkearesoluutioisen visuaalisen koodaajan pääasiallinen tarkoitus on tarjota korkearesoluutioinen ehdokasinformaatio. Kuten voidaan nähdä, Mini-Gemini-kehys osoittaa erinomaisen suorituskyvyn verrattuna valmiisiin kehyksiin.

Lisäksi arvioidakseen visuaalisen ymmärryksen Mini-Gemini-kehyskokeessa todellisissa tilanteissa, kehittäjät soveltavat mallia moniin eri päättely- ja ymmärrystehtäviin, kuten seuraavasta kuvasta voidaan nähdä. Kuten voidaan nähdä, Mini-Gemini-kehys pystyy ratkaisemaan laajan valikoiman monimutkaisia tehtäviä patch-tiedon kaivamisen ja korkealaatuisen datan ansiosta. Mutta mikä on vielä vaikuttavampaa, on se, että Mini-Gemini-kehys osoittaa tarkkaa huomiota yksityiskohtiin, joka ylittää pelkän tunnistamiskyvyn ja kuvailee monimutkaisia elementtejä yksityiskohtaisesti.

Seuraava kuva tarjoaa kattavan arvion Mini-Gemini-kehyskokeen generatiivisista kyvyistä.

Kun verrataan viimeaikaisiin malleihin, kuten ChatIllusioniin ja AnyGPT:hen, Mini-Gemini-kehys osoittaa vahvemmat monimodaalisen ymmärryksen kyvyt, jotka mahdollistavat tekstin ja kuvan generoinnin, joka on paremmin linjassa syöteohjeiden kanssa, ja johtaa kuvasta tekstin vastauksiin, joilla on vahvempi konseptuaalinen samankaltaisuus. Mikä on vielä vaikuttavampaa, on se, että Mini-Gemini-kehys osoittaa merkittävää osaamista korkealaatuisen sisällön generoimisessa monimodaalisilla ihmisen ohjeilla vain tekstin koulutusdatan kanssa, mikä osoittaa Mini-Gemini-kehyskokeen vahvan semanttisen tulkinnan ja kuvan ja tekstin linjauksen kyvyt.

Lopputulet

Tässä artikkelissa olemme puhuneet Mini-Gemini-kehyskokeesta, joka on voimakas ja suoraviivainen kehys monimodaalisten visuaalisten kielen mallien kehittämiseen. Mini-Gemini-kehyskokeen pääasiallinen tarkoitus on hyödyntää visuaalisten kielen mallien piileviä kykyjä korkealaatuisella datalla, strategisella suunnittelulla ja laajennetulla toiminnallisuudella. Mini-Gemini on yritys kaventaa visuaalisten kielen mallien ja edistyneiden mallien välistä eroa hyödyntämällä visuaalisten kielen mallien potentiaalia kolmesta näkökulmasta: VLM-ohjatun generoinnin, korkealaatuisen datan ja korkearesoluutioisten visuaalisten tokenien.