Kunstig intelligens

Mini-Gemini: Utvinning av potensialet i multi-modale visjon-språkmodeller

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Fremgangen i store språkmodeller har betraktelig akselerert utviklingen av naturleg språkbehandling, eller NLP. Innføringen av transformer-rammeverket viste seg å være en milepæl, og muliggjorde utviklingen av en ny bølge av språkmodeller, inkludert OPT og BERT, som viser dypt språklig forståelse. Videre introduserte oppfinnelsen av GPT, eller Generative Pre-trained Transformer-modeller, en ny paradigme med autoregressiv modellering og etablerte en robust metode for språkprediksjon og -generering. Ankomsten av språkmodeller som GPT-4, ChatGPT, Mixtral, LLaMA og andre har ytterligere drivet rask evolusjon, med hver modell som viser forbedret ytelse i oppgaver som involverer kompleks språkbehandling. Blant eksisterende metoder har instruksjonstuning fremkommet som en nøkkelteknikk for å finjustere utgangen av forhånds-trent store språkmodeller, og integreringen av disse modellene med spesifikke verktøy for visuelle oppgaver har høydet deres tilpasningsevne og åpnet dører for fremtidige anvendelser. Disse går langt utenfor den tradisjonelle tekstbaserte prosesseringen av LLM til å inkludere multimodale interaksjoner.

Videre har konvergeringen av naturleg språkbehandling og datavisjonsmodeller gitt opphav til VLM, eller Visjon-språkmodeller, som kombinerer språklig og visuell modellering for å oppnå tverrmodale forståelse og resonemeringsevner. Integreringen og oppfinnelsen av visuelle og språklige modeller har spilt en avgjørende rolle i å fremme oppgaver som krever både språkbehandling og visuell forståelse. Fremkomsten av revolusjonære modeller som CLIP har ytterligere broddet gapet mellom visuelle oppgaver og språkmodeller, og demonstrert muligheten og praktikaliteten til tverrmodale anvendelser. Mer nylige rammeverk som LLaMA og BLIP utnytter skreddersydd instruksjonsdata for å utvikle effektive strategier som demonstrerer de potente evnene til modellen. I tillegg er kombinasjonen av store språkmodeller med bildeutgang fokusert på nyere multimodal forskning, med nylige metoder som kan omgå direkte generering ved å bruke bildehentingstilnærmingen til å produsere bildeutgang og sammenflettede tekster.

Med det sagt, og til tross for de raske fremgangene i visjon-språkmodeller som muliggjør grunnleggende resonemering og visuell dialog, finnes det fortsatt en betydelig ytelsesforskjell mellom avanserte modeller som GPT-4 og visjon-språkmodeller. Mini-Gemini er et forsøk på å nærme gapet som finnes mellom visjon-språkmodeller og mer avanserte modeller ved å utvinne potensialet til VLM for bedre ytelse fra tre aspekter: VLM-styrt generering, høykvalitetsdata og høyoppløselige visuelle token. For å forbedre visuelle token, foreslår Mini-Gemini-rammeverket å bruke en ekstra visuell encoder for høyoppløselig finjustering uten å øke antallet visuelle token. Mini-Gemini-rammeverket konstruerer videre en høykvalitetsdataset i et forsøk på å fremme presis forståelse av bilder og resonemeringbasert generering. Overordnet sett forsøker Mini-Gemini-rammeverket å utvinne potensialet til visjon-språkmodeller og har som mål å muliggjøre eksisterende rammeverk med bilde-resonemering, -forståelse og -genereringskapasiteter samtidig. Denne artikkelen har som mål å dekke Mini-Gemini-rammeverket i dybden, og vi utforsker mekanismen, metodikken, arkitekturen til rammeverket sammen med dens sammenligning med tilstands-av- kunnskapsrammeverk. La oss komme i gang.

Mini-Gemini: Accelererende Multi-Modale VLM

Over årene har store språkmodeller utviklet seg, og de kan nå vise fremragende multimodale evner og er blitt en essensiell del av nåværende visjon-språkmodeller. Likevel finnes det en gap mellom de multimodale ytelsene til store språkmodeller og visjon-språkmodeller med nyere forskning som søker å kombinere visjon med store språkmodeller ved hjelp av bilder og videoer. For visuelle oppgaver selv er bildeoppløsning et avgjørende element for å eksplisitt omgivelser med minimal visuell hallusinasjon. For å broddet gapet, utvikler forskere modeller for å forbedre den visuelle forståelsen i nåværende visjon-språkmodeller, og to av de mest vanlige tilnærmingene er: å øke oppløsningen og å øke antallet visuelle token. Selv om å øke antallet visuelle token med høyoppløselige bilder kan forbedre den visuelle forståelsen, er forbedringen ofte ledsaget av økte beregningskrav og tilhørende kostnader, spesielt når det gjelder behandling av flere bilder. Videre er evnene til eksisterende modeller, kvaliteten på eksisterende data og anvendeligheten utilstrekkelig for en akselerert utviklingsprosess, og etterlater forskere med spørsmålet, hvordan å akselerere utviklingen av visjon-språkmodeller med akseptable kostnader?

Mini-Gemini-rammeverket er et forsøk på å svare på spørsmålet, og forsøker å utforske potensialet til visjon-språkmodeller fra tre aspekter: VLM-styrt generering eller utvidede anvendelser, høykvalitetsdata og høyoppløselige visuelle token. Først implementerer Mini-Gemini-rammeverket en ConvNet-arkitektur for å generere høyoppløselige kandidater effektivt, og forbedrer visuelle detaljer samtidig som den opprettholder visuelle tokencounts for store språkmodeller. Mini-Gemini-rammeverket kombinerer offentlig tilgjengelige høykvalitetsdataset i et forsøk på å forbedre kvaliteten på dataene, og integrerer disse forbedringene med tilstands-av- kunnskapsmodeller og generative modeller for å forbedre ytelsen til VLM og forbedre brukeropplevelsen. Den multifacetterte strategien som er implementert i Mini-Gemini-rammeverket muliggjør det å utforske skjulte evner til visjon-språkmodeller og oppnår betydelige fremgang med åpenbare ressursbegrensninger.

I allminnelighet bruker Mini-Gemini-rammeverket en “any-to-any”-paradigme, da det kan håndtere både tekst og bilder som inndata og utdata. Spesifikt introduserer Mini-Gemini-rammeverket en effektiv pipeline for å forbedre visuelle token for inndata-bilder, og har en dobbel-encoder-system bestående av to encodere: den første encoder er for høyoppløselige bilder, mens den andre encoder er for lavkvalitets visuell innkapsling. Under inferens arbeider encoderne i en oppmerksomhetsmekanisme, hvor lavoppløselige encoder genererer visuelle forespørsler, mens høyoppløselige encoder tilbyr nøkkel og verdier for referanse. For å forbedre datakvaliteten, samler Mini-Gemini-rammeverket og produserer mer data basert på offentlige ressurser, inkludert oppgave-orienterte instruksjoner, genererings-relatert data og høyoppløselige svar, med økt mengde og forbedret kvalitet som forbedrer den totale ytelsen og evnene til modellen. Videre støtter Mini-Gemini-rammeverket samtidig tekst- og bilde-generering som et resultat av integreringen av visjon-språkmodellen med avanserte generative modeller.

Mini-Gemini : Metodikk og Arkitektur

I sin kerne er Mini-Gemini-rammeverket konseptuelt enkelt, og består av tre komponenter.

Rammeverket bruker dobbel-visuelle encodere for å gi lavoppløselige visuelle innkapslinger og høyoppløselige kandidater.
Rammeverket foreslår å implementere patch-info-utvinning for å utføre utvinning på patch-nivå mellom lavoppløselige visuelle forespørsler og høyoppløselige regioner.
Mini-Gemini-rammeverket bruker en stor språkmodell for å kombinere tekst med bilder for både generering og forståelse samtidig.

Dobbelt-Visuelle Encodere

Mini-Gemini-rammeverket kan håndtere både tekst- og bildeinndata, med mulighet til å håndtere dem enten individuelt eller i en kombinasjon. Som vist i følgende bilde, starter Mini-Gemini-rammeverket prosessen med å bruke bilineær interpolasjon for å generere et lavoppløselig bilde fra dets tilhørende høyoppløselige bilde.

Rammeverket behandler deretter disse bildene og koder dem inn i en multi-grid visuell innkapsling i to parallele bildefliser. Mer spesifikt opprettholder Mini-Gemini-rammeverket den tradisjonelle pipeline for lavoppløselige fliser og bruker en CLIP-forhånds-trent Visuell Transformer for å kode visuelle innkapslinger, og muliggjør modellen å bevare lang-rekke-relasjonen mellom visuelle patcher for påfølgende interaksjoner i store språkmodeller. For høyoppløselige fliser adopterer Mini-Gemini-rammeverket en CNN eller Convolution Neural Networks-basert encoder for adaptiv og effektiv høyoppløselig bildebehandling.

Patch-Info-Utvinning

Med dobbelt-visuelle encodere som genererer LR-innkapslinger og HR-egenskaper, foreslår Mini-Gemini-rammeverket å implementere patch-info-utvinning med målet å utvide potensialet til visjon-språkmodeller med forbedrede visuelle token. For å opprettholde antallet visuelle token for effektivitet i store språkmodeller, tar Mini-Gemini-rammeverket lavoppløselige visuelle innkapslinger som forespørsel, og søker å hente relevante visuelle hint fra HR-egenskapskandidatene, med rammeverket som tar HR-egenskapskartet som nøkkel og verdi.

Som vist i ovenstående bilde, omfatter formelen prosessen med å finjustere og syntetisere visuelle hint, som fører til generering av avanserte visuelle token for påfølgende stor språkmodellbehandling. Prosessen sikrer at rammeverket kan begrense utvinningen for hver forespørsel til dets tilhørende underregion i HR-egenskapskartet med pixel-vis-egenskapsantall, og resulterer i forbedret effektivitet. Takket være denne designen, er Mini-Gemini-rammeverket i stand til å utvinne HR-egenskapsdetaljer uten å øke antallet visuelle token, og opprettholder en balanse mellom beregningsmulighet og rikdom av detaljer.

Tekst- og Bildegenerering

Mini-Gemini-rammeverket konkatenerer visuelle token og inndata-tekst-token som inndata til store språkmodeller for auto-regressiv generering. I motsetning til tradisjonelle visjon-språkmodeller, støtter Mini-Gemini-rammeverket tekst-bare så vel som tekst-bilde-generering som inndata og utdata, dvs. “any-to-any”-inferens, og det er resultatet av denne utmerkede bilde-tekst-forståelse og resonemeringsevner, som Mini-Gemini er i stand til å generere høykvalitetsbilder. I motsetning til nyere arbeider som fokuserer på domene-gapet mellom tekst-innkapslinger av genereringsmodellene og store språkmodeller, forsøker Mini-Gemini-rammeverket å optimere gapet i domenet til språk-prompter ved å oversette bruker-instruksjoner til høykvalitets-prompter som produserer kontekst-relevante bilder i latent-diffusjonsmodeller. Videre, for en bedre forståelse av instruksjons-finjustering og tverr-modale justering, samler Mini-Gemini-rammeverket prøver fra offentlig tilgjengelige høykvalitetsdataset, og bruker GPT-4-turbo-rammeverket til å konstruere en 13K-instruksjonsfølgedataset for å støtte bilde-generering.

Mini-Gemini : Eksperimenter og Resultater

For å evaluere dens ytelse, er Mini-Gemini-rammeverket instantiert med det forhånds-trente ConvNext-L-rammeverket for HR-visuell encoder, og med en CLIP-forhånds-trent Visuell Transformer for LR-visuell encoder. For å sikre trenings-effektivitet, holder Mini-Gemini-rammeverket de to visuelle encoderne fikset, og optimaliserer prosjektorer av patch-info-utvinning i alle stadier, og optimaliserer stor språkmodell under instruksjons-tunings-stadiet selv.

Følgende tabell sammenligner ytelsen til Mini-Gemini-rammeverket mot tilstands-av- kunnskapsmodeller over forskjellige innstillinger, og tar også i betraktning private modeller. Som det kan observeres, overgår Mini-Gemini eksisterende rammeverk over en rekke store språkmodeller konsekvent på normal oppløsning, og demonstrerer overlegen ytelse når konfigurert med Gemma-2B i kategorien effektive modeller. Videre, når større store språkmodeller er brukt, er skalerbarheten til Mini-Gemini-rammeverket åpenbar.

For å evaluere dens ytelse på høyoppløsning og utvidede visuelle token, er eksperimentene utført med en inndata-størrelse på 672 for LR-visuell encoder, og 1536 for visuell encoder. Som nevnt tidligere, er hovedformålet med HR-visuell encoder å tilby høyoppløselig kandidat-informasjon. Som det kan observeres, leverer Mini-Gemini-rammeverket overlegen ytelse når sammenlignet mot tilstands-av- kunnskapsrammeverk.

Videre, for å vurdere den visuelle forståelsesevnen til Mini-Gemini-rammeverket i virkelige settinger, anvender utviklerne modellen til en rekke resonemering- og forståelsesoppgaver, som vist i følgende bilde. Som det kan observeres, er Mini-Gemini-rammeverket i stand til å løse en rekke komplekse oppgaver takket være implementeringen av patch-info-utvinning og høykvalitetsdata. Men hva som er enda mer imponerende, er det faktum at Mini-Gemini-rammeverket demonstrerer en skarp tillegg til detaljer som går langt utenfor ren gjenkjenningsevne, og beskriver intrikate elementer intrikat.

Følgende figur gir en omfattende evaluering av de genererings-evnene til Mini-Gemini-rammeverket.

Når sammenlignet mot nyere modeller som ChatIllusion og AnyGPT, demonstrerer Mini-Gemini-rammeverket sterkere tverrmodale forståelsesevner, og muliggjør det å generere tekst-til-bilde-beskrivelser som sammenfaller bedre med inndata-instruksjoner, og resulterer i bilde-til-tekst-svar med sterkere konseptuell likhet. Hva som er enda mer imponerende, er det faktum at Mini-Gemini-rammeverket demonstrerer bemerkelsesverdig dyktighet i å generere høykvalitetsinnhold ved hjelp av multi-modale menneskelige instruksjoner bare med tekst-trening-data, en evne som illustrerer Mini-Gemini-rammeverkets robuste semantiske tolkning og bilde-tekst-justeringsevner.

Slutt tanker

I denne artikkelen har vi talt om Mini-Gemini, et kraftig og strømlinjeformet rammeverk for multi-modale visjon-språkmodeller. Det primære målet til Mini-Gemini-rammeverket er å utvinne de latente evnene til visjon-språkmodeller ved hjelp av høykvalitetsdata, strategisk design av rammeverket og en utvidet funksjonell omfang. Mini-Gemini er et forsøk på å nærme gapet som finnes mellom visjon-språkmodeller og mer avanserte modeller ved å utvinne potensialet til VLM for bedre ytelse fra tre aspekter: VLM-styrt generering, høykvalitetsdata og høyoppløselige visuelle token. For å forbedre visuelle token, foreslår Mini-Gemini-rammeverket å bruke en ekstra visuell encoder for høyoppløselig finjustering uten å øke antallet visuelle token. Mini-Gemini-rammeverket konstruerer videre en høykvalitetsdataset i et forsøk på å fremme presis forståelse av bilder og resonemeringbasert generering. Overordnet sett forsøker Mini-Gemini-rammeverket å utvinne potensialet til visjon-språkmodeller og har som mål å muliggjøre eksisterende rammeverk med bilde-resonemering, -forståelse og -genereringskapasiteter samtidig.

Kunal Kejriwal

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.