stub Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models - Unite.AI
Kontakt med oss

Kunstig intelligens

Mini-Gemini: Utvinne potensialet til multimodalitetssynsspråkmodeller

mm

Publisert

 on

Mini-Gemini: Utvinne potensialet til multimodalitetssynsspråkmodeller

Fremskritt i store språkmodeller har betydelig fremskyndet utviklingen av naturlig språkbehandling, eller NLP. Introduksjonen av transformatorrammeverket viste seg å være en milepæl, og lettet utviklingen av en ny bølge av språkmodeller, inkludert OPT og BERT, som viser dyp språklig forståelse. Videre introduserte starten av GPT, eller Generative Pre-trained Transformer-modeller, et nytt paradigme med autoregressiv modellering og etablerte en robust metode for språkprediksjon og generering. Fremkomsten av språkmodeller som GPT-4, ChatGPT, Mixtral, LLaMA og andre har ytterligere drevet rask utvikling, der hver modell demonstrerer forbedret ytelse i oppgaver som involverer kompleks språkbehandling. Blant eksisterende metoder har instruksjonsinnstilling dukket opp som en nøkkelteknikk for å avgrense utdataene fra forhåndstrente store språkmodeller, og integreringen av disse modellene med spesifikke verktøy for visuelle oppgaver har fremhevet deres tilpasningsevne og åpnet dører for fremtidige applikasjoner. Disse strekker seg langt utover den tradisjonelle tekstbaserte behandlingen av LLM-er for å inkludere multimodale interaksjoner.

Videre har konvergensen av naturlig språkbehandling og datasynsmodeller gitt opphav til VLM-er, eller Vision Language Models, som kombinerer språklige og visjonsmodeller for å oppnå tverrmodale forståelses- og resonneringsevner. Integreringen og bruken av visuelle og språklige modeller har spilt en avgjørende rolle for å fremme oppgaver som krever både språkbehandling og visuell forståelse. Fremveksten av revolusjonerende modeller som CLIP har ytterligere bygget bro over gapet mellom synsoppgaver og språkmodeller, og demonstrerer gjennomførbarheten og gjennomførbarheten av tverrmodale applikasjoner. Nyere rammeverk som LLaMA og BLIP utnytter skreddersydde instruksjonsdata for å utarbeide effektive strategier som demonstrerer modellens potente evner. I tillegg er det å kombinere store språkmodeller med bildeutganger i fokus for nyere multimodal forskning, med nyere metoder som kan omgå direkte generering ved å bruke tilnærmingen til bildehenting for å produsere bildeutganger og sammenflettede tekster.

Når det er sagt, og til tross for de raske fremskritt innen synsspråkmodeller som letter grunnleggende resonnement og visuell dialog, eksisterer det fortsatt et betydelig ytelsesgap mellom avanserte modeller som GPT-4 og synsspråkmodeller. Mini-Gemini er et forsøk på å redusere gapet som eksisterer mellom synsspråkmodeller og mer avanserte modeller ved å utvinne potensialet til VLM-er for bedre ytelse fra tre aspekter: VLM-veiledet generering, data av høy kvalitet og visuelle tokens med høy oppløsning. For å forbedre visuelle tokens, foreslår Mini-Gemini-rammeverket å bruke en ekstra visuell koder for høyoppløselig forfining uten å øke antallet visuelle tokens. Mini-Gemini-rammeverket konstruerer videre et datasett av høy kvalitet i et forsøk på å fremme presis forståelse av bilder og resonnementbasert generering. Totalt sett forsøker Mini-Gemini-rammeverket å utvinne potensialet til synsspråkmodeller, og har som mål å styrke eksisterende rammeverk med bilderesonnering, forståelse og generative evner samtidig. Denne artikkelen tar sikte på å dekke Mini-Gemini-rammeverket i dybden, og vi utforsker mekanismen, metodikken, arkitekturen til rammeverket sammen med dets sammenligning med toppmoderne rammeverk. Så la oss komme i gang. 

Mini-Gemini: Accelerating Multi-Modality VLMs

I løpet av årene har store språkmodeller utviklet seg, og de kan nå skryte av bemerkelsesverdige multimodale evner, og blir en viktig del av nåværende synsspråkmodeller. Det er imidlertid et gap mellom den multimodale ytelsen til store språkmodeller og synsspråkmodeller, med nyere forskning som leter etter måter å kombinere syn med store språkmodeller ved å bruke bilder og videoer. For selve synsoppgaver er bildeoppløsning et avgjørende element for å eksplisitt til tross for omgivelsene med minimal visuelle hallusinasjoner. For å bygge bro over gapet utvikler forskere modeller for å forbedre den visuelle forståelsen i strøm visjonsspråkmodeller, og to av de vanligste tilnærmingene er: øke oppløsningen og øke antall visuelle tokens. Selv om økning av antall visuelle tokens med bilder med høyere oppløsning forbedrer den visuelle forståelsen, er økningen ofte ledsaget av økte beregningskrav og tilhørende kostnader, spesielt ved behandling av flere bilder. Videre forblir mulighetene til eksisterende modeller, kvaliteten på eksisterende data og anvendelighet utilstrekkelig for en akselerert utviklingsprosess, noe som etterlater forskerne med spørsmålet "hvordan akselerere utviklingen av synsspråkmodeller med akseptable kostnader"?

Mini-Gemini-rammeverket er et forsøk på å svare på spørsmålet mens det forsøker å utforske potensialet til synsspråkmodeller fra tre aspekter: VLM-veiledet generering eller utvidede applikasjoner, data av høy kvalitet og høyoppløselige visuelle tokens. For det første implementerer Mini-Gemini-rammeverket en ConvNet-arkitektur for å generere kandidater med høyere oppløsning effektivt, og forbedrer visuelle detaljer samtidig som de visuelle tokentellingene for den store språkmodellen opprettholdes. Mini-Gemini-rammeverket slår sammen offentlig tilgjengelige datasett av høy kvalitet i et forsøk på å forbedre kvaliteten på dataene, og integrerer disse forbedringene med moderne generative og store språkmodeller med et forsøk på å forbedre ytelsen til VLM-ene, og forbedre brukeropplevelsen. Den mangefasetterte strategien implementert av Mini-Gemini-rammeverket gjør det mulig for den å utforske skjulte evner til synsspråkmodeller, og oppnår betydelige fremskritt med tydelige ressursbegrensninger. 

Generelt bruker Mini-Gemini-rammeverket et hvilket som helst paradigme siden det er i stand til å håndtere både tekst og bilder som input og output. Spesielt introduserer Mini-Gemini-rammeverket en effektiv pipeline for å forbedre visuelle tokens for inngangsbilder, og har et dobbeltkodersystem som består av to koder: den første koderen er for bilder med høy oppløsning, mens den andre koderen er for lav- visuell innebygging av høy kvalitet. Under inferens fungerer koderne i en oppmerksomhetsmekanisme, der lavoppløsningskoderen genererer visuelle spørringer, mens høyoppløsningskoderen gir nøkkel og verdier for referanse. For å øke datakvaliteten samler og produserer Mini-Gemini-rammeverket mer data basert på offentlige ressurser, inkludert oppgaveorienterte instruksjoner, generasjonsrelaterte data og høyoppløselige svar, med økt mengde og forbedret kvalitet som forbedrer den generelle ytelsen og funksjonene til modellen. Videre støtter Mini-Gemini-rammeverket samtidig tekst- og bildegenerering som et resultat av integreringen av synsspråkmodellen med avanserte generative modeller. 

Mini-Gemini: Metodikk og arkitektur

I kjernen er Mini-Gemini-rammeverket konseptuelt enkelt, og består av tre komponenter. 

  1. Rammeverket bruker dual vision-kodere for å gi lavoppløsnings visuelle innbygginger og høyoppløselige kandidater. 
  2. Rammeverket foreslår å implementere patch info mining for å utføre gruvedrift på patchnivå mellom visuelle spørringer med lav oppløsning og regioner med høy oppløsning. 
  3. Mini-Gemini-rammeverket bruker en stor språkmodell for å kombinere tekst med bilder for både generering og forståelse samtidig. 

Dual-Vision-kodere

Mini-Gemini-rammeverket kan behandle både tekst- og bildeinndata, med mulighet for å håndtere dem enten individuelt eller i en kombinasjon. Som vist i det følgende bildet, starter Mini-Gemini-rammeverket prosessen ved å bruke bilineær interpolasjon for å generere et lavoppløselig bilde fra dets tilsvarende høyoppløselige bilde. 

Rammeverket behandler deretter disse bildene og koder dem til en visuell multi-grid innebygging i to parallelle bildeflyter. Mer spesifikt opprettholder Mini-Gemini-rammeverket den tradisjonelle rørledningen for flyter med lav oppløsning og bruker en CLIP-fortrent Visual Transformer for å kode de visuelle innebyggingene, noe som gjør det lettere for modellen å bevare langdistanseforholdet mellom visuelle patcher for påfølgende interaksjoner i store språk. modeller. For høyoppløselige flyter bruker Mini-Gemini-rammeverket den CNN- eller Convolution Neural Networks-baserte koderen for adaptiv og effektiv bildebehandling med høy oppløsning. 

Patch Info Mining

Med de doble vision-koderne som genererer LR-innbygginger og HR-funksjoner, foreslår Mini-Gemini-rammeverket å implementere patch info mining med sikte på å utvide potensialet til synsspråkmodeller med forbedrede visuelle tokens. For å opprettholde antallet visuelle tokens for effektivitet i store språkmodeller, tar Mini-Gemini-rammeverket de visuelle innebyggingene med lav oppløsning som spørringen, og tar sikte på å hente relevante visuelle signaler fra HR-funksjonskandidatene, med rammeverket som tar HR-funksjonskart som nøkkel og verdi.

Som vist i bildet ovenfor, innkapsler formelen prosessen med å foredle og syntetisere visuelle signaler, noe som fører til generering av avanserte visuelle symboler for den påfølgende prosesseringen av store språkmodeller. Prosessen sikrer at rammeverket er i stand til å begrense gruvedriften for hver spørring til dens korresponderende underregion i HR-funksjonskartet med antall pikselvise funksjoner, noe som resulterer i økt effektivitet. På grunn av denne designen er Mini-Gemini-rammeverket i stand til å trekke ut HR-funksjonsdetaljene uten å øke antallet visuelle tokens, og opprettholder en balanse mellom beregningsmessig gjennomførbarhet og detaljrikdom. 

Tekst- og bildegenerering

Mini-Gemini-rammeverket setter sammen de visuelle symbolene og inputtekstsymbolene som input til de store språkmodellene for autoregressiv generering. I motsetning til tradisjonelle visuelle språkmodeller, støtter Mini-Gemini-rammeverket kun tekst så vel som tekstbildegenerering som input og output, dvs. hvilken som helst til enhver slutning, og det er et resultat av denne enestående bilde-tekstforståelsen og resonneringsevnen, Mini-Gemini er i stand til å generere bilder av høy kvalitet. I motsetning til nyere arbeider som fokuserer på domenegapet mellom tekstinnbygging av generasjonsmodeller og store språkmodeller, forsøker Mini-Gemini-rammeverket å optimalisere gapet i domenet til språkmeldinger ved å oversette brukerinstruksjoner til meldinger av høy kvalitet som produserer kontekstrelevante bilder i latente diffusjonsmodeller. Videre, for en bedre forståelse av instruksjonsfinjustering og kryssmodalitetsjustering, samler Mini-Gemini-rammeverket inn prøver fra offentlig tilgjengelige høykvalitetsdatasett, og bruker GPT-4 turbo-rammeverket for å konstruere et 13K instruksjonsfølgende datasett for å støtte bildegenerering. 

Mini-Gemini: Eksperimenter og resultater

For å evaluere ytelsen, er Mini-Gemini-rammeverket instansiert med det ferdigtrente ConvNext-L-rammeverket for HR-visjonskoderen, og med en CLIP-pre-trent Visjonstransformator for LR vision-koderen. For å sikre treningseffektivitet holder Mini-Gemini-rammeverket de to synskoderne faste, og optimerer projektorene for patch info mining i alle trinn, og optimerer den store språkmodellen under selve instruksjonsinnstillingsfasen. 

Tabellen nedenfor sammenligner ytelsen til Mini-Gemini-rammeverket med toppmoderne modeller på tvers av forskjellige innstillinger, og tar også hensyn til private modeller. Som det kan observeres, utkonkurrerer Mini-Gemini eksisterende rammeverk på tvers av et bredt spekter av LLM-er konsekvent ved normal oppløsning, og viser overlegen ytelse når den konfigureres med Gemma-2B i kategorien effektive modeller. Videre, når større store språkmodeller brukes, er skalerbarheten til Mini-Gemini-rammeverket tydelig. 

For å evaluere ytelsen på høy oppløsning og utvidede visuelle tokens, utføres eksperimentene med en inngangsstørrelse på 672 for LR vision-koderen, og 1536 for den visuelle koderen. Som nevnt tidligere, er hovedformålet med den visuelle HR-koderen å tilby høyoppløselig kandidatinformasjon. Som det kan observeres, leverer Mini-Gemini-rammeverket overlegen ytelse sammenlignet med toppmoderne rammeverk. 

Videre, for å vurdere den visuelle forståelsesevnen til Mini-Gemini-rammeverket i virkelige omgivelser, bruker utviklere modellen til en rekke resonnement- og forståelsesoppgaver som vist i bildet nedenfor. Som det kan observeres, er Mini-Gemini-rammeverket i stand til å løse et bredt spekter av komplekse oppgaver takket være implementeringen av patch info mining og data av høy kvalitet. Men det som er mer imponerende er det faktum at Mini-Gemini-rammeverket viser et ivrig tillegg til detaljer som strekker seg utover bare gjenkjennelsesdyktighet, og beskriver intrikate elementer intrikat. 

Følgende figur gir en omfattende evaluering av de generative evnene til Mini-Gemini-rammeverket. 

Sammenlignet med nyere modeller som ChatIllusion og AnyGPT, demonstrerer Mini-Gemini-rammeverket sterkere multimodale forståelsesevner, slik at det kan generere tekst til bilde bildetekster som passer bedre med inndatainstruksjonene, og resulterer i bilde-til-tekst-svar med sterkere konseptuell likhet. Det som er mer imponerende er det faktum at Mini-Gemini-rammeverket demonstrerer bemerkelsesverdig dyktighet i å generere innhold av høy kvalitet ved å bruke multi-modell menneskelige instruksjoner kun med teksttreningsdata, en evne som illustrerer Mini-Geminis robuste semantiske tolkning og bilde-tekstjusteringsferdigheter. 

Final Thoughts

I denne artikkelen har vi snakket om Mini-Gemini, et potent og strømlinjeformet rammeverk for multimodalitetssynsspråkmodeller. Hovedmålet med Mini-Gemini-rammeverket er å utnytte de latente egenskapene til synsspråkmodeller ved å bruke data av høy kvalitet, strategisk utforming av rammeverket og et utvidet funksjonelt omfang. Mini-Gemini er et forsøk på å redusere gapet som eksisterer mellom synsspråkmodeller og mer avanserte modeller ved å utvinne potensialet til VLM-er for bedre ytelse fra tre aspekter: VLM-veiledet generering, data av høy kvalitet og visuelle tokens med høy oppløsning. For å forbedre visuelle tokens, foreslår Mini-Gemini-rammeverket å bruke en ekstra visuell koder for høyoppløselig forfining uten å øke antallet visuelle tokens. Mini-Gemini-rammeverket konstruerer videre et datasett av høy kvalitet i et forsøk på å fremme presis forståelse av bilder og resonnementbasert generering. Totalt sett forsøker Mini-Gemini-rammeverket å utvinne potensialet til synsspråkmodeller, og har som mål å styrke eksisterende rammeverk med bilderesonnering, forståelse og generative evner samtidig.

"En ingeniør av yrke, en forfatter utenat". Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse for AI og ML, dedikert til å forenkle komplekse konsepter på disse feltene gjennom sin engasjerende og informative dokumentasjon.