stub Mini-Gemini: Udvinding af potentialet ved multimodalitetsvisionsprogmodeller - Unite.AI
Følg os

Kunstig intelligens

Mini-Gemini: Udvinding af potentialet ved multimodalitetsvisionsprogmodeller

mm

Udgivet

 on

Mini-Gemini: Udvinding af potentialet ved multimodalitetsvisionsprogmodeller

Fremskridt i store sprogmodeller har markant fremskyndet udviklingen af naturlig sprogbehandlingeller NLP. Introduktionen af ​​transformatorrammen viste sig at være en milepæl, der letter udviklingen af ​​en ny bølge af sprogmodeller, herunder OPT og BERT, som udviser dyb sproglig forståelse. Desuden introducerede starten af ​​GPT, eller Generative Pre-trained Transformer-modeller, et nyt paradigme med autoregressiv modellering og etablerede en robust metode til sprogforudsigelse og -generering. Fremkomsten af ​​sprogmodeller som GPT-4, ChatGPT, Mixtral, LLaMA og andre har yderligere fremmet den hurtige udvikling, hvor hver model demonstrerer forbedret ydeevne i opgaver, der involverer kompleks sprogbehandling. Blandt eksisterende metoder er instruktionsjustering opstået som en nøgleteknik til at forfine outputtet af fortrænede store sprogmodeller, og integrationen af ​​disse modeller med specifikke værktøjer til visuelle opgaver har fremhævet deres tilpasningsevne og åbnet døre for fremtidige applikationer. Disse strækker sig langt ud over den traditionelle tekstbaserede behandling af LLM'er til at omfatte multimodale interaktioner.

Desuden har konvergensen af ​​naturlig sprogbehandling og computersynsmodeller givet anledning til VLM'er, eller Vision Language Models, som kombinerer sproglige og visionsmodeller for at opnå tværmodal forståelse og ræsonnement. Integrationen og fremkomsten af ​​visuelle og sproglige modeller har spillet en afgørende rolle for at fremme opgaver, der kræver både sprogbehandling og visuel forståelse. Fremkomsten af ​​revolutionære modeller som CLIP har yderligere bygget bro over kløften mellem visionsopgaver og sprogmodeller, hvilket demonstrerer gennemførligheden og anvendeligheden af ​​tværmodale applikationer. Nyere rammer som LLaMA og BLIP udnytter skræddersyede instruktionsdata til at udtænke effektive strategier, der demonstrerer modellens potente muligheder. Derudover er kombinationen af ​​store sprogmodeller med billedoutput i fokus for nyere multimodal forskning, hvor nyere metoder er i stand til at omgå direkte generering ved at bruge billedhentningstilgangen til at producere billedoutput og interleaved tekster.

Når det er sagt, og på trods af de hurtige fremskridt inden for visionsprogmodeller, der letter grundlæggende ræsonnement og visuel dialog, eksisterer der stadig et betydeligt performancegab mellem avancerede modeller som GPT-4 og visionsprogmodeller. Mini-Gemini er et forsøg på at indsnævre kløften, der eksisterer mellem visionsprogmodeller og mere avancerede modeller ved at udvinde potentialet i VLM'er for bedre ydeevne fra tre aspekter: VLM-guidet generation, data af høj kvalitet og højopløselige visuelle tokens. For at forbedre visuelle tokens foreslår Mini-Gemini-rammeværket at bruge en ekstra visuel encoder til forfining i høj opløsning uden at øge antallet af visuelle tokens. Mini-Gemini-rammen konstruerer yderligere et datasæt af høj kvalitet i et forsøg på at fremme præcis forståelse af billeder og ræsonnement-baseret generering. Overordnet forsøger Mini-Gemini-rammen at udvinde potentialet i visionsprogmodeller og sigter mod at styrke eksisterende rammer med billedfornuft, forståelse og generative evner på samme tid. Denne artikel har til formål at dække Mini-Gemini-rammen i dybden, og vi udforsker mekanismen, metodologien, arkitekturen af ​​rammen sammen med dens sammenligning med state-of-the-art rammer. Så lad os komme i gang. 

Mini-Gemini: Accelererende Multi-Modality VLM'er

I årenes løb har store sprogmodeller udviklet sig, og de kan nu prale af bemærkelsesværdige multimodale kapaciteter og er ved at blive en væsentlig del af nuværende visionsprogmodeller. Der eksisterer dog en kløft mellem den multimodale ydeevne af store sprogmodeller og visionsprogmodeller, hvor nyere forskning leder efter måder at kombinere vision med store sprogmodeller ved hjælp af billeder og videoer. For selve synsopgaver er billedopløsning et afgørende element til eksplicit på trods af det omgivende miljø med minimale visuelle hallucinationer. For at bygge bro over kløften udvikler forskere modeller til at forbedre den visuelle forståelse i nuværende vision sprog modeller, og to af de mest almindelige fremgangsmåder er: at øge opløsningen og øge antallet af visuelle tokens. Selvom en forøgelse af antallet af visuelle tokens med billeder med højere opløsning forbedrer den visuelle forståelse, ledsages boostet ofte af øgede beregningskrav og tilhørende omkostninger, især ved behandling af flere billeder. Ydermere forbliver de eksisterende modellers muligheder, kvaliteten af ​​eksisterende data og anvendeligheden utilstrækkelige til en accelereret udviklingsproces, hvilket efterlader forskerne med spørgsmålet, "hvordan man accelererer udviklingen af ​​synssprogmodeller med acceptable omkostninger"?

Mini-Gemini-rammeværket er et forsøg på at besvare spørgsmålet, da det forsøger at udforske potentialet i visionsprogmodeller ud fra tre aspekter: VLM-guidet generation eller udvidede applikationer, data af høj kvalitet og visuelle tokens i høj opløsning. For det første implementerer Mini-Gemini-rammeværket en ConvNet-arkitektur for at generere kandidater med højere opløsning effektivt, hvilket forbedrer visuelle detaljer, samtidig med at det visuelle antal tokens for den store sprogmodel bibeholdes. Mini-Gemini rammeværket sammenslår offentligt tilgængelige datasæt af høj kvalitet i et forsøg på at forbedre kvaliteten af ​​dataene og integrerer disse forbedringer med avancerede generative og store sprogmodeller med et forsøg på at forbedre ydeevnen af ​​VLM'erne og forbedre brugeroplevelsen. Den mangefacetterede strategi implementeret af Mini-Gemini-rammen gør det muligt for den at udforske skjulte muligheder i visionsprogmodeller og opnår betydelige fremskridt med tydelige ressourcebegrænsninger. 

Generelt anvender Mini-Gemini rammeværket et hvilket som helst paradigme, da det er i stand til at håndtere både tekst og billeder som input og output. Specielt introducerer Mini-Gemini-rammeværket en effektiv pipeline til forbedring af visuelle tokens til inputbilleder og har et dobbelt-encoder-system bestående af dobbeltkoder: den første encoder er til billeder i høj opløsning, mens den anden encoder er til lav- visuel indlejring af høj kvalitet. Under inferens arbejder koderne i en opmærksomhedsmekanisme, hvor lavopløsningsindkoderen genererer visuelle forespørgsler, mens højopløsningsindkoderen giver nøgle og værdier til reference. For at øge datakvaliteten indsamler og producerer Mini-Gemini-rammen mere data baseret på offentlige ressourcer, herunder opgaveorienterede instruktioner, generationsrelaterede data og højopløsningssvar, med den øgede mængde og forbedret kvalitet, der forbedrer den overordnede ydeevne og modellens muligheder. Ydermere understøtter Mini-Gemini rammeværket samtidig tekst- og billedgenerering som et resultat af integrationen af ​​visionsprogmodellen med avancerede generative modeller. 

Mini-Gemini: Metode og arkitektur

I sin kerne er Mini-Gemini-rammen konceptuelt enkel og består af tre komponenter. 

  1. Rammeværket anvender dobbeltsynsindkodere til at give visuelle indlejringer i lav opløsning og kandidater i høj opløsning. 
  2. Rammen foreslår at implementere patch info-mining for at udføre minedrift på patch-niveau mellem visuelle forespørgsler med lav opløsning og regioner med høj opløsning. 
  3. Mini-Gemini-rammen bruger en stor sprogmodel til at kombinere tekst med billeder til både generering og forståelse på samme tid. 

Dual-Vision indkodere

Mini-Gemini rammeværket kan behandle både tekst- og billedinput, med mulighed for at håndtere dem enten individuelt eller i en kombination. Som vist i det følgende billede starter Mini-Gemini-rammen processen ved at anvende bilineær interpolation til at generere et lavopløsningsbillede fra dets tilsvarende højopløselige billede. 

Rammen behandler derefter disse billeder og koder dem til en visuel multi-grid indlejring i to parallelle billedstrømme. Mere specifikt opretholder Mini-Gemini-rammeværket den traditionelle pipeline for lav-opløsningsflows og anvender en CLIP-foruddannet Visual Transformer til at kode de visuelle indlejringer, hvilket letter modellen til at bevare den langsigtede relation mellem visuelle patches til efterfølgende interaktioner i store sprog. modeller. Til højopløsningsflows anvender Mini-Gemini-rammeværket den CNN- eller Convolution Neural Networks-baserede koder til adaptiv og effektiv billedbehandling i høj opløsning. 

Patch Info Mining

Med de dobbelte synskodere, der genererer LR-indlejringer og HR-funktioner, foreslår Mini-Gemini-rammeværket at implementere patch info mining med det formål at udvide potentialet for visionsprogmodeller med forbedrede visuelle tokens. For at opretholde antallet af visuelle tokens for effektivitet i store sprogmodeller, tager Mini-Gemini-rammeværket de visuelle indlejringer i lav opløsning som forespørgslen og sigter mod at hente relevante visuelle signaler fra HR-funktionskandidaterne, hvor rammen tager HR-funktionskort som nøgle og værdi.

Som vist på billedet ovenfor, indkapsler formlen processen med at forfine og syntetisere visuelle signaler, hvilket fører til generering af avancerede visuelle tokens til den efterfølgende store sprogmodelbehandling. Processen sikrer, at rammen er i stand til at begrænse minedriften for hver forespørgsel til dens tilsvarende underregion i HR-funktionskortet med antallet af pixel-funktioner, hvilket resulterer i øget effektivitet. På grund af dette design er Mini-Gemini-rammeværket i stand til at udtrække HR-funktionsdetaljerne uden at øge antallet af visuelle tokens og opretholder en balance mellem beregningsgennemførlighed og detaljerigdom. 

Generering af tekst og billeder

Mini-Gemini-rammen sammenkæder de visuelle tokens og inputteksttokens som input til de store sprogmodeller til autoregressiv generering. I modsætning til traditionelle visionsprogmodeller understøtter Mini-Gemini-rammeværket kun tekst såvel som tekst-billedgenerering som input og output, dvs. enhver til enhver slutning, og det er resultatet af denne enestående billed-tekst forståelse og ræsonnement. Mini-Gemini er i stand til at generere billeder i høj kvalitet. I modsætning til nyere værker, der fokuserer på domænegabet mellem tekstindlejringer af generationsmodellerne og store sprogmodeller, forsøger Mini-Gemini-rammen at optimere kløften i domænet af sprogmeddelelser ved at oversætte brugerinstruktioner til meddelelser af høj kvalitet, der producerer kontekstrelevante billeder i latente diffusionsmodeller. For en bedre forståelse af instruktionsfinjustering og krydsmodalitetsjustering indsamler Mini-Gemini-rammeværket desuden prøver fra offentligt tilgængelige datasæt af høj kvalitet og bruger GPT-4 turbo-rammeværket til yderligere at konstruere et 13K instruktionsfølgende datasæt til at understøtte billedgenerering. 

Mini-Gemini: Eksperimenter og resultater

For at evaluere dens ydeevne er Mini-Gemini-rammeværket instansieret med det forudtrænede ConvNext-L-rammeværk til HR-visionskoderen og med en CLIP-foruddannet Vision Transformer til LR vision encoder. For at sikre træningseffektivitet holder Mini-Gemini-rammeværket de to vision-kodere faste, og optimerer projektorerne for patch info-mining i alle stadier og optimerer den store sprogmodel under selve instruktionsindstillingsfasen. 

Følgende tabel sammenligner ydeevnen af ​​Mini-Gemini rammeværket med avancerede modeller på tværs af forskellige indstillinger, og tager også private modeller i betragtning. Som det kan ses, udkonkurrerer Mini-Gemini eksisterende rammer på tværs af en lang række LLM'er konsekvent ved normal opløsning og demonstrerer overlegen ydeevne, når den er konfigureret med Gemma-2B i kategorien effektive modeller. Ydermere, når der anvendes større store sprogmodeller, er skalerbarheden af ​​Mini-Gemini-rammen tydelig. 

For at evaluere dens ydeevne på høj opløsning og udvidede visuelle tokens udføres eksperimenterne med en inputstørrelse på 672 for LR vision-koderen og 1536 for den visuelle encoder. Som tidligere nævnt er hovedformålet med den visuelle HR-encoder at tilbyde kandidatinformation i høj opløsning. Som det kan ses, leverer Mini-Gemini rammeværket overlegen ydeevne sammenlignet med state of the art rammer. 

For at vurdere den visuelle forståelsesevne af Mini-Gemini-rammerne i den virkelige verden anvender udviklere modellen til en række ræsonnement- og forståelsesopgaver som vist i det følgende billede. Som det kan ses, er Mini-Gemini rammeværket i stand til at løse en bred vifte af komplekse opgaver takket være implementeringen af ​​patch info mining og data af høj kvalitet. Men hvad der er mere imponerende er det faktum, at Mini-Gemini-rammen viser en skarp tilføjelse til detaljer, der rækker ud over blotte genkendelsesevner, og beskriver indviklede elementer indviklet. 

Følgende figur giver en omfattende evaluering af de generative evner i Mini-Gemini-rammen. 

Sammenlignet med nyere modeller som ChatIllusion og AnyGPT, demonstrerer Mini-Gemini-rammen stærkere multimodale forståelsesevner, hvilket gør det muligt at generere tekst til billede billedtekster, der passer bedre til inputinstruktionerne og resulterer i billed-til-tekst-svar med stærkere begrebsmæssig lighed. Hvad der er mere imponerende er det faktum, at Mini-Gemini-rammen demonstrerer bemærkelsesværdig færdighed i at generere indhold af høj kvalitet ved hjælp af multi-model menneskelige instruktioner kun med teksttræningsdata, en funktion, der illustrerer Mini-Geminis robuste semantiske fortolkning og billed-tekstjusteringsevner. 

Afsluttende tanker

I denne artikel har vi talt om Mini-Gemini, en potent og strømlinet ramme for multi-modalitet vision sprog modeller. Det primære formål med Mini-Gemini-rammen er at udnytte de latente muligheder i visionsprogmodeller ved hjælp af data af høj kvalitet, strategisk design af rammen og et udvidet funktionelt omfang. Mini-Gemini er et forsøg på at indsnævre kløften, der eksisterer mellem visionsprogmodeller og mere avancerede modeller ved at udvinde potentialet i VLM'er for bedre ydeevne fra tre aspekter: VLM-guidet generation, data af høj kvalitet og højopløselige visuelle tokens. For at forbedre visuelle tokens foreslår Mini-Gemini-rammeværket at bruge en ekstra visuel encoder til forfining i høj opløsning uden at øge antallet af visuelle tokens. Mini-Gemini-rammen konstruerer yderligere et datasæt af høj kvalitet i et forsøg på at fremme præcis forståelse af billeder og ræsonnement-baseret generering. Overordnet forsøger Mini-Gemini-rammen at udvinde potentialet i visionsprogmodeller og sigter mod at styrke eksisterende rammer med billedfornuft, forståelse og generative evner på samme tid.

"En ingeniør af profession, en forfatter udenad". Kunal er en teknisk skribent med en dyb kærlighed og forståelse for AI og ML, dedikeret til at forenkle komplekse begreber på disse områder gennem sin engagerende og informative dokumentation.