Kunstmatige intelligentie

Mini-Gemini: Het potentieel van multi-modale visuele taalmodellen benutten

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

De vooruitgang in grote taalmodellen heeft de ontwikkeling van natuurlijke taalverwerking, of NLP, aanzienlijk versneld. De introductie van het transformer-kader bleek een mijlpaal te zijn, waardoor de ontwikkeling van een nieuwe golf van taalmodellen mogelijk werd, waaronder OPT en BERT, die een diepgaand linguïstisch begrip vertonen. Bovendien introduceerde de invoering van GPT, of Generative Pre-trained Transformer-modellen, een nieuwe paradigma met autoregressieve modellering en vestigde een robuuste methode voor taalvoorspelling en -generatie. De komst van taalmodellen zoals GPT-4, ChatGPT, Mixtral, LLaMA en anderen heeft de snelle evolutie verder aangewakkerd, waarbij elk model een verbeterde prestatie toont in taken die complexe taalverwerking omvatten. Onder de bestaande methoden is instructietuning naar voren gekomen als een sleuteltechniek voor het verfijnen van de output van grote voorgetrainde taalmodellen, en de integratie van deze modellen met specifieke tools voor visuele taken heeft hun aanpasbaarheid benadrukt en deuren geopend voor toekomstige toepassingen. Deze gaan verder dan de traditionele tekstgebaseerde verwerking van LLM’s en omvatten multimodale interacties.

Verder heeft de convergentie van natuurlijke taalverwerking en computermodellen het ontstaan van VLM’s, of Visuele Taalmodellen, mogelijk gemaakt, die linguïstische en visuele modellen combineren om cross-modale begrips- en redeneervaardigheden te bereiken. De integratie en ontwikkeling van visuele en linguïstische modellen hebben een cruciale rol gespeeld bij het vooruitgang boeken van taken die zowel taalverwerking als visueel begrip vereisen. Het ontstaan van revolutionaire modellen zoals CLIP heeft de kloof tussen visuele taken en taalmodellen verder verkleind, waarmee de haalbaarheid en praktische toepasbaarheid van cross-modale toepassingen is aangetoond. Recentere kaders zoals LLaMA en BLIP gebruiken aangepaste instructiegegevens om efficiënte strategieën te ontwikkelen die de krachtige mogelijkheden van het model demonstreren. Bovendien ligt de focus van recent onderzoek naar multimodale toepassingen op het combineren van grote taalmodellen met afbeeldingsuitvoer, waarbij recente methoden in staat zijn om directe generatie te omzeilen door de afbeeldingsopvragingbenadering te gebruiken om afbeeldingsuitvoer en geïnterleerde teksten te produceren.

Met dat gezegd, en ondanks de snelle vooruitgang in visuele taalmodellen die basisredenering en visueel gesprek mogelijk maken, bestaat er nog steeds een aanzienlijke prestatiekloof tussen geavanceerde modellen zoals GPT-4 en visuele taalmodellen. Mini-Gemini is een poging om de kloof tussen visuele taalmodellen en geavanceerdere modellen te verkleinen door het potentieel van VLM’s te benutten voor betere prestaties vanuit drie aspecten: VLM-geleide generatie, hoge kwaliteit gegevens en hoge resolutie visuele tokens. Om visuele tokens te verbeteren, stelt het Mini-Gemini-kader voor om een extra visuele encoder te gebruiken voor hoge resolutie-verfijning zonder de telling van visuele tokens te verhogen. Het Mini-Gemini-kader construeert verder een hoogwaardige dataset in een poging om precies begrip van afbeeldingen en redenering-gebaseerde generatie te bevorderen. Algemeen gezien probeert het Mini-Gemini-kader het potentieel van visuele taalmodellen te benutten en bestaande kaders te versterken met beeldredenering-, begrips- en generatieve mogelijkheden tegelijkertijd. Dit artikel heeft als doel het Mini-Gemini-kader diepgaand te behandelen, en we onderzoeken de mechanisme, de methodologie, de architectuur van het kader samen met de vergelijking met state-of-the-art-kaders. Laten we beginnen.

Mini-Gemini: Versnelling van multi-modale VLM’s

In de loop der jaren zijn grote taalmodellen geëvolueerd en beschikken ze nu over opmerkelijke multi-modale mogelijkheden en worden ze een essentieel onderdeel van huidige visuele taalmodellen. Er bestaat echter een kloof tussen de multi-modale prestaties van grote taalmodellen en visuele taalmodellen, waarbij recent onderzoek zoekt naar manieren om visie te combineren met grote taalmodellen met behulp van afbeeldingen en video’s. Voor visuele taken zelf is de beeldresolutie een cruciaal element om expliciet te zijn ondanks de omringende omgeving met minimale visuele hallucinaties. Om de kloof te overbruggen, ontwikkelen onderzoekers modellen om het visueel begrip in bestaande visuele taalmodellen te verbeteren, en twee van de meest voorkomende benaderingen zijn: het verhogen van de resolutie en het verhogen van het aantal visuele tokens. Hoewel het verhogen van het aantal visuele tokens met hogere resolutie-afbeeldingen het visueel begrip verbetert, wordt de verbetering vaak vergezeld van verhoogde computationele vereisten en bijbehorende kosten, vooral bij het verwerken van meerdere afbeeldingen. Bovendien blijven de mogelijkheden van bestaande modellen, de kwaliteit van bestaande gegevens en de toepasbaarheid onvoldoende voor een versnelde ontwikkelingsprocedure, waardoor onderzoekers met de vraag blijven zitten: hoe de ontwikkeling van visuele taalmodellen met aanvaardbare kosten te versnellen?

Het Mini-Gemini-kader is een poging om deze vraag te beantwoorden, aangezien het probeert het potentieel van visuele taalmodellen vanuit drie aspecten te benutten: VLM-geleide generatie of uitgebreide toepassingen, hoge kwaliteit gegevens en hoge resolutie visuele tokens. Ten eerste implementeert het Mini-Gemini-kader een ConvNet-architectuur om efficiënt hogere resolutie-kandidaten te genereren, waarmee visuele details worden verbeterd terwijl de telling van visuele tokens voor het grote taalmodel wordt gehandhaafd. Het Mini-Gemini-kader combineert openbaar beschikbare hoogwaardige datasets in een poging de kwaliteit van de gegevens te verbeteren en integreert deze verbeteringen met state-of-the-art generatieve en grote taalmodellen in een poging de prestaties van de VLM’s te verbeteren en de gebruikerservaring te verbeteren. De multifacette strategie die door het Mini-Gemini-kader wordt geïmplementeerd, stelt het in staat om de verborgen mogelijkheden van visuele taalmodellen te onderzoeken en bereikt aanzienlijke vooruitgang met duidelijke resourcebeperkingen.

In het algemeen gebruikt het Mini-Gemini-kader een any-to-any-paradigma, aangezien het zowel tekst als afbeeldingen als invoer en uitvoer kan verwerken. In het bijzonder introduceert het Mini-Gemini-kader een efficiënte pijplijn voor het verbeteren van visuele tokens voor invoer-afbeeldingen en beschikt over een dubbele encoder-systeem dat bestaat uit twee encoders: de eerste encoder is voor hoge resolutie-afbeeldingen, terwijl de tweede encoder is voor lage kwaliteit visuele embedding. Tijdens inferentie werken de encoders in een aandachtsmechanisme, waarbij de lage resolutie-encoder visuele queries genereert, terwijl de hoge resolutie-encoder sleutels en waarden voor referentie biedt. Om de gegevenskwaliteit te verbeteren, verzamelt en produceert het Mini-Gemini-kader meer gegevens op basis van openbare bronnen, waaronder taakgerichte instructies, generatie-gerelateerde gegevens en hoge resolutie-antwoorden, waarbij de toegenomen hoeveelheid en verbeterde kwaliteit de algehele prestaties en mogelijkheden van het model verbeteren. Bovendien ondersteunt het Mini-Gemini-kader gelijktijdige tekst- en afbeeldingsgeneratie als gevolg van de integratie van het visuele taalmodel met geavanceerde generatieve modellen.

Mini-Gemini: Methodologie en Architectuur

In zijn kern is het Mini-Gemini-kader conceptueel eenvoudig en bestaat uit drie componenten.

Het kader gebruikt dubbele visuele encoders om lage resolutie visuele embeddings en hoge resolutie-kandidaten te bieden.
Het kader stelt voor om patch-informatie-ontginning te implementeren om ontginning uit te voeren op patchniveau tussen lage resolutie visuele queries en hoge resolutie-regio’s.
Het Mini-Gemini-kader gebruikt een groot taalmodel om tekst te koppelen aan afbeeldingen voor zowel generatie als begrip tegelijkertijd.

Dubbele Visuele Encoders

Het Mini-Gemini-kader kan zowel tekst- als afbeeldingsinvoer verwerken, met de optie om ze afzonderlijk of in combinatie te verwerken. Zoals wordt aangetoond in de volgende afbeelding, start het Mini-Gemini-kader het proces door bilineaire interpolatie te gebruiken om een lage resolutie-afbeelding te genereren vanuit de corresponderende hoge resolutie-afbeelding.

Het kader verwerkt vervolgens deze afbeeldingen en codeert ze in een multi-grid visuele embedding in twee parallelle beeldstromen. Meer specifiek houdt het Mini-Gemini-kader de traditionele pijplijn voor lage resolutie-stromen aan en gebruikt een CLIP-voorge trainde Visuele Transformer om de visuele embeddings te coderen, waardoor het model de lange-afstandsrelatie tussen visuele patches kan behouden voor latere interacties in grote taalmodellen. Voor de hoge resolutie-stromen gebruikt het Mini-Gemini-kader een CNN- of Convolutioneel Neuraal Netwerk-gebaseerde encoder voor adaptieve en efficiënte hoge resolutie-afbeeldingsverwerking.

Patch Informatie-Ontginning

Met de dubbele visuele encoders die lage resolutie-embeddings en hoge resolutie-kenmerken genereren, stelt het Mini-Gemini-kader voor om patch-informatie-ontginning te implementeren met als doel het potentieel van visuele taalmodellen uit te breiden met verbeterde visuele tokens. Om de telling van visuele tokens voor efficiëntie in grote taalmodellen te behouden, gebruikt het Mini-Gemini-kader de lage resolutie visuele embeddings als query en probeert het om relevante visuele hints op te halen uit de hoge resolutie-kenmerk-kandidaten, waarbij het kader de hoge resolutie-kenmerk-kaart als sleutel en waarde gebruikt.

Zoals wordt aangetoond in de bovenstaande afbeelding, omvat de formule het proces van verfijning en synthese van visuele hints, wat leidt tot de generatie van geavanceerde visuele tokens voor het latere grote taalmodel-verwerking. Het proces zorgt ervoor dat het kader in staat is om de ontginning voor elke query te beperken tot de corresponderende subregio in de hoge resolutie-kenmerk-kaart met de pixel-wijs kenmerk-telling, waardoor een verbeterde efficiëntie wordt bereikt. Als gevolg van deze ontwerpkeuze is het Mini-Gemini-kader in staat om de hoge resolutie-kenmerk-details te extraheren zonder de telling van visuele tokens te verhogen en behoudt het een balans tussen computationele haalbaarheid en rijkdom van detail.

Tekst en Afbeeldingsgeneratie

Het Mini-Gemini-kader concateneert de visuele tokens en invoer-tekst-tokens als invoer voor de grote taalmodellen voor auto-regressieve generatie. In tegenstelling tot traditionele visuele taalmodellen, ondersteunt het Mini-Gemini-kader zowel tekst-only als tekst-afbeeldingsgeneratie als invoer en uitvoer, d.w.z. any-to-any-inferentie, en het is het resultaat van deze uitstekende beeld-tekst-begrip en redeneervaardigheden, waardoor het Mini-Gemini-kader in staat is om hoge kwaliteit afbeeldingen te genereren. In tegenstelling tot recente werken die zich richten op de domein-kloof tussen tekst-embeddings van de generatie-modellen en grote taalmodellen, probeert het Mini-Gemini-kader de kloof in het domein van taalprompts te optimaliseren door gebruikersinstructies te vertalen naar hoge kwaliteit-prompts die context-relevante afbeeldingen in latent diffusie-modellen produceren. Bovendien, voor een beter begrip van instructie-fine-tuning en cross-modale alignering, verzamelt het Mini-Gemini-kader monsters uit openbaar beschikbare hoogwaardige datasets en gebruikt het de GPT-4-turbo-framework om verder een 13K-instructie-volgend dataset te construeren om afbeeldingsgeneratie te ondersteunen.

Mini-Gemini: Experimenten en Resultaten

Om de prestaties te evalueren, wordt het Mini-Gemini-kader geïnstantieerd met het voorgetrainde ConvNext-L-kader voor de HR-visuele encoder en met een CLIP-voorge trainde Visuele Transformer voor de LR-visuele encoder. Om trainings-efficiëntie te waarborgen, houdt het Mini-Gemini-kader de twee visuele encoders vast en optimaliseert het de projectoren van patch-informatie-ontginning in alle stadia en optimaliseert het het grote taalmodel tijdens de instructie-fine-tuning-stap zelf.

De volgende tabel vergelijkt de prestaties van het Mini-Gemini-kader met state-of-the-art-modellen in verschillende instellingen en houdt ook rekening met private modellen. Zoals te zien is, overtreft het Mini-Gemini-kader bestaande kaders consistent over een breed scala aan LLM’s bij normale resolutie en toont het een superieure prestatie wanneer het is geconfigureerd met de Gemma-2B in de categorie efficiënte modellen. Bovendien, wanneer grotere grote taalmodellen worden gebruikt, is de schaalbaarheid van het Mini-Gemini-kader duidelijk.

Om de prestaties op hoge resolutie en uitgebreide visuele tokens te evalueren, worden de experimenten uitgevoerd met een invoer-grootte van 672 voor de LR-visuele encoder en 1536 voor de visuele encoder. Zoals eerder vermeld, is het hoofddoel van de HR-visuele encoder om hoge resolutie-kandidaat-informatie te bieden. Zoals te zien is, levert het Mini-Gemini-kader een superieure prestatie wanneer het wordt vergeleken met state-of-the-art-kaders.

Bovendien, om het visueel begripsvermogen van het Mini-Gemini-kader in real-world-instellingen te beoordelen, passen ontwikkelaars het model toe op een verscheidenheid aan redeneer- en begrijptaken, zoals wordt aangetoond in de volgende afbeelding. Zoals te zien is, is het Mini-Gemini-kader in staat om een breed scala aan complexe taken op te lossen dankzij de implementatie van patch-informatie-ontginning en hoge kwaliteit gegevens. Maar wat nog indrukwekkender is, is het feit dat het Mini-Gemini-kader een scherpe toevoeging aan detail toont die verder gaat dan louter herkenning, en beschrijft ingewikkelde elementen op een gedetailleerde manier.

De volgende figuur biedt een uitgebreide evaluatie van de generatieve mogelijkheden van het Mini-Gemini-kader.

Wanneer het wordt vergeleken met recente modellen zoals ChatIllusion en AnyGPT, toont het Mini-Gemini-kader een sterkere multi-modale begripsvermogen, waardoor het in staat is om tekst-naar-afbeelding-beschrijvingen te genereren die beter overeenkomen met de invoer-instructies en resulteert in afbeelding-naar-tekst-antwoorden met een sterkere conceptuele overeenkomst. Wat nog indrukwekkender is, is het feit dat het Mini-Gemini-kader een opmerkelijke vaardigheid toont in het genereren van hoge kwaliteit inhoud met behulp van multi-model-menselijke instructies alleen met tekst-trainingsgegevens, een capaciteit die de robuuste semantische interpretatie en beeld-tekst-alignering van Mini-Gemini illustreert.

Slotgedachten

In dit artikel hebben we het over Mini-Gemini gehad, een krachtig en gestroomlijnd kader voor multi-modale visuele taalmodellen. Het primaire doel van het Mini-Gemini-kader is om het latentie-potentieel van visuele taalmodellen te benutten met behulp van hoge kwaliteit gegevens, strategische ontwerp van het kader en een uitgebreide functionele reikwijdte. Mini-Gemini is een poging om de kloof tussen visuele taalmodellen en geavanceerdere modellen te verkleinen door het potentieel van VLM’s te benutten voor betere prestaties vanuit drie aspecten: VLM-geleide generatie, hoge kwaliteit gegevens en hoge resolutie visuele tokens. Om visuele tokens te verbeteren, stelt het Mini-Gemini-kader voor om een extra visuele encoder te gebruiken voor hoge resolutie-verfijning zonder de telling van visuele tokens te verhogen. Het Mini-Gemini-kader construeert verder een hoogwaardige dataset in een poging om precies begrip van afbeeldingen en redenering-gebaseerde generatie te bevorderen. Algemeen gezien probeert het Mini-Gemini-kader het potentieel van visuele taalmodellen te benutten en bestaande kaders te versterken met beeldredenering-, begrips- en generatieve mogelijkheden tegelijkertijd.

Kunal Kejriwal

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.