Artificial Intelligence

Mini-Gemini: het benutten van het potentieel van multimodale visietaalmodellen

gepubliceerd

2 weken geleden

26 april 2024

Mini-Gemini: het benutten van het potentieel van multimodale visietaalmodellen

De vorderingen bij grote taalmodellen hebben de ontwikkeling ervan aanzienlijk versneld natuurlijke taalverwerkingof NLP. De introductie van het transformerframework bleek een mijlpaal, die de ontwikkeling mogelijk maakte van een nieuwe golf van taalmodellen, waaronder OPT en BERT, die een diepgaand taalkundig inzicht vertonen. Bovendien introduceerde de introductie van GPT, of Generative Pre-trained Transformer-modellen, een nieuw paradigma met autoregressieve modellering en werd een robuuste methode voor taalvoorspelling en -generatie tot stand gebracht. De komst van taalmodellen zoals GPT-4, ChatGPT, Mixtral, LLaMA en andere heeft de snelle evolutie verder aangewakkerd, waarbij elk model verbeterde prestaties laat zien bij taken waarbij complexe taalverwerking betrokken is. Onder de bestaande methoden is het afstemmen van instructies naar voren gekomen als een sleuteltechniek voor het verfijnen van de output van vooraf getrainde grote taalmodellen, en de integratie van deze modellen met specifieke hulpmiddelen voor visuele taken heeft hun aanpassingsvermogen benadrukt en deuren geopend voor toekomstige toepassingen. Deze reiken veel verder dan de traditionele, op tekst gebaseerde verwerking van LLM's en omvatten ook multimodale interacties.

Bovendien heeft de convergentie van modellen voor natuurlijke taalverwerking en computervisie aanleiding gegeven tot VLM's, of Vision Language Models, die taal- en visiemodellen combineren om crossmodaal begrip en redeneervermogen te bereiken. De integratie en opkomst van visuele en taalkundige modellen hebben een cruciale rol gespeeld bij het bevorderen van taken die zowel taalverwerking als visueel begrip vereisen. De opkomst van revolutionaire modellen zoals CLIP heeft de kloof tussen visietaken en taalmodellen verder overbrugd, wat de haalbaarheid en bruikbaarheid van crossmodale toepassingen aantoont. Recentere raamwerken zoals LLaMA en BLIP maken gebruik van op maat gemaakte instructiegegevens om efficiënte strategieën te bedenken die de krachtige mogelijkheden van het model demonstreren. Bovendien is het combineren van grote taalmodellen met beelduitvoer de focus van recent multimodaal onderzoek, waarbij recente methoden de directe generatie kunnen omzeilen door gebruik te maken van de benadering van het ophalen van afbeeldingen om beelduitvoer en interleaved teksten te produceren.

Dat gezegd hebbende, en ondanks de snelle vooruitgang in visuele taalmodellen die fundamenteel redeneren en visuele dialoog mogelijk maken, bestaat er nog steeds een aanzienlijke prestatiekloof tussen geavanceerde modellen zoals GPT-4, en visuele taalmodellen. Mini-Gemini is een poging om de kloof tussen visuele taalmodellen en meer geavanceerde modellen te verkleinen door het potentieel van VLM's voor betere prestaties te benutten vanuit drie aspecten: VLM-geleide generatie, hoogwaardige gegevens en visuele tokens met hoge resolutie. Om visuele tokens te verbeteren, stelt het Mini-Gemini-framework voor om een extra visuele encoder te gebruiken voor verfijning met hoge resolutie zonder het aantal visuele tokens te verhogen. Het Mini-Gemini-framework construeert verder een dataset van hoge kwaliteit in een poging om een nauwkeurig begrip van beelden en op redeneringen gebaseerde generatie te bevorderen. Over het geheel genomen probeert het Mini-Gemini-raamwerk het potentieel van beeldtaalmodellen te benutten, en heeft het tot doel bestaande raamwerken tegelijkertijd te versterken met beeldredenering, begrip en generatieve capaciteiten. Dit artikel heeft tot doel het Mini-Gemini raamwerk diepgaand te behandelen, en we onderzoeken het mechanisme, de methodologie en de architectuur van het raamwerk, samen met de vergelijking ervan met de modernste raamwerken. Dus laten we beginnen.

Mini-Gemini: het versnellen van multimodale VLM's

Door de jaren heen zijn grote taalmodellen geëvolueerd, en ze kunnen nu bogen op opmerkelijke multimodale mogelijkheden, en worden een essentieel onderdeel van de huidige visuele taalmodellen. Er bestaat echter een kloof tussen de multimodale prestaties van grote taalmodellen en visuele taalmodellen, waarbij recent onderzoek zoekt naar manieren om visie te combineren met grote taalmodellen met behulp van afbeeldingen en video's. Voor zichttaken zelf is beeldresolutie een cruciaal element om de omringende omgeving expliciet weer te geven met minimale visuele hallucinaties. Om de kloof te overbruggen, ontwikkelen onderzoekers modellen om het visuele begrip in de huidige tijd te verbeteren Visietaalmodellen, en twee van de meest gebruikelijke benaderingen zijn: het verhogen van de resolutie en het vergroten van het aantal visuele tokens. Hoewel het verhogen van het aantal visuele tokens met afbeeldingen met een hogere resolutie het visuele begrip vergroot, gaat de boost vaak gepaard met hogere rekenvereisten en bijbehorende kosten, vooral bij het verwerken van meerdere afbeeldingen. Bovendien blijven de mogelijkheden van bestaande modellen, de kwaliteit van bestaande gegevens en de toepasbaarheid ontoereikend voor een versneld ontwikkelingsproces, waardoor onderzoekers met de vraag blijven zitten: “hoe de ontwikkeling van beeldtaalmodellen tegen aanvaardbare kosten kan worden versneld"?

Het Mini-Gemini-framework is een poging om de vraag te beantwoorden terwijl het probeert het potentieel van beeldtaalmodellen te onderzoeken vanuit drie aspecten: VLM-geleide generatie of uitgebreide toepassingen, hoogwaardige gegevens en visuele tokens met hoge resolutie. Ten eerste implementeert het Mini-Gemini-framework een ConvNet-architectuur om kandidaten met een hogere resolutie efficiënt te genereren, waardoor de visuele details worden verbeterd terwijl het aantal visuele tokens voor het grote taalmodel behouden blijft. Het Mini-Gemini-framework combineert openbaar beschikbare datasets van hoge kwaliteit in een poging de kwaliteit van de gegevens te verbeteren, en integreert deze verbeteringen met de modernste generatieve en grote taalmodellen met een poging om de prestaties van de VLM's te verbeteren en de prestaties van de VLM's te verbeteren. de gebruikerservaring. De veelzijdige strategie die door het Mini-Gemini-framework wordt geïmplementeerd, stelt het in staat de verborgen mogelijkheden van beeldtaalmodellen te onderzoeken en aanzienlijke vooruitgang te boeken met duidelijke beperkte middelen.

Over het algemeen maakt het Mini-Gemini-framework gebruik van een 'elk-tot-elk'-paradigma, omdat het zowel tekst als afbeeldingen als invoer en uitvoer kan verwerken. In het bijzonder introduceert het Mini-Gemini-framework een efficiënte pijplijn voor het verbeteren van visuele tokens voor invoerafbeeldingen, en beschikt het over een dubbel-encodersysteem bestaande uit dubbele encoders: de eerste encoder is voor afbeeldingen met een hoge resolutie, terwijl de tweede encoder is voor afbeeldingen met een lage resolutie. kwalitatieve visuele inbedding. Tijdens de inferentie werken de encoders in een attentiemechanisme, waarbij de encoder met lage resolutie visuele vragen genereert, terwijl de encoder met hoge resolutie sleutel en waarden ter referentie levert. Om de gegevenskwaliteit te vergroten, verzamelt en produceert het Mini-Gemini-framework meer gegevens op basis van publieke bronnen, waaronder taakgerichte instructies, generatiegerelateerde gegevens en antwoorden met hoge resolutie, waarbij de grotere hoeveelheid en verbeterde kwaliteit de algehele prestaties verbetert en mogelijkheden van het model. Bovendien ondersteunt het Mini-Gemini-framework gelijktijdige tekst- en beeldgeneratie als resultaat van de integratie van het visietaalmodel met geavanceerde generatieve modellen.

Mini-Gemini: methodologie en architectuur

In de kern is het Mini-Gemini-framework conceptueel eenvoudig en bestaat het uit drie componenten.

Het raamwerk maakt gebruik van dual vision-encoders om visuele inbedding met lage resolutie en kandidaten met hoge resolutie te bieden.
Het raamwerk stelt voor om patch-informatiemining te implementeren om mijnbouw op patchniveau uit te voeren tussen visuele zoekopdrachten met lage resolutie en regio's met hoge resolutie.
Het Mini-Gemini-framework maakt gebruik van een groot taalmodel om tekst en afbeeldingen tegelijkertijd te combineren, zowel voor het genereren als voor het begrijpen.

Dual-Vision-encoders

Het Mini-Gemini-framework kan zowel tekst- als beeldinvoer verwerken, met de optie om deze afzonderlijk of in een combinatie af te handelen. Zoals gedemonstreerd in de volgende afbeelding, start het Mini-Gemini-framework het proces door gebruik te maken van bilineaire interpolatie om een afbeelding met een lage resolutie te genereren uit de overeenkomstige afbeelding met hoge resolutie.

Het raamwerk verwerkt deze beelden vervolgens en codeert ze in een visuele inbedding met meerdere rasters in twee parallelle beeldstromen. Meer specifiek handhaaft het Mini-Gemini-framework de traditionele pijplijn voor stromen met lage resolutie en maakt gebruik van een CLIP-voorgetrainde Visual Transformer om de visuele inbedding te coderen, waardoor het model de langeafstandsrelatie tussen visuele patches kan behouden voor daaropvolgende interacties in grote taal. modellen. Voor de stromen met hoge resolutie gebruikt het Mini-Gemini-framework de op CNN of Convolution Neural Networks gebaseerde encoder voor adaptieve en efficiënte beeldverwerking met hoge resolutie.

Patchinfo-mijnbouw

Met de dual vision-encoders die de LR-inbedding en HR-functies genereren, stelt het Mini-Gemini-framework voor om patch-info mining te implementeren met als doel het potentieel van vision-taalmodellen uit te breiden met verbeterde visuele tokens. Om het aantal visuele tokens voor efficiëntie in grote taalmodellen te behouden, neemt het Mini-Gemini-framework de visuele inbedding met lage resolutie als de vraag, en streeft het ernaar om relevante visuele aanwijzingen uit de HR-functiekandidaten te halen, waarbij het raamwerk de HR-functiekaart als sleutel en waarde.

Zoals aangetoond in de bovenstaande afbeelding, omvat de formule het proces van het verfijnen en synthetiseren van visuele signalen, wat leidt tot het genereren van geavanceerde visuele tokens voor de daaropvolgende verwerking van grote taalmodellen. Het proces zorgt ervoor dat het raamwerk de mining voor elke zoekopdracht kan beperken tot de overeenkomstige subregio in de HR-functiekaart met het pixelgewijze aantal functies, wat resulteert in verbeterde efficiëntie. Dankzij dit ontwerp is het Mini-Gemini-framework in staat om de details van de HR-functies te extraheren zonder het aantal visuele tokens te vergroten, en handhaaft het een evenwicht tussen computationele haalbaarheid en rijkdom aan details.

Tekst- en beeldgeneratie

Het Mini-Gemini-framework voegt de visuele tokens en invoerteksttokens samen als invoer voor de grote taalmodellen voor auto-regressieve generatie. In tegenstelling tot traditionele visuele taalmodellen ondersteunt het Mini-Gemini-framework zowel het genereren van alleen tekst als het genereren van tekst-afbeeldingen als invoer en uitvoer, dwz elke gevolgtrekking, en het is het resultaat van dit uitstekende vermogen om beeld en tekst te begrijpen en te redeneren, de Mini-Gemini kan afbeeldingen van hoge kwaliteit genereren. In tegenstelling tot recente werken die zich richten op de domeinkloof tussen tekstinbedding van de generatiemodellen en grote taalmodellen, probeert het Mini-Gemini-framework de kloof in het domein van taalprompts te optimaliseren door gebruikersinstructies te vertalen naar prompts van hoge kwaliteit die contextrelevante afbeeldingen produceren. in latente diffusiemodellen. Bovendien verzamelt het Mini-Gemini-framework, voor een beter begrip van de verfijning van instructies en de uitlijning van verschillende modaliteit, monsters van openbaar beschikbare datasets van hoge kwaliteit, en gebruikt het het GPT-4 turbo-framework om verder een 13K-instructie-volgende dataset te construeren ter ondersteuning van het genereren van beelden.

Mini-Gemini: experimenten en resultaten

Om de prestaties ervan te evalueren, wordt het Mini-Gemini-framework geïnstantieerd met het vooraf getrainde ConvNext-L-framework voor de HR vision-encoder, en met een vooraf getraind CLIP-framework. Visietransformator voor de LR vision-encoder. Om de trainingsefficiëntie te garanderen, houdt het Mini-Gemini-framework de twee vision-encoders vast, optimaliseert het de projectoren van patch-info-mining in alle fasen, en optimaliseert het het grote taalmodel tijdens de fase van het afstemmen van de instructies zelf.

De volgende tabel vergelijkt de prestaties van het Mini-Gemini-framework met de modernste modellen in verschillende omgevingen, en houdt ook rekening met privémodellen. Zoals kan worden waargenomen, presteert de Mini-Gemini consistent beter dan bestaande raamwerken voor een breed scala aan LLM's bij normale resolutie, en vertoont hij superieure prestaties wanneer hij wordt geconfigureerd met de Gemma-2B in de categorie van efficiënte modellen. Bovendien wordt de schaalbaarheid van het Mini-Gemini-framework duidelijk wanneer grotere grote taalmodellen worden gebruikt.

Om de prestaties op hoge resolutie en uitgebreide visuele tokens te evalueren, worden de experimenten uitgevoerd met een invoergrootte van 672 voor de LR vision-encoder en 1536 voor de visuele encoder. Zoals eerder vermeld, is het belangrijkste doel van de visuele HR-encoder het aanbieden van kandidaat-informatie met hoge resolutie. Zoals u kunt zien, levert het Mini-Gemini-framework superieure prestaties in vergelijking met de modernste frameworks.

Om het visuele begrip van het Mini-Gemini-framework in de praktijk te beoordelen, passen ontwikkelaars het model bovendien toe op een verscheidenheid aan redeneer- en begripstaken, zoals gedemonstreerd in de volgende afbeelding. Zoals u kunt zien, kan het Mini-Gemini-framework een breed scala aan complexe taken oplossen dankzij de implementatie van patch-info-mining en hoogwaardige gegevens. Maar wat nog indrukwekkender is, is het feit dat het Mini-Gemini-framework een scherpe toevoeging aan details laat zien die verder gaat dan louter herkenningsvermogen, en ingewikkelde elementen op ingewikkelde wijze beschrijft.

De volgende afbeelding geeft een uitgebreide evaluatie van de generatieve mogelijkheden van het Mini-Gemini-framework.

Vergeleken met recente modellen als ChatIllusion en AnyGPT vertoont het Mini-Gemini-framework sterkere multimodale begripsmogelijkheden, waardoor het tekst naar afbeelding ondertitels die beter aansluiten bij de invoerinstructies, en resulteren in beeld-naar-tekst-antwoorden met een sterkere conceptuele gelijkenis. Wat nog indrukwekkender is, is het feit dat het Mini-Gemini-framework blijk geeft van opmerkelijke vaardigheid in het genereren van inhoud van hoge kwaliteit met behulp van menselijke instructies uit meerdere modellen, alleen met teksttrainingsgegevens, een mogelijkheid die Mini-Gemini's robuuste semantische interpretatie en vaardigheden op het gebied van beeld-tekstuitlijning illustreert.

Conclusie

In dit artikel hebben we gesproken over Mini-Gemini, een krachtig en gestroomlijnd raamwerk voor multimodale visietaalmodellen. Het primaire doel van het Mini-Gemini-framework is om de latente mogelijkheden van beeldtaalmodellen te benutten met behulp van hoogwaardige gegevens, een strategisch ontwerp van het raamwerk en een uitgebreide functionele reikwijdte. Mini-Gemini is een poging om de kloof tussen visuele taalmodellen en meer geavanceerde modellen te verkleinen door het potentieel van VLM's voor betere prestaties te benutten vanuit drie aspecten: VLM-geleide generatie, hoogwaardige gegevens en visuele tokens met hoge resolutie. Om visuele tokens te verbeteren, stelt het Mini-Gemini-framework voor om een extra visuele encoder te gebruiken voor verfijning met hoge resolutie zonder het aantal visuele tokens te verhogen. Het Mini-Gemini-framework construeert verder een dataset van hoge kwaliteit in een poging om een nauwkeurig begrip van beelden en op redeneringen gebaseerde generatie te bevorderen. Over het geheel genomen probeert het Mini-Gemini-raamwerk het potentieel van beeldtaalmodellen te benutten, en heeft het tot doel bestaande raamwerken tegelijkertijd te versterken met beeldredenering, begrip en generatieve capaciteiten.

Gerelateerde onderwerpen:generatieve ai groot taalmodel Grote Vision-modellen LVLM Mini-Tweelingen Multimodaal groottaalmodel natuurlijke taalverwerking visie taalmodel

Op decoders gebaseerde grote taalmodellen: een complete gids

Mis het niet

Snowflake Arctic: de geavanceerde LLM voor zakelijke AI

Kunal Kejriwal

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.