stomp Fret: Verwijs en grond bij elke granulariteit - Unite.AI
Verbind je met ons

Artificial Intelligence

Fret: Verwijs en grond bij elke granulariteit

mm

gepubliceerd

 on

FERRET: VERWIJS EN GROND OP ELKE KORRELIGHEID

Het mogelijk maken van ruimtelijk begrip in modellen voor het leren van visuele talen blijft een kernuitdaging voor het onderzoek. Dit begrip ligt ten grondslag aan twee cruciale capaciteiten: gronden en verwijzen. Door te verwijzen kan het model de semantiek van specifieke regio's nauwkeurig interpreteren, terwijl aarden het gebruik van semantische beschrijvingen inhoudt om deze regio's te lokaliseren.

Ontwikkelaars hebben Ferret geïntroduceerd, een Multimodal Large Language Model (MLLM), dat in staat is ruimtelijke verwijzingen over elke granulariteit of vorm in een afbeelding te begrijpen en open-vocabulairebeschrijvingen nauwkeurig te onderbouwen. Ferret gebruikt een nieuwe hybride representatie die continue kenmerken en discrete coördinaten combineert om beeldgebieden weer te geven. De ruimtelijk bewuste visuele sampler verwerkt variërende vormen in de vorm, waardoor het diverse regio-invoer kan verwerken, zoals vrije vormen, selectiekaders en punten.

Dankzij de aanpak van Ferret kan het uitblinken in klassieke basis- en verwijzingstaken en andere MLLM's overtreffen op het gebied van lokalisatie-eisende en regiogebaseerde multimodale communicatie. Dit artikel gaat dieper in op de architectuur en methodologie van Ferret en benadrukt de indrukwekkende prestaties ervan in verschillende multimodale taaltaken. Laten we dit verder onderzoeken.

Fret: Superieure prestaties bij verwijs- en aardingstaken

Verwijzen in een model is een mogelijkheid die het model in staat stelt de semantiek van bepaalde specifieke regio's nauwkeurig te begrijpen, terwijl aarding het voor het model essentieel maakt om de gegeven semantische beschrijvingen te gebruiken om de regio's te lokaliseren. Hoewel ze kunnen verschillen in hun respectievelijke taken, hebben zowel verwijzen als aarden hetzelfde fundamentele concept: afstemming van ruimtelijke semantiek en informatie. Ondanks dat ze hetzelfde concept delen, leren bestaande modellen individueel te aarden en te verwijzen. Hoewel de methode werkt, vormt ze een hindernis bij het bereiken van mensachtige capaciteiten, aangezien mensen van één taak kunnen leren en de lessen naadloos op andere taken kunnen toepassen, en in staat zijn om grondings-/verwijzende capaciteiten moeiteloos te integreren met redeneren en dagelijkse dialoog. Het Ferret-framework is geïnspireerd op de hierboven genoemde leemte in bestaande MLLM-frameworks en bestudeert drie hoofdvragen:

  1. Hoe kunnen we grondings- en verwijzingscapaciteiten in het raamwerk verenigen, en hoe zullen hun harmonie elkaar ten goede komen?
  2. Mensen gebruiken veelzijdige soorten regio's zoals doos, punt, krabbel en vrije vormen om te verwijzen? Hoe vertegenwoordigen we deze veelzijdige regio’s?
  3. Hoe kunnen we het volgen van basis- en verwijzingsinstructies robuust en met een open woordenschat maken, die van cruciaal belang zijn voor hun praktische en realtime toepassingen?

Het Ferret-framework is een nieuw referentie- en grondmodel voor multimodale grote talen dat deze vragen probeert te beantwoorden. Het Ferret-framework kiest voor a Multimodaal groottaalmodel als basis vanwege hun opmerkelijke mondiale visie en taalbegripsvermogen. Om de grondings- en verwijzingsmogelijkheden te verenigen, vertegenwoordigt het Ferret-framework bovendien de coördinaten van regio's in numerieke vorm in natuurlijke taal. In de praktijk is het echter inefficiënt om vakcoördinaten of zelfs afzonderlijke punten te gebruiken om veelzijdige gebiedsvormen zoals krabbels, streken of complexe polygonen weer te geven, omdat deze vormen van cruciaal belang zijn voor verbeterde precisie en een meer universele interactie tussen mens en model. Om dit probleem aan te pakken, maakt het Ferret-framework gebruik van een ruimtelijk bewuste visuele sampler die de visuele gebieden voor gebieden verwerft, ongeacht de vorm, en zo met variërende schaarsheid in deze vormen onderhandelt. Het raamwerk combineert vervolgens de continue visuele kenmerken met discrete coördinaten om de visuele gebieden in de invoer weer te geven, wat resulteert in de creatie van een hybride regiorepresentatie in Ferret. 

Het Ferret-framework gebruikt de bovenstaande methoden om invoer op te lossen die vrije tekst combineert met verwezen gebieden, en is in staat om naadloos de coördinaten te genereren voor elk aardbaar object door tekst te genereren om de genoemde objecten in de uitvoer te aarden. Door dit te doen, is Ferret het eerste raamwerk dat vrij gevormde invoergebieden in multimodale grote taalmodellen verwerkt. Bovendien absorbeert het Ferret-framework opmerkelijke open-vocabulaire-mogelijkheden van ruimtelijke lokalisatie en begrip, waardoor het raamwerk superieure prestaties kan leveren wanneer het wordt geëvalueerd op conventionele aardings- en verwijzingstaken. 

Verderop zoekt het Ferret-framework inspiratie uit drie bestaande AI-frameworks, waaronder Multimodal Large Language Models, MLLMs for Referring and Grounding, en Unifying Grounding en VL Understanding. 

De introductie van grote taalmodellen, waaronder GPT, DALL-E, PaLM, LLaMA en BLOOM, heeft het landschap in NLP-onderzoek veranderd, wat heeft geresulteerd in aanzienlijke vooruitgang op het gebied van multimodale taalmodellen. De eerdere multimodale taalmodellen waren voornamelijk gericht op het genereren van afbeeldingen en tekst op grote schaal, met enkele opmerkelijke voorbeelden als PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3 en PaLI-X. Omdat het Flamingo-framework echter een efficiënte integratie van LLM's met een vooraf getrainde CLIP-beeldencoder bereikte via cross-gated aandachtsblokken, resulterend in opmerkelijke multimodale leermogelijkheden in enkele shots. Het huidige onderzoek zoekt naar manieren om vooraf getrainde grote taalmodellen te gebruiken voor het afstemmen van visuele instructies, met opmerkelijke voorbeelden miniGPT-4, Otter, InstructBLIP en meer. Wat meer is, is dat recente modellen als Emu en GILL opmerkelijke successen hebben geboekt bij het gebruik van MLLM’s voor het genereren en ophalen van afbeeldingen. Het Ferret-framework verwijst ook naar eerder onderzoek dat zich richt op het verenigen van tekst- en selectiekaderuitvoer voor Vision Language-modellen. 

Fret: Methodologie en architectuur

Hybride regio-vertegenwoordigingen

Punt-, doos- en vrije-vormvormen zijn de drie dominante formaten die een taalmodel gebruikt bij het verwijzen naar specifieke regio's. Aan de ene kant kunnen het punt- en doosformaat nauwkeurig worden weergegeven door coördinaten. Het in kaart brengen van vrije-vormvormen is een beetje uitdagend, omdat vrije-vormvormen veelzijdig zijn. Omdat ze veelzijdig zijn, kunnen vrije vormen een breed scala aan gebieden omvatten, waaronder maskers, polygonen en krabbels. Het gebruik van coördinaten om vrije vormen weer te geven is een complexe taak die het vermogen van het model belemmert om een ​​correlatie tussen de regio's en de overeenkomstige coördinaten tot stand te brengen. Bovendien is het gebruik van coördinaten voor vrije-vormvormen rekentechnisch duur en onduidelijk. 

Om dit probleem aan te pakken en te generaliseren over alle drie de formaten, stelt het Ferret-framework een hybride regiorepresentatie voor die continue visuele kenmerken combineert met discrete coördinaten om naar een bepaalde regio te verwijzen. 

Voor continue visuele kenmerken construeert het Ferret-framework voor een bepaald gebied eerst een binair 2D-masker van dezelfde grootte als de afbeelding, en markeert een waarde 1 binnen het beoogde gebied, terwijl buiten het gebied een waarde 0 wordt toegewezen. Het model extraheert vervolgens het binaire masker samen met de geëxtraheerde afbeeldingskenmerkenkaart en stuurt dit vervolgens naar de ruimtelijk bewuste visuele sampler. 

Architectuur

De architectuur van het Ferret-model bestaat uit drie hoofdcomponenten

  1. Een afbeeldingsencoder om afbeeldingsinsluitingen te extraheren. 
  2. Een ruimtelijk bewuste visuele steekproef om regionale continue kenmerken te extraheren. 
  3. Een groot taalmodel om tekst, afbeeldingen en regiofuncties gezamenlijk te modelleren. 

De afbeelding wordt eerst ingevoerd in de vooraf getrainde visuele encoder om de afbeeldingsinsluitingen te extraheren. Voor tekstinvoer gebruikt het raamwerk eerst een vooraf getrainde LLM-tokenizer om de tekstreeks te tokeniseren, en projecteert deze tokens vervolgens in tekstinsluitingen. Voor genoemde regio's voegt Ferret een speciaal token en de coördinaten toe als tijdelijke aanduiding voor doorlopende kenmerken achter de regionaam. Als de naam van de regio onbekend is of lastig te beschrijven is als gevolg van het opnemen van meerdere objecten, gebruikt het raamwerk alleen de gebieds- of regionaam. 

Een van de grootste uitdagingen bij het omgaan met genoemde gebieden is dat hun vorm behoorlijk kan variëren, wat betekent dat ze verschillende vormen kunnen hebben en niet alleen beperkt zijn tot rechthoekige vakken of punten. Verwezen gebieden met onregelmatige vormen kunnen niet worden verwerkt met traditionele methoden zoals op rasters gebaseerde verwerking, inclusief patch-attention- of convolutietechnieken. Om dit probleem aan te pakken, stelt het Ferret-framework een Spatial-Aware Visual Sampler voor. Voor een gegeven geëxtraheerde kenmerkkaart met een binair gebiedsmasker bemonstert het Ferret-model eerst willekeurig N aantal punten binnen het binaire gebiedsmasker. 

Voor elk afzonderlijk punt verkrijgt het model zijn kenmerk door bilineaire interpolatie uit te voeren. De N punten worden vervolgens in een waterval van blokken ingevoerd, waarbij elk van hen drie verschillende fasen doorloopt: bemonstering, verzameling en bundeling. In de bemonsteringsfase wordt een vast aantal punten bemonsterd uit een N aantal beschikbare punten met behulp van het FPS- of Farthest Point Sampling-algoritme dat voldoende dekking garandeert. In de tweede stap zoekt het raamwerk voor elk monsterpunt naar de k dichtstbijzijnde buren uit de verzameling beschikbare N punten. Voor elke groep combineert het model vervolgens de kenmerken van een monsterpunt met de aangrenzende punten. In de laatste stap voert het Ferret-framework een maximale pooling uit om k aangrenzende objecten samen te smelten tot één object dat als representatie voor het bemonsterde punt kan dienen. Door deze drie stappen uit te voeren, houdt het Ferret-raamwerk minder punten over, maar beschikt het over ruimte met een hogere dichtheid omdat het niet alleen de kenmerken van lokale buren omvat, maar ook hun relatieve posities. 

GPT-ondersteunde generatie van visuele gegevens

Dialoog Instructie Afstemming Data zijn van cruciaal belang voor Multimodal Grote taalmodellen Helpen ze niet alleen bij het converteren van bestaande datasets door middel van sjablonen, maar helpen ze het model ook de menselijke intentie te begrijpen en een passend antwoord te genereren. Een meerderheid van de MLLM's gebruikt een methode voor het oproepen van enkele shots om afstemmingsgegevens voor visuele instructies te verkrijgen, waarbij het model een tekstuele beschrijving geeft van scènes in het beeld, samen met door mensen geannoteerde dialogen als demonstraties van enkele shots. Bestaande methoden voor het afstemmen van instructies zijn echter primair gericht op het beschrijven van het gehele beeld zonder expliciet ruimtegerelateerde informatie te specificeren. Het Ferret-framework legt de nadruk op regiogebaseerde kennis om in drie stappen referentie- en grondinstructie-afstemmingsgegevens te verzamelen. 

  1. Naast het gebruik van globale bijschriften en objecten, biedt het raamwerk een symbolische scènebeschrijving die de fysieke relatie tussen de regiobijschriften en objecten beschrijft, terwijl ook hun coördinaten worden verstrekt. 
  2. Voor door mensen geannoteerde dialogen voegt het raamwerk coördinaten toe na grondbare objecten of regio's, hetzij in invoer of uitvoer, of beide, waarbij de dialogen zich primair richten op specifieke regio's, wat helpt om het taalmodel impliciet ertoe aan te zetten vergelijkbare patronen te volgen voor het genereren van nieuwe dialogen. 
  3. Het zou mogelijk kunnen zijn dat de dialoog die door het raamwerk wordt gegenereerd, niet de regels en patronen volgt zoals geïnstrueerd door enkele voorbeelden en de systeemprompts. Om dit probleem aan te pakken, maakt het raamwerk opnieuw gebruik van een taalmodel om de dialogen te verfijnen die aanvankelijk door het model worden gegenereerd. 

Ruimtelijke negatieve mijnbouw

Eerder onderzoek heeft aangetoond dat multimodale grote-taalmodellen een grote kans hebben om te hallucineren bij het beantwoorden van ja- of nee-vragen. Om ervoor te zorgen dat het Ferret-model onder vergelijkbare omstandigheden niet hallucineert, maakt het raamwerk gebruik van de Spatial Negative Mining-benadering met beeldgeconditioneerde categorielokalisatie en semantiekgeconditioneerde categorielokalisatie. Beide methoden vragen het model om specifieke objectcategorieën te lokaliseren, waardoor het model de afwezigheid van bepaalde objecten in de afbeelding kan herkennen. 

Fret: resultaten en experimenten

Om de prestaties ervan te analyseren, wordt het Ferret-framework geëvalueerd op basis van conventionele aardings- en verwijzingsbenchmarks, waarna het raamwerk wordt geëvalueerd in een complexere multimodale chattaak en de refer-and-ground-mogelijkheden ervan worden getest. 

Het vermogen van het model om verwijzen te begrijpen wordt geëvalueerd door hoe nauwkeurig een model de semantiek van het verwezen gebied kan begrijpen, gegeven een verwezen gebied in het beeld of de vraag. Om de nauwkeurigheid van het model te meten, worden objecten en de meest elementaire semantiek eerst beschouwd, omdat deze niet alleen fundamenteel is, maar ook gemakkelijk te definiëren. Om de veelzijdigheid op menselijk niveau na te bootsen, vervangt het raamwerk de locatie van het object binnen de afbeelding door een vrije vorm, een kader en een punt. Voor een vrije vorm genereert het model willekeurig streken binnen het Ground Truth-object voor simulatie. Voor box gebruikt het Ferret-framework de ground-truth-bounding box die wordt geleverd door de LVIS-component. Ten slotte bemonstert het model voor punt willekeurig een punt binnen het grondwaarheidsobject dat zich ook dichtbij de grens van het grondwaarheidsobject bevindt. De resultaten van de drie typen verwijzingen worden weergegeven in de volgende afbeelding. 

Het Ferret-framework demonstreert opmerkelijke prestaties in referentiële dialoogtaken, waardoor er ruimte ontstaat voor integratie met verschillende visuele leertaken, vooral die met aardende resultaten. Om het aardingsvermogen ervan te beoordelen, onderwerpt het Ferret-framework zichzelf eerst aan het benchmarken van visuele aardingstaken met een generatief paradigma. Het raamwerk evalueert vervolgens zijn vermogen bij geaarde ondertitelingstaken om de afstemming tussen de regio's en de woorden te meten. 

Bij visuele aardingstaken is het raamwerk bedoeld om taalvragen te gronden in uitgelijnde delen van het beeld. Zoals te zien is in de volgende afbeelding, demonstreert het Ferret-raamwerk opmerkelijke prestaties in alle benchmarks, en de prestaties zijn vergelijkbaar met die van gespecialiseerde fine-tuningmethoden. 

Voor taken met geaarde ondertiteling moet het model een bijschrift genereren en vervolgens de gegenereerde zelfstandige naamwoorden koppelen aan afbeeldingsgebieden. De uiteindelijke voorspelling van het model bestaat uit drie componenten: visuele gebieden als kaders, tekstbijschriften en gronduitlijningen tussen kaders en woorden. De resultaten worden gedemonstreerd in de volgende afbeelding, en zoals u kunt zien, levert het raamwerk prestaties die vergelijkbaar zijn met de modernste methoden. 

Ten slotte is multimodaal chatten een van de meest gewenste mogelijkheden binnen een MLLM, en bestaande MLLM's evalueren voornamelijk gedetailleerde beschrijvingen, gesprekken en complexe redeneringen met het taalmodel als beoordelaar. Omdat geen enkele dataset multimodaal chatten evalueert met verplichte verwijzings- of aardingsacties, laat dit echter een leemte achter. Om deze kloof te overbruggen, behandelt het Ferret-framework drie regiogebaseerde vragen om de verwijzings- en aardingsmogelijkheden bij multimodale chattaken te evalueren. De resultaten worden gedemonstreerd in de volgende afbeelding. 

Ten slotte wordt het Ferret-raamwerk rechtstreeks vergeleken met het geavanceerde GPT-raamwerk, en de resultaten worden hieronder gedemonstreerd. 

Conclusie

In dit artikel hebben we gesproken over Ferret, een multimodaal groottaalmodel dat opmerkelijke grondings- en verwijzingsmogelijkheden demonstreert. Het Ferret-framework kan verwijzen naar beeldgebieden, ongeacht de vorm ervan, en kan automatisch een basis leggen voor tekst die door het model wordt voorspeld. Ferret maakt gebruik van een ruimtelijk bewuste visuele sampler die in staat is om variërende schaarsheid, weergegeven door verschillende vormen, te verwerken om de doorlopende kenmerken van veelzijdige gebieden te extraheren. Als gevolg hiervan kan het Ferret-framework diverse regio-invoer invoeren, waaronder vrije-vormvormers, selectiekaders en punten. 

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.