Kunstmatige intelligentie

Instructiegebaseerde Beeldbewerking via Multimodale Grote Taalmodellen

Published February 23, 2024

Updated April 4, 2026

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Visuele ontwerp-tools en visuele taalmodellen hebben brede toepassingen in de multimedia-industrie. Ondanks significante vooruitgang in recente jaren, is een solide begrip van deze tools nog steeds noodzakelijk voor hun bediening. Om toegankelijkheid en controle te verbeteren, neemt de multimedia-industrie steeds vaker tekstgebaseerde of instructiegebaseerde beeldbewerkingsTechnieken aan. Deze technieken gebruiken natuurlijke taalopdrachten in plaats van traditionele regionale masks of uitgebreide beschrijvingen, waardoor een flexibele en gecontroleerde beeldmanipulatie mogelijk is. Echter, instructiegebaseerde methoden bieden vaak korte instructies die moeilijk voor bestaande modellen zijn om volledig te begrijpen en uit te voeren. Bovendien zijn diffusiemodellen, bekend om hun vermogen om realistische beelden te creëren, in hoog aanzien binnen de beeldbewerkingssector.

Meer nog, Multimodale Grote Taalmodellen (MLLMs) hebben indrukwekkende prestaties getoond in taken die visueel-bewuste responsgeneratie en cross-modale begrip betreffen. MLLM-gebaseerde Beeldbewerking (MGIE) is een studie geïnspireerd door MLLMs die hun capaciteiten beoordeelt en analyseert hoe ze bewerkingen via tekst of geleide instructies ondersteunen. Deze benadering omvat het leren van expliciete instructies en het afleiden van expressieve instructies. Het MGIE-bewerkingsmodel begrijpt visuele informatie en voert bewerkingen uit via end-to-end training. In dit artikel zullen we diep ingaan op MGIE, waarbij we zijn impact op globale beeldoptimalisatie, Photoshop-achtige modificaties en lokale bewerkingen beoordelen. We zullen ook de betekenis van MGIE in instructiegebaseerde beeldbewerkingsTaken bespreken die afhankelijk zijn van expressieve instructies. Laten we onze verkenning beginnen.

MLLM-gebaseerde Beeldbewerking of MGIE: Een Inleiding

Multimodale Grote Taalmodellen en Diffusiemodellen zijn twee van de meest gebruikte AI- en ML-kaders momenteel vanwege hun opmerkelijke generatieve capaciteiten. Aan de ene kant heb je Diffusiemodellen, die het beste bekend staan om het produceren van realistische en visueel aantrekkelijke beelden, terwijl aan de andere kant Multimodale Grote Taalmodellen bekend staan om hun uitzonderlijke vermogen om een breed scala aan inhoud te genereren, waaronder tekst, taal, spraak en afbeeldingen/video’s.

Diffusiemodellen wisselen de latent cross-modale kaarten om visuele manipulatie uit te voeren die de verandering van de invoerdoelomschrijving weerspiegelt, en ze kunnen ook een geleide masker gebruiken om een specifiek gebied van de afbeelding te bewerken. Maar de belangrijkste reden waarom Diffusiemodellen breed worden gebruikt voor multimedia-toepassingen is dat ze in plaats van te vertrouwen op uitgebreide beschrijvingen of regionale masks, Diffusiemodellen instructiegebaseerde bewerkingsbenaderingen gebruiken die gebruikers toelaten om te specificeren hoe de afbeelding moet worden bewerkt door middel van tekstopdrachten of commando’s. Verdergaand, Grote Taalmodellen hebben geen introductie nodig omdat ze aanzienlijke vooruitgang hebben getoond in een reeks diverse taaltaken, waaronder tekstsamenvatting, machinetaalvertaling, tekstgeneratie en vraagbeantwoording. LLMs worden meestal getraind op een grote en diverse hoeveelheid trainingsdata die hen uitrusten met visuele creativiteit en kennis, waardoor ze verschillende visuele taaltaken kunnen uitvoeren. Gebouwd op LLMs, MLLMs of Multimodale Grote Taalmodellen kunnen afbeeldingen gebruiken als natuurlijke invoer en passende visueel-bewuste antwoorden bieden.

Met dat gezegd hebbende, hoewel Diffusiemodellen en MLLM-kaders breed worden gebruikt voor beeldbewerkingsTaken, bestaan er enkele richtingsproblemen met tekstgebaseerde instructies die de algehele prestatie belemmeren, wat leidt tot de ontwikkeling van MGIE of MLLM-gebaseerde Beeldbewerking, een AI-gebaseerd kader dat bestaat uit een diffusiemodel en een MLLM-model, zoals weergegeven in de volgende afbeelding.

Binnen het MGIE-architectuur, is het diffusiemodel eind-tot-eind getraind om beeldbewerking uit te voeren met latent verbeelding van het beoogde doel, terwijl het MLLM-kader leert om precieze expressieve instructies te voorspellen. Samen nemen het diffusiemodel en het MLLM-kader de inherente visuele afleiding, waardoor het ambiguïteitsprobleem van menselijke opdrachten kan worden aangepakt, resulterend in realistische bewerking van de afbeeldingen, zoals weergegeven in de volgende afbeelding.

Het MGIE-kader put inspiratie uit twee bestaande benaderingen: Instructiegebaseerde Beeldbewerking en Visuele Grote Taalmodellen.

Instructiegebaseerde beeldbewerking kan de toegankelijkheid en controleerbaarheid van visuele manipulatie aanzienlijk verbeteren door menselijke opdrachten te volgen. Er zijn twee belangrijke kaders die worden gebruikt voor instructiegebaseerde beeldbewerking: GAN-kaders en Diffusiemodellen. GAN of Generatieve Adversarial Netwerken kunnen afbeeldingen wijzigen, maar zijn beperkt tot specifieke domeinen of produceren onrealistische resultaten. Aan de andere kant kunnen diffusiemodellen met grote schaaltraining de cross-modale aandachtkaarten voor globale kaarten controleren om beeldbewerking en transformatie te bereiken. Instructiegebaseerde bewerking werkt door rechtstreekse opdrachten als invoer te ontvangen, vaak niet beperkt tot regionale masks en uitgebreide beschrijvingen. Echter, er is een kans dat de verstrekte instructies ambigu of niet precies genoeg zijn om opdrachten voor bewerkingsTaken te volgen.

Visuele Grote Taalmodellen zijn bekend om hun tekstgeneratieve en generalisatiecapaciteiten over verschillende taken, en ze hebben vaak een robuuste tekstuele begrip, en ze kunnen ook uitvoerbare programma’s of pseudocode produceren. Deze capaciteit van grote taalmodellen stelt MLLMs in staat om afbeeldingen te begrijpen en passende antwoorden te bieden met visuele functieuitlijning en instructietuning, waarbij recente modellen MLLMs adopteren om afbeeldingen te genereren die gerelateerd zijn aan de chat of de invoertekst. Echter, wat MGIE onderscheidt van MLLMs of VLLMs is het feit dat terwijl de laatste afbeeldingen kan produceren die afwijken van invoer van scratch, MGIE de capaciteiten van MLLMs benut om beeldbewerkingscapaciteiten te verbeteren met afgeleide instructies.

MGIE: Architectuur en Methodologie

Traditioneel zijn grote taalmodellen gebruikt voor natuurlijke taalverwerkingsgeneratieve taken. Maar sinds MLLMs mainstream werden, werden LLMs uitgerust met het vermogen om redelijke antwoorden te bieden door afbeeldingen te begrijpen. Conventioneel wordt een Multimodaal Groot Taalmodel geïnitialiseerd vanuit een voorgetraind LLM, en het bevat een visuele encoder en een adapter om visuele functies te extraheren en de visuele functies in taalmodus te projecteren. Als gevolg hiervan is het MLLM-kader in staat om visuele invoer te begrijpen, hoewel de uitvoer nog steeds beperkt is tot tekst.

Het voorgestelde MGIE-kader heeft als doel dit probleem op te lossen en een MLLM in staat te stellen om een invoerbeeld te bewerken tot een uitvoerbeeld op basis van de gegeven tekstuele instructie. Om dit te bereiken, huisvest het MGIE-kader een MLLM en leert het om concies en expliciete expressieve tekstuele instructies af te leiden. Bovendien voegt het MGIE-kader speciale afbeeldingstokens toe in zijn architectuur om de kloof tussen visie en taalmodus te overbruggen, en neemt het de edithead voor de transformatie van de modaliteiten. Deze modaliteiten dienen als de latente visuele verbeelding van het Multimodale Grote Taalmodel, en leiden het diffusiemodel om de bewerkingsTaken uit te voeren. Het MGIE-kader is vervolgens in staat om visuele perceptietaken uit te voeren voor redelijke beeldbewerking.

Concise Expressieve Instructie

Traditioneel kunnen Multimodale Grote Taalmodellen visueel-gerelateerde antwoorden bieden met hun cross-modale perceptie vanwege instructietuning en functieuitlijning. Om afbeeldingen te bewerken, gebruikt het MGIE-kader een tekstuele prompt als de primaire taalinvoer met de afbeelding, en leidt het een gedetailleerde verklaring af voor de bewerkingsopdracht. Echter, deze verklaringen kunnen vaak te lang zijn of herhaalde beschrijvingen bevatten, waardoor de intenties verkeerd kunnen worden geïnterpreteerd, waardoor MGIE een voorgetrainde samenvatter moet toepassen om bondige verhalen te verkrijgen, waardoor de MLLM samengevatte uitvoer kan genereren. Het kader behandelt de concies maar expliciete instructie als een expressieve instructie, en past de cross-entropieverlies toe om het multimodale grote taalmodel te trainen met leraarafdwinging.

Het gebruik van een expressieve instructie biedt een concreter idee in vergelijking met de tekstuele instructie, aangezien het de kloof overbrugt voor redelijke beeldbewerking, waardoor de efficiëntie van het kader verder wordt verbeterd. Bovendien leidt het MGIE-kader tijdens de inferentieperiode concies expressieve instructies af in plaats van lange verhalen te produceren en te vertrouwen op externe samenvatting. Vanwege dit is het MGIE-kader in staat om de visuele verbeelding van de bewerkingsintenties te begrijpen, maar is het nog steeds beperkt tot de taalmodus. Om deze hindernis te overwinnen, voegt het MGIE-model een bepaald aantal visuele tokens toe na de expressieve instructie met trainbare woordembeddings, waardoor de MLLM ze kan genereren met zijn LM- of Taalmodelhead.

Beeldbewerking met Latente Verbeelding

In de volgende stap neemt het MGIE-kader de edithead om de beeldinstructie te transformeren in daadwerkelijke visuele instructie. De edithead is een sequentie-naar-sequentiemodel dat helpt bij het toewijzen van de sequentiële visuele tokens van de MLLM naar de betekenisvolle latente semantiek als zijn bewerkingsinstructie. Om specifieker te zijn, kan de transformatie over de woordembeddings worden geïnterpreteerd als een algemene voorstelling in de visuele modus, en gebruikt een instance-aware visuele verbeeldingscomponent voor de bewerkingsintenties. Bovendien, om beeldbewerking te leiden met visuele verbeelding, embedt het MGIE-kader een latent diffusiemodel in zijn architectuur dat een variatie-autoencoder bevat en het denoiseren van diffusie in de latente ruimte aanpakt. Het primaire doel van het latent diffusiemodel is om het latente doel te genereren door het latente invoer te behouden en de bewerkingsinstructie te volgen. Het diffusieproces voegt ruis toe aan het latente doel over regelmatige tijdsintervallen en het ruisniveau neemt toe met elke tijdstap.

Leren van MGIE

De volgende figuur vat de algoritme van het leerproces van het voorgestelde MGIE-kader samen.

Zoals te zien is, leert het MLLM om concies expressieve instructies af te leiden met behulp van de instructieverlies. Met de latente verbeelding van de invoerbeeldinstructies, transformeert het kader de modaliteit van de edithead en leidt het het latent diffusiemodel om de resulterende afbeelding te synthetiseren, en past het de bewerkingsverlies toe voor diffusietraining. Ten slotte, bevriest het kader de meeste gewichten, wat resulteert in parameter-efficiënte eind-tot-eind training.

MGIE: Resultaten en Evaluatie

Het MGIE-kader gebruikt de IPr2Pr-dataset als zijn primaire voortrainingsdata, en het bevat meer dan 1 miljoen CLIP-gefilterde data met instructies die zijn geëxtraheerd uit het GPT-3-model, en een Prompt-to-Prompt-model om afbeeldingen te synthetiseren. Bovendien behandelt het MGIE-kader het InsPix2Pix-kader, gebouwd op de CLIP-tekstencoder met een diffusiemodel, als zijn baseline voor instructiegebaseerde beeldbewerkingsTaken. Bovendien houdt het MGIE-model ook rekening met een LLM-geleide beeldbewerkingsmodel dat wordt aangenomen voor expressieve instructies van instructie-only invoer, maar zonder visuele perceptie.

Kwantitatieve Analyse

De volgende figuur vat de bewerkingsresultaten samen in een zero-shot instelling met de modellen die alleen zijn getraind op de IPr2Pr-dataset. Voor GIER- en EVR-gegevens met Photoshop-achtige modificaties, kunnen de expressieve instructies concrete doelen onthullen in plaats van ambiguïteitsopdrachten, waardoor de bewerkingsresultaten de bewerkingsintenties beter weerspiegelen.

Hoewel zowel de LGIE als de MGIE zijn getraind op dezelfde data als het InsPix2Pix-model, kunnen ze gedetailleerde verklaringen bieden via leren met het grote taalmodel, maar is de LGIE nog steeds beperkt tot een enkele modus. Bovendien kan het MGIE-kader een aanzienlijke prestatieverbetering bieden, aangezien het toegang heeft tot afbeeldingen en deze kan gebruiken om expliciete instructies af te leiden.

Om de prestatie te evalueren op instructiegebaseerde beeldbewerkingsTaken voor specifieke doeleinden, fine-tunen ontwikkelaars verschillende modellen op elke dataset, zoals weergegeven in de volgende tabel.

Zoals te zien is, na het aanpassen van de Photoshop-achtige bewerkingsTaken voor EVR en GIER, demonstreren de modellen een prestatieverbetering. Echter, het is de moeite waard om op te merken dat fine-tuning de expressieve instructies meer domeinspecifiek maakt, en het MGIE-kader getuigt van een aanzienlijke prestatieverbetering, aangezien het ook domein-gerelateerde instructies leert, waardoor het diffusiemodel concrete bewerkte scènes kan demonstreren van het fine-tune grote taalmodel, waardoor zowel lokale modificatie als lokale optimalisatie worden gebaat. Bovendien, aangezien de visueel-bewuste instructie meer in overeenstemming is met de beoogde bewerkingsdoelen, levert het MGIE-kader consequent betere resultaten dan de LGIE.

De volgende figuur toont de CLIP-S-score over de invoer- of grondwaarheidsbeeldafbeeldingen en expressieve instructie. Een hogere CLIP-score geeft de relevantie van de instructies met de bewerkingsbron aan, en zoals te zien is, heeft de MGIE een hogere CLIP-score in vergelijking met de LGIE-model over zowel de invoer- als de uitvoerbeeldafbeeldingen.

Kwalitatieve Resultaten

De volgende afbeelding vat de kwalitatieve analyse van het MGIE-kader perfect samen.

Zoals we weten, is het LGIE-kader beperkt tot een enkele modus vanwege het feit dat het een enkel taalgebaseerd inzicht heeft, en is het gevoelig voor het afleiden van verkeerde of irrelevante verklaringen voor het bewerken van de afbeelding. Echter, het MGIE-kader is multimodaal, en met toegang tot afbeeldingen, voltooit het de bewerkingsTaken, en biedt het expliciete visuele verbeelding die goed overeenkomt met het doel.

Slotgedachten

In dit artikel hebben we het over MGIE of MLLM-gebaseerde Beeldbewerking gehad, een MLLM-geïnspireerde studie die als doel heeft om Multimodale Grote Taalmodellen te evalueren en te analyseren hoe ze bewerkingen via tekst of geleide instructies ondersteunen, terwijl het leert om expliciete instructies te bieden door expressieve instructies af te leiden. Het MGIE-bewerkingsmodel begrijpt visuele informatie en voert bewerkingen uit via eind-tot-eind training. In plaats van ambiguïteitsvolle en korte instructies, produceert het MGIE-kader expliciete visueel-bewuste instructies die resulteren in redelijke beeldbewerking.

Kunal Kejriwal

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.