Kunstig intelligens

Vejledende instruktionsbaseret billedredigering via multimodale store sprogmodeller

Udgivet

2 måneder siden

Februar 23, 2024

VEJLEDENDE INSTRUKTIONSBASERET BILLEDREDIGERING VIA MULTIMODALE STORSPROGSMODELLER

Visuelle designværktøjer og visionsprogmodeller har udbredte anvendelser i multimedieindustrien. På trods af betydelige fremskridt i de senere år er en solid forståelse af disse værktøjer stadig nødvendig for deres drift. For at forbedre tilgængeligheden og kontrollen tager multimedieindustrien i stigende grad i brug tekst-guidede eller instruktionsbaserede billedredigeringsteknikker. Disse teknikker bruger naturlige sprogkommandoer i stedet for traditionelle regionale masker eller udførlige beskrivelser, hvilket giver mulighed for mere fleksibel og kontrolleret billedmanipulation. Instruktionsbaserede metoder giver dog ofte korte anvisninger, der kan være udfordrende for eksisterende modeller at fange og udføre fuldt ud. Derudover er diffusionsmodeller, kendt for deres evne til at skabe realistiske billeder, i høj efterspørgsel inden for billedredigeringssektoren.

I øvrigt, Multimodale store sprogmodeller (MLLM'er) har vist imponerende præstationer i opgaver, der involverer visuelt bevidst responsgenerering og tværmodal forståelse. MLLM Guided Image Editing (MGIE) er en undersøgelse inspireret af MLLM'er, der evaluerer deres evner og analyserer, hvordan de understøtter redigering gennem tekst eller guidede instruktioner. Denne tilgang involverer at lære at give eksplicit vejledning og udlede udtryksfulde instruktioner. MGIE-redigeringsmodellen forstår visuel information og udfører redigeringer gennem end-to-end træning. I denne artikel vil vi dykke dybt ned i MGIE og vurdere dets indvirkning på global billedoptimering, Photoshop-stilændringer og lokal redigering. Vi vil også diskutere betydningen af MGIE i instruktionsbaserede billedredigeringsopgaver, der er afhængige af udtryksfulde instruktioner. Lad os begynde vores udforskning.

MLLM guidet billedredigering eller MGIE: An Introduction

Multimodale store sprogmodeller og diffusionsmodeller er to af de mest udbredte AI- og ML-rammer i øjeblikket på grund af deres bemærkelsesværdige generative evner. På den ene side har du Diffusion-modeller, bedst kendt for at producere meget realistiske og visuelt tiltalende billeder, mens du på den anden side har Multimodal Large Language Models, der er kendt for deres enestående dygtighed til at generere en bred vifte af indhold, herunder tekst, sprog, tale og billeder/videoer.

Diffusionsmodeller udskifter de latente tværmodale kort for at udføre visuel manipulation, der afspejler ændringen af inputmålteksten, og de kan også bruge en guidet maske til at redigere en specifik region af billedet. Men den primære årsag til, at diffusionsmodeller er meget udbredt til multimedieapplikationer, er, at i stedet for at stole på udførlige beskrivelser eller regionale masker, anvender diffusionsmodeller instruktionsbaserede redigeringstilgange, der giver brugerne mulighed for at udtrykke, hvordan man redigerer billedet direkte ved at bruge tekstinstruktioner eller kommandoer . Store sprogmodeller behøver ingen introduktion, da de har vist betydelige fremskridt på tværs af en række forskellige sprogopgaver, herunder tekstresumé, maskinoversættelse, tekstgenerering og besvarelse af spørgsmålene. LLM'er trænes normalt på en stor og forskelligartet mængde træningsdata, der udstyrer dem med visuel kreativitet og viden, hvilket giver dem mulighed for også at udføre adskillige synssproglige opgaver. Med udgangspunkt i LLM'er kan MLLM'er eller multimodale store sprogmodeller bruge billeder som naturlige input og give passende visuelt bevidste svar.

Med det sagt, selvom diffusionsmodeller og MLLM-frameworks er meget brugt til billedredigeringsopgaver, er der nogle vejledningsproblemer med tekstbaserede instruktioner, der hæmmer den overordnede ydeevne, hvilket resulterer i udviklingen af MGIE eller MLLM Guided Image Editing, en AI-drevet ramme bestående af en diffusionsmodel og en MLLM-model som vist i det følgende billede.

Inden for MGIE-arkitekturen er diffusionsmodellen ende-til-ende trænet til at udføre billedredigering med latent fantasi af det tilsigtede mål, mens MLLM-rammen lærer at forudsige præcise udtryksfulde instruktioner. Sammen udnytter diffusionsmodellen og MLLM-rammen den iboende visuelle afledning, der tillader den at adressere tvetydige menneskelige kommandoer, hvilket resulterer i realistisk redigering af billederne, som vist i det følgende billede.

MGIE-rammen henter stor inspiration fra to eksisterende tilgange: Instruktionsbaseret billedredigering og Vision Store sprogmodeller.

Instruktionsbaseret billedredigering kan forbedre tilgængeligheden og kontrollerbarheden af visuel manipulation betydeligt ved at overholde menneskelige kommandoer. Der er to hovedrammer, der bruges til instruktionsbaseret billedredigering: GAN-frameworks og diffusionsmodeller. GAN eller Generative Adversarial Networks er i stand til at ændre billeder, men er enten begrænset til specifikke domæner eller producerer urealistiske resultater. På den anden side kan diffusionsmodeller med storstilet træning styre de tværmodale opmærksomhedskort for globale kort for at opnå billedredigering og transformation. Instruktionsbaseret redigering fungerer ved at modtage direkte kommandoer som input, ofte ikke begrænset til regionale masker og udførlige beskrivelser. Der er dog en sandsynlighed for, at de angivne instruktioner enten er tvetydige eller ikke præcise nok til at følge instruktionerne for redigering af opgaver.

Vision Large Language Models er kendt for deres tekstgenererende og generaliseringsevner på tværs af forskellige opgaver, og de har ofte en robust tekstforståelse, og de kan yderligere producere eksekverbare programmer eller pseudokode. Denne evne til store sprogmodeller gør det muligt for MLLM'er at opfatte billeder og give passende svar ved hjælp af visuel funktionsjustering med instruktionsjustering, hvor nyere modeller anvender MLLM'er til at generere billeder relateret til chatten eller inputteksten. Det, der dog adskiller MGIE fra MLLM'er eller VLLM'er, er det faktum, at mens sidstnævnte kan producere billeder adskilt fra input fra bunden, udnytter MGIE MLLM'ernes evner til at forbedre billedredigeringsfunktionerne med afledte instruktioner.

MGIE: Arkitektur og metode

Traditionelt er store sprogmodeller blevet brugt til generative opgaver i naturlig sprogbehandling. Men lige siden MLLM'er blev mainstream, fik LLM'er evnen til at give rimelige svar ved at opfatte billedinput. Konventionelt initialiseres en multimodal storsprogmodel fra en forudtrænet LLM, og den indeholder en visuel encoder og en adapter til at udtrække de visuelle funktioner og projicere de visuelle funktioner i henholdsvis sprogmodalitet. På grund af dette er MLLM-rammen i stand til at opfatte visuelle input, selvom outputtet stadig er begrænset til tekst.

Den foreslåede MGIE-ramme sigter mod at løse dette problem og lette en MLLM til at redigere et inputbillede til et outputbillede på basis af den givne tekstinstruktion. For at opnå dette rummer MGIE-rammen en MLLM og træner i at udlede kortfattede og eksplicitte udtryksfulde tekstinstruktioner. Ydermere tilføjer MGIE-rammen særlige billedtokens i sin arkitektur for at bygge bro mellem vision og sprogmodalitet, og adopterer redigeringshovedet til transformation af modaliteterne. Disse modaliteter tjener som den latente visuelle fantasi fra den multimodale store sprogmodel og guider diffusionsmodellen til at opnå redigeringsopgaverne. MGIE-rammen er så i stand til at udføre visuelle perceptionsopgaver til rimelig billedredigering.

Kortfattet udtryksfuld instruktion

Traditionelt kan multimodale store sprogmodeller tilbyde visuelt relaterede svar med sin tværmodale opfattelse på grund af instruktionsjustering og justering af funktioner. For at redigere billeder bruger MGIE-rammeværket en tekstprompt som det primære sproginput med billedet og udleder en detaljeret forklaring på redigeringskommandoen. Disse forklaringer kan dog ofte være for lange eller involvere gentagne beskrivelser, hvilket resulterer i fejlfortolkede hensigter, hvilket tvinger MGIE til at anvende en fortrænet opsummerer for at opnå kortfattede fortællinger, hvilket gør det muligt for MLLM at generere opsummerede output. Rammen behandler den kortfattede, men eksplicitte vejledning som en ekspressiv instruktion og anvender krydsentropi-tabet til at træne den multimodale store sprogmodel ved hjælp af lærerhåndhævelse.

Brug af en udtryksfuld instruktion giver en mere konkret idé sammenlignet med tekstinstruktionen, da den bygger bro over kløften for rimelig billedredigering, hvilket yderligere forbedrer effektiviteten af rammen. Desuden udleder MGIE-rammen i inferensperioden kortfattede udtryksfulde instruktioner i stedet for at producere lange fortællinger og stole på ekstern opsummering. På grund af dette er MGIE-rammen i stand til at få fat i den visuelle fantasi af redigeringsintentionerne, men er stadig begrænset til sprogmodaliteten. For at overvinde denne forhindring tilføjer MGIE-modellen et vist antal visuelle tokens efter den ekspressive instruktion med indlejrede ord, der kan trænes, hvilket gør det muligt for MLLM at generere dem ved hjælp af sit LM- eller sprogmodelhoved.

Billedredigering med latent fantasi

I det næste trin adopterer MGIE-rammen redigeringshovedet for at transformere billedinstruktionen til faktisk visuel vejledning. Redigeringshovedet er en sekvens-til-sekvens-model, der hjælper med at kortlægge de sekventielle visuelle tokens fra MLLM til det meningsfulde latente semantisk som dets redigeringsvejledning. For at være mere specifik kan transformationen over ordet indlejringer tolkes som generel repræsentation i den visuelle modalitet og bruger en instansbevidst visuel fantasikomponent til redigeringsintentionerne. Desuden, for at guide billedredigering med visuel fantasi, indlejrer MGIE-rammeværket en latent diffusionsmodel i sin arkitektur, der inkluderer en variationel autoencoder og adresserer den denoising-diffusion i det latente rum. Det primære mål med den latente diffusionsmodel er at generere det latente mål ud fra at bevare det latente input og følge redigeringsvejledningen. Diffusionsprocessen tilføjer støj til det latente mål over regelmæssige tidsintervaller, og støjniveauet stiger med hvert tidstrin.

Læring af MGIE

Følgende figur opsummerer algoritmen for læringsprocessen i den foreslåede MGIE-ramme.

Som det kan ses, lærer MLLM at udlede kortfattede udtryksfulde instruktioner ved hjælp af instruktionstabet. Ved at bruge den latente fantasi fra inputbilledinstruktionerne transformerer rammen modaliteten af redigeringshovedet og guider den latente diffusionsmodel til at syntetisere det resulterende billede og anvender redigeringstabet til diffusionstræning. Endelig fryser rammen et flertal af vægte, hvilket resulterer i parameter-effektiv end-to-end træning.

MGIE: Resultater og evaluering

MGIE-rammeværket bruger IPr2Pr-datasættet som dets primære før-træningsdata, og det indeholder over 1 million CLIP-filtrerede data med instruktioner ekstraheret fra GPT-3-modellen og en Prompt-to-Prompt-model til at syntetisere billederne. Ydermere behandler MGIE-frameworket InsPix2Pix-frameworket bygget på CLIP-tekstkoderen med en diffusionsmodel som sin baseline for instruktionsbaserede billedredigeringsopgaver. Desuden tager MGIE-modellen også højde for en LLM-styret billedredigeringsmodel, der er vedtaget til udtryksfulde instruktioner fra input-kun instruktion, men uden visuel perception.

Kvantitativ analyse

Følgende figur opsummerer redigeringsresultaterne i en nul-shot-indstilling, hvor modellerne kun trænes på IPr2Pr-datasættet. For GIER- og EVR-data, der involverer modifikationer i Photoshop-stil, kan de udtryksfulde instruktioner afsløre konkrete mål i stedet for tvetydige kommandoer, der gør det muligt for redigeringsresultaterne at ligne redigeringsintentionerne bedre.

Selvom både LGIE og MGIE er trænet på de samme data som InsPix2Pix-modellen, kan de tilbyde detaljerede forklaringer via læring med den store sprogmodel, men stadig er LGIE begrænset til en enkelt modalitet. Ydermere kan MGIE-rammeværket give et betydeligt ydelsesboost, da det har adgang til billeder og kan bruge disse billeder til at udlede eksplicitte instruktioner.

For at evaluere ydeevnen på instruktionsbaserede billedredigeringsopgaver til specifikke formål finjusterer udviklere flere modeller på hvert datasæt som opsummeret i følgende tabel.

Som det kan ses, demonstrerer modellerne et boost i ydeevne efter tilpasning af redigeringsopgaverne i Photoshop-stil til EVR og GIER. Det er dog værd at bemærke, at da finjustering også gør udtryksfulde instruktioner mere domænespecifikke, er MGIE-rammeværket vidne til et massivt løft i ydeevnen, da det også lærer domænerelateret vejledning, hvilket gør det muligt for diffusionsmodellen at demonstrere konkrete redigerede scener fra finjusteret stor sprogmodel, der gavner både den lokale modifikation og lokal optimering. Da den visuelt bevidste vejledning er mere afstemt med de tilsigtede redigeringsmål, leverer MGIE-rammen konsekvent overlegne resultater sammenlignet med LGIE.

Følgende figur viser CLIP-S-scoren på tværs af input- eller grundsandhedsmålbilleder og udtryksfuld instruktion. En højere CLIP-score angiver relevansen af instruktionerne med redigeringskilden, og som det kan ses, har MGIE en højere CLIP-score sammenlignet med LGIE-modellen på tværs af både input- og outputbillederne.

Kvalitative resultater

Følgende billede opsummerer perfekt den kvalitative analyse af MGIE-rammen.

Som vi ved, er LGIE-rammen begrænset til en enkelt modalitet, på grund af hvilken den har en enkelt sprogbaseret indsigt og er tilbøjelig til at udlede forkerte eller irrelevante forklaringer til redigering af billedet. MGIE-rammen er dog multimodal, og med adgang til billeder fuldender den redigeringsopgaverne, og giver eksplicit visuel fantasi, der stemmer rigtigt godt overens med målet.

Afsluttende tanker

I denne artikel har vi talt om MGIE eller MLLM Guided Image Editing, en MLLM-inspireret undersøgelse, der har til formål at evaluere multimodale store sprogmodeller og analysere, hvordan de letter redigering ved hjælp af tekst eller guidede instruktioner, mens vi lærer, hvordan man giver eksplicit vejledning ved at udlede ekspressive instruktioner samtidigt. MGIE-redigeringsmodellen fanger den visuelle information og udfører redigering eller manipulation ved hjælp af ende til ende træning. I stedet for tvetydig og kort vejledning producerer MGIE-rammeværket eksplicitte visuelt bevidste instruktioner, der resulterer i rimelig billedredigering.

Næste

The State of Cloud Optimization 2024: Omfattende indsigt

Gå ikke glip af

OLMo: Forbedring af videnskaben om sprogmodeller

Kunal Kejriwal

"En ingeniør af profession, en forfatter udenad". Kunal er en teknisk skribent med en dyb kærlighed og forståelse for AI og ML, dedikeret til at forenkle komplekse begreber på disse områder gennem sin engagerende og informative dokumentation.