Artificiell intelligens
Instruktionsbaserad bildredigering via multimodala stora språkmodeller

Visuella designverktyg och visionspråkmodeller har omfattande tillämpningar inom multimedia-industrin. Trots betydande framsteg under de senaste åren krävs fortfarande en solid förståelse av dessa verktyg för deras drift. För att förbättra tillgänglighet och kontroll antar multimedia-industrin alltmer textbaserad eller instruktionsbaserad bildredigeringsteknik. Dessa tekniker använder naturliga språkkommandon i stället för traditionella regionala masker eller utförliga beskrivningar, vilket möjliggör mer flexibel och kontrollerad bildmanipulation. Instruktionsbaserade metoder ger dock ofta korta instruktioner som kan vara svåra för befintliga modeller att fullständigt fånga och utföra. Dessutom är diffusionsmodeller, kända för sin förmåga att skapa realistiska bilder, i stor efterfrågan inom bildredigeringssektorn.
Merover, har Multimodala stora språkmodeller (MLLM) visat imponerande prestanda i uppgifter som involverar visuellt medveten svarsgenerering och cross-modalt förstånd. MLLM-styrd bildredigering (MGIE) är en studie inspirerad av MLLM som utvärderar deras förmågor och analyserar hur de underlättar redigering med text eller guidade instruktioner. Denna metod innebär att man lär sig att ge explicit vägledning och härleda uttrycksfulla instruktioner. MGIE-redigeringsmodellen förstår visuell information och utför redigering genom slut-till-slut-träning. I denna artikel kommer vi att dyka djupt in i MGIE, utvärdera dess påverkan på global bildoptimering, Photoshop-liknande modifieringar och lokal redigering. Vi kommer också att diskutera betydelsen av MGIE i instruktionsbaserade bildredigeringsuppgifter som förlitar sig på uttrycksfulla instruktioner. Låt oss börja vår utforskning.
MLLM-styrd bildredigering eller MGIE: En introduktion
Multimodala stora språkmodeller och diffusionsmodeller är två av de mest använda AI- och ML-ramverken för närvarande på grund av deras anmärkningsvärda generativa förmågor. Å ena sidan har du diffusionsmodeller, som är kända för att producera högkvalitativa och visuellt tilltalande bilder, medan å andra sidan har du multimodala stora språkmodeller, som är berömda för sin exceptionella förmåga att generera en mängd olika innehåll, inklusive text, språk, tal och bilder/videor.
Diffusionsmodeller byter ut de latenta cross-modala kartorna för att utföra visuell manipulation som återspeglar ändringen av den ingående målbildtexten, och de kan också använda en guidad mask för att redigera en specifik region av bilden. Men det primära skälet till att diffusionsmodeller används i stor utsträckning för multimedia-applikationer är att de, i stället för att förlita sig på utförliga beskrivningar eller regionala masker, använder instruktionsbaserad redigeringsteknik som tillåter användare att uttrycka hur de vill redigera bilden direkt med hjälp av textinstruktioner eller kommandon. Fortsättning, stora språkmodeller behöver ingen introduktion eftersom de har visat betydande framsteg inom en mängd olika språkuppgifter, inklusive textsammanfattning, maskinöversättning, textgenerering och svar på frågor. LLM:er tränas vanligtvis på en stor och varierad mängd träningsdata som utrustar dem med visuell kreativitet och kunskap, vilket möjliggör att de kan utföra flera visionspråkuppgifter. Utifrån LLM:er kan multimodala stora språkmodeller (MLLM) använda bilder som naturliga ingångar och ge lämpliga visuellt medvetna svar.
Med det sagt, trots att diffusionsmodeller och MLLM-ramverk används i stor utsträckning för bildredigeringsuppgifter, finns det vissa vägledningsproblem med textbaserade instruktioner som hindrar den övergripande prestandan, vilket resulterar i utvecklingen av MGIE eller MLLM-styrd bildredigering, ett AI-drivet ramverk som består av en diffusionsmodell och en MLLM-modell, som visas i följande bild.
Inom MGIE-arkitekturen tränas diffusionsmodellen från slut till slut för att utföra bildredigering med latent föreställning av den avsedda målbilden, medan MLLM-ramverket lär sig att förutsäga precisa uttrycksfulla instruktioner. Tillsammans tar diffusionsmodellen och MLLM-ramverket tillvara på den inneboende visuella härledningen, vilket möjliggör att de kan hantera tvetydiga mänskliga kommandon och resultera i realistisk redigering av bilder, som visas i följande bild.
MGIE-ramverket hämtar inspiration från två befintliga metoder: Instruktionsbaserad bildredigering och Vision Large Language Models.
Instruktionsbaserad bildredigering kan förbättra tillgängligheten och kontrollen av visuell manipulation avsevärt genom att följa mänskliga kommandon. Det finns två huvudsakliga ramverk som används för instruktionsbaserad bildredigering: GAN-ramverk och diffusionsmodeller. GAN eller Generative Adversarial Networks kan ändra bilder men är antingen begränsade till specifika domäner eller producerar orealistiska resultat. Å andra sidan kan diffusionsmodeller med stor skala kontrollera de cross-modala uppmärksamhetskartorna för globala kartor för att uppnå bildredigering och transformation. Instruktionsbaserad redigering fungerar genom att ta emot raka kommandon som ingång, ofta inte begränsade till regionala masker och utförliga beskrivningar. Men det finns en sannolikhet att de tillhandahållna instruktionerna är antingen tvetydiga eller inte tillräckligt precisa för att följa instruktioner för redigeringsuppgifter.
Vision Large Language Models är berömda för sin textgenererande och generaliseringsförmåga över olika uppgifter och har ofta en robust textuell förståelse, och de kan ytterligare producera exekverbara program eller pseudokod. Denna förmåga hos stora språkmodeller möjliggör att MLLM:er kan uppfatta bilder och ge lämpliga svar med visuell funktionstillämpning med instruktionsjustering, och nyliga modeller antar MLLM:er för att generera bilder relaterade till samtalet eller ingångstexten. Men vad som skiljer MGIE från MLLM:er eller VLLM:er är det faktum att medan den senare kan producera bilder som skiljer sig från ingångar från scratch, MGIE utnyttjar MLLM:ernas förmåga att förbättra bildredigeringsförmågan med härledda instruktioner.
MGIE: Arkitektur och metodik
Traditionellt har stora språkmodeller använts för naturliga språkbehandlingsgenereringsuppgifter. Men sedan MLLM:er blev mainstream, utrustades LLM:er med förmågan att ge rimliga svar genom att uppfatta bildinmatningar. Konventionellt initieras en Multimodal Large Language Model från en förtränad LLM, och den innehåller en visuell encoder och en adapter för att extrahera visuella funktioner och projicera visuella funktioner till språkmodellitet. På grund av detta kan MLLM-ramverket uppfatta visuella inmatningar, även om utmatningen fortfarande är begränsad till text.
Det föreslagna MGIE-ramverket syftar till att lösa detta problem och möjliggöra att en MLLM kan redigera en ingångsbild till en utgångsbild baserat på den tillhandahållna textinstruktionen. För att uppnå detta innehåller MGIE-ramverket en MLLM och tränas för att härleda koncisa och uttrycksfulla textinstruktioner. Dessutom lägger MGIE-ramverket till specialbilder i sin arkitektur för att överbrygga gapet mellan vision och språkmodellitet och antar redigeringshuvudet för transformationen av modaliteterna. Dessa modaliteter fungerar som den latenta visuella föreställningen från den Multimodala stora språkmodellen och guider diffusionsmodellen för att uppnå redigeringsuppgifterna. MGIE-ramverket kan utföra visuell perceptionsuppgifter för rimlig bildredigering.
Koncis uttrycksfull instruktion
Traditionellt kan Multimodala stora språkmodeller erbjuda visuellt relaterade svar med sin cross-modala perception på grund av instruktionsjustering och funktionstillämpning. För att redigera bilder använder MGIE-ramverket en textprompt som primär språkingång med bilden och härleder en detaljerad förklaring för redigeringskommandot. Men dessa förklaringar kan ofta vara för långa eller innehålla upprepade beskrivningar, vilket resulterar i missförstådda avsikter, och MGIE tillämpar en förtränad sammanfattare för att erhålla koncisa berättelser, vilket möjliggör att MLLM:en genererar sammanfattade utmatningar. Ramverket behandlar den koncisa men uttrycksfulla vägledningen som en uttrycksfull instruktion och tillämpar cross-entropiförlusten för att träna den multimodala stora språkmodellen med lärarstyrning.
Användning av en uttrycksfull instruktion ger en mer konkret idé jämfört med textinstruktionen, eftersom den överbryggar gapet för rimlig bildredigering och förbättrar ramverkets effektivitet ytterligare. Dessutom härleder MGIE-ramverket koncisa uttrycksfulla instruktioner i stället för att producera långa berättelser och förlita sig på extern sammanfattning under inferensperioden. På grund av detta kan MGIE-ramverket fånga den visuella föreställningen av redigeringsavsikterna, men är fortfarande begränsat till språkmodellitet. För att övervinna detta hinder lägger MGIE-modellen till ett visst antal visuella token efter den uttrycksfulla instruktionen med tränbara ordinbäddningar, vilket möjliggör att MLLM:en kan generera dem med hjälp av sin LM eller språkmodellshuvud.
Bildredigering med latent föreställning
I nästa steg antar MGIE-ramverket redigeringshuvudet för att transformera bildinstruktionen till faktisk visuell vägledning. Redigeringshuvudet är en sekvens-till-sekvens-modell som hjälper till att mappa de sekventiella visuella token från MLLM till meningsfulla latenta semantiskt som dess redigeringsvägledning. För att vara mer specifik kan transformationen av ordinbäddningar tolkas som en allmän representation i den visuella modellitet, och den använder en instansmedveten visuell föreställningskomponent för redigeringsavsikterna. Dessutom, för att guida bildredigering med visuell föreställning, inbäddar MGIE-ramverket en latent diffusionsmodell i sin arkitektur som innehåller en variational autoencoder och hanterar den avdånande diffusionen i den latenta rummet. Det primära målet med den latenta diffusionsmodellen är att generera den latenta målbilden från att bevara den latenta ingångsbilden och följa redigeringsvägledningen. Diffusionsprocessen lägger till brus till den latenta målbilden över regelbundna tidsintervall, och brusnivån ökar med varje tidssteg.
Inlärning av MGIE
Följande figur sammanfattar algoritmen för inlärningsprocessen av det föreslagna MGIE-ramverket.
Som det kan observeras lär sig MLLM:en att härleda koncisa uttrycksfulla instruktioner med hjälp av instruktionsförlusten. Med den latenta föreställningen från bildinstruktionerna transformerar ramverket modaliteten av redigeringshuvudet och guider den latenta diffusionsmodellen för att syntetisera den resulterande bilden och tillämpar redigeringsförlusten för diffusionsutbildning. Slutligen fryser ramverket en majoritet av vikterna, vilket resulterar i parameter-effektiv slut-till-slut-träning.
MGIE: Resultat och utvärdering
MGIE-ramverket använder IPr2Pr-databasen som sin primära förträningsdata, och den innehåller över 1 miljon CLIP-filtrerade data med instruktioner extraherade från GPT-3-modellen och en Prompt-to-Prompt-modell för att syntetisera bilderna. Dessutom behandlar MGIE-ramverket InsPix2Pix-ramverket, som bygger på CLIP-textencodern med en diffusionsmodell, som sin baslinje för instruktionsbaserad bildredigering. Dessutom tar MGIE-modellen också hänsyn till en LLM-styrd bildredigeringsmodell som antas för uttrycksfulla instruktioner från instruktionsendast-ingångar, men utan visuell perception.
Kvantitativ analys
Följande figur sammanfattar redigeringsresultaten i en nollskjutssättning, där modellerna tränas endast på IPr2Pr-databasen. För GIER- och EVR-data som involverar Photoshop-liknande modifieringar kan de uttrycksfulla instruktionerna avslöja konkreta mål i stället för tvetydiga kommandon, vilket möjliggör att redigeringsresultaten liknar redigeringsavsikterna bättre.
Även om både LGIE och MGIE tränas på samma data som InsPix2Pix-modellen, kan de erbjuda detaljerade förklaringar via inlärning med den stora språkmodellen, men LGIE är fortfarande begränsad till en enda modellitet. Dessutom kan MGIE-ramverket erbjuda en betydande prestandaförbättring, eftersom det har tillgång till bilder och kan använda dem för att härleda explicita instruktioner.
För att utvärdera prestandan på instruktionsbaserad bildredigering för specifika syften, finjusterar utvecklare flera modeller på varje databas, som sammanfattas i följande tabell.
Som det kan observeras, efter anpassning av Photoshop-liknande redigeringsuppgifter för EVR och GIER, visar modellerna en prestandaförbättring. Men det är värt att notera att eftersom finjustering gör uttrycksfulla instruktioner mer domänspecifika, upplever MGIE-ramverket en massiv prestandaförbättring, eftersom det också lär sig domänspecifik vägledning, vilket möjliggör att diffusionsmodellen visar konkreta redigerade scener från den finjusterade stora språkmodellen, vilket gynnar både lokal modifiering och lokal optimering. Dessutom, eftersom den visuellt medvetna vägledningen är mer anpassad till de avsedda redigeringsmålen, levererar MGIE-ramverket konsekvent bättre resultat jämfört med LGIE.
Följande figur visar CLIP-S-poängen över ingångs- eller grundtruth-bilderna och de uttrycksfulla instruktionerna. En högre CLIP-poäng indikerar relevansen av instruktionerna med redigeringskällan, och som det kan observeras, har MGIE en högre CLIP-poäng jämfört med LGIE-modellen över både ingångs- och utgångsbilderna.
Kvalitativa resultat
Följande bild sammanfattar den kvalitativa analysen av MGIE-ramverket.
Som vi vet är LGIE-ramverket begränsat till en enda modellitet på grund av att det har en enda språkbaserad insikt och är benägen att härleda felaktiga eller irrelevanta förklaringar för att redigera bilden. Men MGIE-ramverket är multimodalt och har tillgång till bilder, vilket möjliggör att det kan slutföra redigeringsuppgifterna och tillhandahålla explicit visuell föreställning som överensstämmer med målet mycket bra.
Slutliga tankar
I denna artikel har vi talat om MGIE eller MLLM-styrd bildredigering, en MLLM-inspirerad studie som syftar till att utvärdera Multimodala stora språkmodeller och analysera hur de underlättar redigering med text eller guidade instruktioner, samtidigt som de lär sig att tillhandahålla explicit vägledning genom att härleda uttrycksfulla instruktioner. MGIE-redigeringsmodellen fångar visuell information och utför redigering eller manipulation med hjälp av slut-till-slut-träning. I stället för tvetydiga och korta instruktioner producerar MGIE-ramverket explicita visuellt medvetna instruktioner som resulterar i rimlig bildredigering.












