Artificiell intelligens

Vägledande instruktionsbaserad bildredigering via multimodala stora språkmodeller

publicerade

2 månader sedan

Februari 23, 2024

GUIDANDE INSTRUKTIONSBASERAD BILDREDIGERING VIA MULTIMODAL STORSPRÅKSMODELL

Visuella designverktyg och visionspråkmodeller har utbredda tillämpningar i multimediabranschen. Trots betydande framsteg under de senaste åren är en solid förståelse för dessa verktyg fortfarande nödvändig för att de ska fungera. För att förbättra tillgängligheten och kontrollen använder multimediabranschen alltmer textstyrda eller instruktionsbaserade bildredigeringstekniker. Dessa tekniker använder naturliga språkkommandon istället för traditionella regionala masker eller utarbetade beskrivningar, vilket möjliggör mer flexibel och kontrollerad bildmanipulation. Instruktionsbaserade metoder ger dock ofta korta anvisningar som kan vara utmanande för befintliga modeller att fånga och utföra fullt ut. Dessutom är diffusionsmodeller, kända för sin förmåga att skapa realistiska bilder, efterfrågade inom bildredigeringssektorn.

Dessutom, Multimodala stora språkmodeller (MLLMs) har visat imponerande prestanda i uppgifter som involverar visuellt medveten svarsgenerering och tvärmodal förståelse. MLLM Guided Image Editing (MGIE) är en studie inspirerad av MLLMs som utvärderar deras kapacitet och analyserar hur de stöder redigering genom text eller guidade instruktioner. Detta tillvägagångssätt innebär att lära sig att ge explicit vägledning och härleda uttrycksfulla instruktioner. MGIE-redigeringsmodellen förstår visuell information och utför redigeringar genom end-to-end-utbildning. I den här artikeln kommer vi att fördjupa oss i MGIE och bedöma dess inverkan på global bildoptimering, modifieringar i Photoshop-stil och lokal redigering. Vi kommer också att diskutera betydelsen av MGIE i instruktionsbaserade bildredigeringsuppgifter som bygger på uttrycksfulla instruktioner. Låt oss börja vår utforskning.

MLLM guidad bildredigering eller MGIE: An Introduction

Multimodala stora språkmodeller och diffusionsmodeller är två av de mest använda AI- och ML-ramverken för närvarande på grund av deras anmärkningsvärda generativa kapacitet. Å ena sidan har du Diffusion-modeller, mest kända för att producera mycket realistiska och visuellt tilltalande bilder, medan du å andra sidan har Multimodal Large Language Models, kända för sin exceptionella skicklighet i att generera ett brett utbud av innehåll inklusive text, språk, tal och bilder/videor.

Diffusionsmodeller byter ut de latenta tvärmodala kartorna för att utföra visuell manipulation som återspeglar ändringen av inmatningsmåltexten, och de kan också använda en guidad mask för att redigera en specifik del av bilden. Men den främsta anledningen till att diffusionsmodeller används i stor utsträckning för multimediaapplikationer är att istället för att förlita sig på utarbetade beskrivningar eller regionala masker, använder diffusionsmodeller instruktionsbaserade redigeringsmetoder som tillåter användare att uttrycka hur man redigerar bilden direkt genom att använda textinstruktioner eller kommandon . Stora språkmodeller behöver ingen introduktion eftersom de har visat betydande framsteg inom en rad olika språkuppgifter, inklusive textsammanfattning, maskinöversättning, textgenerering och att svara på frågorna. LLMs utbildas vanligtvis på en stor och varierad mängd träningsdata som utrustar dem med visuell kreativitet och kunskap, vilket gör att de också kan utföra flera synspråksuppgifter. Att bygga på LLMs, MLLMs eller Multimodal Large Language Models kan använda bilder som naturliga indata och ge lämpliga visuellt medvetna svar.

Med det sagt, även om diffusionsmodeller och MLLM-ramverk används i stor utsträckning för bildredigeringsuppgifter, finns det vissa vägledningsproblem med textbaserade instruktioner som hämmar den övergripande prestandan, vilket resulterar i utvecklingen av MGIE eller MLLM Guided Image Editing, en AI-driven ram bestående av en diffusionsmodell och en MLLM-modell som visas i följande bild.

Inom MGIE-arkitekturen är diffusionsmodellen end-to-end-tränad för att utföra bildredigering med latent fantasi om det avsedda målet medan MLLM-ramverket lär sig att förutsäga exakta uttrycksfulla instruktioner. Tillsammans utnyttjar diffusionsmodellen och MLLM-ramverket den inneboende visuella härledningen som gör att den kan hantera tvetydiga mänskliga kommandon vilket resulterar i realistisk redigering av bilderna, som visas i följande bild.

MGIE-ramverket hämtar stor inspiration från två befintliga tillvägagångssätt: Instruktionsbaserad bildredigering och Vision Large Language Models.

Instruktionsbaserad bildredigering kan förbättra tillgängligheten och kontrollerbarheten av visuell manipulation avsevärt genom att följa mänskliga kommandon. Det finns två huvudsakliga ramverk som används för instruktionsbaserad bildredigering: GAN-ramverk och diffusionsmodeller. GAN eller Generative Adversarial Networks kan ändra bilder men är antingen begränsade till specifika domäner eller ger orealistiska resultat. Å andra sidan kan diffusionsmodeller med storskalig träning styra de tvärmodala uppmärksamhetskartorna för globala kartor för att uppnå bildredigering och transformation. Instruktionsbaserad redigering fungerar genom att ta emot raka kommandon som input, ofta inte begränsat till regionala masker och utarbetade beskrivningar. Det finns dock en sannolikhet att de tillhandahållna instruktionerna antingen är tvetydiga eller inte tillräckligt exakta för att följa instruktionerna för redigeringsuppgifter.

Vision Large Language Models är kända för sina textgenererande och generaliseringsmöjligheter över olika uppgifter, och de har ofta en robust textförståelse, och de kan ytterligare producera körbara program eller pseudokod. Denna förmåga hos stora språkmodeller gör att MLLM:er kan uppfatta bilder och ge adekvata svar med hjälp av visuell funktionsjustering med instruktionsjustering, med nyare modeller som använder MLLM:er för att generera bilder relaterade till chatten eller inmatningstexten. Det som dock skiljer MGIE från MLLM:er eller VLLM:er är det faktum att även om de senare kan producera bilder skilda från indata från början, utnyttjar MGIE MLLM:s förmågor för att förbättra bildredigeringsmöjligheterna med härledda instruktioner.

MGIE: Arkitektur och metodik

Traditionellt har stora språkmodeller använts för naturliga språkbehandlingsgenerativa uppgifter. Men ända sedan MLLM:er blev mainstream, fick LLM:er förmågan att ge rimliga svar genom att uppfatta bilderinmatning. Konventionellt initieras en multimodal storspråksmodell från en förtränad LLM, och den innehåller en visuell kodare och en adapter för att extrahera de visuella funktionerna och projicera de visuella funktionerna i respektive språkmodalitet. På grund av detta kan MLLM-ramverket uppfatta visuella input även om utdata fortfarande är begränsad till text.

Det föreslagna MGIE-ramverket syftar till att lösa detta problem och underlätta för en MLLM att redigera en ingångsbild till en utdatabild på basis av den givna textinstruktionen. För att uppnå detta innehåller MGIE-ramverket en MLLM och tränar på att härleda kortfattade och explicita uttrycksfulla textinstruktioner. Dessutom lägger MGIE-ramverket till speciella bildsymboler i sin arkitektur för att överbrygga gapet mellan vision och språkmodalitet, och antar redigeringshuvudet för omvandlingen av modaliteterna. Dessa modaliteter fungerar som den latenta visuella fantasin från den multimodala stora språkmodellen och vägleder spridningsmodellen för att uppnå redigeringsuppgifterna. MGIE-ramverket kan sedan utföra visuella perceptionsuppgifter för rimlig bildredigering.

Kortfattad uttrycksfull instruktion

Traditionellt kan multimodala stora språkmodeller erbjuda visuella svar med sin tvärmodala uppfattning tack vare instruktionsinställning och funktionsanpassning. För att redigera bilder använder MGIE-ramverket en textprompt som den primära språkinmatningen med bilden, och härleder en detaljerad förklaring för redigeringskommandot. Dessa förklaringar kan dock ofta vara för långa eller involvera upprepade beskrivningar som resulterar i feltolkade avsikter, vilket tvingar MGIE att använda en förtränad sammanfattning för att få kortfattade berättelser, vilket gör att MLLM kan generera sammanfattade utdata. Ramverket behandlar den kortfattade men explicita vägledningen som en uttrycksfull instruktion och tillämpar korsentropiförlusten för att träna den multimodala stora språkmodellen med hjälp av lärartillämpning.

Att använda en uttrycksfull instruktion ger en mer konkret idé jämfört med textinstruktionen eftersom det överbryggar gapet för rimlig bildredigering, vilket ytterligare förbättrar ramverkets effektivitet. Dessutom härleder MGIE-ramverket under slutledningsperioden kortfattade uttrycksfulla instruktioner istället för att producera långa berättelser och förlita sig på extern sammanfattning. På grund av detta kan MGIE-ramverket få tag i den visuella fantasin hos redigeringsavsikterna, men är fortfarande begränsad till språkmodaliteten. För att övervinna detta hinder lägger MGIE-modellen till ett visst antal visuella tokens efter den uttrycksfulla instruktionen med tränarbara ordinbäddningar, vilket gör att MLLM kan generera dem med sitt LM- eller språkmodellhuvud.

Bildredigering med latent fantasi

I nästa steg antar MGIE-ramverket redigeringshuvudet för att omvandla bildinstruktionen till faktisk visuell vägledning. Redigeringshuvudet är en sekvens-till-sekvensmodell som hjälper till att kartlägga de sekventiella visuella tokens från MLLM till det meningsfulla latenta semantiskt som dess redigeringsvägledning. För att vara mer specifik kan transformationen över ordet inbäddningar tolkas som allmän representation i den visuella modaliteten, och använder en instansmedveten visuell fantasikomponent för redigeringsavsikterna. Dessutom, för att vägleda bildredigering med visuell fantasi, bäddar MGIE-ramverket in en latent diffusionsmodell i sin arkitektur som inkluderar en variationsautokodare och adresserar den deoising-diffusion i det latenta utrymmet. Det primära målet med den latenta diffusionsmodellen är att generera det latenta målet från att bevara den latenta inmatningen och följa redigeringsvägledningen. Diffusionsprocessen lägger till brus till det latenta målet över regelbundna tidsintervall och brusnivån ökar för varje tidssteg.

Lär dig MGIE

Följande figur sammanfattar algoritmen för inlärningsprocessen för det föreslagna MGIE-ramverket.

Som det kan observeras, lär sig MLLM att härleda kortfattade uttrycksfulla instruktioner med hjälp av instruktionsförlusten. Med hjälp av den latenta fantasin från inmatningsbildinstruktionerna transformerar ramverket modaliteten för redigeringshuvudet och vägleder den latenta diffusionsmodellen för att syntetisera den resulterande bilden, och tillämpar redigeringsförlusten för diffusionsträning. Slutligen fryser ramverket en majoritet av vikterna vilket resulterar i parametereffektiv träning från början till slut.

MGIE: Resultat och utvärdering

MGIE-ramverket använder IPr2Pr-datauppsättningen som sin primära förträningsdata, och den innehåller över 1 miljon CLIP-filtrerade data med instruktioner extraherade från GPT-3-modellen och en prompt-till-prompt-modell för att syntetisera bilderna. Dessutom behandlar MGIE-ramverket InsPix2Pix-ramverket byggt på CLIP-textkodaren med en diffusionsmodell som baslinje för instruktionsbaserade bildredigeringsuppgifter. Dessutom tar MGIE-modellen även hänsyn till en LLM-guided bildredigeringsmodell som antagits för uttrycksfulla instruktioner från instruktionsbara ingångar men utan visuell perception.

Kvantitativ analys

Följande figur sammanfattar redigeringsresultaten i en nollbildsinställning där modellerna tränas endast på IPr2Pr-datauppsättningen. För GIER- och EVR-data som involverar modifieringar i Photoshop-stil kan de uttrycksfulla instruktionerna avslöja konkreta mål istället för tvetydiga kommandon som gör att redigeringsresultaten liknar redigeringsavsikterna bättre.

Även om både LGIE och MGIE är tränade på samma data som InsPix2Pix-modellen, kan de erbjuda detaljerade förklaringar via inlärning med den stora språkmodellen, men fortfarande är LGIE begränsad till en enda modalitet. Dessutom kan MGIE-ramverket ge en betydande prestandaökning eftersom den har tillgång till bilder och kan använda dessa bilder för att härleda explicita instruktioner.

För att utvärdera prestandan på instruktionsbaserade bildredigeringsuppgifter för specifika ändamål finjusterar utvecklarna flera modeller på varje datauppsättning som sammanfattas i följande tabell.

Som det kan observeras, efter att ha anpassat redigeringsuppgifterna i Photoshop-stil för EVR och GIER, visar modellerna ett lyft i prestanda. Det är dock värt att notera att eftersom finjustering också gör uttrycksfulla instruktioner mer domänspecifika, uppvisar MGIE-ramverket ett enormt uppsving i prestanda eftersom det också lär sig domänrelaterad vägledning, vilket gör att diffusionsmodellen kan demonstrera konkreta redigerade scener från finjusterad stor språkmodell som gynnar både den lokala modifieringen och den lokala optimeringen. Dessutom, eftersom den visuellt medvetna vägledningen är mer anpassad till de avsedda redigeringsmålen, ger MGIE-ramverket överlägsna resultat konsekvent jämfört med LGIE.

Följande figur visar CLIP-S-poängen över ingångs- eller sanningsbilden och uttrycksfulla instruktioner. Ett högre CLIP-poäng indikerar relevansen av instruktionerna med redigeringskällan, och som det kan observeras har MGIE ett högre CLIP-poäng jämfört med LGIE-modellen över både ingångs- och utdatabilderna.

Kvalitativa resultat

Följande bild sammanfattar perfekt den kvalitativa analysen av MGIE-ramverket.

Som vi vet är LGIE-ramverket begränsat till en enda modalitet på grund av vilket det har en enda språkbaserad insikt, och är benäget att härleda felaktiga eller irrelevanta förklaringar för att redigera bilden. MGIE-ramverket är dock multimodalt och med tillgång till bilder slutför det redigeringsuppgifterna och ger explicit visuell fantasi som stämmer överens med målet riktigt bra.

Avslutande tankar

I den här artikeln har vi pratat om MGIE eller MLLM Guided Image Editing, en MLLM-inspirerad studie som syftar till att utvärdera multimodala stora språkmodeller och analysera hur de underlättar redigering med hjälp av text eller guidade instruktioner samtidigt som vi lär oss hur man ger explicit vägledning genom att härleda uttrycksfulla instruktioner samtidigt. MGIE-redigeringsmodellen fångar den visuella informationen och utför redigering eller manipulation med hjälp av end-to-end-träning. Istället för tvetydiga och korta vägledningar producerar MGIE-ramverket explicita visuella instruktioner som resulterar i rimlig bildredigering.

Relaterade ämnen:AI-bildredigering diffusionsmodeller generativ ai MLLM MLLMs Multimodal stor språkmodell

Strax

The State of Cloud Optimization 2024: Omfattande insikter

Missa inte

OLMo: Enhancing the Science of Language Models

Kunal Kejriwal

"En ingenjör till yrket, en författare utantill". Kunal är en teknisk skribent med en djup kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa områden genom sin engagerande och informativa dokumentation.