Kunstig intelligens

Veiledende instruksjonsbasert bilderedigering via multimodale store språkmodeller

Publisert

2 måneder siden

Februar 23, 2024

VEILEDENDE INSTRUKSJONSBASERT BILDEREDIGERING VIA MULTIMODALE STORSPRÅKSMODELLER

Visuelle designverktøy og visjonsspråkmodeller har utbredt bruk i multimediaindustrien. Til tross for betydelige fremskritt de siste årene, er en solid forståelse av disse verktøyene fortsatt nødvendig for driften. For å forbedre tilgjengeligheten og kontrollen tar multimedieindustrien i økende grad i bruk tekstveiledet eller instruksjonsbaserte bilderedigeringsteknikker. Disse teknikkene bruker naturlige språkkommandoer i stedet for tradisjonelle regionale masker eller forseggjorte beskrivelser, noe som muliggjør mer fleksibel og kontrollert bildemanipulering. Imidlertid gir instruksjonsbaserte metoder ofte korte instruksjoner som kan være utfordrende for eksisterende modeller å fange opp og utføre fullt ut. I tillegg er diffusjonsmodeller, kjent for sin evne til å lage realistiske bilder, etterspurt innen bilderedigeringssektoren.

Dessuten, Multimodale store språkmodeller (MLLMs) har vist imponerende ytelse i oppgaver som involverer visuell-bevisst responsgenerering og kryss-modal forståelse. MLLM Guided Image Editing (MGIE) er en studie inspirert av MLLM-er som evaluerer deres evner og analyserer hvordan de støtter redigering gjennom tekst eller veilede instruksjoner. Denne tilnærmingen innebærer å lære å gi eksplisitt veiledning og utlede uttrykksfulle instruksjoner. MGIE-redigeringsmodellen forstår visuell informasjon og utfører redigeringer gjennom ende-til-ende opplæring. I denne artikkelen vil vi gå dypt inn i MGIE, og vurdere dens innvirkning på global bildeoptimalisering, modifikasjoner i Photoshop-stil og lokal redigering. Vi vil også diskutere betydningen av MGIE i instruksjonsbaserte bilderedigeringsoppgaver som er avhengige av uttrykksfulle instruksjoner. La oss begynne vår utforskning.

MLLM guidet bilderedigering eller MGIE: An Introduction

Multimodale store språkmodeller og diffusjonsmodeller er to av de mest brukte AI- og ML-rammeverkene for tiden på grunn av deres bemerkelsesverdige generative evner. På den ene siden har du Diffusion-modeller, best kjent for å produsere svært realistiske og visuelt tiltalende bilder, mens du på den andre siden har Multimodal Large Language Models, kjent for sin eksepsjonelle dyktighet i å generere et bredt utvalg av innhold, inkludert tekst, språk, tale og bilder/videoer.

Diffusjonsmodeller bytter ut de latente kryss-modale kartene for å utføre visuell manipulasjon som gjenspeiler endringen av inndatamålteksten, og de kan også bruke en veiledet maske for å redigere en bestemt region av bildet. Men den primære grunnen til at diffusjonsmodeller er mye brukt for multimedieapplikasjoner, er fordi i stedet for å stole på forseggjorte beskrivelser eller regionale masker, bruker diffusjonsmodeller instruksjonsbaserte redigeringsmetoder som lar brukere uttrykke hvordan de redigerer bildet direkte ved å bruke tekstinstruksjoner eller kommandoer . Store språkmodeller trenger ingen introduksjon ettersom de har vist betydelige fremskritt på tvers av en rekke forskjellige språkoppgaver, inkludert tekstoppsummering, maskinoversettelse, tekstgenerering og svar på spørsmålene. LLM-er er vanligvis trent på en stor og variert mengde treningsdata som utstyrer dem med visuell kreativitet og kunnskap, slik at de også kan utføre flere synsspråklige oppgaver. Bygger på LLM-er, kan MLLM-er eller multimodale store språkmodeller bruke bilder som naturlige input og gi passende visuelt bevisste svar.

Når det er sagt, selv om diffusjonsmodeller og MLLM-rammeverk er mye brukt til bilderedigeringsoppgaver, eksisterer det noen veiledningsproblemer med tekstbaserte instruksjoner som hemmer den generelle ytelsen, noe som resulterer i utviklingen av MGIE eller MLLM Guided Image Editing, en AI-drevet rammeverk bestående av en diffusjonsmodell og en MLLM-modell som vist i bildet nedenfor.

Innenfor MGIE-arkitekturen er diffusjonsmodellen trent ende-til-ende til å utføre bilderedigering med latent fantasi om det tiltenkte målet, mens MLLM-rammeverket lærer å forutsi presise uttrykksfulle instruksjoner. Sammen utnytter diffusjonsmodellen og MLLM-rammeverket den iboende visuelle avledningen som lar den adressere tvetydige menneskelige kommandoer som resulterer i realistisk redigering av bildene, som vist i bildet nedenfor.

MGIE-rammeverket henter tung inspirasjon fra to eksisterende tilnærminger: Instruksjonsbasert bilderedigering og Vision Large Language Models.

Instruksjonsbasert bilderedigering kan forbedre tilgjengeligheten og kontrollerbarheten til visuell manipulasjon betydelig ved å følge menneskelige kommandoer. Det er to hovedrammeverk som brukes for instruksjonsbasert bilderedigering: GAN-rammeverk og diffusjonsmodeller. GAN eller Generative Adversarial Networks er i stand til å endre bilder, men er enten begrenset til bestemte domener eller gir urealistiske resultater. På den annen side kan diffusjonsmodeller med storskala trening kontrollere de kryssmodale oppmerksomhetskartene for globale kart for å oppnå bilderedigering og transformasjon. Instruksjonsbasert redigering fungerer ved å motta rette kommandoer som input, ofte ikke begrenset til regionale masker og forseggjorte beskrivelser. Det er imidlertid en sannsynlighet for at de oppgitte instruksjonene enten er tvetydige eller ikke presise nok til å følge instruksjonene for redigeringsoppgaver.

Vision Large Language Models er kjent for sine tekstgenererende og generaliseringsevner på tvers av ulike oppgaver, og de har ofte en robust tekstforståelse, og de kan videre produsere kjørbare programmer eller pseudokode. Denne muligheten til store språkmodeller lar MLLM-er oppfatte bilder og gi tilstrekkelige svar ved å bruke visuell funksjonsjustering med instruksjonsinnstilling, med nyere modeller som tar i bruk MLLM-er for å generere bilder relatert til chatten eller inndatateksten. Det som imidlertid skiller MGIE fra MLLM-er eller VLLM-er er det faktum at mens sistnevnte kan produsere bilder forskjellig fra innganger fra bunnen av, utnytter MGIE evnene til MLLM-er for å forbedre bilderedigeringsfunksjonene med avledede instruksjoner.

MGIE: Arkitektur og metodikk

Tradisjonelt har store språkmodeller blitt brukt til naturlig språkbehandlingsgenerative oppgaver. Men helt siden MLLM-er ble mainstream, ble LLM-er bemyndiget til å gi rimelige svar ved å oppfatte bildeinndata. Konvensjonelt initialiseres en multimodal storspråkmodell fra en forhåndstrent LLM, og den inneholder en visuell koder og en adapter for å trekke ut de visuelle funksjonene, og projisere de visuelle funksjonene inn i språkmodalitet. På grunn av dette er MLLM-rammeverket i stand til å oppfatte visuelle innganger, selv om utgangen fortsatt er begrenset til tekst.

Det foreslåtte MGIE-rammeverket tar sikte på å løse dette problemet, og gjøre det lettere for en MLLM å redigere et inndatabilde til et utdatabilde på grunnlag av den gitte tekstinstruksjonen. For å oppnå dette, inneholder MGIE-rammeverket en MLLM og trener for å utlede konsise og eksplisitte uttrykksfulle tekstinstruksjoner. Videre legger MGIE-rammeverket til spesielle bildetokens i sin arkitektur for å bygge bro mellom visjon og språkmodalitet, og tar i bruk redigeringshodet for transformasjonen av modalitetene. Disse modalitetene fungerer som den latente visuelle fantasien fra den multimodale store språkmodellen, og veileder diffusjonsmodellen for å oppnå redigeringsoppgavene. MGIE-rammeverket er da i stand til å utføre visuelle persepsjonsoppgaver for rimelig bilderedigering.

Kortfattet uttrykksfull instruksjon

Tradisjonelt kan multimodale store språkmodeller tilby visuelt relaterte svar med sin tverrmodale oppfatning på grunn av instruksjonsinnstilling og funksjonsjustering. For å redigere bilder bruker MGIE-rammeverket en tekstmelding som primærspråkinndata med bildet, og utleder en detaljert forklaring for redigeringskommandoen. Imidlertid kan disse forklaringene ofte være for lange eller involvere repeterende beskrivelser som resulterer i feiltolkede intensjoner, noe som tvinger MGIE til å bruke en forhåndstrent oppsummerer for å få kortfattede fortellinger, slik at MLLM kan generere oppsummerte utdata. Rammeverket behandler den kortfattede, men eksplisitte veiledningen som en ekspressiv instruksjon, og bruker kryssentropi-tapet for å trene den multimodale store språkmodellen ved å bruke lærerhåndhevelse.

Å bruke en uttrykksfull instruksjon gir en mer konkret idé sammenlignet med tekstinstruksjonen, da den bygger bro over gapet for rimelig bilderedigering, og øker effektiviteten til rammeverket ytterligere. Dessuten utleder MGIE-rammeverket i slutningsperioden konsise uttrykksfulle instruksjoner i stedet for å produsere lange fortellinger og stole på ekstern oppsummering. På grunn av dette er MGIE-rammeverket i stand til å få tak i den visuelle fantasien til redigeringsintensjonene, men er fortsatt begrenset til språkmodaliteten. For å overvinne denne hindringen legger MGIE-modellen til et visst antall visuelle symboler etter den ekspressive instruksjonen med trenbare ordinnbygginger, slik at MLLM kan generere dem ved å bruke LM- eller språkmodellhodet.

Bilderedigering med latent fantasi

I neste trinn tar MGIE-rammeverket i bruk redigeringshodet for å transformere bildeinstruksjonen til faktisk visuell veiledning. Redigeringshodet er en sekvens-til-sekvens-modell som hjelper til med å kartlegge de sekvensielle visuelle tokens fra MLLM til det meningsfulle latente semantisk som dets redigeringsveiledning. For å være mer spesifikk, kan transformasjonen over ordet innebygging tolkes som generell representasjon i den visuelle modaliteten, og bruker en instansbevisst visuell fantasikomponent for redigeringsintensjonene. Videre, for å veilede bilderedigering med visuell fantasi, legger MGIE-rammeverket inn en latent diffusjonsmodell i arkitekturen som inkluderer en variasjonsautokoder og adresserer den deoiserende diffusjonen i det latente rommet. Det primære målet med den latente diffusjonsmodellen er å generere det latente målet fra å bevare den latente input og følge redigeringsveiledningen. Diffusjonsprosessen legger til støy til det latente målet over vanlige tidsintervaller og støynivået øker for hvert tidstrinn.

Læring av MGIE

Den følgende figuren oppsummerer algoritmen for læringsprosessen til det foreslåtte MGIE-rammeverket.

Som det kan observeres, lærer MLLM å utlede konsise uttrykksfulle instruksjoner ved å bruke instruksjonstapet. Ved å bruke den latente fantasien fra input-bildeinstruksjonene, transformerer rammeverket modaliteten til redigeringshodet, og veileder den latente diffusjonsmodellen for å syntetisere det resulterende bildet, og bruker redigeringstapet for diffusjonstrening. Til slutt fryser rammeverket et flertall av vekter, noe som resulterer i parametereffektiv ende-til-ende-trening.

MGIE: Resultater og evaluering

MGIE-rammeverket bruker IPr2Pr-datasettet som sitt primære før-treningsdata, og det inneholder over 1 million CLIP-filtrerte data med instruksjoner hentet fra GPT-3-modellen, og en Prompt-to-Prompt-modell for å syntetisere bildene. Videre behandler MGIE-rammeverket InsPix2Pix-rammeverket bygget på CLIP-tekstkoderen med en diffusjonsmodell som sin baseline for instruksjonsbaserte bilderedigeringsoppgaver. Videre tar MGIE-modellen også i betraktning en LLM-veiledet bilderedigeringsmodell som er tatt i bruk for uttrykksfulle instruksjoner fra instruksjonsbare innganger, men uten visuell persepsjon.

Kvantitativ analyse

Følgende figur oppsummerer redigeringsresultatene i en null-shot-innstilling med modellene som kun trenes på IPr2Pr-datasettet. For GIER- og EVR-data som involverer modifikasjoner i Photoshop-stil, kan de uttrykksfulle instruksjonene avsløre konkrete mål i stedet for tvetydige kommandoer som lar redigeringsresultatene likne redigeringsintensjonene bedre.

Selv om både LGIE og MGIE er trent på de samme dataene som InsPix2Pix-modellen, kan de tilby detaljerte forklaringer via læring med den store språkmodellen, men fortsatt er LGIE begrenset til en enkelt modalitet. Videre kan MGIE-rammeverket gi et betydelig ytelsesløft ettersom det har tilgang til bilder, og kan bruke disse bildene til å utlede eksplisitte instruksjoner.

For å evaluere ytelsen på instruksjonsbaserte bilderedigeringsoppgaver for spesifikke formål, finjusterer utviklere flere modeller på hvert datasett som oppsummert i følgende tabell.

Som det kan observeres, viser modellene et løft i ytelsen etter å ha tilpasset redigeringsoppgavene i Photoshop-stil for EVR og GIER. Det er imidlertid verdt å merke seg at siden finjustering også gjør uttrykksfulle instruksjoner mer domenespesifikke, er MGIE-rammeverket vitne til et enormt løft i ytelsen siden det også lærer domenerelatert veiledning, slik at diffusjonsmodellen kan demonstrere konkrete redigerte scener fra finjustert stor språkmodell som gagner både den lokale modifikasjonen og lokal optimalisering. Siden den visuelt bevisste veiledningen er mer på linje med de tiltenkte redigeringsmålene, leverer MGIE-rammeverket overlegne resultater konsekvent sammenlignet med LGIE.

Den følgende figuren demonstrerer CLIP-S-poengsummen på tvers av input- eller grunnsannhetsmålbilder og uttrykksfulle instruksjoner. En høyere CLIP-score indikerer relevansen av instruksjonene med redigeringskilden, og som det kan observeres, har MGIE en høyere CLIP-score sammenlignet med LGIE-modellen på tvers av både inngangs- og utgangsbildene.

Kvalitative resultater

Følgende bilde oppsummerer perfekt den kvalitative analysen av MGIE-rammeverket.

Som vi vet, er LGIE-rammeverket begrenset til en enkelt modalitet, på grunn av dette har det en enkelt språkbasert innsikt, og er tilbøyelig til å utlede feil eller irrelevante forklaringer for redigering av bildet. Imidlertid er MGIE-rammeverket multimodalt, og med tilgang til bilder fullfører det redigeringsoppgavene, og gir eksplisitt visuell fantasi som stemmer godt overens med målet.

Final Thoughts

I denne artikkelen har vi snakket om MGIE eller MLLM Guided Image Editing, en MLLM-inspirert studie som tar sikte på å evaluere multimodale store språkmodeller og analysere hvordan de letter redigering ved hjelp av tekst eller veilede instruksjoner samtidig som vi lærer å gi eksplisitt veiledning ved å utlede uttrykksfulle instruksjoner samtidig. MGIE-redigeringsmodellen fanger opp den visuelle informasjonen og utfører redigering eller manipulering ved hjelp av ende-til-ende-trening. I stedet for tvetydig og kort veiledning, produserer MGIE-rammeverket eksplisitte visuelt bevisste instruksjoner som resulterer i rimelig bilderedigering.

Neste

The State of Cloud Optimization 2024: Omfattende innsikt

Ikke gå glipp av

OLMo: Enhancing the Science of Language Models

Kunal Kejriwal

"En ingeniør av yrke, en forfatter utenat". Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse for AI og ML, dedikert til å forenkle komplekse konsepter på disse feltene gjennom sin engasjerende og informative dokumentasjon.