Connect with us

Kunstig intelligens

Veiledning basert på instruksjoner for bildebehandling via multimodale store språkmodeller

mm
GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Visuell designverktøy og språkmodeller for syn har vidstrakte anvendelser i multimediaindustrinen. Til tross for betydelige fremgang i de senere år, er en solid forståelse av disse verktøyene fortsatt nødvendig for deres drift. For å forbedre tilgjengelighet og kontroll, adopterer multimediaindustrinen i økende grad tekstbasert eller instruksjonsbasert bildebehandlingsteknikker. Disse teknikkene bruker naturlige språkkommandoer i stedet for tradisjonelle regionmasker eller omfattende beskrivelser, og muliggjør mer fleksible og kontrollerte bildebehandlinger. Imidlertid gir instruksjonsbaserte metoder ofte korte instruksjoner som kan være utfordrende for eksisterende modeller å fullt ut fange og utføre. I tillegg er diffusjonsmodeller, kjent for deres evne til å skape realistiske bilder, i høy etterspørsel innen bildebehandlingssektoren.

Merover, Multimodale store språkmodeller (MLLMs) har vist imponerende ytelse i oppgaver som involverer visuell-til-språklig responsgenerering og cross-modalt forståelse. MLLM-veiledning for bildebehandling (MGIE) er en studie inspirert av MLLM som vurderer deres evner og analyserer hvordan de muliggjør redigering ved hjelp av tekst eller veiledede instruksjoner. Dette tilnærmingen innebærer å lære å gi eksplisitte instruksjoner og ålede uttrykksfulle instruksjoner. MGIE-redigeringsmodellen forstår visuell informasjon og utfører redigeringer gjennom end-to-end-trening. I denne artikkelen vil vi dykke dypt inn i MGIE, og vurdere dens påvirkning på global bildeoptimalisering, Photoshop-liknende modifikasjoner og lokal redigering. Vi vil også diskutere betydningen av MGIE i instruksjonsbasert bildebehandling som avhenger av uttrykksfulle instruksjoner. La oss begynne vår utforskning.

MLLM-veiledning for bildebehandling eller MGIE: En introduksjon

Multimodale store språkmodeller og diffusjonsmodeller er to av de mest brukte AI- og ML-rammeverkene for tiden, på grunn av deres bemerkelsesverdige generative evner. På den ene siden har du diffusjonsmodeller, som er best kjent for å produsere høyt realistiske og visuelt tiltalende bilder, mens på den andre siden har du multimodale store språkmodeller, som er kjent for deres unike evne til å generere en rekke forskjellige innhold, inkludert tekst, språk, tale og bilder/videoer.

Diffusjonsmodeller bytter ut latente cross-modale kart for å utføre visuell manipulering som reflekterer endringen av innputt-målet, og de kan også bruke en veiledet maske til å redigere en bestemt region av bildet. Men den primære grunnen til at diffusjonsmodeller er så mye brukt for multimediaplikasjoner er at de, i stedet for å avhenge av omfattende beskrivelser eller regionmasker, bruker instruksjonsbasert redigeringsteknikker som tillater brukerne å uttrykke hvordan de ønsker å redigere bildet direkte ved hjelp av tekstinstruksjoner eller kommandoer. Videre, store språkmodeller trenger ingen introduksjon, siden de har vist betydelige fremgang over en rekke forskjellige språkoppgaver, inkludert tekstsummering, maskinoversettelse, tekstgenerering og spørsmålssvar. LLM-er er vanligvis trent på en stor og diversifisert mengde treningsdata, som utstyrer dem med visuell kreativitet og kunnskap, og muliggjør at de kan utføre flere visuell-språklige oppgaver. Bygget på LLM-er, kan MLLM-er eller multimodale store språkmodeller bruke bilder som naturlige innputt og gi visuelt informerte svar.

Med det sagt, til tross for at diffusjonsmodeller og MLLM-rammeverk er mye brukt for bildebehandling, finnes det noen veiledningsproblemer med tekstbaserte instruksjoner som hemmer den totale ytelsen, og fører til utviklingen av MGIE eller MLLM-veiledning for bildebehandling, et AI-drevet rammeverk som består av en diffusjonsmodell og en MLLM-modell, som vist i følgende bilde.

Innenfor MGIE-arkitekturen er diffusjonsmodellen trent for å utføre bildebehandling med latent forestilling av det ønskede målet, mens MLLM-rammeverket lærer å forutsi presise uttrykksfulle instruksjoner. Sammen tar diffusjonsmodellen og MLLM-rammeverket i bruk den innebygde visuelle avledningen, og muliggjør at den kan håndtere tvetydige menneskelige kommandoer, og resultere i realistiske redigeringer av bildene, som vist i følgende bilde.

MGIE-rammeverket trekker tungt inspirasjon fra to eksisterende tilnærminger: Instruksjonsbasert bildebehandling og Visuell store språkmodeller.

Instruksjonsbasert bildebehandling kan forbedre tilgjengeligheten og kontrollen over visuell manipulering betydelig ved å adlyde menneskelige kommandoer. Det finnes to hovedrammeverk som brukes for instruksjonsbasert bildebehandling: GAN-rammeverk og diffusjonsmodeller. GAN eller Generative Adversarial Networks er i stand til å endre bilder, men er enten begrenset til bestemte domener eller produserer urealistiske resultater. På den andre siden kan diffusjonsmodeller med stor skala kontrollere cross-modale oppmerksomhetskart for å oppnå bildebehandling og transformasjon. Instruksjonsbasert redigering fungerer ved å motta rette kommandoer som innputt, ofte ikke begrenset til regionmasker og omfattende beskrivelser. Imidlertid er det en sjanse for at de gitt instruksjonene er enten tvetydige eller ikke presise nok til å følge instruksjoner for redigeringoppgaver.

Visuelle store språkmodeller er kjent for deres tekstgenererings- og generaliseringskapasiteter over en rekke oppgaver, og de har ofte en robust tekstlig forståelse, og kan videre produsere eksekverbare programmer eller pseudokode. Denne kapasiteten til store språkmodeller muliggjør at MLLM-er kan oppfatte bilder og gi visuelt informerte svar ved hjelp av visuell funksjonsjustering med instruksjonsjustering, og nyere modeller som adopterer MLLM-er for å generere bilder relatert til samtalen eller innputt-teksten. Imidlertid, hva som skiller MGIE fra MLLM-er eller VLLM-er er faktum at, mens de sistnevnte kan produsere bilder som er forskjellige fra innputt fra scratch, MGIE utnytter MLLM-ens evner til å forbedre bildebehandling med avledede instruksjoner.

MGIE: Arkitektur og metode

Tradisjonelt har store språkmodeller blitt brukt for naturlig språkbehandling og generering. Men siden MLLM-er ble mainstream, ble LLM-er utstyrt med evnen til å gi rimelige svar ved å oppfatte bilder som innputt. Konvensjonelt blir en multimodal stor språkmodell initialisert fra en forhåndstrengt LLM, og den inneholder en visuell encoder og en adapter for å trekke ut visuelle funksjoner, og projicere visuelle funksjoner inn i språkmodus henholdsvis. På grunn av dette er MLLM-rammeverket i stand til å oppfatte visuelle innputt, selv om utgangen fortsatt er begrenset til tekst.

Det foreslåtte MGIE-rammeverket har som mål å løse dette problemet, og muliggjøre at en MLLM kan redigere et innputtbilde til et utgangsbilde basert på de gitt tekstlige instruksjoner. For å oppnå dette, inneholder MGIE-rammeverket en MLLM og blir trent for å avlede konsise og uttrykksfulle tekstlige instruksjoner. Videre legger MGIE-rammeverket til spesielle bilde-teksttokene i sin arkitektur for å brygge gapet mellom visuell og språklig modus, og adopterer redigeringshode for transformasjon av modusene. Disse modusene tjener som latent visuell forestilling fra den multimodale store språkmodellen, og veileder diffusjonsmodellen til å oppnå redigeringoppgavene. MGIE-rammeverket er dermed i stand til å utføre visuelle persepsjonsoppgaver for rimelig bildebehandling.

Konsis uttrykksfull instruksjon

Tradisjonelt kan multimodale store språkmodeller gi visuelt relaterte svar med sin cross-modale persepsjon på grunn av instruksjonsjustering og funksjonsjustering. For å redigere bilder, bruker MGIE-rammeverket en tekstlig prompt som primær språklig innputt sammen med bildet, og avler en detaljert forklaring for redigeringskommandoen. Imidlertid kan disse forklaringene ofte være for lange eller inneholde repetitive beskrivelser, og resultere i misforståtte intensjoner, og tvinger MGIE til å bruke en forhåndstrengt summeringsmodell for å få konsise narrasjoner, og muliggjør at MLLM-en kan generere summeringsutgang. Rammeverket behandler den konsise, men uttrykksfulle veiledningen som en uttrykksfull instruksjon, og bruker cross-entropitap for å trene den multimodale store språkmodellen ved hjelp av lærer-tvang.

Bruken av en uttrykksfull instruksjon gir en mer konkrete idé sammenlignet med tekstinstruksjonen, og muliggjør at den kan brygge gapet for rimelig bildebehandling, og forbedre rammeverkets effektivitet ytterligere. Videre, under inferensperioden, avler MGIE-rammeverket konsise uttrykksfulle instruksjoner i stedet for å produsere lange narrasjoner og å avhenge av eksterne summeringer. På grunn av dette er MGIE-rammeverket i stand til å få tak i den visuelle forestillingen av redigeringsintensjonene, men er fortsatt begrenset til språklig modus. For å overvinne denne hindringen, legger MGIE-modellen til et bestemt antall visuelle tokene etter den uttrykksfulle instruksjonen med trenbare ord-embeddings, og muliggjør at MLLM-en kan generere dem ved hjelp av sin LM eller språkmodell-hode.

Bildebehandling med latent forestilling

I neste trinn, adopterer MGIE-rammeverket redigeringshode for å transformere bildeinstruksjonen til faktisk visuell veiledning. Redigeringshode er en sekvens-til-sekvens-modell som hjelper med å kartlegge sekvensielle visuelle tokene fra MLLM til meningsfulle latente semantisk som redigeringsveiledning. For å være mer spesifik, kan transformasjonen over ord-embeddings tolkes som en generell representasjon i visuell modus, og bruker en instans-til-visualisering-komponent for redigeringsintensjoner. Videre, for å veilede bildebehandling med visuell forestilling, innlemmer MGIE-rammeverket en latent diffusjonsmodell i sin arkitektur som inkluderer en variasjonsautoencoder og håndterer støyforstyrrelsen i latent rom. Det primære målet med den latente diffusjonsmodellen er å generere det latente målet fra å bevare det latente innputt og følge redigeringsveiledningen. Diffusjonsprosessen legger til støy til det latente målet over regulære tidsintervaller, og støynivået øker med hver tidssteg.

Læring av MGIE

Følgende figur summerer algoritmen for læringprosessen av det foreslåtte MGIE-rammeverket.

Som det kan observeres, lærer MLLM-en å avlede konsise uttrykksfulle instruksjoner ved hjelp av instruksjons-tap. Ved hjelp av den latente forestillingen fra innputt-bildet og instruksjonene, transformerer rammeverket modaliteten til redigeringshode, og veileder den latente diffusjonsmodellen til å syntetisere det resulterende bildet, og bruker redigerings-tap for diffusjonstrening. Til slutt, fryser rammeverket en majoritet av vekterne, og resulterer i parameter-effektiv end-to-end-trening.

MGIE: Resultater og evaluering

MGIE-rammeverket bruker IPr2Pr-datasettet som sin primære forhåndstrening-data, og det inneholder over 1 million CLIP-filtrerte data med instruksjoner ekstrahert fra GPT-3-modellen, og en Prompt-til-Prompt-modell for å syntetisere bildene. Videre, behandler MGIE-rammeverket InsPix2Pix-rammeverket bygget på CLIP-tekst-encoderen med en diffusjonsmodell som sin baseline for instruksjonsbasert bildebehandling. Videre, tar MGIE-modellen også i betraktning en LLM-veiledet bildebehandlingmodell adoptert for uttrykksfulle instruksjoner fra instruksjons-bare innputt, men uten visuell persepsjon.

Kvantitativ analyse

Følgende figur summerer redigeringsresultatene i en null-skudd-innstillingssetting, hvor modellene er trent bare på IPr2Pr-datasettet. For GIER- og EVR-data som involverer Photoshop-liknende modifikasjoner, kan de uttrykksfulle instruksjonene avsløre konkrete mål i stedet for tvetydige kommandoer, og muliggjør at redigeringsresultatene ligner redigeringsintensjonene bedre.

Selv om både LGIE og MGIE er trent på samme data som InsPix2Pix-modellen, kan de tilby detaljerte forklaringer ved hjelp av læring med den store språkmodellen, men LGIE er fortsatt begrenset til en enkelt modus. Videre, kan MGIE-rammeverket tilby en betydelig ytelsesforbedring, siden det har tilgang til bilder, og kan bruke disse bildene til å avlede eksplisitte instruksjoner.

For å evaluere ytelsen på instruksjonsbasert bildebehandling for bestemte formål, finjusterer utviklerne flere modeller på hver datasett, som summeres i følgende tabell.

Som det kan observeres, etter å ha tilpasset Photoshop-liknende redigeringoppgaver for EVR og GIER, demonstrerer modellene en forbedring av ytelsen. Imidlertid er det verdt å merke seg at, siden finjustering gjør uttrykksfulle instruksjoner mer domenespesifikke, vitner MGIE-rammeverket om en massiv forbedring av ytelsen, siden det også lærer domene-relatert veiledning, og muliggjør at diffusjonsmodellen kan demonstrere konkrete redigerte scener fra den finjusterte store språkmodellen, og nyter både lokal modifikasjon og lokal optimalisering. Videre, siden den visuelt informerte veiledningen er mer i samsvar med de ønskede redigeringsmålene, leverer MGIE-rammeverket konsekvent bedre resultater enn LGIE.

Følgende figur demonstrerer CLIP-S-scoren over innputt- eller grunn-sannhetsbilder og uttrykksfulle instruksjoner. En høyere CLIP-score indikerer relevansen av instruksjonene med redigeringskilden, og som det kan observeres, har MGIE en høyere CLIP-score sammenlignet med LGIE-modellen over både innputt- og utgangsbilder.

Kvalitative resultater

Følgende bilde summerer den kvalitative analysen av MGIE-rammeverket.

Som vi vet, er LGIE-rammeverket begrenset til en enkelt modus på grunn av at det har en enkelt språklig innsikt, og er utsatt for å avlede feil eller irrelevante forklaringer for å redigere bildet. Imidlertid er MGIE-rammeverket multimodalt, og med tilgang til bilder, fullfører det redigeringsoppgavene, og tilbyr eksplisitt visuell forestilling som ligner målet veldig godt.

Slutt tanker

I denne artikkelen har vi snakket om MGIE eller MLLM-veiledning for bildebehandling, en MLLM-inspirert studie som har som mål å evaluere multimodale store språkmodeller og analysere hvordan de muliggjør redigering ved hjelp av tekst eller veiledede instruksjoner, samtidig som den lærer å gi eksplisitte instruksjoner og å avlede uttrykksfulle instruksjoner. MGIE-redigeringsmodellen fanger visuell informasjon og utfører redigering eller manipulering ved hjelp av end-to-end-trening. I stedet for tvetydige og korte instruksjoner, produserer MGIE-rammeverket eksplisitte visuelt informerte instruksjoner som resulterer i rimelig bildebehandling.

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.