Connect with us

Kunstig intelligens

Vejledning af billedredigering via multimodale store sprogmodeller

mm
GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Visuelle designværktøjer og visionsprogmodeller har bred anvendelse i multimedieindustrien. Trods betydelige fremskridt i de seneste år, er en solid forståelse af disse værktøjer stadig nødvendig for deres drift. For at forbedre tilgængelighed og kontrol, adopterer multimedieindustrien i stigende grad tekstvejledede eller instruktionsbaserede billedredigeringsmetoder. Disse metoder anvender naturlige sprogkommandoer i stedet for traditionelle regionale masker eller udførlige beskrivelser, hvilket muliggør mere fleksible og kontrollerede billedmanipulationer. Imidlertid giver instruktionsbaserede metoder ofte korte vejledninger, der kan være vanskelige for eksisterende modeller at fuldt ud fange og udføre. Derudover er diffusionsmodeller, der er kendt for deres evne til at skabe realistiske billeder, i høj efterspørgsel inden for billedredigeringssektoren.

Desuden har Multimodale Store Sprogmodeller (MLLMs) vist imponerende præstationer i opgaver, der involverer visuelt bevidst responsgeneration og cross-modalt forståelse. MLLM-vejledt billedredigering (MGIE) er en studie inspireret af MLLMs, der vurderer deres evner og analyserer, hvordan de faciliterer redigering ved hjælp af tekst eller vejledning og lærer at give eksplicit vejledning ved at aflede udtryksfulde instruktioner. Denne tilgang indebærer at lære at give eksplicit vejledning og aflede udtryksfulde instruktioner. MGIE-redigeringsmodellen forstår visuel information og udfører redigering gennem end-to-end-træning. I denne artikel vil vi dykke dybt ind i MGIE, vurderer dets indvirkning på global billedoptimering, Photoshop-lignende ændringer og lokal redigering. Vi vil også diskutere betydningen af MGIE i instruktionsbaserede billedredigeringsopgaver, der afhænger af udtryksfulde instruktioner. Lad os begynde vores udforskning.

MLLM-vejledt billedredigering eller MGIE: En introduktion

Multimodale store sprogmodeller og diffusionsmodeller er to af de mest anvendte AI- og ML-rammer i øjeblikket på grund af deres bemærkelsesværdige generative evner. På den ene side har du diffusionsmodeller, der er bedst kendt for at producere højrealistiske og visuelt tiltalende billeder, mens du på den anden side har multimodale store sprogmodeller, der er berømte for deres exceptionelle evner i generering af en bred vifte af indhold, herunder tekst, sprog, tale og billeder/ videoer.

Diffusionsmodeller udveksler de latente cross-modale kort for at udføre visuel manipulation, der afspejler ændringen af inputformålet, og de kan også bruge en vejledt maske til at redigere et bestemt område af billedet. Men den primære grund til, at diffusionsmodeller er vidt anvendt i multimedieapplikationer, er, at de i stedet for at afhænge af udførlige beskrivelser eller regionale masker bruger instruktionsbaseret redigeringsteknikker, der tillader brugere at udtrykke, hvordan de skal redigere billedet direkte ved hjælp af tekstkommandoer eller -instruktioner. Fremover har store sprogmodeller ikke brug for nogen introduktion, da de har vist betydelige fremskridt på tværs af en række forskellige sprogopgaver, herunder tekstsummering, maskinoversættelse, tekstgenerering og besvarelse af spørgsmål. LLM’er trænes som regel på en stor og divers mængde træningsdata, der udstyrer dem med visuel kreativitet og viden, hvilket tillader dem at udføre flere visionsprogopgaver.

Med det sagt findes der dog nogle vejledningsproblemer med tekstbaserede instruktioner, der hæmmer den samlede præstation, hvilket resulterer i udviklingen af MGIE eller MLLM-vejledt billedredigering, et AI-drevet rammeværk, der består af en diffusionsmodel og en MLLM-model, som vist i følgende billede.

Inden for MGIE-arkitekturen trænes diffusionsmodellen fra ende til anden for at udføre billedredigering med latent forestilling af det ønskede formål, mens MLLM-rammeværket lærer at forudsige præcise udtryksfulde instruktioner. Sammen tager diffusionsmodellen og MLLM-rammeværket udnyttelse af den indre visuelle afledning, der tillader det at tackle tvetydige menneskelige kommandoer, hvilket resulterer i realistisk redigering af billeder, som vist i følgende billede.

MGIE-rammeværket henter stor inspiration fra to eksisterende tilgange: Instruktionsbaseret billedredigering og Vision Large Language Models.

Instruktionsbaseret billedredigering kan forbedre tilgængeligheden og kontrollen over visuel manipulation betydeligt ved at overholde menneskelige kommandoer. Der findes to primære rammeværk, der anvendes til instruktionsbaseret billedredigering: GAN-rammeværk og diffusionsmodeller. GAN eller Generative Adversarial Networks kan ændre billeder, men er enten begrænset til bestemte domæner eller producerer urealistiske resultater. På den anden side kan diffusionsmodeller med stor skala træning kontrollere de cross-modale opmærksomheds-kort for globale kort for at opnå billedredigering og transformation. Instruktionsbaseret redigering fungerer ved at modtage direkte kommandoer som input, ofte ikke begrænset til regionale masker og udførlige beskrivelser. Imidlertid findes der en sandsynlighed for, at de givne instruktioner er enten tvetydige eller ikke præcise nok til at følge instruktioner for redigeringopgaver.

Vision Large Language Models er berømte for deres tekstgenererings- og generaliseringskapaciteter på tværs af forskellige opgaver og har ofte en robust tekstforståelse og kan yderligere producere eksekverbare programmer eller pseudokode. Denne kapacitet hos store sprogmodeller tillader MLLM’er at opfatte billeder og give passende visuelt bevidste svar ved hjælp af visuel funktionsalignering med instruktionsjustering, og nyere modeller adopterer MLLM’er til at generere billeder relateret til chat eller inputteksten. Imidlertid adskiller MGIE sig fra MLLM’er eller VLLM’er ved, at sidstnævnte kan producere billeder, der er forskellige fra input fra scratch, mens MGIE udnytter MLLM’er til at forbedre billedredigeringskapaciteter med afledte instruktioner.

MGIE: Arkitektur og metode

Traditionelt set er store sprogmodeller blevet brugt til naturlig sprogbehandling genereringsopgaver. Men efter at MLLM’er blev mainstream, blev LLM’er udstyret med evnen til at give rimelige svar ved at opfatte billedinput. Konventionelt initialiseres en Multimodal Large Language Model fra en fortrænet LLM, og den indeholder en visuel encoder og en adapter til at trække visuelle funktioner ud og projicere visuelle funktioner ind i sprogmodus henholdsvis. På grund af dette er MLLM-rammeværket i stand til at opfatte visuelle input, selvom outputtet stadig er begrænset til tekst.

Det foreslåede MGIE-rammeværk har til formål at løse dette problem og faciliterer en MLLM til at redigere et inputbillede til et outputbillede på basis af den givne tekstuelle instruktion. For at opnå dette indeholder MGIE-rammeværket en MLLM og trænes til at aflede koncise og udtryksfulde tekstinstruktioner. Derudover tilføjer MGIE-rammeværket særlige billedtoken i sin arkitektur for at brokke gapet mellem vision og sprogmodus og adopterer edit-hovedet til transformation af modaliteterne. Disse modaliteter fungerer som den latente visuelle forestilling fra den Multimodale Store Sprogmodel, og vejleder diffusionsmodellen til at opnå redigeringopgaverne. MGIE-rammeværket er herefter i stand til at udføre visuelle perceptionopgaver for rimelig billedredigering.

Koncis udtryksfuld instruktion

Traditionelt set kan Multimodale Store Sprogmodeller tilbyde visuelt relaterede svar med deres cross-modale perception på grund af instruktionsjustering og funktionsalignering. For at redigere billeder bruger MGIE-rammeværket en tekstprompt som primær sproginput med billedet og afleder en detaljeret forklaring for redigeringskommandoen. Imidlertid kan disse forklaringer ofte være for lange eller indeholde gentagne beskrivelser, hvilket resulterer i misforståede intentioner, og tvinger MGIE til at anvende en fortrænet sammenfatter til at opnå korte fortællinger, hvilket tillader MLLM’en at generere sammenfattede output. Rammeværket behandler den koncise, men udtryksfulde vejledning som en udtryksfuld instruktion og anvender cross-entropi-tab til at træne den Multimodale Store Sprogmodel ved hjælp af lærer-gennemføring.

At anvende en udtryksfuld instruktion giver en mere konkrete idé i forhold til tekstinstruktionen, da det brokker gapet for rimelig billedredigering og forbedrer rammeværkets effektivitet yderligere. Derudover afleder MGIE-rammeværket under inferensperioden koncise udtryksfulde instruktioner i stedet for at producere lange fortællinger og afhænge af ekstern sammenfattelse. På grund af dette er MGIE-rammeværket i stand til at opnå den visuelle forestilling af redigeringsintentionerne, men er stadig begrænset til sprogmodus. For at overvinde dette hurdle tilføjer MGIE-modellen et bestemt antal visuelle token efter den udtryksfulde instruktion med trænbar ord-embedding, hvilket tillader MLLM’en at generere dem ved hjælp af sin LM eller Sprogmodel-hoved.

Billedredigering med latent forestilling

I næste skridt anvender MGIE-rammeværket edit-hovedet til at transformere billedinstruktionen til reel visuel vejledning. Edit-hovedet er en sekvens-til-sekvens-model, der hjælper med at kortlægge de sekventielle visuelle token fra MLLM til meningsfulde latente semantisk som dens redigeringsvejledning. For at være mere specifik kan transformationen over ord-embeddingerne fortolkes som en generel repræsentation i den visuelle modus og anvender en instance-bevidst visuel forestillingskomponent for redigeringsintentionerne. Derudover for at vejlede billedredigering med visuel forestilling indlejrer MGIE-rammeværket en latent diffusionsmodel i sin arkitektur, der inkluderer en variational autoencoder og adresserer den støjende diffussion i den latente rum. Det primære formål med den latente diffusionsmodel er at generere den latente mål fra at bevare den latente input og følge redigeringsvejledningen.

Læring af MGIE

Følgende figur summerer algoritmen for læringprocessen af det foreslåede MGIE-rammeværk.

Som det kan observeres, lærer MLLM’en at aflede koncise udtryksfulde instruktioner ved hjælp af instruktions-tab. Ved hjælp af den latente forestilling fra billedinstruktionerne transformerer rammeværket modaliteten af edit-hovedet og vejleder den latente diffusionsmodel til at syntetisere det resulterende billede og anvender redigerings-tab for diffusions-træning. Endelig fryser rammeværket en majoritet af vægtene, hvilket resulterer i parameter-effektiv end-to-end-træning.

MGIE: Resultater og evaluering

MGIE-rammeværket anvender IPr2Pr-datasættet som sin primære fortræningsdata og indeholder over 1 million CLIP-filtrerede data med instruktioner udtrukket fra GPT-3-modellen og en Prompt-to-Prompt-model til at syntetisere billederne. Derudover behandler MGIE-rammeværket InsPix2Pix-rammeværket bygget på CLIP-tekst-encoderen med en diffusionsmodel som sin baseline for instruktionsbaseret billedredigering. Derudover tager MGIE-modellen også hensyn til en LLM-vejledt billedredigering-model, der er adopteret til udtryksfulde instruktioner fra instruktionskun-input uden visuel perception.

Kvantitativ analyse

Følgende figur summerer redigeringsresultaterne i en zero-shot-indstilling, hvor modellerne er trænet kun på IPr2Pr-datasættet. For GIER- og EVR-data, der involverer Photoshop-lignende ændringer, kan de udtryksfulde instruktioner afsløre konkrete mål i stedet for tvetydige kommandoer, hvilket tillader redigeringsresultaterne at ligne redigeringsintentionerne bedre.

Selvom både LGIE og MGIE er trænet på samme data som InsPix2Pix-modellen, kan de tilbyde detaljerede forklaringer ved at lære med den store sprogmodel, men LGIE er stadig begrænset til en enkelt modus. Derudover kan MGIE-rammeværket give en betydelig præstationsforbedring, da det har adgang til billeder og kan bruge dem til at aflede eksplicitte instruktioner.

For at evaluere præstationen på instruktionsbaseret billedredigering for bestemte formål, finjusterer udviklerne flere modeller på hver datasæt, som summeret i følgende tabel.

Som det kan observeres, efter at have tilpasset Photoshop-lignende redigeringopgaver for EVR og GIER, demonstrerer modellerne en forbedring af præstationen. Imidlertid er det værd at bemærke, at finjustering gør udtryksfulde instruktioner mere domænespecifikke, og MGIE-rammeværket oplever en massiv forbedring af præstationen, da det også lærer domæne-relateret vejledning, hvilket tillader diffusionsmodellen at demonstrere konkrete redigerede scener fra den finjusterede store sprogmodel, hvilket gavner både lokal modificering og lokal optimering. Derudover, da den visuelt bevidste vejledning er mere aligneret med de ønskede redigeringsmål, leverer MGIE-rammeværket konsekvent bedre resultater i forhold til LGIE.

Følgende figur demonstrerer CLIP-S-scoren på tværs af input- eller grundsandssmål-billeder og udtryksfulde instruktioner. En højere CLIP-score indikerer relevansen af instruktionerne med redigeringskilden, og som det kan observeres, har MGIE en højere CLIP-score i forhold til LGIE-modellen på tværs af både input- og output-billeder.

Kvalitative resultater

Følgende billede summerer den kvalitative analyse af MGIE-rammeværket.

Som vi ved, er LGIE-rammeværket begrænset til en enkelt modus på grund af, at det har en enkelt sprog-baseret indsigt, og er tilbøjelig til at aflede forkerte eller irrelevante forklaringer for at redigere billedet. Imidlertid er MGIE-rammeværket multimodalt, og med adgang til billeder, udfører det redigeringopgaverne og giver eksplicit visuel forestilling, der alignerer med målet rigtigt godt.

Endelige tanker

I denne artikel har vi talt om MGIE eller MLLM-vejledt billedredigering, en MLLM-inspireret studie, der har til formål at evaluere Multimodale Store Sprogmodeller og analysere, hvordan de faciliterer redigering ved hjælp af tekst eller vejledning og lærer at give eksplicit vejledning ved at aflede udtryksfulde instruktioner samtidigt. MGIE-redigeringsmodellen fanger visuel information og udfører redigering eller manipulation ved hjælp af end-to-end-træning. I stedet for tvetydige og korte vejledninger producerer MGIE-rammeværket eksplicit visuelt bevidste instruktioner, der resulterer i rimelig billedredigering.

En ingeniør af profession, en forfatter af hjerte. Kunal er en teknisk forfatter med en dyb kærlighed og forståelse af AI og ML, dedikeret til at forenkle komplekse koncepter inden for disse felter gennem sin engagerende og informative dokumentation.