taló Guia de l'edició d'imatges basada en instruccions mitjançant models multimodals d'idiomes grans - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Guia de l'edició d'imatges basada en instruccions mitjançant models multimodals d'idiomes grans

mm

publicat

 on

EDICIÓ D'IMATGES BASADA EN INSTRUCCIONS GUIA MITJANÇANT MODELS MULTIMODALS DE GRAN IDIOMA

Les eines de disseny visual i els models de llenguatge de visió tenen aplicacions generalitzades a la indústria multimèdia. Malgrat els avenços significatius dels darrers anys, encara és necessari una sòlida comprensió d'aquestes eines per al seu funcionament. Per millorar l'accessibilitat i el control, la indústria multimèdia adopta cada cop més tècniques d'edició d'imatges guiades per text o basades en instruccions. Aquestes tècniques utilitzen ordres de llenguatge natural en lloc de màscares regionals tradicionals o descripcions elaborades, permetent una manipulació d'imatges més flexible i controlada. Tanmateix, els mètodes basats en instruccions sovint proporcionen indicacions breus que poden ser difícils de capturar i executar completament per als models existents. A més, els models de difusió, coneguts per la seva capacitat per crear imatges realistes, tenen una gran demanda en el sector de l'edició d'imatges.

D'altra banda, Models multimodals de grans llenguatges (MLLM) han mostrat un rendiment impressionant en tasques que impliquen la generació de respostes conscients visuals i la comprensió intermodal. MLLM Guided Image Editing (MGIE) és un estudi inspirat en MLLM que avalua les seves capacitats i analitza com admeten l'edició mitjançant text o instruccions guiades. Aquest enfocament implica aprendre a proporcionar una guia explícita i obtenir instruccions expressives. El model d'edició MGIE entén informació visual i executa edicions mitjançant una formació integral. En aquest article, aprofundirem en MGIE, avaluant el seu impacte en l'optimització global de la imatge, les modificacions a l'estil Photoshop i l'edició local. També parlarem de la importància de MGIE en tasques d'edició d'imatges basades en instruccions que es basen en instruccions expressives. Comencem la nostra exploració.

Edició d'imatges guiades MLLM o MGIE: una introducció

Els models de llenguatge gran multimodal i els models de difusió són dos dels marcs d'IA i ML més utilitzats actualment a causa de les seves notables capacitats generatives. D'una banda, teniu els models de difusió, més coneguts per produir imatges altament realistes i visualment atractives, mentre que, d'altra banda, teniu els models multimodals de grans llenguatges, reconeguts per la seva excepcional habilitat per generar una gran varietat de contingut, com ara text, llenguatge, discurs i imatges/vídeos. 

Els models de difusió intercanvien els mapes transmodals latents per realitzar una manipulació visual que reflecteixi l'alteració del subtítol de l'objectiu d'entrada i també poden utilitzar una màscara guiada per editar una regió específica de la imatge. Però la raó principal per la qual els models de difusió s'utilitzen àmpliament per a aplicacions multimèdia és perquè en lloc de basar-se en descripcions elaborades o màscares regionals, els models de difusió utilitzen enfocaments d'edició basats en instruccions que permeten als usuaris expressar com editar la imatge directament mitjançant instruccions de text o ordres. . Avançant, els grans models lingüístics no necessiten presentació, ja que han demostrat avenços significatius en una sèrie de tasques lingüístiques diverses, com ara el resum de text, la traducció automàtica, la generació de text i la resposta a les preguntes. Els LLM solen ser entrenats en una gran i diversa quantitat de dades de formació que els doten de creativitat i coneixement visual, cosa que els permet realitzar també diverses tasques de llenguatge visual. Basant-se en els LLM, els MLLM o els grans models multimodals de llenguatge pot utilitzar imatges com a inputs naturals i proporcionar respostes visualment conscients adequades. 

Dit això, tot i que els models de difusió i els marcs MLLM s'utilitzen àmpliament per a tasques d'edició d'imatges, hi ha alguns problemes d'orientació amb instruccions basades en text que dificulten el rendiment general, donant com a resultat el desenvolupament de MGIE o MLLM Guided Image Editing, un programa basat en IA. marc que consisteix en un model de difusió i un model MLLM tal com es mostra a la imatge següent. 

Dins de l'arquitectura MGIE, el model de difusió està entrenat d'extrem a extrem per realitzar edició d'imatges amb imaginació latent de l'objectiu previst, mentre que el marc MLLM aprèn a predir instruccions expressives precises. En conjunt, el model de difusió i el marc MLLM aprofita la derivació visual inherent que li permet abordar ordres humanes ambigus que donen lloc a una edició realista de les imatges, tal com es demostra a la imatge següent. 

El marc MGIE s'inspira fortament en dos enfocaments existents: Edició d'imatges basada en instruccions i Vision Large Language Models

L'edició d'imatges basada en instruccions pot millorar l'accessibilitat i el control de la manipulació visual de manera significativa si s'adhereixen a les ordres humanes. Hi ha dos marcs principals utilitzats per a l'edició d'imatges basada en instruccions: marcs GAN i models de difusió. GAN o Xarxes adversàries generatives són capaços d'alterar imatges, però es limiten a dominis específics o produeixen resultats poc realistes. D'altra banda, els models de difusió amb formació a gran escala poden controlar els mapes d'atenció multimodal dels mapes globals per aconseguir l'edició i transformació d'imatges. L'edició basada en instruccions funciona rebent ordres directes com a entrada, sovint no limitada a màscares regionals i descripcions elaborades. Tanmateix, hi ha la probabilitat que les instruccions proporcionades siguin ambigües o no prou precises per seguir les instruccions per editar tasques. 

Els models de llenguatge grans de Vision són coneguts per les seves capacitats de generació de text i de generalització en diverses tasques, i sovint tenen una comprensió textual sòlida i poden produir programes executables o pseudocodi. Aquesta capacitat dels grans models de llenguatge permet als MLLM percebre imatges i proporcionar respostes adequades mitjançant l'alineació de les característiques visuals amb l'ajustament d'instruccions, amb models recents que adopten MLLM per generar imatges relacionades amb el xat o el text d'entrada. Tanmateix, el que separa MGIE dels MLLM o VLLM és el fet que, si bé aquests últims poden produir imatges diferents de les entrades des de zero, MGIE aprofita les habilitats dels MLLM per millorar les capacitats d'edició d'imatges amb instruccions derivades. 

MGIE: Arquitectura i Metodologia

Tradicionalment, s'han utilitzat grans models de llenguatge per a tasques generatives de processament del llenguatge natural. Però des que els MLLM es van generalitzar, els LLM van tenir la capacitat de proporcionar respostes raonables percebent l'entrada d'imatges. Convencionalment, un model de llenguatge gran multimodal s'inicia a partir d'un LLM prèviament entrenat i conté un codificador visual i un adaptador per extreure les característiques visuals i projectar les característiques visuals en la modalitat de llenguatge respectivament. A causa d'això, el marc MLLM és capaç de percebre entrades visuals encara que la sortida encara es limita al text. 

El marc MGIE proposat pretén resoldre aquest problema i facilitar que un MLLM editi una imatge d'entrada en una imatge de sortida sobre la base de la instrucció textual donada. Per aconseguir-ho, el marc MGIE allotja un MLLM i s'entrena per obtenir instruccions de text expressives concises i explícites. A més, el marc MGIE afegeix fitxes d'imatge especials a la seva arquitectura per salvar la bretxa entre la visió i la modalitat del llenguatge, i adopta el cap d'edició per a la transformació de les modalitats. Aquestes modalitats serveixen com a imaginació visual latent del Model de Llenguatge Gran Multimodal i guien el model de difusió per aconseguir les tasques d'edició. Aleshores, el marc MGIE és capaç de realitzar tasques de percepció visual per a una edició raonable d'imatges. 

Instrucció expressiva concisa

Tradicionalment, els grans models multimodals de llenguatge poden oferir respostes relacionades amb la visualització amb la seva percepció multimodal a causa de l'ajust de les instruccions i l'alineació de les característiques. Per editar imatges, el marc MGIE utilitza una indicació textual com a entrada d'idioma principal amb la imatge i obté una explicació detallada de l'ordre d'edició. No obstant això, sovint aquestes explicacions poden ser massa llargues o implicar descripcions repetitives que donen lloc a intencions mal interpretades, cosa que obliga a MGIE a aplicar un resum entrenat prèviament per obtenir narracions concises, cosa que permet al MLLM generar resultats resumits. El marc tracta l'orientació concisa però explícita com una instrucció expressiva i aplica la pèrdua d'entropia creuada per entrenar el model de llenguatge gran multimodal mitjançant l'aplicació del professor.

L'ús d'una instrucció expressiva proporciona una idea més concreta en comparació amb la instrucció de text, ja que fa un pont per a una edició raonable d'imatges, millorant, a més, l'eficiència del marc. A més, el marc MGIE durant el període d'inferència deriva instruccions expressives concises en lloc de produir narracions llargues i basar-se en resums externs. Per això, el framework MGIE és capaç d'apoderar-se de la imaginació visual de les intencions d'edició, però encara es limita a la modalitat lingüística. Per superar aquest obstacle, el model MGIE afegeix un cert nombre de fitxes visuals després de la instrucció expressiva amb incrustacions de paraules entrenables que permeten al MLLM generar-les mitjançant el seu capçal LM o Model de llenguatge. 

Edició d'imatges amb imaginació latent

En el següent pas, el marc MGIE adopta el cap d'edició per transformar les instruccions d'imatge en una guia visual real. El cap d'edició és un model de seqüència a seqüència que ajuda a mapejar les fitxes visuals seqüencials del MLLM a la latent significativa semànticament com a guia d'edició. Per ser més específic, la transformació sobre les incrustacions de paraules es pot interpretar com una representació general en la modalitat visual i utilitza un component d'imaginació visual conscient de la instància per a les intencions d'edició. A més, per guiar l'edició d'imatges amb imaginació visual, el marc MGIE incorpora un model de difusió latent a la seva arquitectura que inclou un autocodificador variacional i aborda la difusió de soroll a l'espai latent. L'objectiu principal del model de difusió latent és generar l'objectiu latent a partir de la preservació de l'entrada latent i seguir les instruccions d'edició. El procés de difusió afegeix soroll a l'objectiu latent durant intervals de temps regulars i el nivell de soroll augmenta amb cada pas de temps. 

Aprenentatge de MGIE

La figura següent resumeix l'algorisme del procés d'aprenentatge del marc MGIE proposat. 

Com es pot observar, el MLLM aprèn a derivar instruccions expressives concises mitjançant la pèrdua d'instruccions. Utilitzant la imaginació latent de les instruccions de la imatge d'entrada, el marc transforma la modalitat del capçal d'edició i guia el model de difusió latent per sintetitzar la imatge resultant i aplica la pèrdua d'edició per a l'entrenament de difusió. Finalment, el marc congela la majoria de pesos, donant com a resultat un entrenament extrem a extrem eficient amb paràmetres. 

MGIE: Resultats i Avaluació

El marc MGIE utilitza el conjunt de dades IPr2Pr com a dades prèvies a la formació primària i conté més d'1 milió de dades filtrades amb CLIP amb instruccions extretes del model GPT-3 i un model Prompt-to-Prompt per sintetitzar les imatges. A més, el marc MGIE tracta el marc InsPix2Pix construït sobre el codificador de text CLIP amb un model de difusió com a línia de base per a les tasques d'edició d'imatges basades en instruccions. A més, el model MGIE també té en compte un model d'edició d'imatges guiat per LLM adoptat per a instruccions expressives d'entrades només d'instrucció, però sense percepció visual. 

Anàlisi quantitativa

La figura següent resumeix els resultats de l'edició en un paràmetre zero amb els models entrenats només al conjunt de dades IPr2Pr. Per a les dades GIER i EVR que impliquen modificacions a l'estil Photoshop, les instruccions expressives poden revelar objectius concrets en lloc d'ordres ambigües que permeten que els resultats de l'edició s'assemblen millor a les intencions d'edició. 

Tot i que tant el LGIE com el MGIE estan entrenats amb les mateixes dades que el model InsPix2Pix, poden oferir explicacions detallades mitjançant l'aprenentatge amb el model d'idioma gran, però tot i així el LGIE es limita a una única modalitat. A més, el marc MGIE pot proporcionar un augment significatiu del rendiment ja que té accés a imatges i pot utilitzar aquestes imatges per obtenir instruccions explícites. 

Per avaluar el rendiment de les tasques d'edició d'imatges basades en instruccions per a finalitats específiques, els desenvolupadors ajusten diversos models a cada conjunt de dades tal com es resumeix a la taula següent. 

Com es pot observar, després d'adaptar les tasques d'edició a l'estil Photoshop per a EVR i GIER, els models demostren un augment de rendiment. No obstant això, val la pena assenyalar que, com que l'ajustament fins fa que les instruccions expressives també siguin més específiques del domini, el marc MGIE és testimoni d'un augment massiu del rendiment, ja que també aprèn orientació relacionada amb el domini, permetent que el model de difusió mostri escenes editades concretes del model de llenguatge gran ajustat que beneficia tant la modificació local com l'optimització local. A més, com que l'orientació visual està més alineada amb els objectius d'edició previstos, el marc MGIE ofereix resultats superiors de manera coherent en comparació amb LGIE. 

La figura següent mostra la puntuació CLIP-S a través de les imatges d'entrada o de la veritat del terreny i la instrucció expressiva. Una puntuació CLIP més alta indica la rellevància de les instruccions amb la font d'edició i, com es pot observar, el MGIE té una puntuació CLIP més alta en comparació amb el model LGIE tant a les imatges d'entrada com a les de sortida. 

Resultats qualitatius

La imatge següent resumeix perfectament l'anàlisi qualitativa del marc MGIE. 

Com sabem, el marc LGIE es limita a una sola modalitat perquè té una visió única basada en el llenguatge, i és propens a obtenir explicacions errònies o irrellevants per editar la imatge. Tanmateix, el marc MGIE és multimodal i, amb accés a les imatges, completa les tasques d'edició i proporciona una imaginació visual explícita que s'alinea molt bé amb l'objectiu. 

Consideracions finals

En aquest article, hem parlat de MGIE o MLLM Guided Image Editing, un estudi inspirat en MLLM que té com a objectiu avaluar els grans models multimodals de llenguatge i analitzar com faciliten l'edició mitjançant text o instruccions guiades alhora que aprenem a proporcionar una guia explícita derivant instruccions expressives. simultàniament. El model d'edició MGIE captura la informació visual i realitza l'edició o la manipulació mitjançant la formació d'extrem a extrem. En lloc d'una guia ambigua i breu, el marc MGIE produeix instruccions visuals explícites que donen lloc a una edició d'imatges raonable. 

"Enginyer de professió, escriptor de memòria". Kunal és un escriptor tècnic amb un profund amor i comprensió de la IA i el ML, dedicat a simplificar conceptes complexos en aquests camps mitjançant la seva documentació atractiva i informativa.