Intelligenza artificiale

Guida all’editing di immagini basato su istruzioni tramite modelli linguistici multimodali di grandi dimensioni

Published February 23, 2024

Updated April 4, 2026

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Gli strumenti di design visivo e i modelli di linguaggio visivo hanno applicazioni diffuse nell’industria multimediale. Nonostante i significativi progressi degli ultimi anni, una solida comprensione di questi strumenti è ancora necessaria per il loro funzionamento. Per migliorare l’accessibilità e il controllo, l’industria multimediale sta adottando sempre più tecniche di editing di immagini guidate da testo o basate su istruzioni. Queste tecniche utilizzano comandi linguistici naturali invece di maschere regionali tradizionali o descrizioni elaborate, consentendo una manipolazione delle immagini più flessibile e controllata. Tuttavia, i metodi basati su istruzioni spesso forniscono direzioni brevi che possono essere difficili da catturare e eseguire per i modelli esistenti. Inoltre, i modelli di diffusione, noti per la loro capacità di creare immagini realistiche, sono in alta domanda nel settore dell’editing di immagini.

Inoltre, Multimodal Large Language Models (MLLMs) hanno mostrato prestazioni impressionanti in compiti che coinvolgono la generazione di risposte visive e la comprensione cross-modale. MLLM Guided Image Editing (MGIE) è uno studio ispirato a MLLMs che valuta le loro capacità e analizza come supportano l’editing tramite testo o istruzioni guidate. Questo approccio coinvolge l’apprendimento per fornire indicazioni esplicite e derivare istruzioni espresse. Il modello di editing MGIE comprende le informazioni visive ed esegue le modifiche tramite un addestramento end-to-end. In questo articolo, esploreremo in profondità MGIE, valutandone l’impatto sull’ottimizzazione globale delle immagini, le modifiche in stile Photoshop e l’editing locale. Discuteremo anche l’importanza di MGIE nei compiti di editing di immagini basati su istruzioni che si affidano a istruzioni espresse. Iniziamo la nostra esplorazione.

MGIE: un’introduzione

I Multimodal Large Language Models e i modelli di diffusione sono due dei framework di intelligenza artificiale e apprendimento automatico più utilizzati attualmente, grazie alle loro notevoli capacità generative. Da un lato, ci sono i modelli di diffusione, noti per la produzione di immagini estremamente realistiche e visivamente attraenti, mentre dall’altro lato ci sono i Multimodal Large Language Models, rinomati per la loro eccezionale capacità di generare una vasta gamma di contenuti, compresi testi, linguaggi, discorsi e immagini/video.

I modelli di diffusione scambiano le mappe cross-modalità latenti per eseguire la manipolazione visiva che riflette la modifica della didascalia di input, e possono anche utilizzare una maschera guidata per modificare una regione specifica dell’immagine. Tuttavia, il motivo principale per cui i modelli di diffusione sono ampiamente utilizzati per le applicazioni multimediali è che, invece di affidarsi a descrizioni elaborate o maschere regionali, i modelli di diffusione utilizzano approcci di editing basati su istruzioni che consentono agli utenti di esprimere come modificare l’immagine direttamente utilizzando istruzioni o comandi testuali. Proseguendo, i Large Language Models non necessitano di presentazioni, poiché hanno dimostrato notevoli progressi in una vasta gamma di compiti linguistici diversi, tra cui la sintesi di testi, la traduzione automatica, la generazione di testi e la risposta alle domande. I LLMs sono solitamente addestrati su grandi quantità di dati di addestramento diversi, il che li rende dotati di creatività visiva e conoscenza, consentendo loro di eseguire diversi compiti di linguaggio visivo. Basandosi sui LLMs, i MLLMs o Multimodal Large Language Models possono utilizzare immagini come input naturali e fornire risposte visivamente consapevoli.

Detto ciò, sebbene i modelli di diffusione e i framework MLLM siano ampiamente utilizzati per i compiti di editing di immagini, esistono alcuni problemi di guida con le istruzioni testuali che ostacolano le prestazioni generali, portando allo sviluppo di MGIE o MLLM Guided Image Editing, un framework di intelligenza artificiale costituito da un modello di diffusione e da un modello MLLM, come illustrato nell’immagine seguente.

All’interno dell’architettura MGIE, il modello di diffusione è addestrato end-to-end per eseguire l’editing di immagini con l’immaginazione latente dell’obiettivo desiderato, mentre il framework MLLM apprende a prevedere istruzioni espresse precise. Insieme, il modello di diffusione e il framework MLLM sfruttano la derivazione visiva intrinseca, consentendo loro di affrontare comandi umani ambigui e di eseguire un editing realistico delle immagini, come illustrato nell’immagine seguente.

Il framework MGIE trae ispirazione da due approcci esistenti: l’editing di immagini basato su istruzioni e i Vision Large Language Models.

L’editing di immagini basato su istruzioni può migliorare significativamente l’accessibilità e la controllabilità della manipolazione visiva, aderendo ai comandi umani. Ci sono due principali framework utilizzati per l’editing di immagini basato su istruzioni: i framework GAN e i modelli di diffusione. I GAN o le reti generative avversarie possono alterare le immagini, ma sono limitate a domini specifici o producono risultati irrealistici. D’altra parte, i modelli di diffusione con addestramento su larga scala possono controllare le mappe di attenzione cross-modalità per mappe globali per raggiungere l’editing e la trasformazione delle immagini. L’editing basato su istruzioni funziona ricevendo comandi diretti come input, spesso non limitati a maschere regionali e descrizioni elaborate. Tuttavia, c’è la possibilità che le istruzioni fornite siano ambigue o non sufficientemente precise per seguire le istruzioni per i compiti di editing.

I Vision Large Language Models sono rinomati per le loro capacità generative di testo e di generalizzazione in una vasta gamma di compiti e spesso hanno una solida comprensione testuale, e possono ulteriormente produrre programmi eseguibili o pseudocodice. Questa capacità dei modelli linguistici di grandi dimensioni consente ai MLLMs di percepire le immagini e fornire risposte adeguate utilizzando l’allineamento delle caratteristiche visive con l’ottimizzazione delle istruzioni, con modelli recenti che adottano MLLMs per generare immagini correlate al testo di input o alla chat. Tuttavia, ciò che distingue MGIE dai MLLMs o dai VLLMs è il fatto che, mentre questi ultimi possono produrre immagini diverse dagli input da zero, MGIE sfrutta le capacità dei MLLMs per migliorare le capacità di editing di immagini con istruzioni derivate.

MGIE: architettura e metodologia

Tradizionalmente, i Large Language Models sono stati utilizzati per i compiti generativi di elaborazione del linguaggio naturale. Tuttavia, da quando i MLLMs sono diventati mainstream, i LLMs sono stati dotati della capacità di fornire risposte ragionevoli percependo le immagini in input. Convenzionalmente, un Multimodal Large Language Model viene inizializzato da un LLM pre-addestrato e contiene un encoder visivo e un adattatore per estrarre le caratteristiche visive e proiettarle nel linguaggio, rispettivamente. A causa di ciò, il framework MLLM è in grado di percepire gli input visivi, sebbene l’output sia ancora limitato al testo.

Il framework MGIE proposto mira a risolvere questo problema e a consentire a un MLLM di modificare un’immagine di input in un’immagine di output in base alle istruzioni testuali fornite. Per raggiungere ciò, il framework MGIE ospita un MLLM e lo addestra per derivare istruzioni testuali espresse concise ed esplicite. Inoltre, il framework MGIE aggiunge token di immagine speciali nella sua architettura per colmare il divario tra modalità visiva e linguistica e adotta la testa di editing per la trasformazione delle modalità. Queste modalità servono come immaginazione visiva latente dal Multimodal Large Language Model e guidano il modello di diffusione per raggiungere i compiti di editing. Il framework MGIE è quindi in grado di eseguire compiti di percezione visiva per un editing di immagini ragionevole.

Istruzione espressa concisa

Tradizionalmente, i Multimodal Large Language Models possono offrire risposte correlate alle immagini con la loro percezione cross-modale a causa dell’ottimizzazione delle istruzioni e dell’allineamento delle caratteristiche. Per modificare le immagini, il framework MGIE utilizza un prompt testuale come input linguistico principale con l’immagine e deriva una spiegazione dettagliata per il comando di editing. Tuttavia, queste spiegazioni potrebbero essere spesso troppo lunghe o coinvolgere descrizioni ripetute, risultando in intenzioni mal interpretate, costringendo MGIE ad applicare un riassuntore pre-addestrato per ottenere narrazioni concise, consentendo al MLLM di generare output riassunti. Il framework tratta la guida concisa ed esplicita come un’istruzione espressa e applica la perdita di entropia incrociata per addestrare il Multimodal Large Language Model utilizzando l’addestramento con insegnante.

Utilizzare un’istruzione espressa fornisce un’idea più concreta rispetto all’istruzione testuale, poiché colma il divario per un editing di immagini ragionevole, migliorando ulteriormente l’efficienza del framework. Inoltre, il framework MGIE durante il periodo di inferenza deriva istruzioni concise ed espresse invece di produrre narrazioni lunghe e di affidarsi alla riassunzione esterna. A causa di ciò, il framework MGIE è in grado di afferrare l’immaginazione visiva delle intenzioni di editing, ma è ancora limitato alla modalità linguistica. Per superare questo ostacolo, il modello MGIE aggiunge un certo numero di token visivi dopo l’istruzione espressa con embedding di parole addestrabili, consentendo al MLLM di generarli utilizzando la sua testa di modello linguistico.

Editing di immagini con immaginazione latente

Nel passaggio successivo, il framework MGIE adotta la testa di editing per trasformare l’istruzione di immagine in guida visiva effettiva. La testa di editing è un modello sequenza-sequenza che aiuta a mappare i token visivi sequenziali dal MLLM ai significati latenti semantici come guida di editing. Per essere più specifici, la trasformazione sugli embedding di parole può essere interpretata come rappresentazione generale nella modalità visiva e utilizza un componente di immaginazione visiva consapevole delle istanze per le intenzioni di editing. Inoltre, per guidare l’editing di immagini con immaginazione visiva, il framework MGIE incorpora un modello di diffusione latente nella sua architettura, che include un autoencoder variazionale e affronta la diffusione di denoising nello spazio latente. L’obiettivo principale del modello di diffusione latente è generare l’obiettivo latente preservando l’input latente e seguire la guida di editing. Il processo di diffusione aggiunge rumore all’obiettivo latente a intervalli di tempo regolari e il livello di rumore aumenta con ogni passo temporale.

Apprendimento di MGIE

La figura seguente riassume l’algoritmo del processo di apprendimento del framework MGIE proposto.

Come si può osservare, il MLLM apprende a derivare istruzioni espresse concise utilizzando la perdita di istruzione. Utilizzando l’immaginazione latente dalle istruzioni di immagine di input, il framework trasforma la modalità della testa di editing e guida il modello di diffusione latente per sintetizzare l’immagine di output, e applica la perdita di editing per l’addestramento della diffusione. Infine, il framework blocca la maggior parte dei pesi, risultando in un addestramento end-to-end efficiente in termini di parametri.

MGIE: risultati e valutazione

Il framework MGIE utilizza il dataset IPr2Pr come suo principale dataset di pre-addestramento, che contiene oltre 1 milione di dati filtrati da CLIP con istruzioni estratte dal modello GPT-3 e un modello Prompt-to-Prompt per sintetizzare le immagini. Inoltre, il framework MGIE considera il framework InsPix2Pix costruito sul codificatore di testo CLIP con un modello di diffusione come suo baseline per i compiti di editing di immagini basati su istruzioni. Inoltre, il modello MGIE prende anche in considerazione un modello di editing di immagini guidato da LLM adottato per istruzioni espresse da input di sole istruzioni senza percezione visiva.

Analisi quantitativa

La figura seguente riassume i risultati di editing in un ambiente zero-shot, con i modelli addestrati solo sul dataset IPr2Pr. Per i dati GIER e EVR che coinvolgono modifiche in stile Photoshop, le istruzioni espresse possono rivelare obiettivi concreti invece di comandi ambigui, consentendo ai risultati di editing di assomigliare alle intenzioni di editing meglio.

Sebbene sia il modello LGIE che il modello MGIE siano addestrati sui same dati del modello InsPix2Pix, possono offrire spiegazioni dettagliate tramite l’apprendimento con il modello linguistico di grandi dimensioni, ma il modello LGIE è comunque limitato a una singola modalità. Inoltre, il framework MGIE può offrire un notevole aumento delle prestazioni poiché ha accesso alle immagini e può utilizzarle per derivare istruzioni esplicite.

Per valutare le prestazioni sui compiti di editing di immagini basati su istruzioni per scopi specifici, gli sviluppatori addestrano diversi modelli su ogni dataset, come riassunto nella tabella seguente.

Come si può osservare, dopo aver adattato i compiti di editing in stile Photoshop per EVR e GIER, i modelli dimostrano un aumento delle prestazioni. Tuttavia, è importante notare che, poiché l’addestramento fine-tuning rende le istruzioni espresse più specifiche del dominio, il framework MGIE assiste a un notevole aumento delle prestazioni, poiché apprende anche la guida correlata al dominio, consentendo al modello di diffusione di dimostrare scene modificate concrete dal modello linguistico di grandi dimensioni addestrato, beneficiando sia della modifica locale che dell’ottimizzazione locale. Inoltre, poiché la guida visivamente consapevole è più allineata con gli obiettivi di editing desiderati, il framework MGIE fornisce risultati superiori in modo coerente rispetto al modello LGIE.

La figura seguente dimostra il punteggio CLIP-S attraverso le immagini di input o di output e le istruzioni espresse. Un punteggio CLIP più alto indica la rilevanza delle istruzioni con la sorgente di editing, e come si può osservare, il modello MGIE ha un punteggio CLIP più alto rispetto al modello LGIE su entrambe le immagini di input e di output.

Risultati qualitativi

L’immagine seguente riassume perfettamente l’analisi qualitativa del framework MGIE.

Come sappiamo, il framework LGIE è limitato a una singola modalità a causa del fatto che ha una sola intuizione linguistica e tende a derivare spiegazioni errate o non pertinenti per l’editing dell’immagine. Tuttavia, il framework MGIE è multimodale e, con l’accesso alle immagini, completa i compiti di editing e fornisce un’immaginazione visiva esplicita che si allinea bene con l’obiettivo.

Pensieri finali

In questo articolo, abbiamo discusso di MGIE o MLLM Guided Image Editing, uno studio ispirato ai MLLMs che mira a valutare i Multimodal Large Language Models e ad analizzare come facilitino l’editing tramite testo o istruzioni guidate, imparando a fornire indicazioni esplicite e derivare istruzioni espresse contemporaneamente. Il modello di editing MGIE cattura le informazioni visive ed esegue l’editing utilizzando un addestramento end-to-end. Invece di indicazioni ambigue e brevi, il framework MGIE produce istruzioni visivamente consapevoli esplicite che risultano in un editing di immagini ragionevole.

Kunal Kejriwal

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.