Intelligenza artificiale

Guida all’editing di immagini basato su istruzioni tramite Modelli Linguistici Multimodali di grandi dimensioni

mm
GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Gli strumenti di design visivo e i modelli linguistici di visione hanno applicazioni diffuse nell’industria multimediale. Nonostante i notevoli progressi degli ultimi anni, una solida comprensione di questi strumenti è ancora necessaria per il loro funzionamento. Per migliorare l’accessibilità e il controllo, l’industria multimediale sta adottando sempre più tecniche di editing di immagini basate su testo o istruzioni. Queste tecniche utilizzano comandi linguistici naturali invece di maschere regionali tradizionali o descrizioni elaborate, consentendo una manipolazione delle immagini più flessibile e controllata. Tuttavia, i metodi basati su istruzioni spesso forniscono direzioni brevi che possono essere difficili da catturare e eseguire completamente per i modelli esistenti. Inoltre, i modelli di diffusione, noti per la loro capacità di creare immagini realistiche, sono molto richiesti nel settore dell’editing di immagini.

Inoltre, i Modelli Linguistici Multimodali di grandi dimensioni (MLLM) hanno mostrato prestazioni impressionanti in compiti che coinvolgono la generazione di risposte visive e la comprensione cross-modale. L’editing di immagini guidato da MLLM (MGIE) è uno studio ispirato a MLLM che valuta le loro capacità e analizza come supportano l’editing tramite testo o istruzioni guidate. Questo approccio coinvolge l’apprendimento per fornire istruzioni esplicite e derivare istruzioni espressive. Il modello di editing MGIE comprende le informazioni visive ed esegue le modifiche attraverso un addestramento end-to-end. In questo articolo, esploreremo in profondità MGIE, valutandone l’impatto sull’ottimizzazione globale delle immagini, le modifiche nello stile di Photoshop e l’editing locale. Discuteremo anche l’importanza di MGIE nei compiti di editing di immagini basati su istruzioni che si affidano a istruzioni espressive. Iniziamo la nostra esplorazione.

MGIE: Introduzione all’editing di immagini guidato da Modelli Linguistici Multimodali di grandi dimensioni

I Modelli Linguistici Multimodali di grandi dimensioni e i modelli di diffusione sono due dei framework di intelligenza artificiale e apprendimento automatico più utilizzati attualmente, grazie alle loro notevoli capacità generative. Da un lato, ci sono i modelli di diffusione, noti per la produzione di immagini altamente realistiche e visivamente attraenti, mentre dall’altro lato ci sono i Modelli Linguistici Multimodali di grandi dimensioni, rinomati per la loro eccezionale abilità nella generazione di una vasta gamma di contenuti, inclusi testo, linguaggio, parlato e immagini/video.

I modelli di diffusione scambiano le mappe cross-modalità latenti per eseguire la manipolazione visiva che riflette la modifica della didascalia di input, e possono anche utilizzare una maschera guidata per modificare una regione specifica dell’immagine. Tuttavia, il motivo principale per cui i modelli di diffusione sono ampiamente utilizzati per le applicazioni multimediali è che, invece di affidarsi a descrizioni elaborate o maschere regionali, i modelli di diffusione impiegano approcci di editing basati su istruzioni che consentono agli utenti di esprimere come modificare l’immagine direttamente utilizzando istruzioni o comandi testuali. Proseguendo, i Modelli Linguistici di grandi dimensioni non necessitano di introduzione, poiché hanno dimostrato notevoli progressi in una varietà di compiti linguistici diversi, inclusa la sintesi di testo, la traduzione automatica, la generazione di testo e la risposta alle domande. I Modelli Linguistici di grandi dimensioni sono solitamente addestrati su grandi quantità di dati di addestramento diversi, che li dotano di creatività visiva e conoscenza, consentendo loro di eseguire diversi compiti linguistici di visione. Basandosi sui Modelli Linguistici di grandi dimensioni, i Modelli Linguistici Multimodali di grandi dimensioni possono utilizzare immagini come input naturali e fornire risposte visivamente consapevoli.

Detto questo, sebbene i modelli di diffusione e i framework di Modelli Linguistici Multimodali di grandi dimensioni siano ampiamente utilizzati per i compiti di editing di immagini, esistono alcune problematiche di guida con le istruzioni testuali che ostacolano le prestazioni generali, portando allo sviluppo di MGIE o editing di immagini guidato da Modelli Linguistici Multimodali di grandi dimensioni, un framework di intelligenza artificiale costituito da un modello di diffusione e un modello di Modelli Linguistici Multimodali di grandi dimensioni, come mostrato nell’immagine seguente.

All’interno dell’architettura MGIE, il modello di diffusione è addestrato end-to-end per eseguire l’editing di immagini con immaginazione latente dell’obiettivo desiderato, mentre il framework di Modelli Linguistici Multimodali di grandi dimensioni apprende a prevedere istruzioni espressive precise. Insieme, il modello di diffusione e il framework di Modelli Linguistici Multimodali di grandi dimensioni sfruttano la derivazione visiva intrinseca, consentendo di affrontare comandi umani ambigui e di ottenere un editing realistico delle immagini, come mostrato nell’immagine seguente.

Il framework MGIE trae ispirazione da due approcci esistenti: editing di immagini basato su istruzioni e Modelli Linguistici di grandi dimensioni di visione.

L’editing di immagini basato su istruzioni può migliorare notevolmente l’accessibilità e la controllabilità della manipolazione visiva, aderendo ai comandi umani. Ci sono due principali framework utilizzati per l’editing di immagini basato su istruzioni: i framework GAN e i modelli di diffusione. I framework GAN o Reti Adversarie Generative sono in grado di alterare le immagini, ma sono limitati a domini specifici o producono risultati irrealistici. D’altra parte, i modelli di diffusione con addestramento su larga scala possono controllare le mappe di attenzione cross-modale per ottenere l’editing e la trasformazione delle immagini. L’editing basato su istruzioni funziona ricevendo comandi diretti come input, spesso non limitati a maschere regionali e descrizioni elaborate. Tuttavia, c’è la possibilità che le istruzioni fornite siano ambigue o non sufficientemente precise per seguire le istruzioni per i compiti di editing.

I Modelli Linguistici di grandi dimensioni di visione sono rinomati per le loro capacità generative di testo e generalizzazione across vari compiti, e spesso hanno una solida comprensione testuale, e possono ulteriormente produrre programmi eseguibili o pseudo-codice. La capacità dei Modelli Linguistici di grandi dimensioni di percepire immagini e fornire risposte adeguate utilizzando l’allineamento delle caratteristiche visive con l’ottimizzazione delle istruzioni, con modelli recenti che adottano i Modelli Linguistici Multimodali di grandi dimensioni per generare immagini correlate al testo di input o alla chat. Tuttavia, ciò che distingue MGIE dai Modelli Linguistici Multimodali di grandi dimensioni o dai Modelli Linguistici di grandi dimensioni di visione è il fatto che, mentre questi ultimi possono produrre immagini diverse dagli input da zero, MGIE sfrutta le capacità dei Modelli Linguistici Multimodali di grandi dimensioni per migliorare le capacità di editing di immagini con istruzioni derivate.

MGIE: Architettura e Metodologia

Tradizionalmente, i Modelli Linguistici di grandi dimensioni sono stati utilizzati per compiti generativi di elaborazione del linguaggio naturale. Ma da quando i Modelli Linguistici Multimodali di grandi dimensioni sono diventati mainstream, i Modelli Linguistici di grandi dimensioni sono stati dotati della capacità di fornire risposte ragionevoli percependo immagini in input. Convenzionalmente, un Modello Linguistico Multimodale di grandi dimensioni è inizializzato da un Modello Linguistico di grandi dimensioni pre-addestrato, e contiene un encoder visivo e un adattatore per estrarre le caratteristiche visive e proiettarle nella modalità linguistica rispettivamente. Grazie a ciò, il framework di Modelli Linguistici Multimodali di grandi dimensioni è in grado di percepire input visivi, sebbene l’output sia ancora limitato al testo.

Il framework MGIE proposto mira a risolvere questo problema e a facilitare un Modello Linguistico Multimodale di grandi dimensioni per editare un’immagine di input in un’immagine di output in base alle istruzioni testuali fornite. Per raggiungere ciò, il framework MGIE ospita un Modello Linguistico Multimodale di grandi dimensioni e viene addestrato per derivare istruzioni testuali espressive concise. Inoltre, il framework MGIE aggiunge token di immagine speciali nella sua architettura per colmare il divario tra visione e modalità linguistica, e adotta la testa di editing per la trasformazione delle modalità. Queste modalità servono come immaginazione visiva latente dal Modello Linguistico Multimodale di grandi dimensioni e guidano il modello di diffusione per raggiungere i compiti di editing. Il framework MGIE è quindi in grado di eseguire compiti di percezione visiva per un editing di immagini ragionevole.

Istruzione Espressiva Concisa

Tradizionalmente, i Modelli Linguistici Multimodali di grandi dimensioni possono offrire risposte correlate a immagini con la loro percezione cross-modale grazie all’ottimizzazione delle istruzioni e all’allineamento delle caratteristiche. Per editare le immagini, il framework MGIE utilizza un prompt testuale come input linguistico principale con l’immagine e deriva una spiegazione dettagliata per il comando di editing. Tuttavia, queste spiegazioni potrebbero spesso essere troppo lunghe o coinvolgere descrizioni ripetitive, risultando in intenzioni mal interpretate, costringendo MGIE ad applicare un sommatore pre-addestrato per ottenere narrazioni concise, consentendo al Modello Linguistico Multimodale di grandi dimensioni di generare output riassunti. Il framework tratta la guida concisa ma esplicita come un’istruzione espressiva e applica la perdita di entropia incrociata per addestrare il Modello Linguistico Multimodale di grandi dimensioni utilizzando l’insegnamento del professore.

L’utilizzo di un’istruzione espressiva fornisce un’idea più concreta rispetto all’istruzione testuale, poiché colma il divario per un editing di immagini ragionevole, migliorando ulteriormente l’efficienza del framework. Inoltre, il framework MGIE durante il periodo di inferenza deriva istruzioni espressive concise invece di produrre narrazioni lunghe e di affidarsi a una sommatore esterna. Grazie a ciò, il framework MGIE è in grado di catturare l’immaginazione visiva delle intenzioni di editing, ma è ancora limitato alla modalità linguistica. Per superare questo ostacolo, il modello MGIE aggiunge un certo numero di token visivi dopo l’istruzione espressiva con incastonamenti di parole addestrabili, consentendo al Modello Linguistico Multimodale di grandi dimensioni di generarli utilizzando la sua testa del modello linguistico.

Editing di Immagini con Immaginazione Latente

Nel passaggio successivo, il framework MGIE adotta la testa di editing per trasformare l’istruzione di immagine in guida visiva effettiva. La testa di editing è un modello sequenza-a-sequenza che aiuta a mappare i token visivi sequenziali dal Modello Linguistico Multimodale di grandi dimensioni ai token semantici latenti significativi come guida di editing. Per essere più specifici, la trasformazione sui word embedding può essere interpretata come rappresentazione generale nella modalità visiva e utilizza un componente di immaginazione visiva consapevole delle istanze per le intenzioni di editing. Inoltre, per guidare l’editing di immagini con immaginazione visiva, il framework MGIE incorpora un modello di diffusione latente nella sua architettura che include un autoencoder variazionale e affronta la diffusione del rumore nello spazio latente. L’obiettivo principale del modello di diffusione latente è generare l’obiettivo latente preservando l’input latente e seguire la guida di editing. Il processo di diffusione aggiunge rumore all’obiettivo latente su intervalli di tempo regolari e il livello di rumore aumenta con ogni passo temporale.

Apprendimento di MGIE

La figura seguente riassume l’algoritmo del processo di apprendimento del framework MGIE proposto.

Come può essere osservato, il Modello Linguistico Multimodale di grandi dimensioni apprende a derivare istruzioni espressive concise utilizzando la perdita di istruzione. Utilizzando l’immaginazione visiva latente dalle istruzioni di immagine di input, il framework trasforma la modalità della testa di editing e guida il modello di diffusione latente per sintetizzare l’immagine di output, e applica la perdita di editing per l’addestramento della diffusione. Infine, il framework congela la maggior parte dei pesi, risultando in un addestramento end-to-end efficiente in termini di parametri.

MGIE: Risultati e Valutazione

Il framework MGIE utilizza il set di dati IPr2Pr come dati di pre-addestramento principali, che contiene oltre 1 milione di dati filtrati da CLIP con istruzioni estratte dal modello GPT-3 e un modello Prompt-to-Prompt per sintetizzare le immagini. Inoltre, il framework MGIE considera il framework InsPix2Pix costruito sul codificatore di testo CLIP con un modello di diffusione come baseline per i compiti di editing di immagini basati su istruzioni. Inoltre, il modello MGIE prende anche in considerazione un modello di editing di immagini guidato da Modello Linguistico di grandi dimensioni adottato per istruzioni espressive da input di solo testo, ma senza percezione visiva.

Analisi Quantitativa

La figura seguente riassume i risultati di editing in un’impostazione zero-shot con i modelli addestrati solo sul set di dati IPr2Pr. Per i dati GIER e EVR che coinvolgono modifiche nello stile di Photoshop, le istruzioni espressive possono rivelare obiettivi concreti invece di comandi ambigui, consentendo ai risultati di editing di assomigliare meglio alle intenzioni di editing.

Sebbene sia il modello LGIE che il modello MGIE siano addestrati sui same dati del modello InsPix2Pix, possono offrire spiegazioni dettagliate tramite l’apprendimento con il Modello Linguistico di grandi dimensioni, ma il modello LGIE è ancora limitato a una singola modalità. Inoltre, il framework MGIE può offrire un notevole aumento delle prestazioni, poiché ha accesso alle immagini e può utilizzarle per derivare istruzioni esplicite.

Per valutare le prestazioni sui compiti di editing di immagini basati su istruzioni per scopi specifici, gli sviluppatori addestrano diversi modelli su ogni set di dati, come riassunto nella tabella seguente.

Come può essere osservato, dopo aver adattato i compiti di editing nello stile di Photoshop per EVR e GIER, i modelli dimostrano un aumento delle prestazioni. Tuttavia, è importante notare che, poiché l’addestramento fine-tuning rende le istruzioni espressive più specifiche del dominio, il framework MGIE assiste a un notevole aumento delle prestazioni, poiché apprende anche la guida correlata al dominio, consentendo al modello di diffusione di dimostrare scene modificate concrete dal Modello Linguistico di grandi dimensioni addestrato, beneficiando sia della modifica locale che dell’ottimizzazione locale. Inoltre, poiché la guida visivamente consapevole è più allineata con gli obiettivi di editing desiderati, il framework MGIE fornisce risultati superiori in modo coerente rispetto al modello LGIE.

La figura seguente dimostra il punteggio CLIP-S attraverso le immagini di input o di ground truth e le istruzioni espressive. Un punteggio CLIP più alto indica la rilevanza delle istruzioni con la sorgente di editing, e come può essere osservato, il modello MGIE ha un punteggio CLIP più alto rispetto al modello LGIE su entrambe le immagini di input e di output.

Risultati Qualitativi

L’immagine seguente riassume perfettamente l’analisi qualitativa del framework MGIE.

Come sappiamo, il framework LGIE è limitato a una singola modalità a causa della quale ha una sola prospettiva linguistica e tende a derivare spiegazioni errate o non pertinenti per l’editing dell’immagine. Tuttavia, il framework MGIE è multimodale e, con l’accesso alle immagini, completa i compiti di editing e fornisce un’immaginazione visiva esplicita che si allinea bene con l’obiettivo.

Pensieri Finali

In questo articolo, abbiamo discusso di MGIE o editing di immagini guidato da Modelli Linguistici Multimodali di grandi dimensioni, uno studio ispirato ai Modelli Linguistici Multimodali di grandi dimensioni che valuta le loro capacità e analizza come supportano l’editing tramite testo o istruzioni guidate, apprendendo a fornire istruzioni esplicite e derivare istruzioni espressive simultaneamente. Il modello di editing MGIE cattura le informazioni visive e esegue l’editing o la manipolazione utilizzando l’addestramento end-to-end. Invece di istruzioni ambigue e brevi, il framework MGIE produce istruzioni visivamente consapevoli esplicite che risultano in un editing di immagini ragionevole.

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.