Inteligência artificial

Orientação de Edição de Imagem Baseada em Instruções via Modelos de Linguagem Multimodais de Grande Escala

Published February 23, 2024

Updated April 4, 2026

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Ferramentas de design visual e modelos de linguagem de visão têm aplicações generalizadas na indústria multimídia. Apesar dos significativos avanços nos últimos anos, uma compreensão sólida dessas ferramentas ainda é necessária para sua operação. Para melhorar a acessibilidade e o controle, a indústria multimídia está adotando cada vez mais técnicas de edição de imagem baseadas em texto ou instruções. Essas técnicas utilizam comandos de linguagem natural em vez de máscaras regionais tradicionais ou descrições elaboradas, permitindo uma manipulação de imagem mais flexível e controlada. No entanto, os métodos baseados em instruções frequentemente fornecem direções breves que podem ser desafiadoras para os modelos existentes capturarem e executarem completamente. Além disso, os modelos de difusão, conhecidos por sua capacidade de criar imagens realistas, estão em alta demanda no setor de edição de imagem.

Além disso, Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstraram um desempenho impressionante em tarefas que envolvem geração de respostas visuais e compreensão cross-modal. A Edição de Imagem Guiada por MLLM (MGIE) é um estudo inspirado em MLLMs que avalia suas capacidades e analisa como eles facilitam a edição usando texto ou instruções guiadas. Essa abordagem envolve aprender a fornecer orientação explícita e derivar instruções expressivas. O modelo de edição MGIE compreende informações visuais e executa edições por meio de treinamento de ponta a ponta. Neste artigo, vamos mergulhar profundamente na MGIE, avaliando seu impacto na otimização de imagem global, modificações no estilo do Photoshop e edição local. Também discutiremos a importância da MGIE em tarefas de edição de imagem baseadas em instruções que dependem de instruções expressivas. Vamos começar nossa exploração.

MGIE: Uma Introdução

Modelos de Linguagem Multimodais de Grande Escala e Modelos de Difusão são dois dos frameworks de IA e ML mais utilizados atualmente devido às suas notáveis capacidades gerativas. Por um lado, você tem os Modelos de Difusão, mais conhecidos por produzir imagens altamente realistas e visualmente atraentes, enquanto, por outro lado, você tem os Modelos de Linguagem Multimodais de Grande Escala, renomados por sua excepcional habilidade em gerar uma ampla variedade de conteúdo, incluindo texto, linguagem, fala e imagens/vídeos.

Os modelos de difusão trocam os mapas cross-modais latentes para realizar manipulação visual que reflete a alteração da legenda de entrada, e também podem usar uma máscara guiada para editar uma região específica da imagem. Mas o principal motivo pelo qual os Modelos de Difusão são amplamente utilizados para aplicações multimídia é que, em vez de confiar em descrições elaboradas ou máscaras regionais, os Modelos de Difusão empregam abordagens de edição baseadas em instruções que permitem que os usuários expressem como editar a imagem diretamente usando comandos ou instruções de texto. Em seguida, os Modelos de Linguagem de Grande Escala não precisam de apresentação, pois demonstraram avanços significativos em uma variedade de tarefas de linguagem, incluindo resumo de texto, tradução de máquina, geração de texto e resposta a perguntas. Os MLLs são normalmente treinados em uma grande e diversificada quantidade de dados de treinamento que os equipam com criatividade visual e conhecimento, permitindo que realizem várias tarefas de linguagem de visão. Com base nos MLLs, os MLLMs ou Modelos de Linguagem Multimodais de Grande Escala podem usar imagens como entradas naturais e fornecer respostas visuais apropriadas.

Com isso dito, embora os Modelos de Difusão e os frameworks MLLM sejam amplamente utilizados para tarefas de edição de imagem, existem alguns problemas de orientação com instruções baseadas em texto que prejudicam o desempenho geral, resultando no desenvolvimento da MGIE ou Edição de Imagem Guiada por MLLM, um framework de IA que consiste em um modelo de difusão e um modelo MLLM, como demonstrado na seguinte imagem.

Dentro da arquitetura da MGIE, o modelo de difusão é treinado de ponta a ponta para realizar edição de imagem com imaginação latente do objetivo pretendido, enquanto o framework MLLM aprende a prever instruções expressivas precisas. Juntos, o modelo de difusão e o framework MLLM aproveitam a derivação visual inerente, permitindo que abordem comandos humanos ambíguos e resultem em edição realista de imagens, como demonstrado na seguinte imagem.

A framework da MGIE se inspira em duas abordagens existentes: Edição de Imagem Baseada em Instruções e Modelos de Linguagem de Visão.

A edição de imagem baseada em instruções pode melhorar significativamente a acessibilidade e a controlabilidade da manipulação visual, aderindo a comandos humanos. Existem dois principais frameworks utilizados para edição de imagem baseada em instruções: frameworks GAN e Modelos de Difusão. GAN ou Redes Adversárias Generativas são capazes de alterar imagens, mas são limitadas a domínios específicos ou produzem resultados irreais. Por outro lado, os modelos de difusão com treinamento em larga escala podem controlar os mapas de atenção cross-modais para mapas globais para alcançar edição e transformação de imagem. A edição baseada em instruções funciona recebendo comandos diretos como entrada, frequentemente não limitados a máscaras regionais e descrições elaboradas. No entanto, há uma probabilidade de que as instruções fornecidas sejam ambíguas ou não sejam precisas o suficiente para seguir instruções para tarefas de edição.

Os Modelos de Linguagem de Visão são renomados por suas capacidades de geração de texto e generalização em várias tarefas, e frequentemente têm uma compreensão textual robusta, e podem produzir programas executáveis ou pseudocódigo. Essa capacidade dos modelos de linguagem de grande escala permite que os MLLMs percebam imagens e forneçam respostas apropriadas usando alinhamento de recursos visuais com ajuste de instruções, com modelos recentes adotando MLLMs para gerar imagens relacionadas ao bate-papo ou ao texto de entrada. No entanto, o que separa a MGIE dos MLLMs ou VLLMs é o fato de que, enquanto os últimos podem produzir imagens distintas das entradas a partir do zero, a MGIE aproveita as capacidades dos MLLMs para melhorar as capacidades de edição de imagem com instruções derivadas.

MGIE: Arquitetura e Metodologia

Tradicionalmente, os modelos de linguagem de grande escala foram utilizados para tarefas gerativas de processamento de linguagem natural. Mas desde que os MLLMs se tornaram mainstream, os LLMs foram empowermentados com a capacidade de fornecer respostas razoáveis, percebendo imagens de entrada. Convencionalmente, um Modelo de Linguagem Multimodal de Grande Escala é inicializado a partir de um LLM pré-treinado, e contém um codificador visual e um adaptador para extrair os recursos visuais e projetar os recursos visuais na modalidade de linguagem, respectivamente. Devido a isso, o framework MLLM é capaz de perceber entradas visuais, embora a saída ainda esteja limitada ao texto.

A framework da MGIE proposta visa resolver esse problema e facilitar que um MLLM edite uma imagem de entrada em uma imagem de saída com base na instrução textual fornecida. Para alcançar isso, a framework da MGIE abriga um MLLM e é treinada para derivar instruções expressivas textuais concisas e explícitas. Além disso, a framework da MGIE adiciona tokens de imagem especiais em sua arquitetura para pontuar a lacuna entre a modalidade de visão e linguagem, e adota a cabeça de edição para a transformação das modalidades. Essas modalidades servem como a imaginação visual latente do Modelo de Linguagem Multimodal de Grande Escala, e guiam o modelo de difusão para alcançar as tarefas de edição. A framework da MGIE é então capaz de realizar tarefas de percepção visual para edição de imagem razoável.

Instrução Expressiva Concisa

Tradicionalmente, os Modelos de Linguagem Multimodais de Grande Escala podem oferecer respostas relacionadas à visão com sua percepção cross-modal devido ao ajuste de instruções e alinhamento de recursos. Para editar imagens, a framework da MGIE usa um prompt textual como a entrada de linguagem principal com a imagem, e deriva uma explicação detalhada para o comando de edição. No entanto, essas explicações podem ser frequentemente muito longas ou envolver descrições repetitivas, resultando em intenções mal interpretadas, forçando a MGIE a aplicar um resumidor pré-treinado para obter narrações sucintas, permitindo que o MLLM gere saídas resumidas. A framework trata a orientação concisa, mas explícita, como uma instrução expressiva, e aplica a perda de entropia cruzada para treinar o Modelo de Linguagem Multimodal de Grande Escala usando enforcement de professor.

Usar uma instrução expressiva fornece uma ideia mais concreta em comparação com a instrução de texto, pois pontua a lacuna para edição de imagem razoável, aumentando a eficiência da framework ainda mais. Além disso, a framework da MGIE, durante o período de inferência, deriva instruções expressivas concisas em vez de produzir narrações longas e confiar na resumação externa. Devido a isso, a framework da MGIE é capaz de capturar a imaginação visual das intenções de edição, mas ainda está limitada à modalidade de linguagem. Para superar esse obstáculo, o modelo da MGIE anexa um número determinado de tokens visuais após a instrução expressiva com embeddings de palavras treináveis, permitindo que o MLLM os gere usando sua cabeça de modelo de linguagem.

Edição de Imagem com Imaginação Latente

Na próxima etapa, a framework da MGIE adota a cabeça de edição para transformar a instrução de imagem em orientação visual real. A cabeça de edição é um modelo de sequência para sequência que ajuda a mapear os tokens visuais sequenciais do MLLM para a orientação de edição semântica significativa como sua orientação de edição. Para ser mais específico, a transformação sobre os embeddings de palavras pode ser interpretada como uma representação geral na modalidade visual, e usa um componente de imaginação visual consciente da instância para as intenções de edição. Além disso, para guiar a edição de imagem com imaginação visual, a framework da MGIE incorpora um modelo de difusão latente em sua arquitetura que inclui um autoencoder variacional e aborda a difusão de ruído no espaço latente. O objetivo principal do modelo de difusão latente é gerar o objetivo latente preservando a entrada latente e seguir a orientação de edição. O processo de difusão adiciona ruído ao objetivo latente em intervalos de tempo regulares, e o nível de ruído aumenta com cada passo de tempo.

Aprendizado da MGIE

A figura a seguir resume o algoritmo do processo de aprendizado da framework da MGIE proposta.

Como pode ser observado, o MLLM aprende a derivar instruções expressivas concisas usando a perda de instrução. Usando a imaginação latente da imagem de entrada e instruções, a framework transforma a modalidade da cabeça de edição, e guia o modelo de difusão latente para sintetizar a imagem resultante, e aplica a perda de edição para o treinamento de difusão. Finalmente, a framework congela a maioria dos pesos, resultando em um treinamento de ponta a ponta eficiente em termos de parâmetros.

MGIE: Resultados e Avaliação

A framework da MGIE usa o conjunto de dados IPr2Pr como seu principal conjunto de dados de pré-treinamento, e contém mais de 1 milhão de dados filtrados pelo CLIP com instruções extraídas do modelo GPT-3, e um modelo Prompt-to-Prompt para sintetizar as imagens. Além disso, a framework da MGIE trata a framework InsPix2Pix construída sobre o codificador de texto CLIP com um modelo de difusão como sua linha de base para tarefas de edição de imagem baseadas em instruções. Além disso, o modelo da MGIE também leva em consideração um modelo de edição de imagem guiada por LLM adotado para instruções expressivas a partir de entradas de instruções apenas, mas sem percepção visual.

Análise Quantitativa

A figura a seguir resume os resultados de edição em um cenário de zero-shot, com os modelos sendo treinados apenas no conjunto de dados IPr2Pr. Para os dados GIER e EVR, envolvendo modificações no estilo do Photoshop, as instruções expressivas podem revelar metas concretas em vez de comandos ambíguos, permitindo que os resultados de edição sejam mais semelhantes às intenções de edição.

Embora tanto o LGIE quanto a MGIE sejam treinados nos mesmos dados que o modelo InsPix2Pix, eles podem oferecer explicações detalhadas por meio do aprendizado com o modelo de linguagem de grande escala, mas o LGIE ainda está limitado a uma única modalidade. Além disso, a framework da MGIE pode fornecer um aumento significativo de desempenho, pois tem acesso a imagens e pode usá-las para derivar instruções explícitas.

Para avaliar o desempenho em tarefas de edição de imagem baseadas em instruções para fins específicos, os desenvolvedores ajustam vários modelos em cada conjunto de dados, como resumido na tabela a seguir.

Como pode ser observado, após adaptar as tarefas de edição no estilo do Photoshop para EVR e GIER, os modelos demonstram um aumento no desempenho. No entanto, é importante notar que, como o ajuste de parâmetros torna as instruções expressivas mais específicas do domínio, a framework da MGIE testemunha um aumento significativo no desempenho, pois também aprende orientação relacionada ao domínio, permitindo que o modelo de difusão demonstre cenas editadas concretas a partir do modelo de linguagem de grande escala ajustado, beneficiando tanto a modificação local quanto a otimização local. Além disso, como a orientação visualmente consciente está mais alinhada com as metas de edição pretendidas, a framework da MGIE fornece resultados superiores consistentemente em comparação com o LGIE.

A figura a seguir demonstra a pontuação CLIP-S em todo o conjunto de imagens de entrada ou metas e instruções expressivas. Uma pontuação CLIP mais alta indica a relevância das instruções com a fonte de edição, e como pode ser observado, a MGIE tem uma pontuação CLIP mais alta em comparação com o modelo LGIE em todo o conjunto de imagens de entrada e saída.

Resultados Qualitativos

A imagem a seguir resume perfeitamente a análise qualitativa da framework da MGIE.

Como sabemos, a framework do LGIE é limitada a uma única modalidade devido ao fato de ter uma perspectiva baseada apenas em linguagem, e é propensa a derivar explicações erradas ou irrelevantes para a edição da imagem. No entanto, a framework da MGIE é multimodal, e com acesso a imagens, completa as tarefas de edição, e fornece imaginação visual explícita que se alinha com a meta muito bem.

Pensamentos Finais

Neste artigo, falamos sobre a MGIE ou Edição de Imagem Guiada por MLLM, um estudo inspirado em MLLMs que visa avaliar os Modelos de Linguagem Multimodais de Grande Escala e analisar como eles facilitam a edição usando texto ou instruções guiadas, aprendendo a fornecer orientação explícita e derivar instruções expressivas simultaneamente. O modelo de edição da MGIE captura as informações visuais e executa a edição ou manipulação usando treinamento de ponta a ponta. Em vez de orientação ambígua e breve, a framework da MGIE produz instruções visuais conscientes explícitas que resultam em edição de imagem razoável.

Kunal Kejriwal

Um engenheiro por profissão, um escritor por coração. Kunal é um escritor técnico com um amor e compreensão profundos de AI e ML, dedicado a simplificar conceitos complexos nestes campos por meio de sua documentação envolvente e informativa.