Inteligência artificial

UniTune: técnica alternativa de edição de imagens neurais do Google

Atualização do on 9 de dezembro de 2022

O Google Research, ao que parece, está atacando a edição de imagem baseada em texto de várias frentes e, presumivelmente, esperando para ver o que 'precisa'. Seguindo o rastro do lançamento desta semana de seu papel imagético, o gigante das buscas propôs um método adicional baseado em difusão latente para executar edições baseadas em IA impossíveis em imagens por meio de comandos de texto, desta vez chamado UniTune.

Com base nos exemplos dados no projeto novo papel, UniTune alcançou um grau extraordinário de desenredar de pose semântica e ideia do conteúdo real da imagem:

O comando de composição semântica do UniTune é excelente. Observe como na linha superior de imagens, os rostos das duas pessoas não foram distorcidos pela transformação extraordinária no restante da imagem de origem (à direita). Fonte: https://arxiv.org/pdf/2210.09477.pdf

Como os fãs do Stable Diffusion já devem ter aprendido, aplicar edições a seções parciais de uma imagem sem alterar adversamente o resto da imagem pode ser uma operação complicada, às vezes impossível. Embora distribuições populares como AUTOMÁTICO1111 podem criar máscaras para edições locais e restritas, o processo é tortuoso e frequentemente imprevisível.

A resposta óbvia, pelo menos para um profissional de visão computacional, é interpor uma camada de segmentação semântica que é capaz de reconhecer e isolar objetos em uma imagem sem a intervenção do usuário e, de fato, tem havido várias novas iniciativas ultimamente nessa linha de pensamento.

Outro possibilidade para bloquear operações confusas e emaranhadas de edição de imagens neurais é alavancar o influente pré-treinamento de imagem e linguagem contrastiva do OpenAI (CLIP), que está no centro dos modelos de difusão latente, como DALL-E 2 e Stable Diffusion, para atuar como um filtro no ponto em que um modelo de texto para imagem está pronto para enviar uma renderização interpretada de volta ao usuário . Neste contexto, o CLIP deve atuar como sentinela e módulo de controlo de qualidade, rejeitando rebocos malformados ou de outra forma inadequados. Isso é prestes a ser instituído (link do Discord) no portal baseado na API DreamStudio da Stability.ai.

No entanto, como o CLIP é indiscutivelmente o culpado e a solução em tal cenário (porque basicamente também informou a maneira como a imagem evoluiu) e como os requisitos de hardware podem exceder o que provavelmente estará disponível localmente para um usuário final, esta abordagem pode não ser ideal.

Linguagem Comprimida

Em vez disso, o UniTune proposto 'ajusta' um modelo de difusão existente - neste caso, o próprio Imagen do Google, embora os pesquisadores afirmem que o método é compatível com outras arquiteturas de difusão latentes - para que um token exclusivo seja injetado nele, que pode ser convocado incluindo-o em um prompt de texto.

Pelo valor de face, isso soa como o Google cabine de sonho, atualmente uma obsessão entre os fãs e desenvolvedores do Stable Diffusion, que pode injetar novos personagens ou objetos em um posto de controle existente, geralmente em menos de uma hora, com base em um mero punhado de imagens de origem; ou então como Inversão Textual, que cria arquivos 'secundários' para um ponto de verificação, que são então tratados como se tivessem sido originalmente treinados no modelo e podem aproveitar os vastos recursos do próprio modelo modificando seu classificador de texto, resultando em um arquivo minúsculo (em comparação com o pontos de verificação removidos mínimos de 2 GB do DreamBooth).

Na verdade, afirmam os pesquisadores, o UniTune rejeitou ambas as abordagens. Eles descobriram que a inversão textual omitia muitos detalhes importantes, enquanto o DreamBooth 'realizou pior e levou mais tempo' do que a solução que eles finalmente resolveram.

No entanto, o UniTune usa a mesma abordagem de 'metaprompt' semântico encapsulado do DreamBooth, com mudanças treinadas invocadas por palavras únicas escolhidas pelo treinador, que não entrarão em conflito com nenhum dos termos que existem atualmente em um modelo de lançamento público laboriosamente treinado.

'Para executar a operação de edição, amostramos os modelos ajustados com o prompt “[rare_tokens] edit_prompt” (por exemplo, “beikkpic dois cachorros em um restaurante” ou “beikkpic um lacaio”).'

O Processo

Embora seja intrigante o porquê de dois papéis quase idênticos, em termos de funcionalidade final, chegarem do Google na mesma semana, existe, apesar de um grande número de semelhanças entre as duas iniciativas, pelo menos uma clara diferença entre UniTune e Imagic – o último usa prompts de linguagem natural 'descompactados' para guiar as operações de edição de imagem, enquanto o UniTune treina em tokens de estilo DreamBooth exclusivos.

Portanto, se você estava editando com Imagic e desejava efetuar uma transformação dessa natureza…

Do artigo do UniTune – o UniTune se posiciona contra o framework de edição neural rival favorito do Google, o SDEdit. Os resultados do UniTune estão à direita, enquanto a máscara estimada é vista na segunda imagem à esquerda.

.. no Imagic, você inseriria 'a terceira pessoa, sentada ao fundo, como um lindo monstro peludo'.

O comando UniTune equivalente seria 'Cara na parte de trás como [x]', Onde x é qualquer palavra estranha e única ligada ao conceito bem treinado associado ao personagem monstro peludo.

Considerando que várias imagens são alimentadas no DreamBooth ou na inversão textual com a intenção de criar uma abstração no estilo deepfake que pode ser comandada em várias poses, tanto o UniTune quanto o Imagic alimentam uma única imagem no sistema – a imagem original e intocada.

Isso é semelhante à maneira como muitas das ferramentas de edição baseadas em GAN dos últimos anos operaram - convertendo uma imagem de entrada em códigos latentes no espaço latente da GAN e, em seguida, endereçando esses códigos e enviando-os para outras partes do espaço latente espaço para modificação (ou seja, inserir uma imagem de uma pessoa jovem de cabelos escuros e projetá-la através de códigos latentes associados a 'velho' ou 'loiro', etc.).

No entanto, os resultados, em um modelo de difusão e por esse método, são surpreendentemente precisos em comparação e muito menos ambíguos:

O processo de ajuste fino

O método UniTune essencialmente envia a imagem original através de um modelo de difusão com um conjunto de instruções sobre como ela deve ser modificada, usando os vastos repositórios de dados disponíveis treinados no modelo. Na verdade, você pode fazer isso agora mesmo com Stable Diffusion's img2img funcionalidade – mas não sem deformar ou de alguma forma alterar as partes da imagem que você prefere manter.

Durante o processo UniTune, o sistema é sintonia finad, o que significa que o UniTune força o modelo a retomar o treinamento, com a maioria de suas camadas descongeladas (veja abaixo). Na maioria dos casos, o ajuste fino reduzirá o desempenho geral geral valores de perda de um modelo de alto desempenho duramente conquistado em favor de injetar ou refinar algum outro aspecto que se deseja criar ou aprimorar.

No entanto, com o UniTune, parece que a cópia do modelo que é usada, embora possa pesar vários gigabytes ou mais, será tratada como uma 'casca' colateral descartável e descartada no final do processo, tendo servido a um único objetivo. Esse tipo de volume de dados casual está se tornando uma crise de armazenamento diária para os fãs do DreamBooth, cujos próprios modelos, mesmo quando podados, não têm menos de 2 GB por assunto.

Assim como no Imagic, o ajuste principal no UniTune ocorre nas duas camadas inferiores das três em Imagen (base 64px, 64px>256px e 256px>1024px). Ao contrário do Imagic, os pesquisadores veem algum valor potencial na otimização do ajuste também para esta última e maior camada de super-resolução (embora ainda não tenham tentado).

Para a camada de 64px mais baixa, o modelo é direcionado para a imagem base durante o treinamento, com vários pares duplicados de imagem/texto alimentados no sistema para 128 iterações em um tamanho de lote de 4 e com Adaptador como a função de perda, operando a uma taxa de aprendizado de 0.0001. Embora o codificador T5 sozinho é congelado durante este ajuste fino, também é congelado durante o treinamento primário de Imagen

A operação acima é então repetida para a camada 64>256px, usando o mesmo procedimento de aumento de ruído empregado no treinamento original do Imagen.

Amostragem

Existem muitos métodos de amostragem possíveis pelos quais as mudanças feitas podem ser extraídas do modelo ajustado, incluindo Classifier Free Guidance (CFG), um dos pilares também da difusão estável. O CFG basicamente define até que ponto o modelo é livre para 'seguir sua imaginação' e explorar as possibilidades de renderização - ou então, em configurações mais baixas, até que ponto ele deve aderir aos dados da fonte de entrada e fazer mudanças menos radicais ou dramáticas .

Como a inversão textual (um pouco menos com o DreamBooth), o UniTune é passível de aplicar estilos gráficos distintos às imagens originais, bem como edições mais fotorrealistas.

Os pesquisadores também experimentaram SDtécnica de 'início tardio', em que o sistema é incentivado a preservar os detalhes originais sendo apenas parcialmente 'ruído' desde o início, mas mantendo suas características essenciais. Embora os pesquisadores tenham usado isso apenas na camada mais baixa (64px), eles acreditam que pode ser uma técnica de amostragem auxiliar útil no futuro.

Os pesquisadores também exploraram prompt a prompt como uma técnica baseada em texto adicional para condicionar o modelo:

'Na configuração “prompt to prompt”, descobrimos que uma técnica que chamamos de Prompt Guidance é particularmente útil para sintonizar a fidelidade e a expressividade.

'Orientação de Prompt é semelhante à Orientação Livre do Classificador, exceto que a linha de base é um prompt diferente em vez do modelo incondicionado. Isso orienta o modelo em direção ao delta entre os dois prompts.'

Prompt-to-prompt no UniTune, isolando efetivamente as áreas a serem alteradas.

No entanto, a orientação imediata, afirmam os autores, foi necessária apenas ocasionalmente nos casos em que o CFG falhou em obter o resultado desejado.

Outra nova abordagem de amostragem encontrada durante o desenvolvimento do UniTune foi interpolação, onde as áreas da imagem são distintas o suficiente para que tanto a imagem original quanto a alterada sejam muito semelhantes em composição, permitindo o uso de uma interpolação mais 'ingênua'.

A interpolação pode tornar os processos de maior esforço do UniTune redundantes nos casos em que as áreas a serem transformadas são discretas e bem delimitadas.

Os autores sugerem que a interpolação poderia funcionar tão bem, para um grande número de imagens de origem-alvo, que poderia ser usada como uma configuração padrão e observar também que ela tem o poder de efetuar transformações extraordinárias nos casos em que oclusões complexas não funcionam. precisam ser negociados por métodos mais intensivos.

O UniTune pode realizar edições locais com ou sem máscaras de edição, mas também pode decidir unilateralmente onde posicionar as edições, com uma combinação incomum de poder interpretativo e essencialização robusta dos dados de entrada da fonte:

Na imagem superior da segunda coluna, o UniTune, encarregado de inserir um 'trem vermelho no fundo', colocou-o em uma posição apropriada e autêntica. Observe nos outros exemplos como a integridade semântica da imagem de origem é mantida mesmo em meio a mudanças extraordinárias no conteúdo de pixels e nos estilos principais das imagens.

Latência

Embora a primeira iteração de qualquer novo sistema seja lenta, e embora seja possível que o envolvimento da comunidade ou o compromisso corporativo (geralmente não são ambos) acabem por acelerar e otimizar uma rotina com muitos recursos, tanto o UniTune quanto o Imagic estão realizando alguns manobras de aprendizado de máquina bastante importantes para criar essas edições incríveis, e é questionável até que ponto um processo tão exigente em recursos poderia ser reduzido para uso doméstico, em vez de acesso orientado por API (embora este último possa ser mais desejável para o Google ).

No momento, a viagem de ida e volta da entrada ao resultado é de cerca de 3 minutos em uma GPU T4, com cerca de 30 segundos extras para inferência (conforme qualquer rotina de inferência). Os autores admitem que esta é uma latência alta e dificilmente se qualifica como 'interativa', mas também observam que o modelo permanece disponível para edições posteriores uma vez ajustado inicialmente, até que o usuário termine o processo, o que reduz o tempo por edição .

Publicado pela primeira vez em 21 de outubro de 2022.

Tópicos relacionados:google síntese de imagem pesquisa

A seguir

AI no mercado de ações: é melhor que os humanos?

Não Perca

A solução exclusiva do DALL-E 2 para duplicar os significados

Martin Anderson

Escritor sobre aprendizado de máquina, inteligência artificial e big data.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai

Unir-se.AI

UniTune: técnica alternativa de edição de imagens neurais do Google

Inteligência artificial