Inteligência artificial

InstantID: geração zero-shot de preservação de identidade em segundos

Publicado

meses 2 atrás

12 de março de 2024

A tecnologia de geração de imagens alimentada por IA testemunhou um crescimento notável nos últimos anos, desde que grandes modelos de difusão de texto para imagem, como DALL-E, GLIDE, Stable Diffusion, Imagen e outros, entraram em cena. Apesar de os modelos de IA de geração de imagens terem arquitetura e métodos de treinamento exclusivos, todos eles compartilham um ponto focal comum: geração de imagens customizadas que visa criar imagens com ID de caractere, assunto e estilo consistentes com base em imagens de referência. Devido às suas notáveis capacidades geradoras, as modernas estruturas de IA de geração de imagens encontraram aplicações em campos que incluem animação de imagens, realidade virtual, comércio eletrônico, retratos de IA e muito mais. No entanto, apesar das suas notáveis capacidades geradoras, todas estas estruturas partilham um obstáculo comum: a maioria delas é incapaz de gerar imagens personalizadas, preservando os delicados detalhes de identidade dos objetos humanos.

A geração de imagens personalizadas preservando detalhes intrincados é de importância crítica, especialmente em tarefas de identidade facial humana que exigem um alto padrão de fidelidade e detalhes, e semântica diferenciada quando comparada a tarefas gerais de geração de imagens de objetos que se concentram principalmente em texturas e cores de granulação grossa. Além disso, estruturas de síntese de imagens personalizadas nos últimos anos, como LoRA, DreamBooth, Textual Inversion e outras, avançaram significativamente. No entanto, os modelos de IA geradores de imagens personalizadas ainda não são perfeitos para implantação em cenários do mundo real, uma vez que têm um alto requisito de armazenamento, exigem múltiplas imagens de referência e muitas vezes têm um processo demorado de ajuste fino. Por outro lado, embora os métodos existentes baseados em incorporação de ID exijam apenas uma única referência direta, eles não têm compatibilidade com modelos pré-treinados disponíveis publicamente, ou exigem um processo excessivo de ajuste fino em vários parâmetros, ou não conseguem manter altos enfrentar a fidelidade.

Para enfrentar esses desafios e aprimorar ainda mais os recursos de geração de imagens, neste artigo falaremos sobre InstantID, uma solução baseada em modelo de difusão para geração de imagens. InstantID é um módulo plug and play que lida habilmente com a geração e personalização de imagens em vários estilos com apenas uma única imagem de referência e também garante alta fidelidade. O objetivo principal deste artigo é fornecer aos nossos leitores uma compreensão completa dos fundamentos técnicos e componentes da estrutura InstantID, pois teremos uma visão detalhada da arquitetura do modelo, do processo de treinamento e dos cenários de aplicação. Então vamos começar.

InstantID: geração de imagem com preservação de identidade Zero-Shot

O surgimento de modelos de difusão de texto para imagem contribuiu significativamente para o avanço da tecnologia de geração de imagens. O objetivo principal desses modelos é a geração personalizada e pessoal e a criação de imagens com assunto, estilo e identificação de personagem consistentes usando uma ou mais imagens de referência. A capacidade dessas estruturas de criar imagens consistentes criou aplicações potenciais em diferentes setores, incluindo animação de imagens, geração de retratos de IA, comércio eletrônico, realidade virtual e aumentada e muito mais.

No entanto, apesar das suas capacidades notáveis, estas estruturas enfrentam um desafio fundamental: muitas vezes têm dificuldade em gerar imagens personalizadas que preservem com precisão os detalhes intrincados dos assuntos humanos. Vale ressaltar que gerar imagens personalizadas com detalhes intrínsecos é uma tarefa desafiadora, uma vez que a identidade facial humana requer um maior grau de fidelidade e detalhes, juntamente com uma semântica mais avançada quando comparada a objetos ou estilos gerais que focam principalmente em cores ou texturas de granulação grossa. Os modelos de texto para imagem existentes dependem de descrições textuais detalhadas e lutam para alcançar uma forte relevância semântica para a geração de imagens personalizadas. Além disso, algumas grandes estruturas de texto para imagem pré-treinadas adicionam controles de condicionamento espacial para melhorar a controlabilidade, facilitando o controle estrutural refinado usando elementos como poses corporais, mapas de profundidade, esboços desenhados pelo usuário, mapas de segmentação semântica e muito mais. No entanto, apesar destas adições e melhorias, estas estruturas são capazes de alcançar apenas uma fidelidade parcial da imagem gerada à imagem de referência.

Para superar esses obstáculos, a estrutura InstantID concentra-se na síntese instantânea de imagens com preservação de identidade e tenta preencher a lacuna entre eficiência e alta fidelidade, introduzindo um módulo plug and play simples que permite que a estrutura lide com a personalização de imagens usando apenas uma única imagem facial. mantendo alta fidelidade. Além disso, para preservar a identidade facial da imagem de referência, a estrutura InstantID implementa um novo codificador facial que retém os detalhes intrincados da imagem, adicionando condições espaciais fracas e semânticas fortes que orientam o processo de geração de imagem, incorporando prompts textuais, imagem de referência e imagem facial. .

Existem três recursos distintivos que separam a estrutura InstantID das estruturas existentes de geração de texto para imagem.

Compatibilidade e Plugabilidade: em vez de treinar os parâmetros completos da estrutura UNet, a estrutura InstantID se concentra no treinamento de um adaptador leve. Como resultado, a estrutura InstantID é compatível e conectável aos modelos pré-treinados existentes.

Sem ajuste: A metodologia do framework InstantID elimina a necessidade de ajuste fino, uma vez que necessita apenas de uma única propagação direta para inferência, tornando o modelo altamente prático e econômico para ajuste fino.
Performance superior: A estrutura InstantID demonstra alta flexibilidade e fidelidade, pois é capaz de fornecer desempenho de última geração usando apenas uma única imagem de referência, comparável a métodos baseados em treinamento que dependem de múltiplas imagens de referência.

No geral, as contribuições da estrutura InstantID podem ser categorizadas nos seguintes pontos.

A estrutura InstantID é um método inovador de adaptação de preservação de ID para modelos pré-treinados de difusão de texto para imagem, com o objetivo de preencher a lacuna entre eficiência e fidelidade.
A estrutura InstantID é compatível e conectável com modelos customizados e ajustados usando o mesmo modelo de difusão em sua arquitetura, permitindo a preservação de ID em modelos pré-treinados sem nenhum custo adicional.

InstantID: Metodologia e Arquitetura

Conforme mencionado anteriormente, a estrutura InstantID é um adaptador leve e eficiente que fornece texto pré-treinado para modelos de difusão de imagem com recursos de preservação de ID sem esforço.

Falando sobre a arquitetura, a estrutura InstantID é construída sobre o Modelo de difusão estável, conhecido por sua capacidade de realizar o processo de difusão com alta eficiência computacional em um espaço latente de baixa dimensão em vez de espaço de pixels com um codificador automático. Para uma imagem de entrada, o codificador primeiro mapeia a imagem para uma representação latente com fator de redução da resolução e dimensões latentes. Além disso, para eliminar o ruído de um ruído normalmente distribuído com ruído latente, condição e passo de tempo atual, o processo de difusão adota um componente UNet de eliminação de ruído. A condição é uma incorporação de prompts textuais gerados usando um componente codificador de texto CLIP pré-treinado.

Além disso, a estrutura InstantID também utiliza um componente ControlNet que é capaz de adicionar controle espacial a um modelo de difusão pré-treinado como sua condição, indo muito além dos recursos tradicionais de prompts textuais. O componente ControlNet também integra a arquitetura UNet da estrutura Stable Diffusion usando uma replicação treinada do componente UNet. A réplica do componente UNet apresenta camadas de convolução zero dentro dos blocos intermediários e dos blocos codificadores. Apesar das semelhanças, o componente ControlNet se diferencia do modelo de Difusão Estável; ambos diferem neste último item residual. O componente ControlNet codifica informações de condições espaciais, como poses, mapas de profundidade, esboços e muito mais, adicionando os resíduos ao bloco UNet e, em seguida, incorpora esses resíduos na rede original.

A estrutura InstantID também se inspira no IP-Adapter ou no Image Prompt Adapter, que introduz uma nova abordagem para obter recursos de prompt de imagem executados paralelamente aos prompts textuais, sem a necessidade de modificar o texto original nos modelos de imagem. O componente IP-Adapter também emprega uma estratégia exclusiva de atenção cruzada desacoplada que usa camadas adicionais de atenção cruzada para incorporar os recursos da imagem, deixando os outros parâmetros inalterados.

Metodologia

Para lhe dar uma breve visão geral, o framework InstantID visa gerar imagens customizadas com diferentes estilos ou poses usando apenas uma única imagem de identificação de referência com alta fidelidade. A figura a seguir fornece brevemente uma visão geral da estrutura InstantID.

Como pode ser observado, o framework InstantID possui três componentes essenciais:

Um componente de incorporação de ID que captura informações semânticas robustas das características faciais na imagem.
Um módulo leve adotado com um componente de atenção cruzada desacoplado para facilitar o uso de uma imagem como um prompt visual.
Um componente IdentityNet que codifica os recursos detalhados da imagem de referência usando controle espacial adicional.

Incorporação de ID

Ao contrário dos métodos existentes como FaceStudio, PhotoMaker, IP-Adapter e outros que dependem de um codificador de imagem CLIP pré-treinado para extrair prompts visuais, a estrutura InstantID se concentra em maior fidelidade e detalhes semânticos mais fortes na tarefa de preservação de ID. É importante notar que as limitações inerentes do componente CLIP residem principalmente em seu processo de treinamento em dados fracamente alinhados, o que significa que os recursos codificados do codificador CLIP capturam principalmente informações semânticas amplas e ambíguas, como cores, estilo e composição. Embora esses recursos possam atuar como complemento geral para incorporações de texto, eles não são adequados para tarefas precisas de preservação de ID que colocam grande ênfase em semântica forte e alta fidelidade. Além disso, pesquisas recentes em modelos de representação facial, especialmente em torno do reconhecimento facial, demonstraram a eficiência da representação facial em tarefas complexas, incluindo reconstrução e reconhecimento facial. Com base no mesmo, a estrutura InstantID visa aproveitar um modelo facial pré-treinado para detectar e extrair embeddings de ID facial da imagem de referência, orientando o modelo para geração de imagem.

Adaptador de imagem

A capacidade de texto pré-treinado para modelos de difusão de imagem em tarefas de prompt de imagem melhora significativamente os prompts de texto, especialmente para cenários que não podem ser descritos adequadamente pelos prompts de texto. A estrutura InstantID adota uma estratégia semelhante àquela usada pelo modelo IP-Adapter para prompts de imagens, que introduz um módulo adaptativo leve emparelhado com um componente de atenção cruzada desacoplado para suportar imagens como prompts de entrada. No entanto, ao contrário dos embeddings CLIP de alinhamento grosseiro, a estrutura InstantID diverge ao empregar embeddings de ID conforme a imagem solicita, na tentativa de obter uma integração imediata semanticamente rica e com mais nuances.

IdentidadeNet

Embora os métodos existentes sejam capazes de integrar os prompts de imagem com prompts de texto, a estrutura InstantID argumenta que esses métodos apenas aprimoram recursos de granulação grossa com um nível de integração que é insuficiente para a geração de imagens que preservam a ID. Além disso, adicionar tokens de imagem e texto em camadas de atenção cruzada tende diretamente a enfraquecer o controle dos tokens de texto, e uma tentativa de aumentar a força dos tokens de imagem pode resultar em prejudicar as habilidades dos tokens de texto em tarefas de edição. Para enfrentar esses desafios, a estrutura InstantID opta pelo ControlNet, um método alternativo de incorporação de recursos que utiliza informações espaciais como entrada para o módulo controlável, permitindo manter a consistência com as configurações UNet nos modelos de difusão.

A estrutura InstantID faz duas alterações na arquitetura ControlNet tradicional: para entradas condicionais, a estrutura InstantID opta por 5 pontos-chave faciais em vez de pontos-chave faciais OpenPose refinados. Segundo, a estrutura InstantID usa incorporações de ID em vez de prompts de texto como condições para as camadas de atenção cruzada na arquitetura ControlNet.

Treinamento e Inferência

Durante a fase de treinamento, a estrutura InstantID otimiza os parâmetros do IdentityNet e do Image Adapter enquanto congela os parâmetros do modelo de difusão pré-treinado. Todo o pipeline do InstantID é treinado em pares imagem-texto que apresentam seres humanos e emprega um objetivo de treinamento semelhante ao usado na estrutura de difusão estável com condições de imagem específicas da tarefa. O destaque do método de treinamento InstantID é a separação entre as camadas de atenção cruzada de imagem e texto dentro do adaptador de prompt de imagem, uma escolha que permite à estrutura InstantID ajustar os pesos dessas condições de imagem de forma flexível e independente, garantindo assim uma abordagem mais direcionada e controlada. processo de inferência e treinamento.

InstantID: experimentos e resultados

A estrutura InstantID implementa o Stable Diffusion e o treina no LAION-Face, um conjunto de dados de código aberto em grande escala que consiste em mais de 50 milhões de pares imagem-texto. Além disso, a estrutura InstantID coleta mais de 10 milhões de imagens humanas com automações geradas automaticamente pelo modelo BLIP2 para melhorar ainda mais a qualidade da geração de imagens. A estrutura InstantID concentra-se principalmente em imagens de uma única pessoa e emprega um modelo de rosto pré-treinado para detectar e extrair incorporações de identificação facial de imagens humanas e, em vez de treinar os conjuntos de dados de rostos recortados, treina as imagens humanas originais. Além disso, durante o treinamento, a estrutura InstantID congela o texto pré-treinado no modelo de imagem e atualiza apenas os parâmetros do IdentityNet e do Image Adapter.

Geração somente de imagem

O modelo InstantID usa um prompt vazio para orientar o processo de geração de imagem usando apenas a imagem de referência, e os resultados sem os prompts são demonstrados na imagem a seguir.

A geração de 'Prompt vazio', conforme demonstrado na imagem acima, demonstra a capacidade da estrutura InstantID de manter recursos faciais semânticos ricos, como identidade, idade e expressão, de forma robusta. No entanto, é importante notar que o uso de prompts vazios pode não ser capaz de replicar com precisão os resultados em outras semânticas, como gênero. Além disso, na imagem acima, as colunas 2 a 4 utilizam uma imagem e um prompt e, como pode ser visto, a imagem gerada não demonstra qualquer degradação nas capacidades de controle de texto, e também garante consistência de identidade. Por fim, as colunas 5 a 9 utilizam uma imagem, um prompt e um controle espacial, demonstrando a compatibilidade do modelo com modelos de controle espacial pré-treinados, permitindo que o modelo InstantID introduza controles espaciais de maneira flexível usando um componente ControlNet pré-treinado.

Vale ressaltar também que a quantidade de imagens de referência tem um impacto significativo na imagem gerada, conforme demonstrado na imagem acima. Embora a estrutura InstantID seja capaz de fornecer bons resultados usando uma única imagem de referência, múltiplas imagens de referência produzem uma imagem de melhor qualidade, uma vez que a estrutura InstantID considera a média média de incorporações de ID como prompt de imagem. Seguindo em frente, é essencial comparar a estrutura InstantID com métodos anteriores que geram imagens personalizadas usando uma única imagem de referência. A figura a seguir compara os resultados gerados pela estrutura InstantID e os modelos de última geração existentes para geração de imagens personalizadas de referência única.

Como pode ser visto, a estrutura InstantID é capaz de preservar as características faciais graças à incorporação de ID que carrega inerentemente informações semânticas ricas, como identidade, idade e sexo. Seria seguro dizer que a estrutura InstantID supera as estruturas existentes na geração de imagens personalizadas, uma vez que é capaz de preservar a identidade humana enquanto mantém o controle e a flexibilidade estilística.

Considerações Finais

Neste artigo falamos sobre InstantID, uma solução baseada em modelo de difusão para geração de imagens. InstantID é um módulo plug and play que lida habilmente com a geração e personalização de imagens em vários estilos com apenas uma única imagem de referência e também garante alta fidelidade. A estrutura InstantID concentra-se na síntese instantânea de imagens com preservação de identidade e tenta preencher a lacuna entre eficiência e alta fidelidade, introduzindo um módulo plug and play simples que permite que a estrutura lide com a personalização de imagens usando apenas uma única imagem facial, mantendo a alta fidelidade.

Tópicos relacionados:CLIP modelos de difusão ID Instantâneo Difusão Estável tiro zero

A seguir

Revivendo uma lenda digital: a transformação do LimeWire em uma potência de IA generativa

Não Perca

Uma evolução silenciosa na IA: a ascensão dos sistemas compostos de IA além dos modelos tradicionais de IA

Kunal Kejriwal

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.