Inteligência artificial
InstantID: Geração de Identidade-Preservação em Seconds
A tecnologia de geração de imagens impulsionada por IA tem experimentado um crescimento notável nos últimos anos, desde que grandes modelos de difusão de texto para imagem, como DALL-E, GLIDE, Stable Diffusion, Imagen e mais, entraram em cena. Apesar do fato de que os modelos de IA de geração de imagens têm arquiteturas e métodos de treinamento únicos, todos compartilham um ponto focal comum: geração de imagens personalizadas e customizadas que visam criar imagens com ID de personagem, assunto e estilo consistentes com base em imagens de referência. Devido às suas notáveis capacidades gerativas, os frameworks de geração de imagens de IA modernos encontraram aplicações em campos que incluem animação de imagens, realidade virtual, E-Commerce, retratos de IA e mais. No entanto, apesar de suas notáveis capacidades gerativas, esses frameworks todos compartilham um obstáculo comum, a maioria deles não consegue gerar imagens personalizadas preservando os delicados detalhes de identidade de objetos humanos.
Gerar imagens personalizadas preservando detalhes intricados é de importância crítica, especialmente em tarefas de identidade facial humana que exigem um alto padrão de fidelidade e detalhe, e semântica sutil em comparação com tarefas de geração de imagens de objetos gerais que se concentram principalmente em texturas e cores grosseiras. Além disso, os frameworks de síntese de imagens personalizadas nos últimos anos, como LoRA, DreamBooth, Textual Inversion e mais, avançaram significativamente. No entanto, os modelos de IA de geração de imagens personalizadas ainda não são perfeitos para implantação em cenários do mundo real, pois eles têm uma alta exigência de armazenamento, exigem múltiplas imagens de referência e frequentemente têm um longo processo de ajuste fino. Por outro lado, embora os métodos baseados em incorporação de ID existentes exijam apenas uma referência única, eles carecem de compatibilidade com modelos pré-treinados disponíveis publicamente, ou exigem um excessivo processo de ajuste fino em vários parâmetros, ou falham em manter a alta fidelidade facial.
Para abordar esses desafios e melhorar ainda mais as capacidades de geração de imagens, neste artigo, vamos falar sobre o InstantID, uma solução baseada em modelo de difusão para geração de imagens. O InstantID é um módulo plug and play que lida com a geração de imagens e personalização habilmente em vários estilos com apenas uma imagem de referência e também garante alta fidelidade. O objetivo principal deste artigo é fornecer aos nossos leitores uma compreensão aprofundada dos fundamentos técnicos e componentes do framework InstantID, pois teremos uma visão detalhada da arquitetura do modelo, do processo de treinamento e dos cenários de aplicação. Vamos começar.
InstantID: Geração de Imagem de Identidade-Preservação em Seconds
O surgimento de modelos de difusão de texto para imagem contribuiu significativamente para o avanço da tecnologia de geração de imagens. O objetivo principal desses modelos é a geração personalizada e customizada, criando imagens com assunto, estilo e ID de personagem consistentes usando uma ou mais imagens de referência. A capacidade desses frameworks de criar imagens consistentes criou aplicações potenciais em diferentes indústrias, incluindo animação de imagens, geração de retratos de IA, E-Commerce, realidade virtual e aumentada, e muito mais.
No entanto, apesar de suas notáveis capacidades, esses frameworks enfrentam um desafio fundamental: frequentemente lutam para gerar imagens personalizadas que preservem os detalhes intricados de assuntos humanos com precisão. É digno de nota que gerar imagens personalizadas com detalhes intrínsecos é uma tarefa desafiadora, pois a identidade facial humana exige um grau mais alto de fidelidade e detalhe, juntamente com semântica mais avançada, em comparação com objetos gerais ou estilos que se concentram principalmente em cores ou texturas grosseiras. Os modelos de IA de geração de imagens existentes dependem de descrições textuais detalhadas e lutam para alcançar uma forte relevância semântica para a geração de imagens personalizadas. Além disso, alguns grandes frameworks de texto para imagem pré-treinados adicionam controles de condicionamento espacial para melhorar a capacidade de controle, facilitando o controle estrutural de granulação fina usando elementos como poses corporais, mapas de profundidade, esboços feitos pelo usuário, mapas de segmentação semântica e mais. No entanto, apesar dessas adições e melhorias, esses frameworks são capazes de alcançar apenas a fidelidade parcial da imagem gerada para a imagem de referência.
Para superar esses obstáculos, o framework InstantID se concentra na síntese de imagem de identidade-preservação instantânea e tenta preencher a lacuna entre eficiência e alta fidelidade, introduzindo um módulo simples plug and play que permite que o framework lide com a personalização de imagens usando apenas uma imagem facial, mantendo alta fidelidade. Além disso, para preservar a identidade facial da imagem de referência, o framework InstantID implementa um codificador de face novo que retém os detalhes de imagem intricados, adicionando condições espaciais fracas e semânticas fortes que guiam o processo de geração de imagens, incorporando prompts textuais, imagem de referência e imagem facial.
Existem três recursos distintivos que separam o framework InstantID dos frameworks de geração de imagens de texto para imagem existentes.
- Compatibilidade e Conectividade: Em vez de treinar todos os parâmetros do framework UNet, o framework InstantID se concentra em treinar um adaptador leve. Como resultado, o framework InstantID é compatível e conectável com modelos pré-treinados existentes.
- Ajuste Livre: A metodologia do framework InstantID elimina a necessidade de ajuste fino, pois requer apenas uma única propagação para a inferência, tornando o modelo altamente prático e econômico para ajuste fino.
- Desempenho Superior: O framework InstantID demonstra alta flexibilidade e fidelidade, pois é capaz de entregar desempenho de estado da arte usando apenas uma imagem de referência, comparável a métodos baseados em treinamento que dependem de múltiplas imagens de referência.
No geral, as contribuições do framework InstantID podem ser categorizadas nos seguintes pontos.
- O framework InstantID é um método inovador de adaptação de preservação de ID para modelos de difusão de texto para imagem pré-treinados, com o objetivo de preencher a lacuna entre eficiência e fidelidade.
- O framework InstantID é compatível e conectável com modelos personalizados ajustados com o mesmo modelo de difusão em sua arquitetura, permitindo a preservação de ID em modelos pré-treinados sem custo adicional.
InstantID: Metodologia e Arquitetura
Como mencionado anteriormente, o framework InstantID é um adaptador leve eficiente que confere aos modelos de difusão de texto para imagem pré-treinados capacidades de preservação de ID sem esforço.
Falando sobre a arquitetura, o framework InstantID é construído sobre o modelo de Stable Diffusion, renomado por sua capacidade de realizar o processo de difusão com alta eficiência computacional em um espaço latente de baixa dimensão, em vez de espaço de pixel com um autoencoder. Para uma imagem de entrada, o encoder primeiro mapeia a imagem para uma representação latente com fator de downsampling e dimensões latentes. Além disso, para desruir um ruído normalmente distribuído com ruído latente, condição e timestep atual, o processo de difusão adota um componente de UNet de desruído. A condição é uma incorporação de prompts textuais que são gerados usando um componente de encoder de texto CLIP pré-treinado.
Além disso, o framework InstantID também utiliza um componente de ControlNet que é capaz de adicionar controle espacial a um modelo de difusão pré-treinado como sua condição, estendendo muito além das capacidades tradicionais de prompts textuais. O componente de ControlNet também integra a arquitetura de UNet do framework de Stable Diffusion usando uma réplica treinada do componente de UNet. A réplica do componente de UNet apresenta zero camadas de convolução dentro dos blocos médios e dos blocos de encoder. Apesar de suas semelhanças, o componente de ControlNet se distingue do modelo de Stable Diffusion; ambos diferem no item residual posterior. O componente de ControlNet codifica informações de condição espacial, como poses, mapas de profundidade, esboços e mais, adicionando os resíduos ao bloco de UNet, e então incorpora esses resíduos na rede original.
O framework InstantID também se inspira no IP-Adapter ou Adaptador de Prompt de Imagem, que introduz uma abordagem nova para alcançar capacidades de prompt de imagem que funcionam em paralelo com prompts textuais, sem exigir a modificação dos modelos de texto para imagem originais. O componente de IP-Adapter também emprega uma estratégia de atenção cruzada desacoplada única que usa camadas de atenção cruzada adicionais para incorporar as características de imagem, deixando os outros parâmetros inalterados.
Metodologia
Para dar uma visão geral, o framework InstantID visa gerar imagens personalizadas com diferentes estilos ou poses usando apenas uma imagem de referência de ID com alta fidelidade. A figura a seguir fornece uma visão geral do framework InstantID.

Como pode ser observado, o framework InstantID tem três componentes essenciais:
- Um componente de incorporação de ID que captura informações semânticas robustas das características faciais na imagem.
- Um módulo de adaptação leve com um componente de atenção cruzada desacoplada para facilitar o uso de uma imagem como um prompt visual.
- Um componente de IdentityNet que codifica as características detalhadas da imagem de referência usando controle espacial adicional.
Incorporação de ID
Diferentemente dos métodos existentes, como FaceStudio, PhotoMaker, IP-Adapter e mais, que dependem de um encoder de imagem CLIP pré-treinado para extrair prompts visuais, o framework InstantID se concentra em fidelidade aprimorada e detalhes semânticos mais fortes na tarefa de preservação de ID. É digno de nota que as limitações inerentes do componente CLIP residem principalmente em seu processo de treinamento em dados fracamente alinhados, significando que as características codificadas do encoder CLIP capturam principalmente informações semânticas amplas e ambíguas, como cores, estilo e composição. Embora essas características possam atuar como um suplemento geral para incorporações de texto, elas não são adequadas para tarefas de preservação de ID precisas que enfatizam fortes semânticas e alta fidelidade. Além disso, pesquisas recentes em modelos de representação facial, especialmente em torno do reconhecimento facial, demonstraram a eficiência da representação facial em tarefas complexas, incluindo reconstrução e reconhecimento facial. Com base nisso, o framework InstantID visa aproveitar um modelo de face pré-treinado para detectar e extrair incorporações de ID de face da imagem de referência, guiando o modelo para a geração de imagens.
Adaptador de Imagem
A capacidade dos modelos de difusão de texto para imagem pré-treinados em tarefas de prompt de imagem melhora significativamente os prompts textuais, especialmente para cenários que não podem ser descritos adequadamente por prompts textuais. O framework InstantID adota uma estratégia semelhante à usada pelo modelo IP-Adapter para prompt de imagem, que introduz um módulo de adaptação leve com um componente de atenção cruzada desacoplada para suportar imagens como prompts de entrada. No entanto, contrariamente às incorporações CLIP alinhadas grosseiramente, o framework InstantID se diverge ao empregar incorporações de ID como prompts de imagem em uma tentativa de alcançar uma integração de prompt mais rica semanticamente e mais sutil.
IdentityNet
Embora os métodos existentes sejam capazes de integrar os prompts de imagem com prompts textuais, o framework InstantID argumenta que esses métodos apenas melhoram as características de granulação grossa com um nível de integração que é insuficiente para a geração de imagens de preservação de ID. Além disso, adicionar os tokens de imagem e texto em camadas de atenção cruzada diretamente tende a enfraquecer o controle dos tokens de texto, e uma tentativa de melhorar a força dos tokens de imagem pode resultar em prejudicar as capacidades dos tokens de texto em tarefas de edição. Para contrariar esses desafios, o framework InstantID opta por ControlNet, um método de incorporação de recurso alternativo que utiliza informações espaciais como entrada para o módulo controlável, permitindo que ele mantenha a consistência com as configurações de UNet nos modelos de difusão.
O framework InstantID faz duas alterações na arquitetura tradicional de ControlNet: para entradas condicionais, o framework InstantID opta por 5 pontos-chave faciais em vez de pontos-chave faciais de granulação fina de OpenPose. Em segundo lugar, o framework InstantID usa incorporações de ID em vez de prompts textuais como condições para as camadas de atenção cruzada na arquitetura de ControlNet.
Treinamento e Inferência
Durante a fase de treinamento, o framework InstantID otimiza os parâmetros do IdentityNet e do Adaptador de Imagem, congelando os parâmetros do modelo de difusão pré-treinado. A pipeline completa do InstantID é treinada em pares de imagem-texto que apresentam sujeitos humanos e emprega um objetivo de treinamento semelhante ao usado no framework de stable diffusion, com condições de imagem específicas de tarefa. O destaque do método de treinamento do InstantID é a separação entre as camadas de atenção cruzada de imagem e texto dentro do adaptador de prompt de imagem, uma escolha que permite que o framework InstantID ajuste os pesos dessas condições de imagem de forma flexível e independente, garantindo um processo de inferência e treinamento mais direcionado e controlado.
InstantID: Experimentos e Resultados
O framework InstantID implementa o Stable Diffusion e o treina no LAION-Face, um conjunto de dados de grande escala e código aberto que consiste em mais de 50 milhões de pares de imagem-texto. Além disso, o framework InstantID coleta mais de 10 milhões de imagens humanas com automação geradas automaticamente pelo modelo BLIP2 para melhorar ainda mais a qualidade da geração de imagens. O framework InstantID se concentra principalmente em imagens de uma única pessoa e emprega um modelo de face pré-treinado para detectar e extrair incorporações de ID de face de imagens humanas, e, em vez de treinar os conjuntos de dados de face recortada, treina as imagens humanas originais. Além disso, durante o treinamento, o framework InstantID congela o modelo de texto para imagem pré-treinado e atualiza apenas os parâmetros do IdentityNet e do Adaptador de Imagem.
Geração de Imagem Apenas
O modelo InstantID usa um prompt vazio para guiar o processo de geração de imagem usando apenas a imagem de referência, e os resultados sem prompts são demonstrados na imagem a seguir.

A geração de ‘Prompt Vazio’ demonstrada na imagem acima demonstra a capacidade do framework InstantID de manter características faciais semânticas ricas, como identidade, idade e expressão, de forma robusta. No entanto, é digno de nota que usar prompts vazios pode não ser capaz de replicar os resultados em outras semânticas, como gênero, com precisão. Além disso, na imagem acima, as colunas 2 a 4 usam uma imagem e um prompt, e como pode ser visto, a imagem gerada não demonstra degradação nas capacidades de controle de texto e também garante a consistência de identidade. Finalmente, as colunas 5 a 9 usam uma imagem, um prompt e controle espacial, demonstrando a compatibilidade do modelo com modelos de controle espacial pré-treinados, permitindo que o modelo InstantID introduza controles espaciais de forma flexível usando um componente de ControlNet pré-treinado.

É também digno de nota que o número de imagens de referência tem um impacto significativo na imagem gerada, como demonstrado na imagem acima. Embora o framework InstantID seja capaz de entregar resultados bons usando uma única imagem de referência, múltiplas imagens de referência produzem uma imagem de melhor qualidade, pois o framework InstantID usa a média dos embeddings de ID como prompt de imagem. Prosseguindo, é essencial comparar o framework InstantID com métodos anteriores que geram imagens personalizadas usando uma única imagem de referência. A figura a seguir compara os resultados gerados pelo framework InstantID e pelos modelos de estado da arte existentes para a geração de imagens personalizadas com uma única referência.

Como pode ser visto, o framework InstantID é capaz de preservar as características faciais graças à incorporação de ID que carrega informações semânticas ricas, como identidade, idade e gênero. Pode-se dizer com segurança que o framework InstantID supera os frameworks existentes na geração de imagens personalizadas, pois é capaz de preservar a identidade humana enquanto mantém o controle e a flexibilidade estilística.

Pensamentos Finais
Neste artigo, falamos sobre o InstantID, uma solução baseada em modelo de difusão para geração de imagens. O InstantID é um módulo plug and play que lida com a geração de imagens e personalização habilmente em vários estilos com apenas uma imagem de referência e também garante alta fidelidade. O framework InstantID se concentra na síntese de imagem de identidade-preservação instantânea e tenta preencher a lacuna entre eficiência e alta fidelidade, introduzindo um módulo simples plug and play que permite que o framework lide com a personalização de imagens usando apenas uma imagem facial, mantendo alta fidelidade.










