Connect with us

EasyPhoto: Seu Gerador de Fotos de IA Pessoal

Inteligência artificial

EasyPhoto: Seu Gerador de Fotos de IA Pessoal

mm
EasyPhoto : Your Personal AI Portrait Generator

Stable Diffusion Web User Interface, ou SD-WebUI, é um projeto abrangente para modelos de Stable Diffusion que utiliza a biblioteca Gradio para fornecer uma interface de navegador. Hoje, vamos falar sobre o EasyPhoto, um plugin inovador de WebUI que permite que os usuários finais gerem retratos e imagens de IA. O plugin de WebUI do EasyPhoto cria retratos de IA usando vários modelos, suportando diferentes estilos de foto e múltiplas modificações. Além disso, para melhorar ainda mais as capacidades do EasyPhoto, os usuários podem gerar imagens usando o modelo SDXL para obter resultados mais satisfatórios, precisos e diversificados. Vamos começar.

Uma Introdução ao EasyPhoto e à Stable Diffusion

A estrutura de Stable Diffusion é uma estrutura de geração de difusão popular e robusta usada por desenvolvedores para gerar imagens realistas com base em descrições de texto de entrada. Graças às suas capacidades, a estrutura de Stable Diffusion tem uma ampla gama de aplicações, incluindo pintura de imagem, inpainting de imagem e tradução de imagem para imagem. A Interface de Usuário da Web de Stable Diffusion, ou SD-WebUI, se destaca como uma das aplicações mais populares e conhecidas dessa estrutura. Ela apresenta uma interface de navegador construída na biblioteca Gradio, fornecendo uma interface interativa e amigável para os modelos de Stable Diffusion. Para melhorar ainda mais o controle e a usabilidade na geração de imagens, a SD-WebUI integra numerousas aplicações de Stable Diffusion.

Devido à conveniência oferecida pela estrutura da SD-WebUI, os desenvolvedores da estrutura do EasyPhoto decidiram criá-la como um plugin da web em vez de um aplicativo completo. Em contraste com os métodos existentes que muitas vezes sofrem de perda de identidade ou introduzem recursos irrealistas nas imagens, a estrutura do EasyPhoto aproveita as capacidades de imagem para imagem dos modelos de Stable Diffusion para produzir imagens precisas e realistas. Os usuários podem facilmente instalar a estrutura do EasyPhoto como uma extensão dentro da WebUI, melhorando a amigabilidade e acessibilidade para uma ampla gama de usuários. A estrutura do EasyPhoto permite que os usuários gerem retratos de IA orientados por identidade, de alta qualidade e realistas que se assemelham estreitamente à identidade de entrada.

Primeiramente, a estrutura do EasyPhoto pede aos usuários que criem seu duplo digital carregando algumas imagens para treinar um modelo de face LoRA ou Adaptação de Baixa Classificação online. A estrutura LoRA ajusta rapidamente os modelos de difusão usando a tecnologia de adaptação de baixa classificação. Esse processo permite que o modelo base compreenda as informações de ID do usuário. Os modelos treinados são então mesclados e integrados ao modelo de Stable Diffusion de base para interferência. Além disso, durante o processo de interferência, o modelo usa modelos de difusão estável em uma tentativa de repintar as regiões faciais no modelo de interferência, e a semelhança entre as imagens de entrada e saída é verificada usando as várias unidades ControlNet.

A estrutura do EasyPhoto também implanta um processo de difusão em duas etapas para lidar com problemas potenciais como artefatos de limite e perda de identidade, garantindo que as imagens geradas minimizem as inconsistências visuais enquanto mantêm a identidade do usuário. Além disso, o pipeline de interferência na estrutura do EasyPhoto não está limitado apenas à geração de retratos, mas também pode ser usado para gerar qualquer coisa relacionada à ID do usuário. Isso implica que, uma vez que você treine o modelo LoRA para uma ID específica, você pode gerar uma ampla variedade de imagens de IA, e assim pode ter aplicações generalizadas, incluindo try-ons virtuais.

Para resumir, a estrutura do EasyPhoto

  1. Propõe uma abordagem nova para treinar o modelo LoRA incorporando vários modelos LoRA para manter a fidelidade facial das imagens geradas.
  2. Faz uso de vários métodos de aprendizado por reforço para otimizar os modelos LoRA para recompensas de identidade facial que ajudam a melhorar a semelhança de identidades entre as imagens de treinamento e os resultados gerados.
  3. Propõe um processo de difusão baseado em inpainting em duas etapas que visa gerar fotos de IA com alta estética e semelhança.

EasyPhoto: Arquitetura e Treinamento

A figura a seguir demonstra o processo de treinamento da estrutura de IA do EasyPhoto.

Como pode ser visto, a estrutura primeiro pede aos usuários que forneçam as imagens de treinamento e, em seguida, realiza a detecção de face para detectar as localizações da face. Uma vez que a estrutura detecta a face, ela recorta a imagem de entrada usando uma razão pré-definida que se concentra apenas na região facial. A estrutura, em seguida, implanta um modelo de beleza de pele e um modelo de detecção de saliência para obter uma imagem de face de treinamento limpa e clara. Esses dois modelos desempenham um papel fundamental na melhoria da qualidade visual da face e garantem que as informações de fundo tenham sido removidas e a imagem de treinamento contenha predominantemente a face. Finalmente, a estrutura usa essas imagens processadas e prompts de entrada para treinar o modelo LoRA, equipando-o com a capacidade de compreender as características faciais específicas do usuário de forma mais eficaz e precisa.

Além disso, durante a fase de treinamento, a estrutura inclui uma etapa de validação crítica, na qual a estrutura calcula a lacuna de ID de face entre a imagem de entrada do usuário e a imagem de verificação gerada pelo modelo LoRA treinado. A etapa de validação é um processo fundamental que desempenha um papel fundamental na obtenção da fusão dos modelos LoRA, garantindo que o modelo LoRA treinado se transforme em um duplo, ou uma representação digital precisa do usuário. Além disso, a imagem de verificação que tem a pontuação de ID de face ótima será selecionada como a imagem de ID de face, e essa imagem de ID de face será usada para melhorar a semelhança de identidade da geração de interferência.

Em seguida, com base no processo de ensemble, a estrutura treina os modelos LoRA com a estimativa de probabilidade como o objetivo principal, enquanto a preservação da semelhança de identidade facial é o objetivo downstream. Para lidar com esse problema, a estrutura do EasyPhoto faz uso de técnicas de aprendizado por reforço para otimizar o objetivo downstream diretamente. Como resultado, as características faciais que os modelos LoRA aprendem apresentam uma melhoria que leva a uma semelhança aprimorada entre os resultados gerados pelo modelo e também demonstra a generalização entre os modelos.

Processo de Interferência

A figura a seguir demonstra o processo de interferência para um ID de usuário individual na estrutura do EasyPhoto e é dividida em três partes

  • Pré-processamento de Face para obter a referência ControlNet e a imagem de entrada pré-processada.
  • Primeira Difusão que ajuda a gerar resultados grosseiros que se assemelham à entrada do usuário.
  • Segunda Difusão que corrige os artefatos de limite, tornando as imagens mais precisas e realistas.

Para a entrada, a estrutura recebe uma imagem de ID de face (gerada durante a validação do treinamento usando a pontuação de ID de face ótima) e um modelo de interferência. A saída é um retrato de alta qualidade e realista do usuário, que se assemelha estreitamente à identidade e à aparência única do usuário com base no modelo de interferência. Vamos dar uma olhada detalhada nesses processos.

Pré-processamento de Face

Uma maneira de gerar um retrato de IA com base em um modelo de interferência sem raciocínio consciente é usar o modelo SD para inpainting a região facial no modelo de interferência. Além disso, adicionar a estrutura ControlNet ao processo não apenas melhora a preservação da identidade do usuário, mas também melhora a semelhança entre as imagens geradas. No entanto, usar ControlNet diretamente para inpainting regional pode introduzir problemas potenciais que podem incluir

  • Inconsistência entre a Imagem de Entrada e a Imagem Gerada: É evidente que os pontos-chave na imagem do modelo não são compatíveis com os pontos-chave na imagem de ID de face, o que é por que usar ControlNet com a imagem de ID de face como referência pode levar a algumas inconsistências na saída.
  • Defeitos na Região de Inpainting: Mascarar uma região e, em seguida, inpainting com uma nova face pode levar a defeitos notáveis, especialmente ao longo da borda de inpainting, o que não apenas afetará a autenticidade da imagem gerada, mas também afetará negativamente a realidade da imagem.
  • Perda de Identidade por Control Net: Como o processo de treinamento não utiliza a estrutura ControlNet, usar ControlNet durante a fase de interferência pode afetar a capacidade dos modelos LoRA treinados de preservar a identidade do usuário.

Para lidar com os problemas mencionados acima, a estrutura do EasyPhoto propõe três procedimentos.

  • Alinhar e Colar: Usando um algoritmo de colagem de face, a estrutura do EasyPhoto visa lidar com o problema de discordância entre marcos faciais entre a imagem de ID de face e a imagem do modelo. Primeiramente, o modelo calcula os marcos faciais da imagem de ID de face e da imagem do modelo, seguindo o que o modelo determina a matriz de transformação afim que será usada para alinhar os marcos faciais da imagem do modelo com a imagem de ID de face. A imagem resultante retém os mesmos marcos da imagem de ID de face e também se alinha com a imagem do modelo.
  • Fusão de Face: Fusão de Face é uma abordagem nova usada para corrigir os artefatos de limite resultantes de inpainting de máscara, e envolve a retificação de artefatos usando a estrutura ControlNet. O método permite que a estrutura do EasyPhoto garanta a preservação de bordas harmônicas e, assim, guie o processo de geração de imagens. O algoritmo de fusão de face funde a imagem (imagens de usuário reais) e o modelo, permitindo que a imagem resultante exiba uma melhor estabilização das bordas, o que leva a uma saída aprimorada durante a primeira etapa de difusão.
  • Validação Guiada por ControlNet: Como os modelos LoRA não foram treinados usando a estrutura ControlNet, usá-la durante o processo de inferência pode afetar a capacidade do modelo LoRA de preservar as identidades. Para melhorar as capacidades de generalização do EasyPhoto, a estrutura considera a influência da estrutura ControlNet e incorpora modelos LoRA de diferentes estágios.

Primeira Difusão

A primeira etapa de difusão usa a imagem do modelo para gerar uma imagem com uma ID única que se assemelha à ID de entrada do usuário. A imagem de entrada é uma fusão da imagem de entrada do usuário e da imagem do modelo, enquanto a máscara facial calibrada é a máscara de entrada. Para aumentar ainda mais o controle sobre a geração de imagens, a estrutura do EasyPhoto integra três unidades ControlNet, onde a primeira unidade ControlNet se concentra no controle das imagens fundidas, a segunda unidade ControlNet controla as cores da imagem fundida, e a terceira unidade ControlNet é a pose aberta (controle de pose humana em tempo real) da imagem substituída, que não apenas contém a estrutura facial da imagem do modelo, mas também a identidade facial do usuário.

Segunda Difusão

Na segunda etapa de difusão, os artefatos próximos à borda da face são refinados e ajustados, além de fornecer aos usuários a flexibilidade de mascarar uma região específica na imagem para melhorar a eficácia da geração dentro daquela área dedicada. Nessa etapa, a estrutura funde a imagem de saída obtida da primeira etapa de difusão com a imagem roop ou o resultado da imagem do usuário, gerando assim a imagem de entrada para a segunda etapa de difusão. No geral, a segunda etapa de difusão desempenha um papel fundamental na melhoria da qualidade geral e dos detalhes da imagem gerada.

IDs de Múltiplos Usuários

Um dos destaques do EasyPhoto é seu suporte à geração de múltiplos IDs de usuário, e a figura abaixo demonstra o pipeline do processo de interferência para IDs de múltiplos usuários na estrutura do EasyPhoto.

Para fornecer suporte à geração de IDs de múltiplos usuários, a estrutura do EasyPhoto primeiro realiza a detecção de face no modelo de interferência. Esses modelos de interferência são então divididos em várias máscaras, onde cada máscara contém apenas uma face, e o restante da imagem é mascarado em branco, quebrando assim a geração de IDs de múltiplos usuários em uma tarefa simples de geração de IDs de usuário individuais. Uma vez que a estrutura gera as imagens de ID de usuário, essas imagens são mescladas no modelo de interferência, facilitando assim uma integração sem problemas das imagens do modelo com as imagens geradas, o que resulta em uma imagem de alta qualidade.

Experimentos e Resultados

Agora que temos uma compreensão da estrutura do EasyPhoto, é hora de explorarmos o desempenho da estrutura do EasyPhoto.

A imagem acima é gerada pelo plugin do EasyPhoto e usa um modelo de SD baseado em estilo para a geração de imagens. Como pode ser observado, as imagens geradas parecem realistas e são bastante precisas.

A imagem adicionada acima é gerada pela estrutura do EasyPhoto usando um modelo de SD baseado em estilo de quadrinhos. Como pode ser visto, as fotos de quadrinhos e as fotos realistas parecem bastante realistas e se assemelham estreitamente à imagem de entrada com base nos prompts ou requisitos do usuário.

A imagem adicionada abaixo foi gerada pela estrutura do EasyPhoto usando um modelo de múltiplas pessoas. Como pode ser claramente visto, as imagens geradas são claras, precisas e se assemelham à imagem original.

Com a ajuda do EasyPhoto, os usuários agora podem gerar uma ampla variedade de retratos de IA, ou gerar múltiplos IDs de usuário usando modelos preservados, ou usar o modelo de SD para gerar modelos de interferência. As imagens adicionadas acima demonstram a capacidade da estrutura do EasyPhoto em produzir imagens de IA diversificadas e de alta qualidade.

Conclusão

Neste artigo, falamos sobre o EasyPhoto, um plugin de WebUI inovador que permite que os usuários finais gerem retratos e imagens de IA. O plugin de WebUI do EasyPhoto gera retratos de IA usando modelos arbitrários e as implicações atuais do plugin de WebUI do EasyPhoto suportam diferentes estilos de foto e múltiplas modificações. Além disso, para melhorar ainda mais as capacidades do EasyPhoto, os usuários têm a flexibilidade de gerar imagens usando o modelo SDXL para gerar imagens mais satisfatórias, precisas e diversificadas. A estrutura do EasyPhoto utiliza um modelo de difusão estável acoplado a um modelo LoRA pré-treinado que produz saídas de imagem de alta qualidade.

Interessado em geradores de imagens? Também fornecemos uma lista dos Melhores Geradores de Fotos de Perfil de IA e os Melhores Geradores de Arte de IA que são fáceis de usar e não exigem conhecimento técnico.

Um engenheiro por profissão, um escritor por coração. Kunal é um escritor técnico com um amor e compreensão profundos de AI e ML, dedicado a simplificar conceitos complexos nestes campos por meio de sua documentação envolvente e informativa.