Inteligência artificial

EasyPhoto: seu gerador pessoal de fotos com IA

Atualização do on 30 de outubro de 2023

EasyPhoto: seu gerador pessoal de retratos de IA

Difusão Estável Web User Interface, ou SD-WebUI, é um projeto abrangente para modelos de difusão estável que utiliza a biblioteca Gradio para fornecer uma interface de navegador. Hoje vamos falar sobre EasyPhoto, um plugin WebUI inovador que permite aos usuários finais gerar retratos e imagens de IA. O plugin EasyPhoto WebUI cria retratos de IA usando vários modelos, suportando diferentes estilos de fotos e múltiplas modificações. Além disso, para aprimorar ainda mais os recursos do EasyPhoto, os usuários podem gerar imagens usando o modelo SDXL para obter resultados mais satisfatórios, precisos e diversificados. Vamos começar.

Uma introdução ao EasyPhoto e à difusão estável

A estrutura Stable Diffusion é uma estrutura de geração baseada em difusão popular e robusta usada por desenvolvedores para gerar imagens realistas com base em descrições de texto de entrada. Graças às suas capacidades, a estrutura Stable Diffusion possui uma ampla gama de aplicações, incluindo pintura externa de imagem, pintura interna de imagem e tradução de imagem para imagem. A Stable Diffusion Web UI, ou SD-WebUI, destaca-se como uma das aplicações mais populares e conhecidas deste framework. Possui uma interface de navegador construída na biblioteca Gradio, fornecendo uma interface interativa e fácil de usar para modelos de difusão estável. Para melhorar ainda mais o controle e a usabilidade na geração de imagens, o SD-WebUI integra vários aplicativos de difusão estável.

Devido à conveniência oferecida pela estrutura SD-WebUI, os desenvolvedores da estrutura EasyPhoto decidiram criá-lo como um plugin da web em vez de um aplicativo completo. Em contraste com os métodos existentes que muitas vezes sofrem com a perda de identidade ou introduzem recursos irrealistas nas imagens, a estrutura EasyPhoto aproveita os recursos imagem a imagem dos modelos de Difusão Estável para produzir imagens precisas e realistas. Os usuários podem instalar facilmente a estrutura EasyPhoto como uma extensão dentro da WebUI, melhorando a facilidade de uso e a acessibilidade para uma gama mais ampla de usuários. A estrutura EasyPhoto permite que os usuários gerem informações orientadas por identidade, de alta qualidade e retratos realistas de IA que se assemelham muito à identidade de entrada.

Primeiro, a estrutura EasyPhoto pede aos usuários que criem seu doppelganger digital enviando algumas imagens para treinar um modelo LoRA facial ou modelo de adaptação de baixo nível online. A estrutura LoRA ajusta rapidamente os modelos de difusão, fazendo uso de tecnologia de adaptação de baixo escalão. Este processo permite que o modelo baseado compreenda as informações de ID de usuários específicos. Os modelos treinados são então mesclados e integrados ao modelo de difusão estável de linha de base para interferência. Além disso, durante o processo de interferência, o modelo utiliza modelos de difusão estáveis na tentativa de repintar as regiões faciais no modelo de interferência, e a similaridade entre as imagens de entrada e saída é verificada utilizando as diversas unidades ControlNet.

A estrutura EasyPhoto também implementa um processo de difusão em dois estágios para lidar com problemas potenciais, como artefatos de limites e perda de identidade, garantindo assim que as imagens geradas minimizem inconsistências visuais, mantendo a identidade do usuário. Além disso, o pipeline de interferência no framework EasyPhoto não se limita apenas à geração de retratos, mas também pode ser usado para gerar qualquer coisa relacionada ao ID do usuário. Isso implica que uma vez que você treine o Modelo LoRA para um ID específico, você pode gerar uma ampla variedade de imagens de IA e, portanto, pode ter aplicações generalizadas, incluindo testes virtuais.

Resumindo, a estrutura EasyPhoto

Propõe uma nova abordagem para treinar o modelo LoRA incorporando vários modelos LoRA para manter a fidelidade facial das imagens geradas.
Faz uso de vários métodos de aprendizagem por reforço para otimizar os modelos LoRA para recompensas de identidade facial, o que ajuda ainda mais a melhorar a semelhança de identidades entre as imagens de treinamento e os resultados gerados.
Propõe um processo de difusão baseado em inpaint de dois estágios que visa gerar fotos de IA com alta estética e semelhança.

EasyPhoto: Arquitetura e Treinamento

A figura a seguir demonstra o processo de treinamento da estrutura EasyPhoto AI.

Como pode ser visto, a estrutura primeiro pede aos usuários que insiram as imagens de treinamento e, em seguida, realiza a detecção de rostos para detectar a localização dos rostos. Depois que a estrutura detecta o rosto, ela corta a imagem de entrada usando uma proporção específica predefinida que foca apenas na região facial. A estrutura então implanta um modelo de embelezamento da pele e detecção de saliência para obter uma imagem de treinamento facial limpa e clara. Esses dois modelos desempenham um papel crucial na melhoria da qualidade visual do rosto e também garantem que a informação de fundo seja removida e que a imagem de treinamento contenha predominantemente o rosto. Finalmente, a estrutura usa essas imagens processadas e prompts de entrada para treinar o modelo LoRA, equipando-o assim com a capacidade de compreender características faciais específicas do usuário de forma mais eficaz e precisa.

Além disso, durante a fase de treinamento, a estrutura inclui uma etapa crítica de validação, na qual a estrutura calcula a lacuna de identificação facial entre a imagem de entrada do usuário e a imagem de verificação que foi gerada pelo modelo LoRA treinado. A etapa de validação é um processo fundamental que desempenha um papel fundamental na concretização da fusão dos modelos LoRA, garantindo, em última análise, que o estrutura LoRA treinada se transforma em um doppelganger, ou uma representação digital precisa do usuário. Além disso, a imagem de verificação que possui a pontuação face_id ideal será selecionada como a imagem face_id, e essa imagem face_id será então usada para melhorar a similaridade de identidade da geração de interferência.

Seguindo em frente, com base no processo de conjunto, a estrutura treina os modelos LoRA com a estimativa de probabilidade sendo o objetivo principal, enquanto a preservação da similaridade da identidade facial é o objetivo posterior. Para resolver esse problema, a estrutura EasyPhoto faz uso de técnicas de aprendizagem por reforço para otimizar diretamente o objetivo downstream. Como resultado, as características faciais que os modelos LoRA aprendem apresentam melhorias que levam a uma maior similaridade entre os resultados gerados pelo modelo e também demonstram a generalização entre os modelos.

Processo de interferência

A figura a seguir demonstra o processo de interferência para um ID de usuário individual na estrutura EasyPhoto e está dividido em três partes

Pré-processamento facial para obtenção da referência ControlNet e da imagem de entrada pré-processada.

Primeira Difusão isso ajuda a gerar resultados aproximados que se assemelham à entrada do usuário.

Segunda Difusão que corrige os artefatos de limite, tornando as imagens mais precisas e parecendo mais realistas.

Para a entrada, a estrutura usa uma imagem face_id (gerada durante a validação do treinamento usando a pontuação face_id ideal) e um modelo de interferência. A saída é um retrato altamente detalhado, preciso e realista do usuário e se assemelha muito à identidade e aparência única do usuário com base no modelo de inferência. Vamos dar uma olhada detalhada nesses processos.

Pré-processamento facial

Uma maneira de gerar um retrato de IA baseado em um modelo de interferência sem raciocínio consciente é usar o modelo SD para pintar a região facial no modelo de interferência. Além disso, adicionar o framework ControlNet ao processo não só melhora a preservação da identidade do usuário, mas também aumenta a similaridade entre as imagens geradas. No entanto, usar o ControlNet diretamente para pintura regional pode apresentar possíveis problemas que podem incluir

Inconsistência entre a entrada e a imagem gerada: É evidente que os pontos-chave na imagem do modelo não são compatíveis com os pontos-chave na imagem face_id e é por isso que usar ControlNet com a imagem face_id como referência pode levar a algumas inconsistências na saída.

Defeitos na região Inpaint: Mascarar uma região e depois pintá-la com uma nova face pode levar a defeitos visíveis, especialmente ao longo do limite da pintura, que não só afetarão a autenticidade da imagem gerada, mas também afetarão negativamente o realismo da imagem.
Perda de identidade por rede de controle: Como o processo de treinamento não utiliza a estrutura ControlNet, o uso do ControlNet durante a fase de interferência pode afetar a capacidade dos modelos LoRA treinados de preservar a identidade do ID do usuário de entrada.

Para resolver os problemas mencionados acima, a estrutura EasyPhoto propõe três procedimentos.

Alinhar e colar: Ao usar um algoritmo de colagem facial, a estrutura EasyPhoto visa resolver o problema de incompatibilidade entre pontos de referência faciais entre a identificação facial e o modelo. Primeiro, o modelo calcula os pontos de referência faciais do face_id e da imagem do modelo, após o que o modelo determina a matriz de transformação afim que será usada para alinhar os pontos de referência faciais da imagem do modelo com a imagem do face_id. A imagem resultante mantém os mesmos pontos de referência da imagem face_id e também se alinha com a imagem do modelo.

Fusível facial: Face Fuse é uma nova abordagem usada para corrigir os artefatos de limite resultantes da pintura da máscara e envolve a retificação de artefatos usando a estrutura ControlNet. O método permite que a estrutura EasyPhoto garanta a preservação de bordas harmoniosas e, assim, em última análise, oriente o processo de geração de imagens. O algoritmo de fusão facial funde ainda mais a imagem roop (imagens de usuário de verdade) e o modelo, o que permite que a imagem fundida resultante exiba melhor estabilização dos limites da borda, o que leva a uma saída aprimorada durante o primeiro estágio de difusão.
Validação guiada pelo ControlNet: Como os modelos LoRA não foram treinados usando a estrutura ControlNet, usá-la durante o processo de inferência pode afetar a capacidade do modelo LoRA de preservar as identidades. A fim de aprimorar as capacidades de generalização do EasyPhoto, a estrutura considera a influência da estrutura ControlNet e incorpora modelos LoRA de diferentes estágios.

Primeira Difusão

O primeiro estágio de difusão usa a imagem do modelo para gerar uma imagem com um ID exclusivo que se assemelha ao ID do usuário de entrada. A imagem de entrada é uma fusão da imagem de entrada do usuário e da imagem do modelo, enquanto a máscara facial calibrada é a máscara de entrada. Para aumentar ainda mais o controle sobre a geração de imagens, o framework EasyPhoto integra três unidades ControlNet onde a primeira unidade ControlNet se concentra no controle das imagens fundidas, a segunda unidade ControlNet controla as cores da imagem fundida e a unidade ControlNet final é o openpose. (controle de pose humana de várias pessoas em tempo real) da imagem substituída que contém não apenas a estrutura facial da imagem do modelo, mas também a identidade facial do usuário.

Segunda Difusão

No segundo estágio de difusão, os artefatos próximos ao limite da face são refinados e ajustados, além de fornecer aos usuários a flexibilidade de mascarar uma região específica da imagem, na tentativa de aumentar a eficácia da geração dentro dessa área dedicada. Nesta etapa, o framework funde a imagem de saída obtida no primeiro estágio de difusão com a imagem roop ou resultado da imagem do usuário, gerando assim a imagem de entrada para o segundo estágio de difusão. No geral, o segundo estágio de difusão desempenha um papel crucial na melhoria da qualidade geral e dos detalhes da imagem gerada.

IDs de vários usuários

Um dos destaques do EasyPhoto é o suporte para geração de IDs de múltiplos usuários, e a figura abaixo demonstra o pipeline do processo de interferência para IDs de múltiplos usuários no framework EasyPhoto.

Para fornecer suporte para geração de ID multiusuário, a estrutura EasyPhoto primeiro realiza a detecção de rosto no modelo de interferência. Esses modelos de interferência são então divididos em inúmeras máscaras, onde cada máscara contém apenas uma face e o restante da imagem é mascarado em branco, dividindo assim a geração de ID multiusuário em uma tarefa simples de geração de IDs de usuário individuais. Depois que a estrutura gera as imagens de ID do usuário, essas imagens são mescladas no modelo de inferência, facilitando assim uma integração perfeita das imagens do modelo com as imagens geradas, o que resulta em uma imagem de alta qualidade.

Experimentos e resultados

Agora que entendemos a estrutura EasyPhoto, é hora de explorarmos o desempenho da estrutura EasyPhoto.

A imagem acima é gerada pelo plugin EasyPhoto e usa um modelo SD baseado em estilo para a geração da imagem. Como pode ser observado, as imagens geradas parecem realistas e bastante precisas.

A imagem adicionada acima é gerada pela estrutura EasyPhoto usando um modelo SD baseado em Comic Style. Como pode ser visto, as fotos em quadrinhos e as fotos realistas parecem bastante realistas e se assemelham muito à imagem de entrada com base nas solicitações ou requisitos do usuário.

A imagem adicionada abaixo foi gerada pelo framework EasyPhoto utilizando um template Multi-Person. Como pode ser visto claramente, as imagens geradas são claras, precisas e se assemelham à imagem original.

Com a ajuda do EasyPhoto, os usuários agora podem gerar uma ampla variedade de retratos de IA ou gerar vários IDs de usuário usando modelos preservados ou usar o modelo SD para gerar modelos de inferência. As imagens adicionadas acima demonstram a capacidade da estrutura EasyPhoto em produzir imagens de IA diversas e de alta qualidade.

Conclusão

Neste artigo, falamos sobre EasyPhoto, um novo plugin WebUI que permite aos usuários finais gerar retratos e imagens de IA. O plugin EasyPhoto WebUI gera retratos de IA usando modelos arbitrários, e as implicações atuais do EasyPhoto WebUI suportam diferentes estilos de fotos e múltiplas modificações. Além disso, para aprimorar ainda mais os recursos do EasyPhoto, os usuários têm a flexibilidade de gerar imagens usando o modelo SDXL para gerar imagens mais satisfatórias, precisas e diversificadas. A estrutura EasyPhoto utiliza um modelo de base de difusão estável acoplado a um modelo LoRA pré-treinado que produz saídas de imagem de alta qualidade.

Interessado em geradores de imagens? Também fornecemos uma lista dos Melhores geradores de tiro na cabeça de IA e os votos de Melhores geradores de imagens de IA que são fáceis de usar e não requerem conhecimentos técnicos.

Tópicos relacionados:foto fácil

A seguir

ChatDev: Agentes Comunicativos para Desenvolvimento de Software

Não Perca

A expansão estratégica do Google em IA: uma aposta de US$ 2 bilhões na Anthropic

Kunal Kejriwal

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.

Unir-se.AI

EasyPhoto: seu gerador pessoal de fotos com IA

Inteligência artificial

EasyPhoto: seu gerador pessoal de fotos com IA

Índice analítico

Uma introdução ao EasyPhoto e à difusão estável

EasyPhoto: Arquitetura e Treinamento