Connect with us

EasyPhoto: Tu Generador de Fotos de IA Personalizado

Inteligencia artificial

EasyPhoto: Tu Generador de Fotos de IA Personalizado

mm
EasyPhoto : Your Personal AI Portrait Generator

Stable Diffusion Interfaz de usuario web, o SD-WebUI, es un proyecto integral para los modelos de Stable Diffusion que utiliza la biblioteca Gradio para proporcionar una interfaz en el navegador. Hoy, vamos a hablar sobre EasyPhoto, un innovador plugin de WebUI que permite a los usuarios finales generar retratos y imágenes de IA. El plugin de WebUI de EasyPhoto crea retratos de IA utilizando varios plantillas, admitiendo diferentes estilos de foto y múltiples modificaciones. Además, para mejorar aún más las capacidades de EasyPhoto, los usuarios pueden generar imágenes utilizando el modelo SDXL para obtener resultados más satisfactorios, precisos y diversos. Comencemos.

Introducción a EasyPhoto y Stable Diffusion

El marco de Stable Diffusion es un marco de generación de difusión popular y robusto utilizado por los desarrolladores para generar imágenes realistas en función de descripciones de texto de entrada. Gracias a sus capacidades, el marco de Stable Diffusion cuenta con una amplia gama de aplicaciones, incluyendo la pintura fuera de los límites de la imagen, la pintura dentro de los límites de la imagen y la traducción de imagen a imagen. La Interfaz de usuario web de Stable Diffusion, o SD-WebUI, se destaca como una de las aplicaciones más populares y conocidas de este marco. Cuenta con una interfaz en el navegador construida sobre la biblioteca Gradio, proporcionando una interfaz interactiva y fácil de usar para los modelos de Stable Diffusion. Para mejorar aún más el control y la usabilidad en la generación de imágenes, SD-WebUI integra numerosas aplicaciones de Stable Diffusion.

Debido a la conveniencia que ofrece el marco de SD-WebUI, los desarrolladores del marco de EasyPhoto decidieron crearlo como un plugin de web en lugar de una aplicación completa. A diferencia de los métodos existentes que a menudo sufren de pérdida de identidad o introducen características poco realistas en las imágenes, el marco de EasyPhoto aprovecha las capacidades de imagen a imagen de los modelos de Stable Diffusion para producir imágenes precisas y realistas. Los usuarios pueden instalar fácilmente el marco de EasyPhoto como una extensión dentro de la WebUI, lo que mejora la amigabilidad y la accesibilidad para un conjunto más amplio de usuarios. El marco de EasyPhoto permite a los usuarios generar retratos de IA guiados por la identidad, de alta calidad y realistas que se asemejan mucho a la identidad de entrada.

Primero, el marco de EasyPhoto solicita a los usuarios que creen su doppelganger digital subiendo varias imágenes para entrenar un modelo de LoRA o Adaptación de bajo rango en línea. El marco de LoRA ajusta rápidamente los modelos de difusión utilizando la tecnología de adaptación de bajo rango. Este proceso permite que el modelo base comprenda la información de ID de los usuarios específicos. Los modelos entrenados se fusionan e integran en el modelo de Stable Diffusion base para la interferencia. Además, durante el proceso de interferencia, el modelo utiliza los modelos de difusión estable en un intento de repintar las regiones faciales en la plantilla de interferencia, y se verifican las similitudes entre las imágenes de entrada y salida utilizando las diversas unidades de ControlNet.

El marco de EasyPhoto también despliega un proceso de difusión de dos etapas para abordar problemas potenciales como los artefactos de límite e identidad, garantizando que las imágenes generadas minimicen las inconsistencias visuales mientras mantienen la identidad del usuario. Además, el proceso de interferencia en el marco de EasyPhoto no se limita solo a la generación de retratos, sino que también se puede utilizar para generar cualquier cosa relacionada con la identidad del usuario. Esto implica que una vez que se entrena el modelo de LoRA para una identidad específica, se puede generar una amplia variedad de imágenes de IA, y por lo tanto puede tener aplicaciones generalizadas, incluyendo pruebas virtuales.

Para resumir, el marco de EasyPhoto

  1. Propone un enfoque novedoso para entrenar el modelo de LoRA incorporando varios modelos de LoRA para mantener la fidelidad facial de las imágenes generadas.
  2. Utiliza varios métodos de aprendizaje de refuerzo para optimizar los modelos de LoRA para recompensas de identidad facial que ayudan a mejorar la similitud de identidades entre las imágenes de entrenamiento y los resultados generados.
  3. Propone un proceso de difusión de dos etapas basado en inpainting que tiene como objetivo generar fotos de IA con alta estética y similitud.

EasyPhoto: Arquitectura y entrenamiento

La siguiente figura muestra el proceso de entrenamiento del marco de IA de EasyPhoto.

Como se puede ver, el marco primero solicita a los usuarios que ingresen las imágenes de entrenamiento y luego realiza la detección de rostros para detectar las ubicaciones de los rostros. Una vez que el marco detecta el rostro, recorta la imagen de entrada utilizando una relación predefinida que se centra únicamente en la región facial. El marco luego despliega un modelo de embellecimiento de la piel y un modelo de detección de saliencia para obtener una imagen de entrenamiento de rostro limpia y clara. Estos dos modelos desempeñan un papel crucial en la mejora de la calidad visual del rostro y también garantizan que se haya eliminado la información de fondo y que la imagen de entrenamiento contenga principalmente el rostro. Finalmente, el marco utiliza estas imágenes procesadas y las instrucciones de entrada para entrenar el modelo de LoRA, lo que le permite comprender las características faciales específicas del usuario de manera más efectiva y precisa.

Además, durante la fase de entrenamiento, el marco incluye un paso de validación crítico, en el que el marco calcula la brecha de ID de rostro entre la imagen de entrada del usuario y la imagen de verificación generada por el modelo de LoRA entrenado. El paso de validación es un proceso fundamental que desempeña un papel clave en la fusión de los modelos de LoRA, lo que garantiza que el modelo de LoRA entrenado se transforme en un doppelganger, o una representación digital precisa del usuario. Además, la imagen de verificación que tiene la puntuación de ID de rostro óptima se seleccionará como la imagen de ID de rostro, y esta imagen de ID de rostro se utilizará para mejorar la similitud de identidad de la generación de interferencia.

Continuando, en función del proceso de ensamblaje, el marco entrena los modelos de LoRA con la estimación de probabilidad como objetivo principal, mientras que la preservación de la similitud de identidad facial es el objetivo descendente. Para abordar este problema, el marco de EasyPhoto utiliza técnicas de aprendizaje de refuerzo para optimizar el objetivo descendente directamente. Como resultado, las características faciales que los modelos de LoRA aprenden muestran una mejora que conduce a una mayor similitud entre los resultados generados por la plantilla y también demuestra la generalización a través de plantillas.

Proceso de interferencia

La siguiente figura muestra el proceso de interferencia para un ID de usuario individual en el marco de EasyPhoto, y se divide en tres partes

  • Preprocesamiento de rostro para obtener la referencia de ControlNet y la imagen de entrada preprocesada.
  • Primera difusión que ayuda a generar resultados burdos que se asemejan a la entrada del usuario.
  • Segunda difusión que corrige los artefactos de límite, lo que hace que las imágenes sean más precisas y parezcan más realistas.

Para la entrada, el marco toma una imagen de ID de rostro (generada durante la validación del entrenamiento utilizando la puntuación de ID de rostro óptima) y una plantilla de interferencia. La salida es un retrato de alta calidad, preciso y realista del usuario, y se asemeja mucho a la identidad y la apariencia única del usuario en función de la plantilla de interferencia. Veamos con detalle estos procesos.

Preprocesamiento de rostro

Una forma de generar un retrato de IA en función de una plantilla de interferencia sin razonamiento consciente es utilizar el modelo de SD para pintar la región facial en la plantilla de interferencia. Además, agregar el marco de ControlNet al proceso no solo mejora la preservación de la identidad del usuario, sino que también mejora la similitud entre las imágenes generadas. Sin embargo, utilizar ControlNet directamente para el inpainting regional puede introducir problemas potenciales que pueden incluir

  • Inconsistencia entre la imagen de entrada y la imagen generada: Es evidente que los puntos clave en la imagen de la plantilla no son compatibles con los puntos clave en la imagen de ID de rostro, lo que hace que el uso de ControlNet con la imagen de ID de rostro como referencia pueda conducir a algunas inconsistencias en la salida.
  • Defectos en la región de inpainting: Enmascarar una región y luego pintarla con un nuevo rostro puede generar defectos notables, especialmente a lo largo del límite de inpainting, lo que no solo afectará la autenticidad de la imagen generada, sino que también afectará negativamente la realismo de la imagen.
  • Pérdida de identidad por Control Net: Dado que el proceso de entrenamiento no utiliza el marco de ControlNet, utilizar ControlNet durante la fase de interferencia puede afectar la capacidad de los modelos de LoRA entrenados para preservar la identidad del usuario.

Para abordar los problemas mencionados anteriormente, el marco de EasyPhoto propone tres procedimientos.

  • Pegar y alinear: Utilizando un algoritmo de pegado de rostro, el marco de EasyPhoto busca abordar el problema de la falta de coincidencia entre los puntos de referencia faciales entre el ID de rostro y la plantilla. Primero, el modelo calcula los puntos de referencia faciales del ID de rostro y la imagen de la plantilla, y luego el modelo determina la matriz de transformación afín que se utilizará para alinear los puntos de referencia faciales de la imagen de la plantilla con el ID de rostro. La imagen resultante retiene los mismos puntos de referencia del ID de rostro, y también se alinea con la imagen de la plantilla.
  • Fusión de rostro: La fusión de rostro es un enfoque novedoso que se utiliza para corregir los artefactos de límite que resultan del inpainting de máscara, y que implica la rectificación de artefactos utilizando el marco de ControlNet. El método permite que el marco de EasyPhoto garantice la preservación de bordes armoniosos, y así guiar el proceso de generación de imágenes. El algoritmo de fusión de rostro fusiona la imagen de rostro (imágenes de usuario reales) y la plantilla, lo que permite que la imagen fusionada resultante exhiba una mejor estabilización de los límites de los bordes, lo que conduce a una salida mejorada durante la primera etapa de difusión.
  • Validación guiada por ControlNet: Dado que los modelos de LoRA no se entrenaron utilizando el marco de ControlNet, utilizarlo durante el proceso de inferencia puede afectar la capacidad del modelo de LoRA para preservar las identidades. Para mejorar las capacidades de generalización de EasyPhoto, el marco considera la influencia del marco de ControlNet y incorpora modelos de LoRA de diferentes etapas.

Primera difusión

La primera etapa de difusión utiliza la imagen de la plantilla para generar una imagen con un ID único que se asemeja al ID de usuario de entrada. La imagen de entrada es una fusión de la imagen de entrada del usuario y la imagen de la plantilla, mientras que la máscara de rostro calibrada es la máscara de entrada. Para aumentar aún más el control sobre la generación de imágenes, el marco de EasyPhoto integra tres unidades de ControlNet, donde la primera unidad de ControlNet se centra en el control de las imágenes fusionadas, la segunda unidad de ControlNet controla los colores de la imagen fusionada, y la unidad de ControlNet final es la openpose (control de postura humana en tiempo real) de la imagen reemplazada que no solo contiene la estructura facial de la imagen de la plantilla, sino también la identidad facial del usuario.

Segunda difusión

En la segunda etapa de difusión, los artefactos cerca del límite del rostro se refinan y se ajustan, y también se proporciona a los usuarios la flexibilidad para enmascarar una región específica de la imagen para mejorar la eficacia de la generación dentro de ese área dedicada. En esta etapa, el marco fusiona la imagen de salida obtenida de la primera etapa de difusión con la imagen de rostro o el resultado de la imagen del usuario, lo que genera la imagen de entrada para la segunda etapa de difusión. En general, la segunda etapa de difusión desempeña un papel crucial en la mejora de la calidad general y los detalles de la imagen generada.

IDs de usuario múltiples

Uno de los aspectos destacados de EasyPhoto es su capacidad para generar múltiples IDs de usuario, y la figura a continuación muestra el proceso de interferencia para IDs de usuario múltiples en el marco de EasyPhoto.

Para proporcionar soporte para la generación de IDs de usuario múltiples, el marco de EasyPhoto primero realiza la detección de rostros en la plantilla de interferencia. Estas plantillas de interferencia se dividen en varias máscaras, donde cada máscara contiene solo un rostro, y el resto de la imagen se enmascara en blanco, lo que convierte la generación de IDs de usuario múltiples en una tarea simple de generación de IDs de usuario individuales. Una vez que el marco genera las imágenes de ID de usuario, estas imágenes se fusionan en la plantilla de interferencia, lo que facilita una integración sin problemas de la plantilla de imágenes con las imágenes generadas, lo que finalmente resulta en una imagen de alta calidad.

Experimentos y resultados

Ahora que tenemos una comprensión del marco de EasyPhoto, es hora de explorar el rendimiento del marco de EasyPhoto.

La imagen anterior es generada por el plugin de EasyPhoto, y utiliza un modelo de SD basado en estilo para la generación de imágenes. Como se puede observar, las imágenes generadas parecen realistas y son bastante precisas.

La imagen agregada anteriormente es generada por el marco de EasyPhoto utilizando un modelo de SD basado en estilo de cómic. Como se puede ver, las fotos de cómic y las fotos realistas parecen bastante realistas y se asemejan mucho a la imagen de entrada en función de las instrucciones o requisitos del usuario.

La imagen agregada a continuación ha sido generada por el marco de EasyPhoto utilizando una plantilla de varias personas. Como se puede ver claramente, las imágenes generadas son claras, precisas y se asemejan a la imagen original.

Con la ayuda de EasyPhoto, los usuarios ahora pueden generar una amplia variedad de retratos de IA, o generar múltiples IDs de usuario utilizando plantillas preservadas, o utilizar el modelo de SD para generar plantillas de interferencia. Las imágenes agregadas anteriormente demuestran la capacidad del marco de EasyPhoto para producir imágenes de IA diversas y de alta calidad.

Conclusión

En este artículo, hemos hablado sobre EasyPhoto, un nuevo plugin de WebUI que permite a los usuarios finales generar retratos y imágenes de IA. El plugin de WebUI de EasyPhoto genera retratos de IA utilizando plantillas arbitrarias, y las implicaciones actuales del plugin de WebUI de EasyPhoto admiten diferentes estilos de foto y múltiples modificaciones. Además, para mejorar aún más las capacidades de EasyPhoto, los usuarios tienen la flexibilidad de generar imágenes utilizando el modelo SDXL para generar imágenes más satisfactorias, precisas y diversas. El marco de EasyPhoto utiliza un modelo de difusión estable base acoplado con un modelo de LoRA preentrenado que produce salidas de imagen de alta calidad.

¿Está interesado en los generadores de imágenes? También proporcionamos una lista de los mejores generadores de retratos de IA y los mejores generadores de arte de IA que son fáciles de usar y no requieren experiencia técnica.

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.