talón EasyPhoto: su generador personal de fotografías con IA - Unite.AI
Contáctanos

Inteligencia artificial

EasyPhoto: su generador personal de fotografías con IA

mm
Actualizado on
EasyPhoto: su generador personal de retratos con IA

Difusión estable La interfaz de usuario web, o SD-WebUI, es un proyecto integral para modelos de difusión estable que utiliza la biblioteca Gradio para proporcionar una interfaz de navegador. Hoy vamos a hablar de EasyPhoto, un innovador complemento WebUI que permite a los usuarios finales generar retratos e imágenes con IA. El complemento EasyPhoto WebUI crea retratos de IA utilizando varias plantillas, admitiendo diferentes estilos de fotografías y múltiples modificaciones. Además, para mejorar aún más las capacidades de EasyPhoto, los usuarios pueden generar imágenes utilizando el modelo SDXL para obtener resultados más satisfactorios, precisos y diversos. Vamos a empezar.

Introducción a EasyPhoto y difusión estable

El marco Stable Diffusion es un marco de generación basado en difusión popular y robusto utilizado por los desarrolladores para generar imágenes realistas basadas en descripciones de texto de entrada. Gracias a sus capacidades, el marco Stable Diffusion cuenta con una amplia gama de aplicaciones, incluida la pintura de imágenes, la pintura de imágenes y la traducción de imagen a imagen. La interfaz de usuario web Stable Diffusion, o SD-WebUI, se destaca como una de las aplicaciones más populares y conocidas de este marco. Cuenta con una interfaz de navegador integrada en la biblioteca Gradio, que proporciona una interfaz interactiva y fácil de usar para los modelos de Difusión Estable. Para mejorar aún más el control y la usabilidad en la generación de imágenes, SD-WebUI integra numerosas aplicaciones de Difusión Estable.

Debido a la comodidad que ofrece el marco SD-WebUI, los desarrolladores del marco EasyPhoto decidieron crearlo como un complemento web en lugar de una aplicación completa. A diferencia de los métodos existentes que a menudo sufren pérdida de identidad o introducen características poco realistas en las imágenes, el marco EasyPhoto aprovecha las capacidades de imagen a imagen de los modelos de Difusión Estable para producir imágenes precisas y realistas. Los usuarios pueden instalar fácilmente el marco EasyPhoto como una extensión dentro de la WebUI, mejorando la facilidad de uso y la accesibilidad para una gama más amplia de usuarios. El marco EasyPhoto permite a los usuarios generar imágenes guiadas por identidad, de alta calidad y retratos realistas de IA que se parecen mucho a la identidad de entrada.

Primero, el marco EasyPhoto pide a los usuarios que creen su doble digital cargando algunas imágenes para entrenar un rostro LoRA o un modelo de adaptación de bajo rango en línea. El marco LoRA ajusta rápidamente los modelos de difusión mediante el uso de tecnología de adaptación de bajo rango. Este proceso permite que el modelo basado comprenda la información de identificación de usuarios específicos. Luego, los modelos entrenados se fusionan e integran en el modelo de difusión estable de referencia para detectar interferencias. Además, durante el proceso de interferencia, el modelo utiliza modelos de difusión estable en un intento de volver a pintar las regiones faciales en la plantilla de interferencia, y la similitud entre las imágenes de entrada y salida se verifica utilizando las distintas unidades ControlNet. 

El marco EasyPhoto también implementa un proceso de difusión de dos etapas para abordar problemas potenciales como artefactos de límites y pérdida de identidad, asegurando así que las imágenes generadas minimicen las inconsistencias visuales mientras mantienen la identidad del usuario. Además, el canal de interferencia en el marco EasyPhoto no solo se limita a generar retratos, sino que también se puede utilizar para generar cualquier cosa relacionada con la identificación del usuario. Esto implica que una vez que entrenas al modelo LoRA para una identificación particular, puede generar una amplia gama de imágenes de IA y, por lo tanto, puede tener aplicaciones generalizadas, incluidas pruebas virtuales. 

En resumen, el marco EasyPhoto

  1. Propone un enfoque novedoso para entrenar el modelo LoRA incorporando múltiples modelos LoRA para mantener la fidelidad facial de las imágenes generadas. 
  2. Hace uso de varios métodos de aprendizaje por refuerzo para optimizar los modelos LoRA para recompensas de identidad facial, lo que ayuda aún más a mejorar la similitud de identidades entre las imágenes de entrenamiento y los resultados generados. 
  3. Propone un proceso de difusión basado en pintura de dos etapas que tiene como objetivo generar fotografías de IA con alta estética y parecido. 

EasyPhoto: Arquitectura y formación

La siguiente figura demuestra el proceso de capacitación del marco EasyPhoto AI. 

Como puede verse, el marco primero pide a los usuarios que ingresen las imágenes de entrenamiento y luego realiza la detección de rostros para detectar las ubicaciones de los rostros. Una vez que el marco detecta el rostro, recorta la imagen de entrada usando una proporción específica predefinida que se enfoca únicamente en la región facial. Luego, el marco implementa un modelo de embellecimiento de la piel y detección de prominencia para obtener una imagen de entrenamiento facial limpia y clara. Estos dos modelos desempeñan un papel crucial en la mejora de la calidad visual del rostro y también garantizan que se haya eliminado la información de fondo y que la imagen de entrenamiento contenga predominantemente el rostro. Finalmente, el marco utiliza estas imágenes procesadas y mensajes de entrada para entrenar el modelo LoRA y así equiparlo con la capacidad de comprender las características faciales específicas del usuario de manera más efectiva y precisa. 

Además, durante la fase de capacitación, el marco incluye un paso de validación crítico, en el que el marco calcula la brecha de identificación facial entre la imagen ingresada por el usuario y la imagen de verificación generada por el modelo LoRA entrenado. El paso de validación es un proceso fundamental que juega un papel clave para lograr la fusión de los modelos LoRA, asegurando en última instancia que el marco LoRA entrenado se transforma en un doppelganger, o una representación digital precisa del usuario. Además, la imagen de verificación que tenga la puntuación face_id óptima se seleccionará como imagen face_id, y esta imagen face_id luego se utilizará para mejorar la similitud de identidad de la generación de interferencia. 

Avanzando, basándose en el proceso de conjunto, el marco entrena los modelos LoRA siendo la estimación de probabilidad el objetivo principal, mientras que preservar la similitud de la identidad facial es el objetivo posterior. Para abordar este problema, el marco EasyPhoto utiliza técnicas de aprendizaje por refuerzo para optimizar directamente el objetivo posterior. Como resultado, los rasgos faciales que aprenden los modelos LoRA muestran una mejora que conduce a una mayor similitud entre los resultados generados por la plantilla y también demuestra la generalización entre las plantillas. 

Proceso de interferencia

La siguiente figura demuestra el proceso de interferencia para una ID de usuario individual en el marco EasyPhoto y está dividida en tres partes.

  • Preproceso facial para obtener la referencia ControlNet y la imagen de entrada preprocesada. 
  • Primera Difusión eso ayuda a generar resultados aproximados que se asemejan a la entrada del usuario. 
  • Segunda Difusión que corrige los artefactos de los límites, haciendo así que las imágenes sean más precisas y parezcan más realistas. 

Para la entrada, el marco toma una imagen face_id (generada durante la validación del entrenamiento utilizando la puntuación face_id óptima) y una plantilla de interferencia. El resultado es un retrato muy detallado, preciso y realista del usuario, y se parece mucho a la identidad y apariencia única del usuario según la plantilla de inferencia. Echemos un vistazo detallado a estos procesos.

Preproceso facial

Una forma de generar un retrato de IA basado en una plantilla de interferencia sin razonamiento consciente es utilizar el modelo SD para pintar la región facial en la plantilla de interferencia. Además, agregar el marco ControlNet al proceso no solo mejora la preservación de la identidad del usuario, sino que también mejora la similitud entre las imágenes generadas. Sin embargo, el uso de ControlNet directamente para la pintura regional puede presentar problemas potenciales que pueden incluir

  • Inconsistencia entre la entrada y la imagen generada: Es evidente que los puntos clave de la imagen de la plantilla no son compatibles con los puntos clave de la imagen face_id, por lo que utilizar ControlNet con la imagen face_id como referencia puede generar algunas inconsistencias en la salida. 
  • Defectos en la región Inpaint: Enmascarar una región y luego pintarla con una nueva cara puede generar defectos notables, especialmente a lo largo del límite de pintura, que no solo afectarán la autenticidad de la imagen generada, sino que también afectarán negativamente el realismo de la imagen. 
  • Pérdida de identidad por Control Net: Como el proceso de capacitación no utiliza el marco ControlNet, el uso de ControlNet durante la fase de interferencia podría afectar la capacidad de los modelos LoRA entrenados para preservar la identidad de identificación del usuario de entrada. 

Para abordar las cuestiones mencionadas anteriormente, el marco EasyPhoto propone tres procedimientos. 

  • Alinear y pegar: Al utilizar un algoritmo de pegado de caras, el marco EasyPhoto tiene como objetivo abordar el problema de la falta de coincidencia entre los puntos de referencia faciales entre la identificación de la cara y la plantilla. Primero, el modelo calcula los puntos de referencia faciales de face_id y la imagen de plantilla, después de lo cual el modelo determina la matriz de transformación afín que se utilizará para alinear los puntos de referencia faciales de la imagen de plantilla con la imagen de face_id. La imagen resultante conserva los mismos puntos de referencia de la imagen face_id y también se alinea con la imagen de plantilla. 
  • Fusible facial: Face Fuse es un enfoque novedoso que se utiliza para corregir los artefactos de límites que son resultado de la pintura de la máscara e implica la rectificación de artefactos utilizando el marco ControlNet. El método permite que el marco EasyPhoto garantice la preservación de bordes armoniosos y, en última instancia, guíe el proceso de generación de imágenes. El algoritmo de fusión de caras fusiona aún más la imagen del roop (imágenes reales del usuario del terreno) y la plantilla, lo que permite que la imagen fusionada resultante muestre una mejor estabilización de los límites de los bordes, lo que luego conduce a una salida mejorada durante la primera etapa de difusión. 
  • Validación guiada ControlNet: Dado que los modelos LoRA no se entrenaron utilizando el marco ControlNet, usarlo durante el proceso de inferencia podría afectar la capacidad del modelo LoRA para preservar las identidades. Para mejorar las capacidades de generalización de EasyPhoto, el marco considera la influencia del marco ControlNet e incorpora modelos LoRA de diferentes etapas. 

Primera Difusión

La primera etapa de difusión utiliza la imagen de plantilla para generar una imagen con una identificación única que se asemeja a la identificación del usuario ingresada. La imagen de entrada es una fusión de la imagen de entrada del usuario y la imagen de plantilla, mientras que la máscara facial calibrada es la máscara de entrada. Para aumentar aún más el control sobre la generación de imágenes, el marco EasyPhoto integra tres unidades ControlNet donde la primera unidad ControlNet se centra en el control de las imágenes fusionadas, la segunda unidad ControlNet controla los colores de la imagen fusionada y la unidad ControlNet final es la openpose. (control de pose humana de varias personas en tiempo real) de la imagen reemplazada que no solo contiene la estructura facial de la imagen de plantilla, sino también la identidad facial del usuario.

Segunda Difusión

En la segunda etapa de difusión, los artefactos cerca del límite de la cara se refinan y afinan, además de brindar a los usuarios la flexibilidad de enmascarar una región específica de la imagen en un intento de mejorar la efectividad de la generación dentro de esa área dedicada. En esta etapa, el marco fusiona la imagen de salida obtenida de la primera etapa de difusión con la imagen de roop o el resultado de la imagen del usuario, generando así la imagen de entrada para la segunda etapa de difusión. En general, la segunda etapa de difusión juega un papel crucial en la mejora de la calidad general y los detalles de la imagen generada. 

ID de múltiples usuarios

Uno de los aspectos más destacados de EasyPhoto es su soporte para generar múltiples ID de usuario, y la siguiente figura demuestra el proceso de interferencia para ID de múltiples usuarios en el marco de EasyPhoto. 

Para brindar soporte para la generación de ID de múltiples usuarios, el marco EasyPhoto primero realiza la detección de rostros en la plantilla de interferencia. Luego, estas plantillas de interferencia se dividen en numerosas máscaras, donde cada máscara contiene solo una cara y el resto de la imagen está enmascarada en blanco, lo que divide la generación de ID de múltiples usuarios en una tarea simple de generar ID de usuario individuales. Una vez que el marco genera las imágenes de ID de usuario, estas imágenes se fusionan en la plantilla de inferencia, lo que facilita una integración perfecta de las imágenes de la plantilla con las imágenes generadas, lo que en última instancia da como resultado una imagen de alta calidad. 

Experimentos y resultados

Ahora que comprendemos el marco EasyPhoto, es hora de que exploremos el rendimiento del marco EasyPhoto. 

La imagen de arriba es generada por el complemento EasyPhoto y utiliza un modelo SD basado en estilos para la generación de imágenes. Como puede observarse, las imágenes generadas parecen realistas y son bastante precisas. 

La imagen agregada arriba es generada por el marco EasyPhoto utilizando un modelo SD basado en Comic Style. Como puede verse, las fotografías de cómic y las fotografías realistas parecen bastante realistas y se parecen mucho a la imagen de entrada según las indicaciones o requisitos del usuario. 

La imagen agregada a continuación ha sido generada por el marco EasyPhoto mediante el uso de una plantilla para varias personas. Como puede verse claramente, las imágenes generadas son claras, precisas y se parecen a la imagen original. 

Con la ayuda de EasyPhoto, los usuarios ahora pueden generar una amplia gama de retratos de IA, generar múltiples ID de usuario utilizando plantillas conservadas o utilizar el modelo SD para generar plantillas de inferencia. Las imágenes agregadas arriba demuestran la capacidad del marco EasyPhoto para producir imágenes de IA diversas y de alta calidad.

Conclusión

En este artículo hemos hablado de EasyPhoto, una novedoso complemento WebUI que permite a los usuarios finales generar retratos e imágenes de IA. El complemento EasyPhoto WebUI genera retratos de IA utilizando plantillas arbitrarias, y las implicaciones actuales de EasyPhoto WebUI admiten diferentes estilos de fotografías y múltiples modificaciones. Además, para mejorar aún más las capacidades de EasyPhoto, los usuarios tienen la flexibilidad de generar imágenes utilizando el modelo SDXL para generar imágenes más satisfactorias, precisas y diversas. El marco EasyPhoto utiliza un modelo base de difusión estable junto con un modelo LoRA previamente entrenado que produce imágenes de alta calidad.

¿Interesado en generadores de imágenes? También proporcionamos una lista de los Los mejores generadores de disparos en la cabeza con IA y del Los mejores generadores de imágenes de IA que son fáciles de usar y no requieren experiencia técnica.

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.