Inteligencia artificial

Creación de una red antagónica generativa personalizada con bocetos

Actualizado on 9 de diciembre de 2022

Investigadores de Carnegie Mellon y MIT han desarrollado una nueva metodología que permite al usuario crear Red de Publicidad Generativa (GAN) sistemas de creación de imágenes simplemente dibujando garabatos indicativos.

Un sistema de este tipo podría permitir a un usuario final crear sistemas de generación de imágenes capaces de generar imágenes muy específicas, como animales particulares, tipos de edificios e incluso personas individuales. Actualmente, la mayoría de los sistemas de generación de GAN producen resultados amplios y bastante aleatorios, con una capacidad limitada para especificar características particulares, como razas de animales, tipos de cabello en las personas, estilos de arquitectura o identidades faciales reales.

El enfoque, esbozado en el Dibuje su propio GAN, utiliza una nueva interfaz de bocetos como una función de "búsqueda" efectiva para encontrar características y clases en bases de datos de imágenes sobrecargadas que pueden contener miles de tipos de objetos, incluidos muchos subtipos que no son relevantes para la intención del usuario. Luego, la GAN se entrena en este subconjunto filtrado de imágenes.

Al esbozar el tipo de objeto específico con el que el usuario desea calibrar la GAN, las capacidades generativas del marco se especializan en esa clase. Por ejemplo, si un usuario desea crear un marco que genere un tipo específico de gato (en lugar de cualquier gato viejo, como se puede obtener con Este gato no existe), sus bocetos de entrada sirven como filtro para descartar clases no relevantes de cat.

Fuente: https://peterwang512.github.io/GANSketching/

La investigación está dirigida por Sheng Yu-Wang de la Universidad Carnegie Mellon, junto con el colega Jun-Yan Zhu y David Bau del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT.

El método en sí se denomina 'boceto GAN' y utiliza los bocetos de entrada para cambiar directamente los pesos de un modelo GAN de 'plantilla' para apuntar específicamente al dominio o subdominio identificado a través de pérdida adversaria entre dominios.

Se exploraron diferentes métodos de regularización para garantizar que la salida del modelo sea diversa, manteniendo una alta calidad de imagen. Los investigadores crearon aplicaciones de muestra que pueden interpolar el espacio latente y realizar procedimientos de edición de imágenes.

Esta [$clase] no existe

Los sistemas de generación de imágenes basados en GAN se han convertido en una moda, si no en un meme, en los últimos años, con un proliferación de proyectos capaces de generar imágenes de cosas inexistentes, incluidas personas, pisos de alquiler, bocadillos, pies, caballos, políticos e insectos, entre muchos otros.

Los sistemas de síntesis de imágenes basados en GAN se crean mediante la compilación o selección de extensos conjuntos de datos que contienen imágenes del dominio de destino, como rostros o caballos; modelos de entrenamiento que generalizan una variedad de características en las imágenes de la base de datos; e implementar módulos generadores que pueden generar ejemplos aleatorios basados en las funciones aprendidas.

Salida de bocetos en DeepFacePencil, que permite a los usuarios crear rostros fotorrealistas a partir de bocetos. Existen muchos proyectos similares de boceto a imagen. Fuente: https://arxiv.org/pdf/2008.13343.pdf

Las características de alta dimensión se encuentran entre las primeras que se concretan durante el proceso de formación y son equivalentes a las primeras amplias muestras de color de un pintor en un lienzo. Estas características de alta dimensión eventualmente se correlacionarán con características mucho más detalladas (es decir, el brillo de los ojos y los bigotes afilados de un gato, en lugar de solo una mancha beige genérica que representa la cabeza).

Yo sé lo que quieres decir…

Al mapear la relación entre estas formas seminales anteriores y las interpretaciones finalmente detalladas que se obtienen mucho más tarde en el proceso de entrenamiento, es posible inferir relaciones entre imágenes 'vagas' y 'específicas', lo que permite a los usuarios crear imágenes complejas y fotorrealistas a partir de pinceladas toscas. .

Recientemente, NVIDIA lanzó un version de escritorio de su investigación GauGAN a largo plazo sobre la generación de paisajes basada en GAN, que demuestra fácilmente este principio:

Las pinceladas aproximadas se traducen en ricas imágenes escénicas a través de GauGAN de NVIDIA, y ahora la aplicación NVIDIA Canvas. Fuente: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-síntesis/

Asimismo, múltiples sistemas como DeepFaceLápiz han utilizado el mismo principio para crear generadores de imágenes fotorrealistas inducidas por bocetos para varios dominios.

La arquitectura de DeepFacePencil.

Simplificación de boceto a imagen

El enfoque de GAN Sketching del nuevo artículo busca eliminar la formidable carga de recopilación y conservación de datos que normalmente implica el desarrollo de marcos de imagen GAN, mediante el uso de la entrada del usuario para definir qué subconjunto de imágenes debe constituir los datos de entrenamiento.

El sistema ha sido diseñado para requerir solo una pequeña cantidad de bocetos de entrada para calibrar el marco. El sistema invierte efectivamente la funcionalidad de FotoBosquejo, una iniciativa de investigación conjunta de 2019 de investigadores de Carnegie Mellon, Adobe, Uber ATG y Argo AI, que se incorpora al nuevo trabajo. PhotoSketch fue diseñado para crear bocetos artísticos a partir de imágenes, y ya contiene el mapeo efectivo de relaciones de creación de imágenes vagas>específicas.

Para la parte de generación del proceso, el nuevo método solo modifica los pesos de EstiloGAN2. Dado que los datos de imagen que se utilizan son solo un subconjunto del total de datos disponibles, simplemente modificando la red de mapeo se obtienen resultados deseables.

El método se evaluó en varios subdominios populares, incluidos equitación, iglesias y gatos.

2016 de la Universidad de Princeton conjunto de datos LSUN se utilizó como material central a partir del cual derivar los subdominios de destino. Para establecer un sistema de mapeo de croquis que sea resistente a las excentricidades de los croquis de entrada del usuario del mundo real, el sistema se entrena con imágenes del conjunto de datos QuickDraw desarrollado por Microsoft entre 2021-2016.

Aunque el mapeo de bocetos entre PhotoSketch y QuickDraw es bastante diferente, los investigadores descubrieron que su marco funciona bien al colocarlos a ambos lados con bastante facilidad en poses relativamente simples, aunque las poses más complicadas (como los gatos acostados) resultan más desafiantes, mientras que son muy abstractas. la entrada del usuario (es decir, dibujos demasiado toscos) también dificultan la calidad de los resultados.

Edición de espacio latente e imagen natural

Los investigadores desarrollaron dos aplicaciones basadas en el trabajo principal: edición de espacios latentes y edición de imágenes. La edición de espacio latente ofrece controles de usuario interpretables que se facilitan en el momento del entrenamiento y permiten un amplio grado de variación sin dejar de ser fieles al dominio objetivo y agradablemente consistentes entre variaciones.

Interpolación fluida del espacio latente con los modelos personalizados de GAN Sketching.

El componente de edición de espacio latente fue impulsado por el 2020 Proyecto GANSpace, una iniciativa conjunta de la Universidad Aalto, Adobe y NVIDIA.

También se puede alimentar una sola imagen al modelo personalizado, lo que facilita la edición natural de imágenes. En esta aplicación, una sola imagen es proyectado a la GAN personalizada, no solo habilitando la edición directa, sino también conservando la edición de espacio latente de nivel superior, si también se ha utilizado.

Aquí, se ha utilizado una imagen real como entrada para el GAN (modelo de gato), que edita la entrada para que coincida con los bocetos enviados. Esto permite la edición de imágenes a través de bocetos.

Aunque configurable, el sistema no está diseñado para funcionar en tiempo real, al menos en términos de capacitación y calibración. Actualmente, GAN Sketching requiere 30,000 XNUMX iteraciones de entrenamiento. El sistema también requiere acceso a los datos de entrenamiento originales para el modelo original.

En los casos en los que el conjunto de datos sea de código abierto y tenga una licencia que permita la copia local, esto se podría acomodar incluyendo los datos de origen en un paquete instalado localmente, aunque esto ocuparía un espacio considerable en el disco; o accediendo o procesando datos de forma remota, a través de un enfoque basado en la nube, lo que introduce gastos generales en la red y (en el caso del procesamiento que realmente ocurre en la nube) posiblemente consideraciones de costos de cálculo.

Transformaciones de modelos FFHQ personalizados entrenados en solo 4 bocetos generados por humanos.

Transformaciones de personalizado FFHQ modelos entrenados solo para bocetos generados por humanos.

Hasta la próxima

LumenVox lanza motor de reconocimiento de voz automático de próxima generación

No Te Lo

Intel amplía el programa AI for Workforce

Martin anderson

Escritor sobre aprendizaje automático, inteligencia artificial y big data.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai