talón Edición de objetos asistida por IA con Imagic de Google y 'Borrar y reemplazar' de Runway - Unite.AI
Contáctanos

Inteligencia artificial

Edición de objetos asistida por IA con Imagic de Google y 'Borrar y reemplazar' de Runway

mm
Actualizado on

Esta semana, dos algoritmos de gráficos nuevos, pero contrastantes, impulsados ​​por IA ofrecen formas novedosas para que los usuarios finales realicen cambios altamente granulares y efectivos en los objetos de las fotos.

El primer sitio que te recomiendo es imagic, de Google Research, en asociación con el Instituto de Tecnología de Israel y el Instituto de Ciencias Weizmann. Imagic ofrece una edición detallada y condicionada de texto de objetos a través del ajuste fino de los modelos de difusión.

Cambie lo que quiera y deje el resto: Imagic promete una edición granular de solo las partes que desea cambiar. Fuente: https://arxiv.org/pdf/2210.09276.pdf

Cambie lo que quiera y deje el resto: Imagic promete una edición granular de solo las partes que desea cambiar. Fuente: https://arxiv.org/pdf/2210.09276.pdf

Cualquiera que haya intentado cambiar solo un elemento en una nueva renderización de Stable Diffusion sabrá muy bien que por cada edición exitosa, el sistema cambiará cinco cosas que le gustaron tal como estaban. Es una deficiencia que actualmente tiene a muchos de los entusiastas de SD más talentosos que se mueven constantemente entre Stable Diffusion y Photoshop para solucionar este tipo de 'daños colaterales'. Solo desde este punto de vista, los logros de Imagic parecen notables.

En el momento de redactar este informe, Imagic aún carece incluso de un vídeo promocional y, dado el actitud circunspecta para lanzar herramientas de síntesis de imágenes sin restricciones, no está claro hasta qué punto, si es que hay alguno, tendremos la oportunidad de probar el sistema.

La segunda oferta es algo más accesible de Runway ML. Borrar y reemplazar instalación, un nueva función en la sección 'AI Magic Tools' de su conjunto exclusivamente en línea de utilidades de efectos visuales basadas en aprendizaje automático.

La función Borrar y reemplazar de Runway ML, ya vista en una vista previa para un sistema de edición de texto a video. Fuente: https://www.youtube.com/watch?v=41Qb58ZPO60

La función Borrar y reemplazar de Runway ML, ya vista en una vista previa para un sistema de edición de texto a video. Fuente: https://www.youtube.com/watch?v=41Qb58ZPO60

Echemos un vistazo a la salida de Runway primero.

Borrar y reemplazar

Al igual que Imagic, Erase and Replace trata exclusivamente con imágenes fijas, aunque Runway tiene vista preliminar la misma funcionalidad en una solución de edición de texto a video que aún no se ha lanzado:

Aunque cualquiera puede probar el nuevo Borrar y Reemplazar en imágenes, la versión de video aún no está disponible públicamente. Fuente: https://twitter.com/runwayml/status/1568220303808991232

Aunque cualquiera puede probar el nuevo Borrar y Reemplazar en imágenes, la versión de video aún no está disponible públicamente. Fuente: https://twitter.com/runwayml/status/1568220303808991232

Aunque Runway ML no ha publicado detalles de las tecnologías detrás de Erase and Replace, la velocidad a la que puede sustituir una planta de interior con un busto razonablemente convincente de Ronald Reagan sugiere que un modelo de difusión como Stable Diffusion (o, mucho menos probable, un DALL-E 2 sin licencia) es el motor que está reinventando el objeto de su elección en Erase and Replace.

Reemplazar una planta de interior con un busto de The Gipper no es tan rápido como esto, pero es bastante rápido. Fuente: https://app.runwayml.com/

Reemplazar una planta de interior con un busto de The Gipper no es tan rápido como esto, pero es bastante rápido. Fuente: https://app.runwayml.com/

El sistema tiene algunas restricciones de tipo DALL-E 2: las imágenes o el texto que marcan los filtros Borrar y Reemplazar activarán una advertencia sobre la posible suspensión de la cuenta en caso de más infracciones, prácticamente un clon repetitivo de OpenAI en curso. políticas para DALL-E 2 .

Muchos de los resultados carecen de las asperezas típicas de Stable Diffusion. Runway ML son inversores y socios de investigación en SD, y es posible que hayan entrenado un modelo patentado que sea superior a los pesos de punto de control 1.4 de código abierto con los que el resto de nosotros estamos luchando actualmente (como muchos otros grupos de desarrollo, aficionados y profesionales por igual, están actualmente entrenando o ajustando modelos de difusión estable).

Sustituyendo una mesa doméstica por una 'mesa hecha de hielo' en Erase and Replace de Runway ML.

Sustituyendo una mesa doméstica por una 'mesa hecha de hielo' en Erase and Replace de Runway ML.

Al igual que con Imagic (ver más abajo), Erase and Replace está "orientado a objetos", por así decirlo: no puede simplemente borrar una parte "vacía" de la imagen y pintarla con el resultado de su solicitud de texto; en ese escenario, el sistema simplemente rastreará el objeto aparente más cercano a lo largo de la línea de visión de la máscara (como una pared o un televisor) y aplicará la transformación allí.

Como su nombre lo indica, no puede inyectar objetos en un espacio vacío en Erase and Replace. Aquí, un esfuerzo por convocar al más famoso de los señores Sith da como resultado un extraño mural relacionado con Vader en la televisión, aproximadamente donde se dibujó el área de 'reemplazo'.

Como su nombre lo indica, no puede inyectar objetos en un espacio vacío en Erase and Replace. Aquí, un esfuerzo por convocar al más famoso de los señores Sith da como resultado un extraño mural relacionado con Vader en la televisión, aproximadamente donde se dibujó el área de 'reemplazo'.

Es difícil saber si Borrar y reemplazar está siendo evasivo con respecto al uso de imágenes protegidas por derechos de autor (que todavía están obstruidas en gran medida, aunque con un éxito variable, en DALL-E 2), o si el modelo se usa en el motor de renderizado de fondo. simplemente no está optimizado para ese tipo de cosas.

El 'Mural de Nicole Kidman' ligeramente NSFW indica que el (presumiblemente) modelo basado en la difusión en cuestión carece del anterior rechazo sistemático de DALL-E 2 de representar rostros realistas o contenido subido de tono, mientras que los resultados de los intentos de evidenciar obras con derechos de autor van desde lo ambiguo ('xenomorfo') al absurdo ('el trono de hierro'). Recuadro inferior derecho, la imagen de origen.

El 'Mural de Nicole Kidman' ligeramente NSFW indica que el (presumiblemente) modelo basado en la difusión en cuestión carece del anterior rechazo sistemático de DALL-E 2 de representar rostros realistas o contenido subido de tono, mientras que los resultados de los intentos de evidenciar obras con derechos de autor van desde lo ambiguo ('xenomorfo') al absurdo ('el trono de hierro'). Recuadro inferior derecho, la imagen de origen.

Sería interesante saber qué métodos utiliza Erase and Replace para aislar los objetos que es capaz de reemplazar. Presumiblemente, la imagen se está ejecutando a través de alguna derivación de CLIP, con los elementos discretos individualizados por reconocimiento de objetos y posterior segmentación semántica. Ninguna de estas operaciones funciona tan bien en una instalación común o de jardín de Stable Diffusion.

Pero nada es perfecto: a veces el sistema parece borrar y no reemplazar, incluso cuando (como hemos visto en la imagen de arriba), el mecanismo de representación subyacente definitivamente sabe lo que significa un mensaje de texto. En este caso, resulta imposible convertir una mesa de café en un xenomorfo; más bien, la mesa simplemente desaparece.

Una iteración más aterradora de 'Dónde está Waldo', ya que Erase and Replace no logra producir un extraterrestre.

Una iteración más aterradora de 'Dónde está Waldo', ya que Erase and Replace no logra producir un extraterrestre.

Borrar y reemplazar parece ser un sistema eficaz de sustitución de objetos, con una excelente pintura. Sin embargo, no puede editar los objetos percibidos existentes, sino sólo reemplazarlos. Podría decirse que alterar realmente el contenido de una imagen existente sin comprometer el material ambiental es una tarea mucho más difícil, ligada a la larga lucha del sector de investigación en visión por computadora para lograr desenredo en los diversos espacios latentes de los entramados populares.

imagic

Es una tarea que aborda Imagic. El nuevo documento ofrece numerosos ejemplos de ediciones que corrigen con éxito facetas individuales de una foto y dejan intacto el resto de la imagen.

En Imagic, las imágenes modificadas no sufren el estiramiento, la distorsión y la "conjetura de oclusión" característicos de los títeres falsos profundos, que utilizan antecedentes limitados derivados de una sola imagen.

En Imagic, las imágenes modificadas no sufren el estiramiento, la distorsión y la "conjetura de oclusión" característicos de los títeres falsos profundos, que utilizan antecedentes limitados derivados de una sola imagen.

El sistema emplea un proceso de tres etapas: optimización de incrustación de texto; puesta a punto del modelo; y, finalmente, la generación de la imagen modificada.

Imagic codifica el indicador de texto de destino para recuperar la incrustación de texto inicial y luego optimiza el resultado para obtener la imagen de entrada. Después de eso, el modelo generativo se ajusta a la imagen de origen, agregando un rango de parámetros, antes de someterse a la interpolación solicitada.

Imagic codifica el indicador de texto de destino para recuperar la incrustación de texto inicial y luego optimiza el resultado para obtener la imagen de entrada. Después de eso, el modelo generativo se ajusta a la imagen de origen, agregando un rango de parámetros, antes de someterse a la interpolación solicitada.

Como era de esperar, el marco se basa en Google Imagen arquitectura de texto a video, aunque los investigadores afirman que los principios del sistema son ampliamente aplicables a los modelos de difusión latente.

Imagen usa una arquitectura de tres niveles, en lugar del arreglo de siete niveles que se usa para el modelo más reciente de la compañía. iteración de texto a video del software Los tres módulos distintos comprenden un modelo de difusión generativa que opera a una resolución de 64x64px; un modelo de súper resolución que mejora esta salida a 256x256px; y un modelo de súper resolución adicional para llevar la salida hasta una resolución de 1024 × 1024.

Imagic interviene en la etapa más temprana de este proceso, optimizando la incrustación del texto solicitado en la etapa de 64 px en un optimizador de Adam a una tasa de aprendizaje estática de 0.0001.

Una clase magistral sobre desenredado: aquellos usuarios finales que han intentado cambiar algo tan simple como el color de un objeto renderizado en un modelo de difusión, GAN o NeRF sabrán lo importante que es que Imagic pueda realizar tales transformaciones sin "desgarrar". ' la consistencia del resto de la imagen.

Una clase magistral sobre desenredado: aquellos usuarios finales que han intentado cambiar algo tan simple como el color de un objeto renderizado en un modelo de difusión, GAN o NeRF sabrán lo importante que es que Imagic pueda realizar tales transformaciones sin "desgarrar". ' la consistencia del resto de la imagen.

Luego se realiza un ajuste fino en el modelo base de Imagen, para 1500 pasos por imagen de entrada, condicionado a la incorporación revisada. Al mismo tiempo, la capa secundaria 64px>256px se optimiza en paralelo en la imagen acondicionada. Los investigadores señalan que una optimización similar para la capa final de 256px>1024px tiene "poco o ningún efecto" en los resultados finales y, por lo tanto, no la han implementado.

El documento establece que el proceso de optimización tarda aproximadamente ocho minutos para cada imagen en doble TPUV4 papas fritas. El render final se lleva a cabo en core Imagen bajo el esquema de muestreo DDIM.

En común con procesos de ajuste fino similares para Google's cabina de ensueño, las incrustaciones resultantes también se pueden usar para potenciar la estilización, así como ediciones fotorrealistas que contienen información extraída de la base de datos subyacente más amplia que alimenta a Imagen (ya que, como muestra la primera columna a continuación, las imágenes de origen no tienen el contenido necesario para efectuar estas transformaciones).

Se pueden obtener movimientos y ediciones fotorrealistas flexibles a través de Imagic, mientras que los códigos derivados y desenredados obtenidos en el proceso se pueden usar fácilmente para una salida estilizada.

Se pueden obtener movimientos y ediciones fotorrealistas flexibles a través de Imagic, mientras que los códigos derivados y desenredados obtenidos en el proceso se pueden usar fácilmente para una salida estilizada.

Los investigadores compararon Imagic con trabajos anteriores. SDEditar, un enfoque basado en GAN de 2021, una colaboración entre la Universidad de Stanford y la Universidad Carnegie Mellon; y Texto2Live, una colaboración, a partir de abril de 2022, entre el Instituto de Ciencias Weizmann y NVIDIA.

Una comparación visual entre Imagic, SDEdit y Text2Live.

Una comparación visual entre Imagic, SDEdit y Text2Live.

Está claro que los enfoques anteriores tienen problemas, pero en la fila inferior, que implica intercalar un cambio masivo de pose, los titulares fallan por completo en reconfigurar el material de origen, en comparación con un éxito notable de Imagic.

Los requisitos de recursos y el tiempo de capacitación por imagen de Imagic, aunque cortos para los estándares de tales actividades, hacen que sea poco probable que se incluya en una aplicación local de edición de imágenes en computadoras personales, y no está claro en qué medida podría ser el proceso de ajuste fino. reducido a los niveles de consumo.

Tal como está, Imagic es una oferta impresionante que se adapta más a las API: un entorno con el que Google Research, cauteloso de las críticas con respecto a facilitar la falsificación profunda, puede sentirse más cómodo en cualquier caso.

 

Publicado por primera vez el 18 de octubre de 2022.