Inteligencia Artificial

Cómo la difusión estable podría desarrollarse como un producto de consumo convencional

Publicado 15 de Septiembre de 2022

Actualizado 9 de diciembre de 2022

Martin anderson

Irónicamente, Difusión establen, el nuevo marco de síntesis de imágenes de IA que ha conquistado al mundo, no es estable ni realmente tan “difundido”, al menos no todavía.

La gama completa de capacidades del sistema se distribuye en una variada mezcla de ofertas en constante mutación de un puñado de desarrolladores que intercambian frenéticamente la información y las teorías más recientes en diversos coloquios en Discord, y la gran mayoría de los procedimientos de instalación de los paquetes que están creando o modificando están muy lejos de ser "plug and play".

Más bien, tienden a requerir línea de comando o impulsado por BAT instalación a través de GIT, Conda, Python, Miniconda y otros marcos de desarrollo de vanguardia: paquetes de software tan raros entre el público general de los consumidores que su instalación es marcado con frecuencia por proveedores de antivirus y antimalware como evidencia de un sistema host comprometido.

Solo una pequeña selección de etapas en el guantelete que requiere actualmente la instalación de difusión estable estándar. Muchas de las distribuciones también requieren versiones específicas de Python, que pueden chocar con las versiones existentes instaladas en la máquina del usuario, aunque esto puede evitarse con las instalaciones basadas en Docker y, hasta cierto punto, mediante el uso de entornos Conda.

Solo una pequeña selección de las etapas del reto que requiere actualmente la instalación estándar de Stable Diffusion. Muchas distribuciones también requieren versiones específicas de Python, que pueden entrar en conflicto con las versiones existentes en el equipo del usuario; sin embargo, esto puede solucionarse con instalaciones basadas en Docker y, en cierta medida, mediante el uso de entornos Conda.

Los hilos de mensajes en las comunidades SFW y NSFW Stable Diffusion están inundados de consejos y trucos relacionados con la piratería de secuencias de comandos de Python y las instalaciones estándar, para permitir una funcionalidad mejorada o para resolver errores de dependencia frecuentes y una variedad de otros problemas.

Esto deja al consumidor medio, interesado en creando imágenes asombrosas a partir de indicaciones de texto, prácticamente a merced del creciente número de interfaces web API monetizadas, la mayoría de las cuales ofrecen una cantidad mínima de generaciones de imágenes gratuitas antes de requerir la compra de tokens.

Además, casi todas estas ofertas basadas en la web se niegan a mostrar contenido NSFW (gran parte del cual puede estar relacionado con temas no pornográficos de interés general, como la "guerra"), lo que distingue a Stable Diffusion de los servicios expurgados de DALL-E 2 de OpenAI.

'Photoshop para difusión estable'

Tentado por las imágenes fabulosas, atrevidas o de otro mundo que pueblan el hashtag #stablediffusion de Twitter a diario, lo que el resto del mundo probablemente está esperando es... 'Photoshop para difusión estable' – una aplicación instalable multiplataforma que integra la mejor y más poderosa funcionalidad de la arquitectura de Stability.ai, así como las diversas innovaciones ingeniosas de la emergente comunidad de desarrollo de SD, sin ventanas CLI flotantes, rutinas de instalación y actualización oscuras y en constante cambio, o funciones faltantes.

Lo que tenemos actualmente, en la mayoría de las instalaciones más capaces, es una página web elegante variada atravesada por una ventana de línea de comandos incorpórea, y cuya URL es un puerto localhost:

Al igual que las aplicaciones de síntesis impulsadas por CLI, como FaceSwap y DeepFaceLab centrado en BAT, la instalación 'preempaquetada' de Stable Diffusion muestra sus raíces de línea de comandos, con acceso a la interfaz a través de un puerto localhost (vea la parte superior de la imagen de arriba) que se comunica con la función de difusión estable basada en CLI.

De manera similar a las aplicaciones de síntesis controladas por CLI, como FaceSwap y DeepFaceLab centrado en BAT, la instalación "prepack" de Stable Diffusion muestra sus raíces de línea de comandos, con la interfaz a la que se accede a través de un puerto localhost (ver la parte superior de la imagen de arriba) que se comunica con la funcionalidad Stable Diffusion basada en CLI.

Sin duda, se viene una aplicación más ágil. Ya hay varias aplicaciones integrales basadas en Patreon que se pueden descargar, como GRiesgo nmkd (vea la imagen a continuación), pero ninguno que, hasta el momento, integre la gama completa de características que pueden ofrecer algunas de las implementaciones más avanzadas y menos accesibles de Stable Diffusion.

Primeros paquetes de Stable Diffusion basados en Patreon, ligeramente 'aplicados'. NMKD es el primero en integrar la salida CLI directamente en la GUI.

Primeros paquetes de Stable Diffusion basados en Patreon, ligeramente "appizados". NMKD es el primero en integrar la salida de la CLI directamente en la GUI.

Veamos cómo podría llegar a ser una implementación más pulida e integral de esta asombrosa maravilla del código abierto, y qué desafíos podría enfrentar.

Consideraciones legales para una aplicación de difusión comercial estable totalmente financiada

El factor NSFW

El código fuente de Stable Diffusion ha sido publicado bajo un licencia extremadamente permisiva que no prohíbe las reimplementaciones comerciales y los trabajos derivados que se construyen ampliamente a partir del código fuente.

Además del mencionado y creciente número de compilaciones Stable Diffusion basadas en Patreon, así como la gran cantidad de complementos de aplicaciones que se están desarrollando para Figma, Krita, Photoshop, GIMP y Batidora de vaso - Blender (entre otros), no hay Información razón por la cual una casa de desarrollo de software bien financiada no podría desarrollar una aplicación de difusión estable mucho más sofisticada y capaz. Desde una perspectiva de mercado, hay muchas razones para creer que varias iniciativas de este tipo ya están en marcha.

Aquí, tales esfuerzos se enfrentan inmediatamente al dilema de si, como la mayoría de las API web para Stable Diffusion, la aplicación permitirá o no el filtro NSFW nativo de Stable Diffusion (un fragmento de código), para ser apagado.

'Enterrando' el interruptor NSFW

Aunque la licencia de código abierto de Stability.ai para Stable Diffusion incluye una lista ampliamente interpretable de aplicaciones para las que puede No ser utilizado (posiblemente incluyendo contenido pornográfico deepfakes), la única forma en que un proveedor podría prohibir efectivamente dicho uso sería compilar el filtro NSFW en un ejecutable opaco en lugar de un parámetro en un archivo Python, o bien aplicar una comparación de suma de comprobación en el archivo Python o DLL que contiene la directiva NSFW, para que los renderizados no puedan ocurrir si los usuarios modifican esta configuración.

Esto dejaría la supuesta aplicación "castrada" de la misma manera que DALL-E 2 actualmente es, lo que disminuye su atractivo comercial. Además, inevitablemente, es probable que surjan versiones descompiladas y manipuladas de estos componentes (ya sean elementos originales del entorno de ejecución de Python o archivos DLL compilados, como los que se utilizan actualmente en la línea Topaz de herramientas de mejora de imágenes con IA) en la comunidad de torrents y hackers para desbloquear dichas restricciones, simplemente reemplazando los elementos que obstruyen y anulando cualquier requisito de suma de comprobación.

Al final, el proveedor puede optar simplemente por repetir la advertencia de Stability.ai contra el uso indebido que caracteriza la primera ejecución de muchas distribuciones actuales de Stable Diffusion.

Sin embargo, los pequeños desarrolladores de código abierto que actualmente usan descargos de responsabilidad casuales de esta manera tienen poco que perder en comparación con una empresa de software que ha invertido una cantidad significativa de tiempo y dinero en hacer que Stable Diffusion sea accesible y con todas las funciones, lo que invita a una consideración más profunda.

Responsabilidad por falsificación profunda

Como tenemos Recientemente se señalóLa base de datos de estética LAION, parte de los 4.2 millones de imágenes con los que se entrenaron los modelos actuales de Stable Diffusion, contiene una gran cantidad de imágenes de celebridades, lo que permite a los usuarios crear deepfakes de manera efectiva, incluido porno deepfake de celebridades.

De nuestro artículo reciente, cuatro etapas de Jennifer Connelly durante cuatro décadas de su carrera, deducidas de Stable Diffusion.

Se trata de una cuestión distinta y más polémica que la generación de pornografía "abstracta" (normalmente) legal, que no muestra personas "reales" (aunque dichas imágenes se infieren de múltiples fotografías reales en el material de formación).

Dado que un número cada vez mayor de estados y países de EE. UU. están desarrollando o han instituido leyes contra la pornografía deepfake, la capacidad de Stable Diffusion para crear pornografía de celebridades podría significar que una aplicación comercial que no esté completamente censurada (es decir, que pueda crear material pornográfico) aún podría necesitar cierta capacidad para filtrar los rostros de celebridades percibidos.

Un método sería proporcionar una lista negra integrada de términos que no se aceptarían en una solicitud de usuario, relacionados con nombres de famosos y personajes ficticios con los que podrían estar asociados. Presumiblemente, estas configuraciones deberían implementarse en más idiomas además del inglés, ya que los datos originales incluyen otros idiomas. Otra estrategia podría ser incorporar sistemas de reconocimiento de famosos como los desarrollados por Clarifai.

Puede ser necesario que los productores de software incorporen dichos métodos, quizás desactivados inicialmente, ya que pueden ayudar a evitar que una aplicación Stable Diffusion independiente y completa genere caras de celebridades, en espera de una nueva legislación que podría hacer que dicha funcionalidad sea ilegal.

Una vez más, sin embargo, dicha funcionalidad podría inevitablemente ser descompilada y revertida por las partes interesadas; sin embargo, el productor de software podría, en esa eventualidad, alegar que esto es efectivamente vandalismo no sancionado, siempre que este tipo de ingeniería inversa no sea demasiado fácil.

Características que podrían incluirse

La funcionalidad central en cualquier distribución de Stable Diffusion se esperaría de cualquier aplicación comercial bien financiada. Estos incluyen la capacidad de usar indicaciones de texto para generar imágenes apropiadas (texto a imagen); la capacidad de usar bocetos u otras imágenes como guía para nuevas imágenes generadas (imagen a imagen); los medios para ajustar qué tan "imaginativo" se le indica al sistema que sea; una forma de equilibrar el tiempo de renderizado con la calidad; y otros "conceptos básicos", como el archivado automático opcional de imágenes/mensajes y el aumento de escala opcional de rutina a través de RealESRGAN, y al menos una 'arreglo facial' básico con GFPGAN or Código anterior.

Esta es una instalación bastante básica. Veamos algunas de las funciones más avanzadas que se están desarrollando o ampliando y que podrían incorporarse a una aplicación Stable Diffusion tradicional y completa.

Congelación estocástica

Incluso si tú reutilizar una semilla de un renderizado exitoso anterior, es terriblemente difícil lograr que Stable Diffusion repita con precisión una transformación si cualquier parte de la solicitud o la imagen de origen (o ambas) se cambia para una representación posterior.

Esto es un problema si quieres usar Sintetizador Eb para imponer las transformaciones de Stable Diffusion en un video real de una manera temporalmente coherente (aunque la técnica puede ser muy efectiva para tomas simples de cabeza y hombros):

El movimiento limitado puede hacer de EbSynth un medio efectivo para convertir las transformaciones de difusión estable en videos realistas. Fuente: https://streamable.com/u0pgzd

EbSynth funciona extrapolando una pequeña selección de fotogramas clave "alterados" en un vídeo que ha sido renderizado en una serie de archivos de imagen (y que luego se pueden volver a ensamblar en un vídeo).

En este ejemplo del sitio de EbSynth, un pequeño puñado de fotogramas de un video se han pintado de manera artística. EbSynth usa estos marcos como guías de estilo para alterar de manera similar todo el video para que coincida con el estilo pintado. Fuente: https://www.youtube.com/embed/eghGQtQhY38

En el ejemplo a continuación, en el que casi no se observa ningún movimiento de la instructora de yoga rubia (real) de la izquierda, Stable Diffusion aún tiene dificultades para mantener una cara consistente, porque las tres imágenes que se transforman como "fotogramas clave" no son completamente idénticas, aunque todas comparten la misma semilla numérica.

Aquí, incluso con el mismo mensaje y la semilla en las tres transformaciones, y muy pocos cambios entre los marcos de origen, los músculos del cuerpo varían en tamaño y forma, pero lo que es más importante, la cara es inconsistente, lo que dificulta la consistencia temporal en un posible renderizado de EbSynth.

Si bien el video SD/EbSynth a continuación es muy ingenioso, donde los dedos del usuario se han transformado en (respectivamente) un par de piernas con pantalones caminando y un pato, la inconsistencia de los pantalones ejemplifica el problema que tiene Stable Diffusion para mantener la consistencia entre diferentes fotogramas clave, incluso cuando los fotogramas de origen son similares entre sí y la semilla es consistente.

Los dedos de un hombre se convierten en un hombre que camina y en un pato, a través de Stable Diffusion y EbSynth. Fuente: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Los dedos de un hombre se convierten en un hombre caminante y un pato, a través de Stable Diffusion y EbSynth. Fuente: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

El usuario que creó este video comentó que la transformación del pato, posiblemente la más efectiva de las dos, aunque menos llamativa y original, requirió solo un fotograma clave transformado, mientras que fue necesario generar 50 imágenes de difusión estable para crear los pantalones para caminar, que exhiben más temporal inconsecuencia. El usuario también señaló que se necesitaron cinco intentos para lograr la consistencia para cada uno de los 50 fotogramas clave.

Por lo tanto, sería un gran beneficio para una aplicación Stable Diffusion verdaderamente integral proporcionar una funcionalidad que conserve las características al máximo en todos los fotogramas clave.

Una posibilidad es que la aplicación permita al usuario congelar la codificación estocástica para la transformación en cada fotograma, lo cual actualmente solo se puede lograr modificando manualmente el código fuente. Como muestra el ejemplo a continuación, esto mejora la consistencia temporal, aunque ciertamente no la soluciona:

Un usuario de Reddit transformó las imágenes de la cámara web de sí mismo en diferentes personas famosas no solo conservando la semilla (lo que puede hacer cualquier implementación de Stable Diffusion), sino también asegurándose de que el parámetro stochastic_encode() fuera idéntico en cada transformación. Esto se logró modificando el código, pero podría convertirse fácilmente en un interruptor accesible para el usuario. Claramente, sin embargo, no resuelve todos los problemas temporales. Fuente: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Inversión textual basada en la nube

Una mejor solución para obtener personajes y objetos consistentes temporalmente es "hornearlos" en un inversión textual – un archivo de 5 KB que se puede entrenar en unas pocas horas en función de solo cinco imágenes anotadas, que luego se pueden obtener mediante un especial '*' rápido, lo que permite, por ejemplo, una aparición persistente de personajes novedosos para su inclusión en una narración.

Las imágenes asociadas con etiquetas apropiadas se pueden convertir en entidades discretas a través de la inversión textual y se pueden invocar sin ambigüedad y en el contexto y estilo correctos mediante palabras simbólicas especiales. Fuente: https://huggingface.co/docs/diffusers/training/text_inversion

Las inversiones textuales son archivos adjuntos al modelo muy grande y completamente entrenado que utiliza Stable Diffusion, y se "incorporan" de manera efectiva en el proceso de obtención/estimulación, de modo que puedan participar en escenas derivadas del modelo y beneficiarse de la enorme base de datos de conocimientos del modelo sobre objetos, estilos, entornos e interacciones.

Sin embargo, aunque no lleva mucho tiempo entrenar una inversión textual, requiere una gran cantidad de VRAM; según varios tutoriales actuales, entre 12, 20 e incluso 40 GB.

Dado que es poco probable que la mayoría de los usuarios ocasionales tengan ese tipo de GPU a su disposición, ya están surgiendo servicios en la nube que manejarán la operación, incluida una versión Hugging Face. Aunque hay Implementaciones de Google Colab que pueden crear inversiones textuales para Stable Diffusion, la VRAM requerida y los requisitos de tiempo pueden hacer que estos sean un desafío para los usuarios de Colab de nivel gratuito.

Para una posible aplicación Stable Diffusion (instalada) completa y con buena inversión, pasar esta pesada tarea a los servidores en nube de la empresa parece una estrategia de monetización obvia (asumiendo que una aplicación Stable Diffusion de bajo o ningún costo está permeada con tal funcionalidad no libre, lo que parece probable en muchas posibles aplicaciones que surgirán de esta tecnología en los próximos 6 a 9 meses).

Además, el complejo proceso de anotar y formatear las imágenes y el texto enviados podría beneficiarse de la automatización en un entorno integrado. El potencial efecto adictivo de crear elementos únicos que permitan explorar e interactuar con los vastos mundos de Stable Diffusion podría resultar compulsivo, tanto para los aficionados como para los usuarios más jóvenes.

Ponderación rápida versátil

Hay muchas implementaciones actuales que permiten al usuario asignar mayor énfasis a una sección de un indicador de texto largo, pero la instrumentación varía bastante entre ellas y, con frecuencia, es torpe o poco intuitiva.

La popular horquilla Stable Diffusion por AUTOMATIC1111, por ejemplo, puede disminuir o aumentar el valor de una palabra clave encerrándola entre corchetes simples o múltiples (para restar énfasis) o entre corchetes para énfasis adicional.

Los corchetes y/o los paréntesis pueden transformar su desayuno en esta versión de Pesos rápidos de difusión estable, pero de todos modos es una pesadilla para el colesterol.

Los corchetes y/o paréntesis pueden transformar tu desayuno en esta versión de los pesos indicados por Stable Diffusion, pero de cualquier manera es una pesadilla de colesterol.

Otras iteraciones de Stable Diffusion usan signos de exclamación para enfatizar, mientras que las más versátiles permiten a los usuarios asignar pesos a cada palabra en el indicador a través de la GUI.

El sistema también debe permitir Pesos rápidos negativos - no solo para fanáticos del terror, pero porque puede haber misterios menos alarmantes y más edificantes en el espacio latente de Difusión Estable de los que nuestro uso limitado del lenguaje puede evocar.

pintar

Poco después del sensacional código abierto de Stable Diffusion, OpenAI intentó, en gran parte en vano, recuperar parte de su trueno DALL-E 2 mediante anunciando 'outpainting', que permite al usuario extender una imagen más allá de sus límites con lógica semántica y coherencia visual.

Naturalmente, esto ha sido desde entonces implementado en varias formas para Difusión Estable, así como en Krita, y sin duda debería incluirse en una versión integral de estilo Photoshop de Stable Diffusion.

El aumento basado en mosaicos puede extender un renderizado estándar de 512x512 casi infinitamente, siempre que las indicaciones, la imagen existente y la lógica semántica lo permitan. Fuente: https://github.com/lkwq007/stablediffusion-infinity

El aumento basado en mosaicos puede extender un renderizado estándar de 512 × 512 casi infinitamente, siempre que las indicaciones, la imagen existente y la lógica semántica lo permitan. Fuente: https://github.com/lkwq007/stablediffusion-infinity

Debido a que Stable Diffusion está entrenado en imágenes de 512x512px (y por una variedad de otras razones), con frecuencia corta las cabezas (u otras partes esenciales del cuerpo) de los sujetos humanos, incluso cuando el mensaje indicaba claramente "énfasis en la cabeza", etc.

Ejemplos típicos de 'decapitación' de Difusión Estable; pero la pintura podría volver a poner a George en la imagen.

Ejemplos típicos de 'decapitación' por difusión estable; pero pintar de nuevo podría poner a George en escena.

Cualquier implementación de pintura superior del tipo ilustrado en la imagen animada anterior (que se basa exclusivamente en las bibliotecas de Unix, pero debería poder replicarse en Windows) también debe ser una solución rápida/de un solo clic para esto.

Actualmente, muchos usuarios extienden el lienzo de las representaciones "decapitadas" hacia arriba, rellenan aproximadamente el área de la cabeza y usan img2img para completar la representación fallida.

Enmascaramiento efectivo que entiende el contexto

Cintas Puede ser un proceso muy irregular en Stable Diffusion, dependiendo de la bifurcación o versión en cuestión. Con frecuencia, cuando es posible dibujar una máscara cohesiva, el área especificada termina siendo pintada con contenido que no tiene en cuenta todo el contexto de la imagen.

En una ocasión, enmascaré las córneas de la imagen de una cara y proporcioné el aviso 'ojos azules' Como una máscara pintada, solo para descubrir que parecía estar mirando a través de dos ojos humanos recortados la imagen lejana de un lobo de aspecto sobrenatural. Supongo que tuve suerte de que no fuera Frank Sinatra.

La edición semántica también es posible mediante identificar el ruido que construyó la imagen en primer lugar, lo que permite al usuario abordar elementos estructurales específicos en un render sin interferir con el resto de la imagen:

Cambiar un elemento de una imagen sin el enmascaramiento tradicional y sin alterar el contenido adyacente, al identificar el ruido que originó la imagen en primer lugar y abordar las partes que contribuyeron al área de destino. Fuente: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Este método se basa en la Muestreador de difusión K.

Filtros semánticos para errores fisiológicos

Como hemos mencionado anteriormente, Stable Diffusion puede agregar o quitar extremidades con frecuencia, en gran parte debido a problemas de datos y deficiencias en las anotaciones que acompañan a las imágenes que lo entrenaron.

Al igual que ese niño errante que sacó la lengua en la foto grupal de la escuela, las atrocidades biológicas de Stable Diffusion no siempre son inmediatamente obvias, y es posible que haya subido a Instagram su última obra maestra de IA antes de notar las manos adicionales o las extremidades derretidas.

Al igual que aquel niño descarriado que sacó la lengua en la foto grupal del colegio, las atrocidades biológicas de Stable Diffusion no siempre son inmediatamente obvias, y es posible que hayas publicado en Instagram tu última obra maestra de IA antes de notar las manos adicionales o las extremidades derretidas.

Es tan difícil corregir este tipo de errores que sería útil si una aplicación Stable Diffusion de tamaño completo contuviera algún tipo de sistema de reconocimiento anatómico que empleara segmentación semántica para calcular si la imagen entrante presenta deficiencias anatómicas graves (como en la imagen de arriba). ), y lo descarta a favor de un nuevo renderizado antes de presentárselo al usuario.

Por supuesto, es posible que desee renderizar a la diosa Kali o al Doctor Octopus, o incluso rescatar una parte no afectada de una imagen con extremidades afectadas, por lo que esta característica debería ser un interruptor opcional.

Si los usuarios pudieran tolerar el aspecto de la telemetría, tales fallos de encendido podrían incluso transmitirse de forma anónima en un esfuerzo colectivo de aprendizaje federativo que puede ayudar a los futuros modelos a mejorar su comprensión de la lógica anatómica.

Mejora facial automática basada en LAION

Como señalé en mi mirada previa En cuanto a las tres cosas que Stable Diffusion podría abordar en el futuro, no se debería dejar únicamente en manos de cualquier versión de GFPGAN el intento de "mejorar" las caras renderizadas en los renders de primera instancia.

Las "mejoras" de GFPGAN son terriblemente genéricas, con frecuencia minan la identidad del individuo representado y operan únicamente sobre un rostro que generalmente ha sido mal representado, ya que no ha recibido más tiempo de procesamiento ni atención que cualquier otra parte de la imagen.

Por lo tanto, un programa profesional para Difusión Estable debería ser capaz de reconocer un rostro (con una biblioteca estándar y relativamente ligera como YOLO), aprovechar al máximo la potencia de la GPU disponible para renderizarlo y, o bien, integrar el rostro mejorado en el renderizado original de contexto completo, o bien guardarlo por separado para su recomposición manual. Actualmente, esta es una operación bastante práctica.

En los casos en los que Stable Diffusion se entrenó en una cantidad adecuada de imágenes de una celebridad, es posible concentrar toda la capacidad de la GPU en una renderización posterior únicamente del rostro de la imagen renderizada, lo que suele ser una mejora notable y, a diferencia de GFPGAN , se basa en información de datos entrenados por LAION, en lugar de simplemente ajustar los píxeles renderizados.

En los casos en que Stable Diffusion se ha entrenado en una cantidad adecuada de imágenes de una celebridad, es posible concentrar toda la capacidad de la GPU en una representación posterior únicamente del rostro de la imagen renderizada, lo que suele ser una mejora notable y, a diferencia de GFPGAN, se basa en información de datos entrenados con LAION, en lugar de simplemente ajustar los píxeles renderizados.

Búsquedas LAION en la aplicación

Desde que los usuarios comenzaron a darse cuenta de que buscar conceptos, personas y temas en la base de datos de LAION podría ser de ayuda para un mejor uso de Stable Diffusion, se han creado varios exploradores de LAION en línea, incluido haveibeentrained.com.

La función de búsqueda en haveibeentrained.com permite a los usuarios explorar las imágenes que potencian Stable Diffusion y descubrir si los objetos, las personas o las ideas que les gustaría obtener del sistema probablemente hayan sido entrenados en él. Dichos sistemas también son útiles para descubrir entidades adyacentes, como la forma en que se agrupan las celebridades o la 'próxima idea' que deriva de la actual. Fuente: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

La función de búsqueda de haveibeentrained.com permite a los usuarios explorar las imágenes que impulsan la Difusión Estable y descubrir si es probable que los objetos, personas o ideas que deseen obtener del sistema hayan sido entrenados. Estos sistemas también son útiles para descubrir entidades adyacentes, como la forma en que se agrupan las celebridades o la "siguiente idea" que deriva de la actual. Fuente: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Aunque tales bases de datos basadas en la web a menudo revelan algunas de las etiquetas que acompañan a las imágenes, el proceso de generalización que tiene lugar durante el entrenamiento del modelo significa que es poco probable que se pueda invocar una imagen en particular usando su etiqueta como aviso.

Adicionalmente, la eliminación de 'palabras vacías' y la práctica de derivación y lematización en el procesamiento del lenguaje natural significa que muchas de las frases mostradas se dividieron u omitieron antes de ser entrenadas en difusión estable.

No obstante, la forma en que las agrupaciones estéticas se unen en estas interfaces puede enseñarle al usuario final mucho sobre la lógica (o, podría decirse, la "personalidad") de Stable Diffusion y resultar una ayuda para una mejor producción de imágenes.

Conclusión

Hay muchas otras características que me gustaría ver en una implementación de escritorio nativa completa de Stable Diffusion, como el análisis de imágenes nativo basado en CLIP, que revierte el proceso estándar de Stable Diffusion y permite al usuario obtener frases y palabras que el sistema asociaría naturalmente con la imagen de origen o el render.

Además, el verdadero escalado basado en mosaicos sería una adición bienvenida, ya que ESRGAN es un instrumento casi tan contundente como GFPGAN. Afortunadamente, los planes para integrar el txt2imghd La implementación de GOBIG está haciendo que esto sea una realidad rápidamente en todas las distribuciones, y parece una opción obvia para una iteración de escritorio.

Algunas otras solicitudes populares de las comunidades de Discord me interesan menos, como los diccionarios de indicaciones integrados y las listas aplicables de artistas y estilos, aunque un cuaderno en la aplicación o un léxico de frases personalizable parecería una adición lógica.

Del mismo modo, las limitaciones actuales de la animación centrada en el ser humano en Stable Diffusion, aunque fueron impulsadas por CogVideo y varios otros proyectos, siguen siendo increíblemente incipientes y están a merced de la investigación previa sobre los antecedentes temporales relacionados con el movimiento humano auténtico.

Por ahora, el video de difusión estable es estrictamente psicodélico, aunque puede tener un futuro cercano mucho más brillante en el mundo de las marionetas deepfake, a través de EbSynth y otras iniciativas de texto a video relativamente incipientes (y vale la pena destacar la falta de personas sintetizadas o "alteradas" en Runway). último video promocional).

Otra valiosa funcionalidad sería la transferencia transparente de Photoshop, ya establecida en el editor de texturas de Cinema4D, entre otras implementaciones similares. Con esta, se pueden transferir imágenes entre aplicaciones fácilmente y usar cada una para realizar las transformaciones que mejor se le dan.

Finalmente, y quizás lo más importante, un programa Stable Diffusion de escritorio completo no solo debería poder intercambiar fácilmente entre puntos de control (es decir, versiones del modelo subyacente que alimenta el sistema), sino que también debería poder actualizar Inversiones textuales personalizadas que funcionaron con lanzamientos de modelos oficiales anteriores, pero de lo contrario puede ser roto por versiones posteriores del modelo (como los desarrolladores en el Discord oficial han indicado que podría ser el caso).

Irónicamente, la organización que se encuentra en la mejor posición para crear una matriz de herramientas tan poderosa e integrada para Stable Diffusion, Adobe, se ha aliado tan fuertemente con la Iniciativa de autenticidad de contenido que podría parecer un paso en falso retrógrado de relaciones públicas por parte de la empresa, a menos que fuera para obstaculizar los poderes generativos de Stable Diffusion tan completamente como lo hizo OpenAI con DALL-E 2, y posicionarlo en cambio como una evolución natural de sus considerables activos en fotografía de archivo.

Publicado por primera vez el 15 de septiembre de 2022.

Temas relacionados:falsificaciones profundas deepfake característica síntesis de imagen OpenAI Difusión estable