talón Cómo saber cuándo los sistemas de síntesis de imágenes están produciendo material genuinamente 'original' - Unite.AI
Contáctanos

Inteligencia artificial

Cómo saber cuándo los sistemas de síntesis de imágenes están produciendo material genuinamente 'original'

mm
Actualizado on
'Ositos de peluche trabajando en una nueva investigación de IA bajo el agua con tecnología de la década de 1990' - Fuente: https://www.creativeboom.com/features/meet-dall-e/
'Ositos de peluche trabajando en una nueva investigación de IA bajo el agua con tecnología de la década de 1990' - Fuente: https://www.creativeboom.com/features/meet-dall-e/

Un nuevo estudio de Corea del Sur ha propuesto un método para determinar si los sistemas de síntesis de imágenes están produciendo imágenes genuinamente novedosas o variantes "menores" de los datos de entrenamiento, lo que podría frustrar el objetivo de tales arquitecturas (como la producción de imágenes novedosas y originales). .

Muy a menudo, sugiere el documento, esto último es cierto, porque las métricas existentes que dichos sistemas utilizan para mejorar sus capacidades generativas en el transcurso del entrenamiento se ven obligadas a favorecer las imágenes que están relativamente cerca de las imágenes de origen (no falsas) en el conjunto de datos. .

Después de todo, si una imagen generada es 'visualmente cercana' a los datos de origen, inevitablemente obtendrá una mejor puntuación en 'autenticidad' que en 'originalidad', ya que es 'fiel', aunque no esté inspirada.

En un sector demasiado incipiente y poco probado para que se conozcan sus ramificaciones legales, esto podría convertirse en un tema legal importante, si resulta que el contenido de imágenes sintéticas comercializado no difiere lo suficiente del material de origen (a menudo) protegido por derechos de autor que se encuentra actualmente permitido perfundir el sector de la investigación en forma de populares conjuntos de datos web raspados (el potencial de futuras reclamaciones de infracción de este tipo ha saltó a la fama recientemente con respecto a GitHub Co-Pilot AI de Microsoft).

En términos de resultados cada vez más coherentes y semánticamente sólidos de sistemas como OpenAI DALL-E2, De Google Imagen, y de China CogView lanzamientos (así como los de menor especificación DALL-E mini), hay muy pocos después de los hechos formas de probar de forma fiable la originalidad de una imagen generada.

De hecho, buscar algunas de las imágenes más populares de las nuevas DALL-E 2 a menudo solo conducirá a más instancias de esas mismas imágenes, según el motor de búsqueda.

Cargar un grupo de salida DALL-E 9 completo de 2 imágenes solo genera más grupos de salida DALL-E 2. Separar y cargar la primera imagen (de esta publicación de Twitter del 8 de junio de 2022, de la cuenta 'Weird Dall-E Generations') hace que Google se fije en la pelota de baloncesto de la imagen, llevando la búsqueda basada en imágenes a un callejón sin salida semántico. Para la misma búsqueda basada en imágenes, Yandex parece al menos estar haciendo una deconstrucción real basada en píxeles y coincidencia de características.

Cargar un grupo de salida DALL-E 9 completo de 2 imágenes solo conduce a más grupos de salida DALL-E 2, porque la estructura de cuadrícula es la característica más fuerte. Separando y subiendo la primera imagen (de esta publicación de Twitter del 8 de junio de 2022, de la cuenta 'Weird Dall-E Generations') hace que Google se fije en la pelota de baloncesto de la imagen, llevando la búsqueda basada en imágenes a un callejón sin salida semántico. Para la misma búsqueda basada en imágenes, Yandex parece al menos estar haciendo una deconstrucción real basada en píxeles y coincidencia de características.

Aunque Yandex es más probable que Google Search utilice el Características (es decir, una imagen derivada/calculada Características, no necesariamente rasgos faciales de personas) y visual características (en lugar de semánticas) de una imagen enviada para encontrar imágenes similares, todos los motores de búsqueda basados ​​en imágenes tienen algún tipo de agenda o práctica que pueden dificultar la identificación de instancias de fuente>generado plagio a través de búsquedas en la web.

Además, es posible que los datos de entrenamiento para un modelo generativo no estén disponibles públicamente en su totalidad, lo que dificulta aún más el examen forense de la originalidad de las imágenes generadas.

Curiosamente, realizar una búsqueda web basada en imágenes en una de las imágenes sintéticas presentadas por Google en su sitio dedicado a Imagen no encuentra absolutamente nada comparable al sujeto de la imagen, en términos de mirar realmente la imagen y buscar imparcialmente imágenes similares. Más bien, fijados semánticamente como siempre, los resultados de la búsqueda de imágenes de Google para esta imagen de Imagen no permitirán una búsqueda web pura basada en imágenes de la imagen sin agregar los términos de búsqueda 'imagen de google' como un parámetro adicional (y limitante):

Yandex, por el contrario, encuentra una multitud de imágenes del mundo real similares (o al menos relacionadas visualmente) de la comunidad artística amateur:

En general, sería mejor si la novedad u originalidad de la salida de los sistemas de síntesis de imágenes pudiera medirse de alguna manera, sin necesidad de extraer características de todas las imágenes posibles de Internet en Internet en el momento en que se entrenó el modelo, o en conjuntos de datos no públicos que pueden estar utilizando material protegido por derechos de autor.

En relación con este tema, los investigadores de la Escuela de Graduados en IA Kim Jaechul del Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST AI) han colaborado con la empresa global de búsqueda y TIC NAVER Corp para desarrollar un Puntuación de rareza que pueden ayudar a identificar las creaciones más originales de los sistemas de síntesis de imágenes.

Las imágenes aquí se generan a través de StyleGAN-FFHQ. De izquierda a derecha, las columnas indican los peores a los mejores resultados. Podemos ver que la métrica 'truncamiento' (ver más abajo) y la métrica Realismo tienen sus propias agendas, mientras que la nueva puntuación 'Rareza' (fila superior) busca imágenes cohesivas pero originales (en lugar de solo imágenes cohesivas). Fuente: https://arxiv.org/pdf/2206.08549.pdf

Las imágenes aquí se generan a través de StyleGAN-FFHQ. De izquierda a derecha, las columnas indican los peores a los mejores resultados. Podemos ver que la métrica 'truncamiento' (ver más abajo) y la métrica Realismo tienen sus propias agendas, mientras que la nueva puntuación 'Rareza' (fila superior) busca imágenes cohesivas pero originales (en lugar de solo imágenes cohesivas). Dado que hay límites de tamaño de imagen en este artículo, consulte el documento de origen para obtener mejores detalles y resolución. Fuente: https://arxiv.org/pdf/2206.08549.pdf

El nuevo se titula Puntuación de rareza: una nueva métrica para evaluar la falta de frecuencia de las imágenes sintetizadas, y proviene de tres investigadores de KAIST y tres de NAVER Corp.

Más allá del 'truco barato'

Entre las métricas anteriores que el nuevo documento busca mejorar se encuentran el 'truco de truncamiento' sugerido en 2019 en una colaboración entre la Universidad Heriot-Watt del Reino Unido y DeepMind de Google.

El truco del truncamiento esencialmente usa una distribución latente diferente para el muestreo que la que se usó para entrenar el modelo generativo.

Los investigadores que desarrollaron este método se sorprendieron de que funcionara, pero admiten en el artículo original que reduce la variedad de resultados generados. No obstante, el truco del truncamiento se ha vuelto efectivo y popular, en el contexto de lo que podría decirse que podría volver a describirse como un "truco barato" para obtener resultados de aspecto auténtico que en realidad no asimilan todas las posibilidades inherentes a los datos y pueden parecerse a los datos de origen más de lo deseado.

Con respecto al truco del truncamiento, los autores del nuevo artículo observan:

'[No] está destinado a generar muestras raras en conjuntos de datos de entrenamiento, sino a sintetizar imágenes típicas de manera más estable. Presumimos que los modelos generativos existentes podrán producir muestras más ricas en la distribución de datos reales si se puede inducir al generador para que produzca efectivamente muestras raras”.

De la tendencia general a confiar en métricas tradicionales como Frechet Inception Distance (FID, que fue objeto de intensas críticas en diciembre de 2021), la puntuación de inicio (IS) y la distancia de inicio del kernel (KID) como "indicadores de progreso" durante el entrenamiento de un modelo generativo, los autores comentan además*:

'Este esquema de aprendizaje lleva al generador a no sintetizar muchas muestras raras que son únicas y tienen características fuertes que no representan una gran proporción de la distribución de la imagen real. Los ejemplos de muestras raras de conjuntos de datos públicos incluyen personas con varios accesorios en FFHQ, animales blancos en AFHQy estatuas poco comunes en Metfaces.

“La capacidad de generar muestras raras es importante no solo porque está relacionada con la capacidad de borde de los modelos generativos, sino también porque la singularidad juega un papel importante en las aplicaciones creativas, como los humanos virtuales.

'Sin embargo, los resultados cualitativos de varios estudios recientes rara vez contienen estos raros ejemplos. Conjeturamos que la naturaleza del esquema de aprendizaje contradictorio obliga a generar una distribución de imágenes similar a la de un conjunto de datos de entrenamiento. Así, las imágenes con clara individualidad o rareza sólo ocupan un pequeño papel en las imágenes sintetizadas por los modelos.'

Tecnologia

El nuevo Rarity Score de los investigadores adapta una idea presentada en más temprano funciona - el uso de K-Vecinos más cercanos (KNN) para representar las matrices de datos genuinos (entrenamiento) y sintéticos (salida) en un sistema de síntesis de imágenes.

Respecto a este novedoso método de análisis, los autores afirman:

"Presumimos que las muestras ordinarias estarían más cerca unas de otras, mientras que las muestras únicas y raras estarían escasamente ubicadas en el espacio de características".

La imagen de resultados anterior muestra las distancias de vecino más cercano (NND) más pequeñas hasta las más grandes, en una arquitectura StyleGAN entrenada en FFHQ.

'Para todos los conjuntos de datos, las muestras con los NND más pequeños muestran imágenes típicas y representativas. Por el contrario, las muestras con los NND más grandes tienen una fuerte individualidad y son significativamente diferentes de las imágenes típicas con los NND más pequeños”.

En teoría, al usar esta nueva métrica como discriminador, o al menos incluirla en una arquitectura de discriminador más compleja, un sistema generativo podría alejarse de la pura imitación hacia un algoritmo más inventivo, al tiempo que conserva la cohesión esencial de los conceptos que pueden ser críticos. para la producción de imágenes auténticas (es decir, 'hombre', 'mujer', 'auto', 'iglesia', Etc).

Comparaciones y Experimentos

En las pruebas, los investigadores compararon el rendimiento de Rarity Score con Truncation Trick y NVIDIA 2019. Puntuación de realismo, y encontró que a través de una variedad de marcos y conjuntos de datos, el enfoque es capaz de individualizar resultados 'únicos'.

Aunque los resultados presentados en el documento son demasiado extensos para incluirlos aquí, los investigadores parecen haber demostrado la capacidad del nuevo método para identificar la rareza tanto en imágenes de origen (reales) como generadas (falsas) en un procedimiento generativo:

Seleccione ejemplos de los extensos resultados visuales reproducidos en el documento (consulte la URL de origen anterior para obtener más detalles). A la izquierda, ejemplos genuinos de FFHQ que tienen muy pocos vecinos cercanos (es decir, son nuevos e inusuales) en el conjunto de datos original; a la derecha, imágenes falsas generadas por StyleGAN, que la nueva métrica ha identificado como verdaderamente novedosas.

Seleccione ejemplos de los extensos resultados visuales reproducidos en el documento (consulte la URL de origen anterior para obtener más detalles). A la izquierda, ejemplos genuinos de FFHQ que tienen muy pocos vecinos cercanos (es decir, son nuevos e inusuales) en el conjunto de datos original; a la derecha, imágenes falsas generadas por StyleGAN, que la nueva métrica ha identificado como verdaderamente novedosas. Dado que hay límites de tamaño de imagen en este artículo, consulte el documento de origen para obtener mejores detalles y resolución.

La nueva métrica Rarity Score no solo permite la posibilidad de identificar resultados generativos 'novedosos' en una sola arquitectura, sino que también, afirman los investigadores, permite comparaciones entre modelos generativos de varias arquitecturas (es decir, autocodificador, VAE, GAN, etc. ).

El documento señala que Rarity Score difiere de las métricas anteriores al concentrarse en la capacidad de un marco generativo para crear imágenes únicas y raras, en oposición a las métricas 'tradicionales', que examinan (bastante más miopemente) la diversidad entre generaciones durante el entrenamiento del modelo.

Más allá de las tareas limitadas

Aunque los investigadores del nuevo artículo han realizado pruebas en marcos de dominio limitado (como combinaciones de generador/conjunto de datos diseñados para producir imágenes de personas o de gatos, por ejemplo), el Rarity Score puede aplicarse potencialmente a cualquier procedimiento de síntesis de imágenes arbitrario en el que se desea identificar ejemplos generados que utilicen las distribuciones derivadas de los datos entrenados, en lugar de aumentar la autenticidad (y reducir la diversidad) mediante la interposición de distribuciones latentes extranjeras, o confiar en otros "atajos" que comprometen la novedad a favor de la autenticidad.

En efecto, tal métrica podría potencialmente distinguir instancias de salida verdaderamente novedosas en sistemas como la serie DALL-E, mediante el uso de la distancia identificada entre un resultado "atípico" aparente, los datos de entrenamiento y los resultados de indicaciones o entradas similares (es decir, imagen -indicaciones basadas).

En la práctica, y en ausencia de una comprensión clara de la medida en que el sistema realmente ha asimilado conceptos visuales y semánticos (a menudo impedido por un conocimiento limitado sobre los datos de entrenamiento), este podría ser un método viable para identificar un verdadero "momento de inspiración 'en un sistema generativo: el punto en el que una cantidad adecuada de conceptos y datos de entrada han dado como resultado algo genuinamente inventivo, en lugar de algo demasiado derivado o cercano a los datos de origen.

 

* Mis conversiones de las citas en línea de los autores a hipervínculos.

Publicado por primera vez el 20 de junio de 2022.