Inteligencia Artificial
Cómo saber cuándo los sistemas de síntesis de imágenes están produciendo material genuinamente 'original'

Un nuevo estudio de Corea del Sur ha propuesto un método para determinar si los sistemas de síntesis de imágenes están produciendo imágenes realmente novedosas o variantes "menores" de los datos de entrenamiento, lo que podría frustrar el objetivo de dichas arquitecturas (como la producción de imágenes novedosas y originales).
Muy a menudo, sugiere el documento, esto último es cierto, porque las métricas existentes que dichos sistemas utilizan para mejorar sus capacidades generativas en el transcurso del entrenamiento se ven obligadas a favorecer las imágenes que están relativamente cerca de las imágenes de origen (no falsas) en el conjunto de datos. .
Después de todo, si una imagen generada es "visualmente cercana" a los datos originales, es inevitable que obtenga una mejor puntuación en "autenticidad" que en "originalidad", ya que es "fiel", aunque no esté inspirada.
En un sector demasiado incipiente y poco probado para que se conozcan sus ramificaciones legales, esto podría convertirse en un tema legal importante, si resulta que el contenido de imágenes sintéticas comercializado no difiere lo suficiente del material de origen (a menudo) protegido por derechos de autor que se encuentra actualmente permitido perfundir el sector de la investigación en forma de populares conjuntos de datos web raspados (el potencial de futuras reclamaciones de infracción de este tipo ha saltó a la fama recientemente en relación con GitHub Co-Pilot AI de Microsoft).
En términos de los resultados cada vez más coherentes y semánticamente robustos de sistemas como OpenAI DALL-E2, Google Imageny China CogView lanzamientos (así como los de menor especificación DALL-E mini), hay muy pocos después de los hechos formas de probar de forma fiable la originalidad de una imagen generada.
De hecho, buscar algunas de las imágenes más populares de las nuevas DALL-E 2 a menudo solo conducirá a más instancias de esas mismas imágenes, según el motor de búsqueda.

Cargar un grupo de salida DALL-E 9 completo de 2 imágenes solo conduce a más grupos de salida DALL-E 2, porque la estructura de cuadrícula es la característica más fuerte. Separando y subiendo la primera imagen (de esta publicación de Twitter El 8 de junio de 2022, de la cuenta «Weird Dall-E Generations», provoca que Google se centre en el balón de baloncesto de la imagen, lo que lleva la búsqueda basada en imágenes a un callejón sin salida semántico. Para la misma búsqueda basada en imágenes, Yandex parece estar realizando al menos una deconstrucción basada en píxeles y una comparación de características.
Aunque Yandex es más probable que Google Search utilice el Características (es decir, una imagen derivada/calculada) Características, no necesariamente rasgos faciales de personas) y visual características (en lugar de semánticas) de una imagen enviada para encontrar imágenes similares, todos los motores de búsqueda basados en imágenes tienen algún tipo de agenda o práctica que pueden dificultar la identificación de instancias de fuente>generado plagio a través de búsquedas en la web.
Además, es posible que los datos de entrenamiento para un modelo generativo no estén disponibles públicamente en su totalidad, lo que dificulta aún más el examen forense de la originalidad de las imágenes generadas.
Curiosamente, realizar una búsqueda web basada en imágenes en una de las imágenes sintéticas presentadas por Google en su sitio dedicado a Imagen No encuentra absolutamente nada comparable al tema de la imagen, en términos de observarla y buscar imágenes similares de forma imparcial. Más bien, con una fijación semántica como siempre, los resultados de búsqueda de Google Imágenes para esta imagen no permiten una búsqueda web pura sin añadir el término de búsqueda «imagen google» como parámetro adicional (y limitante).
Yandex, por el contrario, encuentra una multitud de imágenes del mundo real similares (o al menos relacionadas visualmente) de la comunidad artística amateur:
En general, sería mejor si la novedad u originalidad de la salida de los sistemas de síntesis de imágenes pudiera medirse de alguna manera, sin necesidad de extraer características de todas las imágenes posibles de Internet en Internet en el momento en que se entrenó el modelo, o en conjuntos de datos no públicos que pueden estar utilizando material protegido por derechos de autor.
En relación con este tema, los investigadores de la Escuela de Graduados en IA Kim Jaechul del Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST AI) han colaborado con la empresa global de búsqueda y TIC NAVER Corp para desarrollar un Puntuación de rareza que pueden ayudar a identificar las creaciones más originales de los sistemas de síntesis de imágenes.

Las imágenes aquí se generan mediante StyleGAN-FFHQ. De izquierda a derecha, las columnas indican los resultados, de peor a mejor. Podemos observar que la métrica "Truco de truncamiento" (ver abajo) y la métrica "Realismo" tienen sus propios objetivos, mientras que la nueva puntuación "Rareza" (fila superior) busca imágenes cohesivas pero originales (en lugar de imágenes cohesivas). Dado que este artículo tiene límites de tamaño de imagen, consulte el artículo original para obtener más detalles y resolución. Fuente: https://arxiv.org/pdf/2206.08549.pdf
El nuevo edificio corporativo de se titula Puntuación de rareza: una nueva métrica para evaluar la falta de frecuencia de las imágenes sintetizadas, y proviene de tres investigadores de KAIST y tres de NAVER Corp.
Más allá del 'truco barato'
Entre las métricas previas que el nuevo artículo busca mejorar se encuentra el "truco del truncamiento". sugerido en 2019 en una colaboración entre la Universidad Heriot-Watt del Reino Unido y DeepMind de Google.
El truco del truncamiento esencialmente usa una distribución latente diferente para el muestreo que la que se usó para entrenar el modelo generativo.
Los investigadores que desarrollaron este método se sorprendieron de su funcionamiento, pero en el artículo original admiten que reduce la variedad de los resultados generados. No obstante, el Truco de Truncamiento se ha vuelto efectivo y popular, en el contexto de lo que podría redescribirse como un "truco barato" para obtener resultados de apariencia auténtica que no asimilan todas las posibilidades inherentes a los datos y pueden parecerse a los datos originales más de lo deseado.
Respecto al truco del truncamiento, los autores del nuevo artículo observan:
No se pretende generar muestras raras en conjuntos de datos de entrenamiento, sino sintetizar imágenes típicas de forma más estable. Nuestra hipótesis es que los modelos generativos existentes podrán producir muestras más ricas en la distribución de datos reales si se logra inducir al generador a producir muestras raras de forma eficaz.
De la tendencia general a confiar en métricas tradicionales como Frechet Inception Distance (FID, que fue objeto de intensas críticas en diciembre de 2021), la puntuación de inicio (IS) y la distancia de inicio del kernel (KID) como 'indicadores de progreso' durante el entrenamiento de un modelo generativo, los autores comentan además*:
'Este esquema de aprendizaje lleva al generador a no sintetizar muchas muestras raras que son únicas y tienen características fuertes que no representan una gran proporción de la distribución de la imagen real. Los ejemplos de muestras raras de conjuntos de datos públicos incluyen personas con varios accesorios en FFHQ, animales blancos en AFHQ y estatuas poco comunes en Metfaces.
“La capacidad de generar muestras raras es importante no solo porque está relacionada con la capacidad de borde de los modelos generativos, sino también porque la singularidad juega un papel importante en las aplicaciones creativas, como los humanos virtuales.
Sin embargo, los resultados cualitativos de varios estudios recientes rara vez incluyen estos ejemplos excepcionales. Conjeturamos que la naturaleza del esquema de aprendizaje adversarial genera una distribución de imágenes similar a la de un conjunto de datos de entrenamiento. Por lo tanto, las imágenes con una clara individualidad o rareza solo representan una pequeña proporción de las imágenes sintetizadas por los modelos.
Tecnologia
El nuevo Rarity Score de los investigadores adapta una idea presentada en más temprano funciona - el uso de K-Vecinos más cercanos (KNN) para representar las matrices de datos genuinos (entrenamiento) y sintéticos (salida) en un sistema de síntesis de imágenes.
Respecto a este novedoso método de análisis, los autores afirman:
'Nuestra hipótesis es que las muestras ordinarias estarían más cerca unas de otras, mientras que las muestras únicas y raras estarían escasamente ubicadas en el espacio de características'.
La imagen de resultados anterior muestra las distancias de vecino más cercano (NND) más pequeñas hasta las más grandes, en una arquitectura StyleGAN entrenada en FFHQ.
En todos los conjuntos de datos, las muestras con los NND más pequeños muestran imágenes representativas y típicas. Por el contrario, las muestras con los NND más grandes presentan una marcada individualidad y difieren significativamente de las imágenes típicas con los NND más pequeños.
En teoría, al usar esta nueva métrica como discriminador, o al menos incluirla en una arquitectura de discriminador más compleja, un sistema generativo podría alejarse de la pura imitación hacia un algoritmo más inventivo, al tiempo que conserva la cohesión esencial de los conceptos que pueden ser críticos. para la producción de imágenes auténticas (es decir, 'hombre', 'mujer', 'coche', 'iglesia', Etc).
Comparaciones y Experimentos
En las pruebas, los investigadores realizaron una comparación del rendimiento del Rarity Score con el Truncation Trick y el 2019 de NVIDIA. Puntuación de realismoy descubrieron que a través de una variedad de marcos y conjuntos de datos, el enfoque es capaz de individualizar resultados "únicos".
Aunque los resultados presentados en el documento son demasiado extensos para incluirlos aquí, los investigadores parecen haber demostrado la capacidad del nuevo método para identificar la rareza tanto en imágenes de origen (reales) como generadas (falsas) en un procedimiento generativo:

Seleccione ejemplos de los extensos resultados visuales reproducidos en el documento (consulte la URL de origen anterior para obtener más detalles). A la izquierda, ejemplos genuinos de FFHQ que tienen muy pocos vecinos cercanos (es decir, son nuevos e inusuales) en el conjunto de datos original; a la derecha, imágenes falsas generadas por StyleGAN, que la nueva métrica ha identificado como verdaderamente novedosas. Dado que hay límites de tamaño de imagen en este artículo, consulte el documento de origen para obtener mejores detalles y resolución.
La nueva métrica Rarity Score no solo permite la posibilidad de identificar resultados generativos "novedosos" en una única arquitectura, sino que también, según afirman los investigadores, permite realizar comparaciones entre modelos generativos de varias y variadas arquitecturas (es decir, autocodificador, VAE, GAN, etc.).
El artículo señala que Rarity Score se diferencia de las métricas anteriores al concentrarse en la capacidad de un marco generativo para crear imágenes únicas y raras, en oposición a las métricas "tradicionales", que examinan (de manera más miope) la diversidad entre generaciones durante el entrenamiento del modelo.
Más allá de las tareas limitadas
Aunque los investigadores del nuevo artículo han llevado a cabo pruebas en marcos de dominio limitado (como combinaciones de generador/conjunto de datos diseñados específicamente para producir imágenes de personas o de gatos, por ejemplo), el Rarity Score se puede aplicar potencialmente a cualquier procedimiento de síntesis de imágenes arbitrario donde se desee identificar ejemplos generados que utilicen las distribuciones derivadas de los datos entrenados, en lugar de aumentar la autenticidad (y reducir la diversidad) interponiendo distribuciones latentes extranjeras o confiando en otros "atajos" que comprometen la novedad a favor de la autenticidad.
En efecto, una métrica de este tipo podría potencialmente distinguir instancias de salida verdaderamente novedosas en sistemas como la serie DALL-E, utilizando la distancia identificada entre un resultado "atípico" aparente, los datos de entrenamiento y los resultados de indicaciones o entradas similares (es decir, indicaciones basadas en imágenes).
En la práctica, y en ausencia de una comprensión clara de hasta qué punto el sistema ha asimilado verdaderamente los conceptos visuales y semánticos (a menudo obstaculizado por un conocimiento limitado sobre los datos de entrenamiento), este podría ser un método viable para identificar un genuino "momento de inspiración" en un sistema generativo: el punto en el que una cantidad adecuada de conceptos y datos de entrada han dado como resultado algo genuinamente inventivo, en lugar de algo excesivamente derivado o cercano a los datos originales.
* Mis conversiones de las citas en línea de los autores en hipervínculos.
Publicado por primera vez el 20 de junio de 2022.














