talon Comment savoir quand les systèmes de synthèse d'images produisent du matériel véritablement "original" - Unite.AI
Suivez nous sur

Intelligence artificielle

Comment savoir quand les systèmes de synthèse d'images produisent du matériel véritablement "original"

mm
Le kit de préparation mis à jour on
"Des ours en peluche travaillent sur de nouvelles recherches sur l'IA sous l'eau avec la technologie des années 1990" - Source : https://www.creativeboom.com/features/meet-dall-e/
"Des ours en peluche travaillent sur de nouvelles recherches sur l'IA sous l'eau avec la technologie des années 1990" - Source : https://www.creativeboom.com/features/meet-dall-e/

Une nouvelle étude sud-coréenne a proposé une méthode pour déterminer si les systèmes de synthèse d'images produisent des images véritablement nouvelles, ou des variantes "mineures" sur les données d'apprentissage, ce qui pourrait aller à l'encontre de l'objectif de telles architectures (comme la production d'images nouvelles et originales) .

Très souvent, suggère l'article, ce dernier est vrai, car les métriques existantes que ces systèmes utilisent pour améliorer leurs capacités génératives au cours de la formation sont obligées de favoriser des images relativement proches des images sources (non fausses) dans l'ensemble de données. .

Après tout, si une image générée est « visuellement proche » des données source, elle est inévitablement susceptible d'obtenir de meilleurs résultats en termes d'« authenticité » que d'« originalité », car elle est « fidèle » - si elle n'est pas inspirée.

Dans un secteur trop naissant et inexpérimenté pour que ses ramifications juridiques soient encore connues, cela pourrait s'avérer être une question juridique importante, s'il s'avère que le contenu des images de synthèse commercialisées ne diffère pas suffisamment du matériel source (souvent) protégé par le droit d'auteur qui est actuellement autorisé à perfuser le secteur de la recherche sous la forme d'ensembles de données populaires récupérés sur le Web (le potentiel de futures réclamations pour contrefaçon de ce type a s'est fait connaître assez récemment en ce qui concerne l'IA GitHub Co-Pilot de Microsoft).

En termes de sortie de plus en plus cohérente et sémantiquement robuste de systèmes tels que OpenAI DALL-E2, Google Image, et la Chine CogView versions (ainsi que les versions inférieures dall-e mini), il y a très peu après coup des moyens de tester de manière fiable l'originalité d'une image générée.

En effet, la recherche de certaines des nouvelles images DALL-E 2 les plus populaires ne mènera souvent qu'à d'autres instances de ces mêmes images, selon le moteur de recherche.

Le téléchargement d'un groupe de sorties DALL-E 9 complet de 2 images ne mène qu'à d'autres groupes de sorties DALL-E 2. La séparation et le téléchargement de la première image (de ce post Twitter du 8 juin 2022, du compte « Weird Dall-E Generations ») amène Google à se focaliser sur le ballon de basket dans l'image, prenant la recherche basée sur l'image dans une impasse sémantique. Pour la même recherche basée sur l'image, Yandex semble au moins effectuer une déconstruction et une correspondance des fonctionnalités basées sur les pixels.

Le téléchargement d'un groupe de sortie DALL-E 9 complet de 2 images ne conduit qu'à plus de groupes de sortie DALL-E 2, car la structure de grille est la caractéristique la plus forte. Séparer et télécharger la première image (de ce message Twitter du 8 juin 2022, du compte "Weird Dall-E Generations") amène Google à se focaliser sur le ballon de basket dans l'image, entraînant la recherche basée sur l'image dans une impasse sémantique. Pour la même recherche basée sur l'image, Yandex semble au moins effectuer une déconstruction et une correspondance des fonctionnalités basées sur les pixels.

Bien que Yandex soit plus susceptible que Google Search d'utiliser la valeur réelle Caractéristiques (c'est-à-dire une image dérivée/calculée Caractéristiques, pas nécessairement les traits du visage des personnes) et visuel caractéristiques (plutôt que sémantiques) d'une image soumise pour trouver des images similaires, tous les moteurs de recherche basés sur l'image ont soit une sorte d'agenda ou de pratique qui peuvent compliquer l'identification des cas de source>généré plagiat via des recherches sur le Web.

De plus, les données de formation d'un modèle génératif peuvent ne pas être accessibles au public dans leur intégralité, ce qui complique davantage l'examen médico-légal de l'originalité des images générées.

Fait intéressant, effectuer une recherche Web basée sur l'image sur l'une des images synthétiques présentées par Google à son site Imagen dédié ne trouve absolument rien de comparable au sujet de l'image, en termes de regard réel sur l'image et de recherche impartiale d'images similaires. Au lieu de cela, sémantiquement fixés comme toujours, les résultats de recherche Google Image pour cette image Imagen ne permettront pas une recherche Web purement basée sur l'image de l'image sans ajouter les termes de recherche "imagen google" comme paramètre supplémentaire (et limitatif) :

Yandex, à l'inverse, trouve une multitude d'images du monde réel similaires (ou du moins visuellement liées) de la communauté artistique amateur :

En général, il serait préférable que la nouveauté ou l'originalité de la sortie des systèmes de synthèse d'images puisse être mesurée d'une manière ou d'une autre, sans avoir besoin d'extraire les caractéristiques de chaque image Web possible sur Internet au moment où le modèle a été formé, ou dans des ensembles de données non publics qui peuvent utiliser du matériel protégé par des droits d'auteur.

En ce qui concerne cette question, des chercheurs de la Kim Jaechul Graduate School of AI de l'Institut coréen avancé des sciences et technologies (KAIST AI) ont collaboré avec la société mondiale de TIC et de recherche NAVER Corp pour développer un Note de rareté qui peuvent aider à identifier les créations les plus originales des systèmes de synthèse d'images.

Les images ici sont générées via StyleGAN-FFHQ. De gauche à droite, les colonnes indiquent le pire au meilleur résultat. Nous pouvons voir que la métrique "Trucage de troncature" (voir ci-dessous) et la métrique de réalisme ont leurs propres agendas, tandis que le nouveau score "Rareté" (rangée du haut) recherche des images cohérentes mais originales (plutôt que des images cohérentes). Source : https://arxiv.org/pdf/2206.08549.pdf

Les images ici sont générées via StyleGAN-FFHQ. De gauche à droite, les colonnes indiquent le pire au meilleur résultat. Nous pouvons voir que la métrique "Trucage de troncature" (voir ci-dessous) et la métrique de réalisme ont leurs propres agendas, tandis que le nouveau score "Rareté" (rangée du haut) recherche des images cohérentes mais originales (plutôt que des images cohérentes). Étant donné qu'il existe des limites de taille d'image dans cet article, veuillez consulter le document source pour obtenir de meilleurs détails et une meilleure résolution. Source : https://arxiv.org/pdf/2206.08549.pdf

Le nouveau système d’ papier est intitulé Score de rareté : une nouvelle métrique pour évaluer la rareté des images de synthèse, et vient de trois chercheurs de KAIST, et trois de NAVER Corp.

Au-delà du « truc pas cher »

Parmi les mesures antérieures que le nouveau document cherche à améliorer figurent le "truc de troncation" suggéré dans 2019 dans le cadre d'une collaboration entre l'université britannique Heriot-Watt et DeepMind de Google.

L'astuce de troncature utilise essentiellement une distribution latente différente pour l'échantillonnage que celle utilisée pour la formation du modèle génératif.

Les chercheurs qui ont développé cette méthode ont été surpris qu'elle fonctionne, mais admettent dans l'article original qu'elle réduit la variété des résultats générés. Néanmoins, l'astuce de troncature est devenue efficace et populaire, dans le contexte de ce qui pourrait sans doute être re-décrit comme une "astuce bon marché" pour obtenir des résultats d'apparence authentique qui n'assimilent pas vraiment toutes les possibilités inhérentes aux données, et peuvent ressembler aux données sources plus que souhaité.

En ce qui concerne l'astuce de troncature, les auteurs du nouvel article observent :

«[Il] n'est pas destiné à générer des échantillons rares dans des ensembles de données d'entraînement, mais plutôt à synthétiser des images typiques de manière plus stable. Nous émettons l'hypothèse que les modèles génératifs existants seront capables de produire des échantillons plus riches dans la distribution réelle des données si le générateur peut être amené à produire efficacement des échantillons rares.

De la tendance générale à s'appuyer sur des métriques traditionnelles telles que Frechet Inception Distance (FID, qui fait l'objet de vives critiques en décembre 2021), le score de démarrage (IS) et la distance de démarrage du noyau (KID) comme « indicateurs de progression » lors de la formation d'un modèle génératif, les auteurs commentent en outre* :

«Ce schéma d'apprentissage conduit le générateur à ne pas synthétiser beaucoup d'échantillons rares qui sont uniques et ont des caractéristiques fortes qui ne représentent pas une grande partie de la distribution réelle de l'image. Des exemples d'échantillons rares provenant d'ensembles de données publics incluent des personnes avec divers accessoires dans FFHQ, animaux blancs à l'AFHQet une statues rares dans Metfaces.

«La capacité de générer des échantillons rares est importante non seulement parce qu'elle est liée à la capacité de pointe des modèles génératifs, mais aussi parce que l'unicité joue un rôle important dans les applications créatives telles que les humains virtuels.

«Cependant, les résultats qualitatifs de plusieurs études récentes contiennent rarement ces rares exemples. Nous supposons que la nature du schéma d'apprentissage contradictoire force une distribution d'image générée similaire à celle d'un ensemble de données d'apprentissage. Ainsi, les images à forte individualité ou rareté ne prennent qu'une faible part dans les images synthétisées par les modèles.

Technique

Le nouveau score de rareté des chercheurs adapte une idée présentée dans plus tôt vos contrats - l'utilisation de Les voisins les plus proches (KNN) pour représenter les tableaux de données authentiques (formation) et synthétiques (sortie) dans un système de synthèse d'images.

Concernant cette nouvelle méthode d'analyse, les auteurs affirment :

"Nous émettons l'hypothèse que les échantillons ordinaires seraient plus proches les uns des autres, tandis que les échantillons uniques et rares seraient dispersés dans l'espace des caractéristiques."

L'image des résultats ci-dessus montre les plus petites distances du voisin le plus proche (NND) jusqu'à la plus grande, dans une architecture StyleGAN formée sur FFHQ.

«Pour tous les ensembles de données, les échantillons avec les plus petits NND montrent des images représentatives et typiques. Au contraire, les échantillons avec les plus grands NND ont une forte individualité et sont significativement différents des images typiques avec les plus petits NND.

En théorie, en utilisant cette nouvelle métrique comme discriminateur, ou du moins en l'incluant dans une architecture de discriminateur plus complexe, un système génératif pourrait être orienté de l'imitation pure vers un algorithme plus inventif, tout en conservant une cohésion essentielle des concepts qui peuvent être critiques. pour la production d'images authentiques (c'est-à-dire 'homme', 'femme', 'voiture', 'église', Etc).

Comparaisons et expériences

Lors de tests, les chercheurs ont effectué une comparaison des performances du score de rareté avec le Truncation Trick et le 2019 de NVIDIA. Score de réalisme, et a constaté que dans une variété de cadres et d'ensembles de données, l'approche est capable d'individualiser des résultats « uniques ».

Bien que les résultats présentés dans l'article soient trop étendus pour être inclus ici, les chercheurs semblent avoir démontré la capacité de la nouvelle méthode à identifier la rareté dans les images source (réelles) et générées (fausses) dans une procédure générative :

Sélectionnez des exemples parmi les nombreux résultats visuels reproduits dans l'article (voir l'URL de la source ci-dessus pour plus de détails). À gauche, des exemples authentiques de la FFHQ qui ont très peu de voisins proches (c'est-à-dire qui sont nouveaux et inhabituels) dans l'ensemble de données d'origine ; à droite, de fausses images générées par StyleGAN, que la nouvelle métrique a identifiées comme véritablement nouvelles.

Sélectionnez des exemples parmi les nombreux résultats visuels reproduits dans l'article (voir l'URL de la source ci-dessus pour plus de détails). À gauche, des exemples authentiques de la FFHQ qui ont très peu de voisins proches (c'est-à-dire qui sont nouveaux et inhabituels) dans l'ensemble de données d'origine ; à droite, de fausses images générées par StyleGAN, que la nouvelle métrique a identifiées comme véritablement nouvelles. Étant donné qu'il existe des limites de taille d'image dans cet article, veuillez consulter le document source pour obtenir de meilleurs détails et une meilleure résolution.

La nouvelle métrique Rarity Score permet non seulement d'identifier une "nouvelle" sortie générative dans une architecture unique, mais aussi, selon les chercheurs, permet des comparaisons entre des modèles génératifs d'architectures diverses et variées (c'est-à-dire auto-encodeur, VAE, GAN, etc. ).

L'article note que le score de rareté diffère des métriques précédentes en se concentrant sur la capacité d'un cadre génératif à créer des images uniques et rares, par opposition aux métriques «traditionnelles», qui examinent (plutôt de manière plus myope) la diversité entre les générations lors de la formation du modèle.

Au-delà des tâches limitées

Bien que les chercheurs du nouvel article aient mené des tests sur des cadres à domaine limité (tels que des combinaisons générateur/ensemble de données conçues pour produire spécifiquement des images de personnes ou de chats, par exemple), le score de rareté peut potentiellement être appliqué à toute procédure de synthèse d'images arbitraire où il est souhaitable d'identifier les exemples générés qui utilisent les distributions dérivées des données formées, au lieu d'augmenter l'authenticité (et de réduire la diversité) en interposant des distributions latentes étrangères, ou en s'appuyant sur d'autres « raccourcis » qui compromettent la nouveauté en faveur de l'authenticité.

En effet, une telle métrique pourrait potentiellement distinguer des instances de sortie vraiment nouvelles dans des systèmes tels que la série DALL-E, en utilisant la distance identifiée entre un résultat « aberrant » apparent, les données de formation et les résultats d'invites ou d'entrées similaires (c'est-à-dire, image invites basées sur).

En pratique, et en l'absence d'une compréhension claire de la mesure dans laquelle le système a réellement assimilé les concepts visuels et sémantiques (souvent entravés par une connaissance limitée des données d'apprentissage), cela pourrait être une méthode viable pour identifier un véritable "moment de inspiration' dans un système génératif - le point auquel un nombre adéquat de concepts et de données d'entrée ont abouti à quelque chose de véritablement inventif, au lieu de quelque chose de trop dérivé ou proche des données sources.

 

* Mes conversions des citations en ligne des auteurs en hyperliens.

Première publication le 20 juin 2022.