Intelligence artificielle
Les modèles d’apprentissage profond pourraient avoir du mal à reconnaître les images générées par l’IA

Les résultats d’un nouveau document indiquent que l’IA d’état de l’art est nettement moins capable de reconnaître et d’interpréter les images synthétisées par l’IA que les humains, ce qui peut être préoccupant dans un avenir où les modèles d’apprentissage automatique sont de plus en plus formés sur des données synthétiques, et où il ne sera pas nécessairement connu si les données sont « réelles » ou non.

Ici, nous voyons le modèle de prédiction resnext101_32x8d_wsl qui a du mal dans la catégorie « bagel ». Dans les tests, un échec de reconnaissance a été considéré comme ayant eu lieu si le mot cible principal (dans ce cas « bagel ») n’était pas présent dans les cinq résultats prévus. Source : https://arxiv.org/pdf/2208.10760.pdf
La nouvelle recherche a testé deux catégories de cadres de reconnaissance basés sur la vision par ordinateur : la reconnaissance d’objets et la réponse à des questions visuelles (VQA).

À gauche, les succès et les échecs d’inférence d’un système de reconnaissance d’objets ; à droite, des tâches VQA conçues pour sonder la compréhension de l’IA des scènes et des images de manière plus exploratoire et significative. Sources : https://arxiv.org/pdf/2105.05312.pdf et https://arxiv.org/pdf/1505.00468.pdf
Sur dix modèles d’état de l’art testés sur des ensembles de données curatés générés par des cadres de synthèse d’images DALL-E 2 et Midjourney, le modèle le mieux performant n’a pu atteindre que 60 % et 80 % de précision dans les cinq premiers résultats à travers les deux types de tests, alors que ImageNet, formé sur des données non synthétiques du monde réel, peut respectivement atteindre 91 % et 99 % dans les mêmes catégories, tandis que les performances humaines sont généralement nettement plus élevées.
En abordant les problèmes liés au décalage de distribution (également appelé « dérive de modèle », où les modèles de prédiction connaissent une capacité prédictive diminuée lorsqu’ils passent des données de formation à des « données réelles »), le document indique :
Les humains sont capables de reconnaître les images générées et de répondre à des questions à leur sujet facilement. Nous concluons que a) les modèles profonds ont du mal à comprendre le contenu généré, et peuvent faire mieux après une fine-tuning, et b) il existe un grand décalage de distribution entre les images générées et les photographies réelles. Le décalage de distribution semble être dépendant de la catégorie.
Étant donné le volume d’images synthétiques qui inondent déjà Internet à la suite de l’ouverture de la source de la puissante modèle de synthèse de diffusion stable la semaine dernière, la possibilité se pose naturellement que les « fausses » images inondent les ensembles de données standard de l’industrie tels que Common Crawl, les variations de précision au fil des ans pourraient être significativement affectées par des images « irréelles ».
Bien que les données synthétiques aient été saluées comme le sauveur potentiel du secteur de la recherche en vision par ordinateur, qui manque souvent de ressources et de budgets pour la curation à grande échelle, le nouveau torrent d’images Stable Diffusion (ainsi que la montée générale des images synthétiques depuis l’avènement et la commercialisation de DALL-E 2) sont peu susceptibles de toutes être accompagnées d’étiquettes, d’annotations et de hashtags les distinguant comme « fausses » au moment où les systèmes de vision par ordinateur avides les extraient d’Internet.
La vitesse de développement des cadres de synthèse d’images open source a nettement dépassé notre capacité à catégoriser les images de ces systèmes, ce qui conduit à un intérêt croissant pour les systèmes de détection d’images « fausses », similaires aux systèmes de détection de deepfakes, mais chargés d’évaluer des images entières plutôt que des sections de visages.
Le nouveau document s’intitule À quel point les modèles profonds sont-ils capables de comprendre les images générées ?, et provient d’Ali Borji de la startup de machine learning de San Francisco Quintic AI.
Données
L’étude précède la sortie de Stable Diffusion, et les expériences utilisent des données générées par DALL-E 2 et Midjourney sur 17 catégories, notamment éléphant, champignon, pizza, prétzel, tracteur et lapin.

Exemples d’images à partir desquelles les systèmes de reconnaissance et de VQA testés ont été mis au défi pour identifier le concept clé le plus important.
Les images ont été obtenues via des recherches sur le Web et sur Twitter, et, conformément aux politiques de DALL-E 2 (du moins, à l’époque), n’incluaient aucune image avec des visages humains. Seules les images de bonne qualité, reconnaissables par les humains, ont été choisies.
Deux ensembles d’images ont été curatés, un pour chaque tâche de reconnaissance d’objets et de VQA.

Le nombre d’images présentes dans chaque catégorie testée pour la reconnaissance d’objets.
Test de reconnaissance d’objets
Pour les tests de reconnaissance d’objets, dix modèles, tous formés sur ImageNet, ont été testés : AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, et ResNext_WSL.
Certains des classes dans les systèmes testés étaient plus granulaires que d’autres, nécessitant l’application d’approches moyennées. Par exemple, ImageNet contient trois classes relatives aux « horloges », et il a été nécessaire de définir une sorte de métrique arbitrale, où l’inclusion de n’importe quelle « horloge » de n’importe quel type dans les cinq étiquettes obtenues dans les cinq premiers résultats pour n’importe quelle image a été considérée comme un succès dans cet exemple.

Performances par modèle sur 17 catégories.
Le modèle le mieux performant dans ce tour a été resnext101_32x8d_ws, atteignant près de 60 % pour le premier (c’est-à-dire les fois où sa prédiction préférée sur cinq suppositions était le concept correct incorporé dans l’image), et 80 % pour les cinq premiers (c’est-à-dire que le concept souhaité était au moins répertorié quelque part dans les cinq suppositions du modèle sur l’image).
L’auteur suggère que cette bonne performance est due au fait que ce modèle a été formé pour la prédiction faiblement supervisée d’hashtags sur les plateformes de médias sociaux. Cependant, ces résultats de premier plan, note l’auteur, sont nettement inférieurs à ce que ImageNet peut atteindre sur des données réelles, c’est-à-dire 91 % et 99 %. Il suggère que cela est dû à une grande disparité entre la distribution des images ImageNet (qui sont également extraites du Web) et les images générées.
Les cinq catégories les plus difficiles pour le système, dans l’ordre de difficulté, étaient cerf-volant, tortue, écureuil, lunettes de soleil et casque. Le document note que la catégorie cerf-volant est souvent confondue avec ballon, parachute et parapluie, bien que ces distinctions soient trivialement faciles pour les observateurs humains à distinguer.
Certaines catégories, notamment cerf-volant et tortue, ont provoqué une défaillance universelle dans tous les modèles, tandis que d’autres (notamment prétzel et tracteur) ont abouti à une réussite presque universelle dans tous les modèles testés.

Catégories polarisantes : certaines des catégories cibles choisies ont soit déjoué tous les modèles, soit étaient plutôt faciles pour tous les modèles à identifier.
Les auteurs postulent que ces résultats indiquent que tous les modèles de reconnaissance d’objets peuvent partager des forces et des faiblesses similaires.
Test de réponse à des questions visuelles
Ensuite, l’auteur a testé les modèles VQA sur des questions VQA ouvertes et libres, avec des questions binaires (c’est-à-dire des questions auxquelles la réponse ne peut être que « oui » ou « non »). Le document note que les modèles VQA d’état de l’art récents sont capables d’atteindre 95 % de précision sur l’ensemble de données VQA-v2.
Pour cette étape de test, l’auteur a curaté 50 images et formulé 241 questions à leur sujet, 132 ayant des réponses positives et 109 négatives. La longueur moyenne de la question était de 5,12 mots.
Cette étape a utilisé le modèle OFA, un cadre agnostique de tâche et de modalité pour tester la compréhension de la tâche, et a récemment été le meilleur score dans l’ensemble de tests VQA-v2 test-std. Le modèle OFA a obtenu 77,27 % de précision sur les images générées, par rapport à son propre score de 94,7 % dans l’ensemble de tests VQA-v2.

Exemples de questions et de résultats de la section VQA des tests. ‘GT” est ‘Ground Truth’, c’est-à-dire la bonne réponse.
L’auteur du document suggère que la raison peut être que les images générées contiennent des concepts sémantiques absents de l’ensemble de données VQA-v2, et que les questions écrites pour les tests VQA peuvent être plus difficiles que la norme générale des questions VQA-v2, bien qu’il pense que la première raison est plus probable.
LSD dans le flux de données ?
Opinion
La nouvelle prolifération d’images synthétiques par l’IA, qui peut présenter des conjonctions et des abstractions instantanées de concepts de base qui n’existent pas dans la nature, et qui seraient prohibitivement longues à produire par des méthodes conventionnelles, pourrait présenter un problème particulier pour les systèmes de collecte de données faiblement supervisés, qui peuvent ne pas être en mesure de défaillir avec grâce – principalement parce qu’ils n’ont pas été conçus pour gérer des volumes importants de données synthétiques non étiquetées.
Dans de tels cas, il peut y avoir un risque que ces systèmes canalisent un pourcentage d’images synthétiques « bizarres » dans des classes incorrectes simplement parce que les images présentent des objets distincts qui ne sont vraiment pas censés être ensemble.

« Un astronaute chevauchant un cheval » est peut-être devenu la visualisation la plus emblématique de la nouvelle génération de systèmes de synthèse d’images – mais ces « relations irréelles » pourraient entrer dans les systèmes de détection réels à moins que des précautions soient prises. Source : https://twitter.com/openai/status/1511714545529614338?lang=en
À moins que cela ne puisse être prévenu au stade de prétraitement avant la formation, de tels pipelines automatisés pourraient conduire à des associations improbables ou même grotesques étant formées dans les systèmes d’apprentissage automatique, dégradant leur efficacité, et risquant de transmettre des associations de haut niveau dans les systèmes et sous-classes et catégories en aval.
Alternativement, des images synthétiques disjointes pourraient avoir un « effet de refroidissement » sur la précision des systèmes ultérieurs, dans l’éventualité que de nouvelles architectures ou modifiées émergent qui tentent de tenir compte d’images synthétiques « ad hoc », et jettent un filet trop large.
Dans les deux cas, les images synthétiques dans l’ère post-Stable Diffusion pourraient s’avérer être un casse-tête pour le secteur de la recherche en vision par ordinateur dont les efforts ont rendu ces étranges créations et capacités possibles – non moins parce qu’il met en péril l’espoir du secteur que la collecte et la curation des données puissent éventuellement être beaucoup plus automatisées qu’elles ne le sont actuellement, et beaucoup moins coûteuses et chronophages.
Publié pour la première fois le 1er septembre 2022.












