Angle d’Anderson

La solution unique de DALL-E 2 pour les doubles sens

mm

Quiconque a appris l’italien apprend tôt à prêter attention au contexte lorsqu’il décrit un pinceau, car le mot italien pour cet objet domestique banal a un sens extrêmement NSFW en tant que verbe*. Bien que nous apprenions tôt à distinguer la cartographie sémantique et l’applicabilité des mots à plusieurs sens, ce n’est pas une compétence facile à transmettre aux systèmes de synthèse d’images hyperscale tels que DALL-E 2 et Stable Diffusion, car ils reposent sur le module de pré-entraînement Contraste Langage-Image d’OpenAI (CLIP), qui traite les objets et leurs propriétés de manière plus lâche (mais qui gagne de plus en plus de terrain dans l’espace de synthèse d’images et de vidéos de diffusion latente).

En étudiant ce défaut, une nouvelle collaboration de recherche de l’Université Bar-Ilan et de l’Institut d’intelligence artificielle Allen propose une étude approfondie sur la mesure dans laquelle DALL-E 2 est enclin à de telles erreurs sémantiques:

Double-sens fractionnĂ©s en plusieurs objets dans DALL-E 2 – bien que n'importe quel systĂšme de diffusion latente puisse produire de tels exemples. Dans l'image du haut Ă  droite, la suppression de 'or' dans l'invite change l'espĂšce de poisson, tandis que dans le cas du 'passage pour piĂ©tons', il est nĂ©cessaire de spĂ©cifier explicitement la surface de la route pour supprimer l'association dupliquĂ©e. Source: https://export.arxiv.org/pdf/2210.10606

Double-sens fractionnés en plusieurs interprétations dans DALL-E 2 – bien que n’importe quel système de diffusion latente puisse produire de tels exemples. Dans l’image du haut à droite, la suppression de ‘or’ dans l’invite change l’espèce de poisson, tandis que dans le cas du ‘passage pour piétons’, il est nécessaire de spécifier explicitement la surface de la route pour supprimer l’association dupliquée. Source: https://export.arxiv.org/pdf/2210.10606

Les auteurs ont constaté que cette tendance à interpréter les mots et les phrases de manière double semble non seulement commune à tous les modèles de diffusion guidés par CLIP, mais qu’elle s’aggrave à mesure que les modèles sont formés sur des quantités de données de plus en plus importantes. L’article note que les versions « réduites » des modèles d’image-à-texte, y compris DALL-E Mini (maintenant Craiyon), produisent ces types d’erreurs beaucoup moins fréquemment, et que Stable Diffusion se trompe moins également – bien que souvent, il ne suive pas du tout l’invite, ce qui est une autre sorte d’erreur.

L'invite simple 'date' force DALL-E 2 à invoquer deux des plusieurs sens du mot, tandis que le mot 'ventilateur' se divise également en deux de ses cartes sémantiques, et, dans la troisiÚme image, le mot 'cone' transforme de maniÚre fiable la nourriture non spécifiée dans l'invite en glace à l'italienne, qui est associée à 'cone'.

L’invite simple ‘date’ force DALL-E 2 à invoquer deux des plusieurs sens du mot, tandis que le mot ‘ventilateur’ se divise également en deux de ses cartes sémantiques, et, dans la troisième image, le mot ‘cone’ transforme de manière fiable la nourriture non spécifiée dans l’invite en glace à l’italienne, qui est associée à ‘cone’.

En expliquant comment nous effectuons des séparations lexicales efficaces, l’article déclare:

‘Alors que les symboles – ainsi que les structures de phrase – peuvent être ambigus, une fois qu’une interprétation est construite, cette ambiguïté est déjà résolue. Par exemple, alors que le symbole bat dans un bat volant peut être interprété comme un bâton en bois ou un animal, nos interprétations possibles de la phrase sont soit un bâton en bois volant, soit un animal volant, mais jamais les deux en même temps. Une fois que le mot bat a été utilisé dans l’interprétation pour désigner un objet (par exemple un bâton en bois), il ne peut pas être réutilisé pour désigner un autre objet (un animal) dans la même interprétation.’

DALL-E 2, observe l’article, n’est pas limité de cette manière:

'Un bat est en train de voler au-dessus d'un stade de baseball' – la premiĂšre image est de l'article, les trois autres obtenues en insĂ©rant simplement l'invite dans DALL-E 2.

‘Un bat est en train de voler au-dessus d’un stade de baseball’ – la première image est de l’article, les trois autres obtenues en insérant simplement l’invite dans DALL-E 2.

Cette propriété a été nommée sensibilité aux ressources.

Les auteurs identifient trois comportements anormaux présentés par DALL-E 2: qu’un mot ou une phrase peut être interprété et effectivement divisé en deux entités distinctes, rendant un objet ou un concept pour chacun dans la même scène ; qu’un mot peut être interprété comme un modificateur de deux entités différentes (voir les exemples ‘poisson doré’ et autres ci-dessus) ; et qu’un mot peut être interprété simultanément comme un modificateur et une entité alternative – illustré par l’invite ‘un phoque est en train d’ouvrir une lettre’:

'Un phoque est en train d'ouvrir une lettre' – la premiĂšre illustration est de l'article, les trois suivantes, des reproductions identiques de DALL-E 2. Les exemples photorĂ©alistes ci-dessous avaient le texte supplĂ©mentaire 'photo, Canon50, 85mm, F5.6, photo primĂ©e'.

‘Un phoque est en train d’ouvrir une lettre’ – la première illustration est de l’article, les trois suivantes, des reproductions identiques de DALL-E 2. Les exemples photoréalistes ci-dessous avaient le texte supplémentaire ‘photo, Canon50, 85mm, F5.6, photo primée’.

Les auteurs identifient deux modes de défaillance pour les modèles de diffusion dans ce respect: que les résultats des invites utilisateur avec des mots à sens ambigu seront souvent présenter le mot concrétisé avec une manifestation du concept ; et fuite de concept, où les propriétés d’un objet ‘fuient’ dans un autre objet rendu.

‘Pris ensemble, les phénomènes que nous examinons fournissent des preuves des limites des capacités linguistiques de DALLE-2 et ouvrent des voies pour des recherches futures qui découvriraient si celles-ci proviennent de problèmes avec le codage du texte, le modèle génératif, ou les deux. Plus généralement, l’approche proposée peut être étendue à d’autres scénarios où le processus de décodage est utilisé pour découvrir les préjugés inductifs et les limites des modèles d’image-à-texte.’

En utilisant 17 mots qui feront que DALL-E 2 divisera l’entrée en plusieurs sorties, les auteurs ont observé que la duplication d’homonymes s’est produite dans plus de 80% des 216 images rendues.

Les chercheurs ont utilisé des paires d’invites de stimulus-contrôle pour examiner dans quelle mesure un langage spécifique et arguablement sur-spécifié est nécessaire pour arrêter ces duplications. Pour les tests d’entité à propriété, 10 paires ont été créées, et les auteurs notent que les invites de stimulus provoquent la propriété partagée dans 92,5% des cas, tandis que l’invite de contrôle ne la provoque que dans 6,6% des cas.

‘[Pour] démontrer, considérez un zèbre et une rue, ici, le zèbre est une entité, mais il modifie la rue, et DALLE-2 génère constamment des passages pour piétons, probablement en raison de la ressemblance entre les rayures du zèbre et un passage pour piétons. Et conformément à notre conjecture, le contrôle d’un zèbre et d’une rue en gravier spécifie un type de rue qui n’a généralement pas de passages pour piétons, et en effet, tous nos échantillons de contrôle pour cette invite ne contiennent pas de passage pour piétons.’

Écrivain sur l'apprentissage automatique, spĂ©cialiste de domaine en synthĂšse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.