Suivez nous sur

La solution unique de DALL-E 2 pour doubler les significations

Intelligence Artificielle

La solution unique de DALL-E 2 pour doubler les significations

mm

Quiconque a appris l'italien apprend tôt à prêter attention au contexte lorsqu'il décrit un balai, parce que le mot italien pour cet article domestique banal a un NSFW extrêmement deuxième sens comme verbe*. Bien que nous apprenions très tôt à démêler la cartographie sémantique et l'applicabilité (appropriée) des mots à significations multiples, ce n'est pas une compétence facile à transmettre aux systèmes de synthèse d'images à hyperéchelle tels que DALL-E 2 et Stable Diffusion, car ils s'appuient sur le pré-entraînement Contrastive Language–Image d'OpenAI (CLIP) module, qui traite les objets et leurs propriétés de manière un peu plus lâche (mais qui gagne toujours plus de terrain dans l'espace d'image de diffusion latente et de synthèse vidéo.

Étudiant ce manque à gagner, un nouvelle collaboration de recherche de l'Université Bar-Ilan et de l'Allen Institute for Artificial Intelligence propose une étude approfondie sur la mesure dans laquelle DALL-E 2 est disposé à de telles erreurs sémantiques :

Les doubles sens se divisent en plusieurs objets dans DALL-E 2 – bien que n'importe quel système de diffusion latente puisse produire de tels exemples. Dans l'image en haut à droite, la suppression de "l'or" de l'invite modifie l'espèce de poisson, tandis que dans le cas du "passage clouté", il est nécessaire d'indiquer explicitement la surface de la route afin de supprimer l'association dupliquée. Source : https://export.arxiv.org/pdf/2210.10606

Les doubles sens se divisent en plusieurs interprétations dans DALL-E 2, bien que tout système de diffusion latente puisse produire de tels exemples. Dans l'image en haut à droite, supprimer « or » de l'invite modifie l'espèce de poisson, tandis que dans le cas du « passage piéton », il est nécessaire d'indiquer explicitement la surface de la route afin de supprimer l'association dupliquée. Source : https://export.arxiv.org/pdf/2210.10606

Les auteurs ont constaté que cette tendance à la double interprétation des mots et des phrases semble non seulement commune à tous les modèles de diffusion guidés par CLIP, mais qu'elle s'aggrave à mesure que les modèles sont entraînés sur des volumes de données de plus en plus importants. L'article souligne que les versions « réduites » des modèles texte-image, dont DALL-E Mini (désormais Craiyon), génèrent ce type d'erreurs beaucoup moins fréquemment, et que Diffusion stable se trompe également moins – mais uniquement parce que, très souvent, il ne suit pas du tout l'invite, ce qui est un autre type d'erreur.

La simple invite 'date' oblige DALL-E 2 à invoquer deux des nombreuses significations du mot, tandis que le mot 'fan' se divise également en deux de ses mappages sémantiques et, dans la troisième image, l'expression 'cone' de manière fiable transforme l'aliment autrement non spécifié dans l'invite en crème glacée, qui est associée à 'cône'.

L'invite simple « date » force DALL-E 2 à invoquer deux des nombreuses significations du mot, tandis que le mot « fan » se divise également en deux de ses mappages sémantiques, et, dans la troisième image, l'expression « cône » transforme de manière fiable l'aliment autrement non spécifié dans l'invite en crème glacée, qui est associée à « cône ».

Expliquant comment nous effectuons des séparations lexicales efficaces, l'article déclare :

Bien que les symboles – tout comme les structures de phrases – puissent être ambigus, une fois l'interprétation construite, cette ambiguïté est déjà levée. Par exemple, si le symbole « bat » dans « flying bat » peut être interprété comme un bâton en bois ou un animal, nos interprétations possibles de la phrase sont soit un bâton en bois volant, soit un animal volant, mais jamais les deux à la fois. Une fois que le mot « bat » a été utilisé dans l'interprétation pour désigner un objet (par exemple un bâton en bois), il ne peut pas être réutilisé pour désigner un autre objet (un animal) dans la même interprétation.

DALL-E 2, observe le document, n'est pas contraint de cette manière :

« Une batte vole au-dessus d'un stade de baseball » : la première image provient de l'article, les trois autres sont obtenues en introduisant simplement la même invite dans DALL-E 2.

« Une batte vole au-dessus d'un stade de baseball » – la première image provient du journal, les trois autres ont été obtenues en introduisant simplement la même invite dans DALL-E 2.

Cette propriété a été nommé sensibilité des ressources.

L'article identifie trois comportements aberrants présentés par DALL-E 2 : qu'un mot ou une phrase peut être interprété et effectivement bifurqué en deux entités distinctes, rendant un objet ou un concept pour chacune dans la même scène ; qu'un mot peut être interprété comme un modificateur de deux entités différentes (voir le « poisson rouge » et d'autres exemples ci-dessus) ; et qu'un mot peut être interprété simultanément comme un modificateur et une entité alternative - illustré par l'invite « un sceau ouvre une lettre »:

"Un sceau ouvre une lettre" - la première illustration est tirée du papier, les trois reproductions identiques adjacentes de DALL-E 2. Les exemples photoréalistes ci-dessous avaient le texte supplémentaire "photo, Canon50, 85mm, F5.6, prix- photo gagnante'.

« Un sceau ouvre une lettre » – la première illustration provient du journal, les trois reproductions identiques adjacentes proviennent de DALL-E 2. Les exemples photoréalistes ci-dessous avaient le texte supplémentaire « photo, Canon50, 85 mm, F5.6, photo primée ».

Les auteurs identifient deux modes d'échec pour les modèles de diffusion à cet égard : que les résultats des invites de l'utilisateur avec des mots au sens ambigu présenteront souvent le mot concrétisé avec une certaine manifestation du concept ; et fuite conceptuelle, où les propriétés d'un objet « fuient » dans un autre objet rendu.

« Dans leur ensemble, les phénomènes que nous examinons mettent en évidence les limites des capacités linguistiques de DALLE-2 et ouvrent des perspectives de recherche futures qui permettraient de déterminer si celles-ci proviennent de problèmes d'encodage du texte, de modèle génératif, ou des deux. Plus généralement, l'approche proposée peut être étendue à d'autres scénarios où le processus de décodage est utilisé pour mettre en évidence le biais inductif et les lacunes des modèles de conversion de texte en image. »

En utilisant 17 mots qui amèneront DALL-E 2 à diviser l'entrée en plusieurs sorties, les auteurs ont observé que homonyme la duplication s'est produite dans plus de 80% des 216 images rendues.

Les chercheurs ont utilisé des paires stimuli-contrôle pour examiner dans quelle mesure un langage spécifique et sans doute surspécifié est nécessaire pour empêcher ces duplications de se produire. Pour les tests entité-propriété, 10 paires de ce type ont été créées, et les auteurs notent que les invites de stimuli provoquent la propriété partagée dans 92.5% des cas, alors que l'invite de contrôle ne la suscite que dans 6.6% des cas.

Pour illustrer cela, prenons un zèbre et une rue. Ici, le zèbre est une entité, mais il modifie la rue, et DALLE-2 génère constamment des passages piétons, probablement en raison de la ressemblance des rayures du zèbre avec un passage piéton. Conformément à notre hypothèse, le contrôle « un zèbre et une rue en gravier » spécifie un type de rue qui ne comporte généralement pas de passages piétons, et en effet, tous nos échantillons de contrôle pour cette invite ne contiennent pas de passage piéton.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai