Suivez nous sur

Édition d'objets assistée par l'IA avec Imagic de Google et "Effacer et remplacer" de Runway

Intelligence Artificielle

Édition d'objets assistée par l'IA avec Imagic de Google et "Effacer et remplacer" de Runway

mm

Cette semaine, deux nouveaux algorithmes graphiques basés sur l'IA, mais contrastés, offrent aux utilisateurs finaux de nouvelles façons d'apporter des modifications très granulaires et efficaces aux objets sur les photos.

La première est Imaginaire, de Google Research, en association avec l'Institut de technologie d'Israël et l'Institut Weizmann des sciences. Imagic propose une édition d'objets fine et conditionnée par le texte grâce à l'optimisation des modèles de diffusion.

Modifiez ce que vous aimez et laissez le reste - Imagic promet une édition granulaire des seules parties que vous souhaitez modifier. Source : https://arxiv.org/pdf/2210.09276.pdf

Changez ce que vous aimez et laissez le reste - Imagic promet une édition granulaire des seules parties que vous souhaitez modifier. Source : https://arxiv.org/pdf/2210.09276.pdf

Quiconque a déjà essayé de modifier un seul élément lors d'un nouveau rendu avec Stable Diffusion sait pertinemment que pour chaque modification réussie, le système modifie cinq éléments que vous appréciez tels quels. C'est une lacune qui pousse actuellement de nombreux passionnés de SD les plus talentueux à jongler constamment entre Stable Diffusion et Photoshop pour corriger ce genre de « dommages collatéraux ». De ce seul point de vue, les réalisations d'Imagic semblent remarquables.

Au moment de la rédaction de cet article, Imagic ne dispose même pas encore d'une vidéo promotionnelle et, compte tenu de la popularité de Google, attitude circonspecte En ce qui concerne la publication d'outils de synthèse d'images sans entraves, il n'est pas certain dans quelle mesure, le cas échéant, nous aurons l'occasion de tester le système.

La deuxième offre est celle de Runway ML, plutôt plus accessible Effacer et remplacer installation, une nouvelle fonctionnalité dans la section « AI Magic Tools » de sa suite exclusivement en ligne d'utilitaires d'effets visuels basés sur l'apprentissage automatique.

La fonction Effacer et remplacer de Runway ML, déjà vue dans un aperçu pour un système de montage texte-vidéo. Source : https://www.youtube.com/watch?v=41Qb58ZPO60

La fonctionnalité Effacer et remplacer de Runway ML, déjà vue dans un aperçu pour un système d'édition de texte en vidéo. Source : https://www.youtube.com/watch?v=41Qb58ZPO60

Jetons d’abord un œil à la sortie de Runway.

Effacer et remplacer

Comme Imagic, Erase and Replace traite exclusivement des images fixes, bien que Runway ait aperçu la même fonctionnalité dans une solution d'édition de texte en vidéo qui n'est pas encore publiée :

Bien que n'importe qui puisse tester le nouveau Effacer et remplacer sur les images, la version vidéo n'est pas encore accessible au public. Source : https://twitter.com/runwayml/status/1568220303808991232

Bien que n'importe qui puisse tester le nouveau Effacer et remplacer sur les images, la version vidéo n'est pas encore accessible au public. Source : https://twitter.com/runwayml/status/1568220303808991232

Bien que Runway ML n'ait pas publié de détails sur les technologies derrière Erase and Replace, la vitesse à laquelle vous pouvez remplacer une plante d'intérieur par un buste raisonnablement convaincant de Ronald Reagan suggère qu'un modèle de diffusion tel que Stable Diffusion (ou, beaucoup moins probablement, un DALL-E 2 sous licence) est le moteur qui réinvente l'objet de votre choix dans Erase and Replace.

Remplacer une plante d'intérieur par un buste de The Gipper n'est pas aussi rapide que cela, mais c'est assez rapide. Source : https://app.runwayml.com/

Remplacer une plante d'intérieur par un buste de The Gipper n'est pas aussi rapide que cela, mais c'est assez rapide. Source : https://app.runwayml.com/

Le système comporte certaines restrictions de type DALL-E 2 : les images ou le texte qui signalent les filtres Effacer et Remplacer déclencheront un avertissement concernant une éventuelle suspension du compte en cas d'infractions supplémentaires, ce qui est pratiquement un clone standard du système en cours d'OpenAI. politiques pour DALL-E 2 .

Beaucoup de résultats n'ont pas les bords rugueux typiques de la diffusion stable. Runway ML sont des investisseurs et partenaires de recherche en SD, et il est possible qu'ils aient formé un modèle propriétaire qui est supérieur aux poids de point de contrôle open source 1.4 avec lesquels le reste d'entre nous se débat actuellement (comme de nombreux autres groupes de développement, amateurs et professionnels, forment ou peaufinent actuellement des modèles de diffusion stable).

Remplacer une table domestique par une «table faite de glace» dans Erase and Replace de Runway ML.

Remplacement d'une « table en glace » par une table domestique dans Erase and Replace de Runway ML.

Comme avec Imagic (voir ci-dessous), Erase and Replace est « orienté objet », pour ainsi dire – vous ne pouvez pas simplement effacer une partie « vide » de l'image et la repeindre avec le résultat de votre invite de texte ; dans ce scénario, le système tracera simplement l'objet apparent le plus proche le long de la ligne de visée du masque (comme un mur ou une télévision) et y appliquera la transformation.

Comme son nom l'indique, vous ne pouvez pas injecter d'objets dans un espace vide dans Effacer et remplacer. Ici, un effort pour convoquer le plus célèbre des seigneurs Sith se traduit par une étrange fresque liée à Vader sur le téléviseur, à peu près là où la zone de «remplacement» a été dessinée.

Comme son nom l'indique, il est impossible d'injecter des objets dans un espace vide dans « Effacer et remplacer ». Ici, une tentative d'invoquer le plus célèbre des seigneurs Sith donne naissance à une étrange fresque murale inspirée de Vador à la télévision, à peu près à l'endroit où la zone de « remplacer » a été dessinée.

Il est difficile de dire si Effacer et remplacer est évasif en ce qui concerne l'utilisation d'images protégées par le droit d'auteur (qui sont encore largement obstruées, bien qu'avec un succès variable, dans DALL-E 2), ou si le modèle utilisé dans le moteur de rendu principal n'est tout simplement pas optimisé pour ce genre de chose.

La "Murale de Nicole Kidman" légèrement NSFW indique que le modèle (vraisemblablement) basé sur la diffusion n'a pas l'ancien rejet systématique de DALL-E 2 du rendu de visages réalistes ou de contenu racé, tandis que les résultats des tentatives de mise en évidence d'œuvres protégées par le droit d'auteur vont de l'ambigu (« xénomorphe ») à l'absurde (« le trône de fer »). En médaillon en bas à droite, l'image source.

La « Peinture murale de Nicole Kidman » légèrement NSFW indique que le modèle (probablement basé sur la diffusion) dont nous disposons ne respecte pas l'ancien rejet systématique de DALL-E 2 du rendu de visages réalistes ou de contenus osés, tandis que les résultats des tentatives de mise en évidence d'œuvres protégées par le droit d'auteur vont de l'ambigu (« xénomorphe ») à l'absurde (« le trône de fer »). Encart en bas à droite, image source.

Il serait intéressant de savoir quelles méthodes Erase and Replace utilise pour isoler les objets qu'il est capable de remplacer. Vraisemblablement, l'image est exécutée à travers une dérivation de CLIP, avec les éléments discrets individualisés par la reconnaissance d'objet et la segmentation sémantique subséquente. Aucune de ces opérations ne fonctionne aussi bien dans une installation commune ou de jardin de Stable Diffusion.

Mais rien n'est parfait : parfois, le système semble effacer au lieu de remplacer, même lorsque (comme nous l'avons vu dans l'image ci-dessus) le mécanisme de rendu sous-jacent sait parfaitement ce que signifie une invite textuelle. Dans ce cas, il s'avère impossible de transformer une table basse en xénomorphe ; la table disparaît tout simplement.

Une itération plus effrayante de "Where's Waldo", car Erase and Replace ne parvient pas à produire un extraterrestre.

Une itération plus effrayante de « Où est Charlie », car Erase and Replace ne parvient pas à produire un extraterrestre.

Effacer et remplacer semble être un système de substitution d'objets efficace, avec une excellente retouche. Cependant, il ne peut pas modifier les objets perçus existants, mais seulement les remplacer. Modifier réellement le contenu d'une image existante sans compromettre le contenu ambiant est sans doute une tâche bien plus ardue, liée au long combat mené par le secteur de la recherche en vision par ordinateur pour démêlage dans les différents espaces latents des cadres populaires.

Imaginaire

C'est une tâche à laquelle Imagic s'attaque. nouveau papier offre de nombreux exemples de modifications qui modifient avec succès les facettes individuelles d'une photo tout en laissant le reste de l'image intact.

Dans Imagic, les images modifiées ne souffrent pas de l'étirement, de la distorsion et de la "devinette d'occlusion" caractéristiques de la marionnette deepfake, qui utilise des priors limités dérivés d'une seule image.

Dans Imagic, les images modifiées ne souffrent pas de l'étirement, de la distorsion et de la « devinette d'occlusion » caractéristiques de la marionnetterie deepfake, qui utilise des priors limités dérivés d'une seule image.

Le système utilise un processus en trois étapes - optimisation de l'intégration du texte ; mise au point du modèle ; et, enfin, la génération de l'image modifiée.

Imagic encode l'invite de texte cible pour récupérer l'incorporation de texte initiale, puis optimise le résultat pour obtenir l'image d'entrée. Après cela, le modèle génératif est affiné à l'image source, en ajoutant une gamme de paramètres, avant d'être soumis à l'interpolation demandée.

Imagic encode l'invite de texte cible pour récupérer l'incorporation de texte initiale, puis optimise le résultat pour obtenir l'image d'entrée. Après cela, le modèle génératif est affiné à l'image source, en ajoutant une gamme de paramètres, avant d'être soumis à l'interpolation demandée.

Sans surprise, le cadre est basé sur celui de Google Image architecture texte-vidéo, bien que les chercheurs affirment que les principes du système sont largement applicables aux modèles de diffusion latente.

Imagen utilise une architecture à trois niveaux, plutôt que la baie à sept niveaux utilisée pour le plus récent de l'entreprise. itération texte-vidéo du logiciel. Les trois modules distincts comprennent un modèle de diffusion générative fonctionnant à une résolution de 64x64px ; un modèle de super-résolution qui met à l'échelle cette sortie à 256x256px ; et un modèle de super-résolution supplémentaire pour prendre la sortie jusqu'à une résolution de 1024 × 1024.

Imagic intervient au stade le plus précoce de ce processus, optimisant l'intégration du texte demandé au stade 64px sur un optimiseur Adam à un taux d'apprentissage statique de 0.0001.

Une classe de maître dans le démêlage : les utilisateurs finaux qui ont tenté de changer quelque chose d'aussi simple que la couleur d'un objet rendu dans un modèle de diffusion, GAN ou NeRF sauront à quel point il est important qu'Imagic puisse effectuer de telles transformations sans "déchirer". ' la cohérence du reste de l'image.

Une master-class en démêlage : les utilisateurs finaux qui ont tenté de modifier quelque chose d'aussi simple que la couleur d'un objet rendu dans un modèle de diffusion, GAN ou NeRF sauront à quel point il est important qu'Imagic puisse effectuer de telles transformations sans « déchirer » la cohérence du reste de l'image.

Un réglage fin est ensuite effectué sur le modèle de base d'Imagen, pour 1500 64 étapes par image d'entrée, conditionnées par l'incorporation révisée. Parallèlement, la couche secondaire 256 px>256 px est optimisée en parallèle sur l'image conditionnée. Les chercheurs constatent qu'une optimisation similaire pour la couche finale 1024 px>XNUMX px n'a que peu ou pas d'effet sur les résultats finaux ; ils ne l'ont donc pas implémentée.

Le document indique que le processus d'optimisation prend environ huit minutes pour chaque image sur jumeau TPUV4 puces. Le rendu final a lieu dans core Imagen sous le Schéma d'échantillonnage DDIM.

En commun avec des processus de réglage fin similaires pour Google cabine de rêve, les incorporations résultantes peuvent en outre être utilisées pour alimenter la stylisation, ainsi que des modifications photoréalistes contenant des informations tirées de la base de données sous-jacente plus large alimentant Imagen (puisque, comme le montre la première colonne ci-dessous, les images source n'ont aucun des contenus nécessaires pour effectuer ces transformations).

Des mouvements et des modifications photoréalistes flexibles peuvent être obtenus via Imagic, tandis que les codes dérivés et démêlés obtenus au cours du processus peuvent tout aussi facilement être utilisés pour une sortie stylisée.

Des mouvements et des modifications photoréalistes flexibles peuvent être obtenus via Imagic, tandis que les codes dérivés et démêlés obtenus au cours du processus peuvent tout aussi facilement être utilisés pour une sortie stylisée.

Les chercheurs ont comparé Imagic à des travaux antérieurs SDModifier, une approche basée sur GAN à partir de 2021, une collaboration entre l'Université de Stanford et l'Université Carnegie Mellon ; et Texte2Live, une collaboration, à partir d'avril 2022, entre le Weizmann Institute of Science et NVIDIA.

Une comparaison visuelle entre Imagic, SDEdit et Text2Live.

Une comparaison visuelle entre Imagic, SDEdit et Text2Live.

Il est clair que les premières approches ont du mal, mais dans la rangée du bas, qui consiste à introduire un changement massif de pose, les titulaires ne parviennent pas complètement à refigurer le matériel source, comparé à un succès notable d'Imagic.

Les besoins en ressources et le temps de formation d'Imagic par image, bien que courts par rapport aux normes de telles activités, rendent son inclusion dans une application d'édition d'images locale sur les ordinateurs personnels peu probable - et il n'est pas clair dans quelle mesure le processus de réglage fin pourrait être réduit aux niveaux grand public.

Dans l'état actuel des choses, Imagic est une offre impressionnante, plus adaptée aux API – un environnement avec lequel Google Research, qui se méfie des critiques concernant la facilitation du deepfaking, pourrait en tout cas être plus à l'aise.

 

Première publication le 18 octobre 2022.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai