Intelligence artificielle

UniTune : la technique alternative d'édition d'images neurales de Google

Le kit de préparation mis à jour on 9 décembre 2022

Google Research, semble-t-il, attaque l'édition d'images basée sur du texte sur plusieurs fronts et, vraisemblablement, attend de voir ce qui « prend ». Chaud sur la piste de la sortie de cette semaine de son Papier imaginaire, le géant de la recherche a proposé une méthode supplémentaire basée sur la diffusion latente pour effectuer des modifications basées sur l'IA autrement impossibles sur des images via des commandes de texte, cette fois appelée UniTune.

Sur la base des exemples donnés dans le projet nouveau papier, UniTune a atteint un degré extraordinaire de démêlage de pose sémantique et d'idée à partir du contenu réel de l'image dure :

La maîtrise de la composition sémantique d'UniTune est exceptionnelle. Notez comment dans la rangée d'images la plus haute, les visages des deux personnes n'ont pas été déformés par l'extraordinaire transformation sur le reste de l'image source (à droite). Source : https://arxiv.org/pdf/2210.09477.pdf

Comme les fans de Stable Diffusion l'auront déjà appris, appliquer des modifications à des sections partielles d'une image sans altérer le reste de l'image peut être une opération délicate, parfois impossible. Bien que les distributions populaires telles que AUTOMATIQUE1111 peut créer des masques pour les modifications locales et restreintes, le processus est tortueux et souvent imprévisible.

La réponse évidente, du moins pour un praticien de la vision par ordinateur, est d'interposer une couche de segmentation sémantique qui est capable de reconnaître et d'isoler des objets dans une image sans intervention de l'utilisateur, et, en effet, il y a eu récemment plusieurs nouvelles initiatives dans ce sens.

Une autre possibilité pour verrouiller les opérations d'édition d'images neurales désordonnées et enchevêtrées consiste à tirer parti de l'influent Contrastive Language–Image Pre-training d'OpenAI (CLIP), qui est au cœur des modèles de diffusion latente tels que DALL-E 2 et Stable Diffusion, pour agir comme un filtre au moment où un modèle texte-image est prêt à renvoyer un rendu interprété à l'utilisateur . Dans ce contexte, CLIP devrait agir comme un module sentinelle et de contrôle de la qualité, rejetant les rendus malformés ou autrement inadaptés. C'est sur le point d'être institué (Lien Discord) sur le portail piloté par l'API DreamStudio de Stability.ai.

Cependant, étant donné que CLIP est sans doute à la fois le coupable et la solution dans un tel scénario (car il a également informé la manière dont l'image a évolué), et puisque les exigences matérielles peuvent dépasser ce qui est susceptible d'être disponible localement pour un utilisateur final, cette approche n'est peut-être pas idéale.

Langage compressé

L'UniTune proposé à la place "ajuste" un modèle de diffusion existant - dans ce cas, le propre Imagen de Google, bien que les chercheurs déclarent que la méthode est compatible avec d'autres architectures de diffusion latente - de sorte qu'un jeton unique y soit injecté qui peut être convoqué en l'incluant dans une invite de texte.

À première vue, cela ressemble à Google cabine de rêve, actuellement une obsession parmi les fans et les développeurs de Stable Diffusion, qui peut injecter de nouveaux personnages ou objets dans un point de contrôle existant, souvent en moins d'une heure, sur la base d'une simple poignée d'images sources ; ou bien comme Inversion textuelle, qui crée des fichiers "sidecar" pour un point de contrôle, qui sont ensuite traités comme s'ils avaient été formés à l'origine dans le modèle, et peuvent tirer parti des vastes ressources du modèle en modifiant son classificateur de texte, ce qui donne un petit fichier (par rapport au minimum 2 Go de points de contrôle élagués de DreamBooth).

En fait, affirment les chercheurs, UniTune a rejeté ces deux approches. Ils ont constaté que Textual Inversion omettait trop de détails importants, tandis que DreamBooth 'a moins bien performé et a pris plus de temps' que la solution sur laquelle ils se sont finalement arrêtés.

Néanmoins, UniTune utilise la même approche sémantique «métaprompt» encapsulée que DreamBooth, avec des changements formés invoqués par des mots uniques choisis par le formateur, qui n'entreront pas en conflit avec les termes qui existent actuellement dans un modèle de publication publique laborieusement formé.

"Pour effectuer l'opération d'édition, nous échantillonnons les modèles affinés avec l'invite "[rare_tokens] edit_prompt" (par exemple "beikkpic deux chiens dans un restaurant" ou "beikkpic un minion")."

Le processus

Bien qu'il soit mystificateur de savoir pourquoi deux articles presque identiques, en termes de fonctionnalité finale, devraient arriver de Google la même semaine, il existe, malgré un grand nombre de similitudes entre les deux initiatives, au moins une différence claire entre UniTune et Imagic - ce dernier utilise des invites en langage naturel «non compressées» pour guider les opérations d'édition d'images, tandis qu'UniTune s'entraîne dans des jetons de style DreamBooth uniques.

Par conséquent, si vous éditiez avec Imagic et souhaitiez effectuer une transformation de cette nature…

D'après l'article UniTune - UniTune s'oppose au cadre d'édition neuronal préféré de Google, SDEdit. Les résultats d'UniTune sont à l'extrême droite, tandis que le masque estimé est visible dans la deuxième image à partir de la gauche.

.. dans Imagic, vous saisiriez 'la troisième personne, assise à l'arrière-plan, comme un mignon monstre à fourrure'.

La commande UniTune équivalente serait 'Le gars à l'arrière comme [x]', Où x est le mot étrange et unique lié au concept raffiné associé au personnage de monstre à fourrure.

Alors qu'un certain nombre d'images sont introduites dans DreamBooth ou Textual Inversion dans le but de créer une abstraction de style deepfake pouvant être commandée dans de nombreuses poses, UniTune et Imagic alimentent à la place une seule image dans le système - l'image originale et vierge.

Ceci est similaire à la façon dont de nombreux outils d'édition basés sur le GAN ont fonctionné ces dernières années - en convertissant une image d'entrée en codes latents dans l'espace latent du GAN, puis en adressant ces codes et en les envoyant à d'autres parties de l'espace latent. espace de modification (c'est-à-dire saisir l'image d'une jeune personne brune et la projeter à travers des codes latents associés à 'vieux' ou 'blonde', etc.).

Cependant, les résultats, dans un modèle de diffusion, et par cette méthode, sont assez étonnamment précis en comparaison, et beaucoup moins ambigus :

Le processus de réglage fin

La méthode UniTune envoie essentiellement l'image d'origine via un modèle de diffusion avec un ensemble d'instructions sur la façon dont elle doit être modifiée, en utilisant les vastes référentiels de données disponibles formés dans le modèle. En effet, vous pouvez le faire dès maintenant avec Stable Diffusion img2img fonctionnalité - mais pas sans déformer ou modifier d'une manière ou d'une autre les parties de l'image que vous préféreriez conserver.

Pendant le processus UniTune, le système est affinerd, c'est-à-dire qu'UniTune oblige le modèle à reprendre l'entraînement, avec la plupart de ses couches non figées (voir ci-dessous). Dans la plupart des cas, un réglage fin réduira l'ensemble général les valeurs de perte d'un modèle hautement performant durement gagné en faveur de l'injection ou du raffinement d'un autre aspect que l'on souhaite créer ou améliorer.

Cependant, avec UniTune, il semble que la copie du modèle sur laquelle on agit, bien qu'elle puisse peser plusieurs gigaoctets ou plus, sera traitée comme une " enveloppe " collatérale jetable et jetée à la fin du processus, ayant servi un seul objectif. Ce type de tonnage de données occasionnel devient une crise de stockage quotidienne pour les fans de DreamBooth, dont les propres modèles, même lorsqu'ils sont élagués, ne font pas moins de 2 Go par sujet.

Comme avec Imagic, le réglage principal dans UniTune se produit au niveau des deux couches inférieures des trois couches dans Imagen (base 64px, 64px> 256px et 256px> 1024px). Contrairement à Imagic, les chercheurs voient une valeur potentielle dans l'optimisation du réglage également pour cette dernière et plus grande couche de super-résolution (bien qu'ils ne l'aient pas encore tentée).

Pour la couche 64px la plus basse, le modèle est biaisé vers l'image de base pendant la formation, avec plusieurs paires d'image/texte en double introduites dans le système pendant 128 itérations à une taille de lot de 4, et avec Adaptateur comme fonction de perte, fonctionnant à un taux d'apprentissage de 0.0001. Bien que le Encodeur T5 seul est figé lors de cette mise au point, il est également figé lors de l'entraînement primaire d'Imagen

L'opération ci-dessus est ensuite répétée pour la couche 64> 256px, en utilisant la même procédure d'augmentation de bruit utilisée dans l'entraînement original d'Imagen.

Échantillonnage

Il existe de nombreuses méthodes d'échantillonnage possibles par lesquelles les modifications apportées peuvent être obtenues à partir du modèle affiné, y compris Classifier Free Guidance (CFG), un pilier également de Stable Diffusion. CFG définit essentiellement la mesure dans laquelle le modèle est libre de "suivre son imagination" et d'explorer les possibilités de rendu - ou bien, à des paramètres inférieurs, la mesure dans laquelle il doit adhérer aux données source d'entrée et apporter des changements moins radicaux ou dramatiques .

Comme Textual Inversion (un peu moins avec DreamBooth), UniTune peut appliquer des styles graphiques distincts aux images originales, ainsi que des modifications plus photoréalistes.

Les chercheurs ont également expérimenté SDModifierla technique de « démarrage tardif » de , où le système est encouragé à préserver les détails d'origine en n'étant que partiellement « bruit » dès le départ, mais en conservant plutôt ses caractéristiques essentielles. Bien que les chercheurs ne l'aient utilisé que sur la plus basse des couches (64 pixels), ils pensent que cela pourrait être une technique d'échantillonnage complémentaire utile à l'avenir.

Les chercheurs ont également exploité invite à invite comme technique textuelle supplémentaire pour conditionner le modèle :

« Dans le cadre de l'« invite à l'invite », nous avons constaté qu'une technique que nous appelons l'orientation rapide est particulièrement utile pour régler la fidélité et l'expressivité.

'Le guidage rapide est similaire au guidage gratuit du classificateur, sauf que la ligne de base est une invite différente au lieu du modèle inconditionné. Cela guide le modèle vers le delta entre les deux invites.'

Invite à invite dans UniTune, isolant efficacement les zones à modifier.

Cependant, des conseils rapides, selon les auteurs, n'étaient nécessaires qu'occasionnellement dans les cas où le CFG n'obtenait pas le résultat souhaité.

Une autre nouvelle approche d'échantillonnage rencontrée lors du développement d'UniTune était interpolation, où les zones de l'image sont suffisamment distinctes pour que l'image originale et l'image modifiée aient une composition très similaire, ce qui permet d'utiliser une interpolation plus "naïve".

L'interpolation peut rendre redondants les processus exigeants d'UniTune dans les cas où les zones à transformer sont discrètes et bien délimitées.

Les auteurs suggèrent que l'interpolation pourrait potentiellement fonctionner si bien, pour un grand nombre d'images sources cibles, qu'elle pourrait être utilisée comme paramètre par défaut, et observent également qu'elle a le pouvoir d'effectuer des transformations extraordinaires dans les cas où les occlusions complexes ne le font pas. doivent être négociés par des méthodes plus intensives.

UniTune peut effectuer des modifications locales avec ou sans masques de modification, mais peut également décider unilatéralement où positionner les modifications, avec une combinaison inhabituelle de puissance d'interprétation et d'essentialisation robuste des données d'entrée source :

Dans l'image la plus en haut de la deuxième colonne, UniTune, chargé d'insérer un "train rouge en arrière-plan", l'a placé dans une position pertinente et authentique. Notez dans les autres exemples comment l'intégrité sémantique de l'image source est maintenue même au milieu de changements extraordinaires dans le contenu des pixels et les styles de base des images.

Latence

Bien que la première itération d'un nouveau système soit lente et qu'il soit possible que l'implication de la communauté ou l'engagement de l'entreprise (ce ne sont généralement pas les deux) finissent par accélérer et optimiser une routine gourmande en ressources, UniTune et Imagic effectuent tous deux certains des manœuvres d'apprentissage automatique assez importantes afin de créer ces modifications étonnantes, et on peut se demander dans quelle mesure un processus aussi gourmand en ressources pourrait un jour être réduit à un usage domestique, plutôt qu'à un accès piloté par API (bien que ce dernier puisse être plus souhaitable pour Google). ).

Pour le moment, l'aller-retour entre l'entrée et le résultat est d'environ 3 minutes sur un GPU T4, avec environ 30 secondes supplémentaires pour l'inférence (selon toute routine d'inférence). Les auteurs admettent qu'il s'agit d'une latence élevée et ne sont guère qualifiées d '«interactives», mais ils notent également que le modèle reste disponible pour d'autres modifications une fois initialement réglé, jusqu'à ce que l'utilisateur ait terminé le processus, ce qui réduit le temps par modification. .

Première publication le 21 octobre 2022.

Rubriques connexes:google synthèse d'images un article

L'IA en Bourse : est-ce mieux que les humains ?

Ne manquez pas

La solution unique de DALL-E 2 pour doubler les significations

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai

Unite.AI

UniTune : la technique alternative d'édition d'images neurales de Google

Intelligence artificielle