Intelligence artificielle

InstantStyle : Préservation de style dans la génération d’images à partir de texte

Publié le 19 avril 2024

Mis à jour le 21 mai 2026

Par

Kunal Kejriwal

Au cours des dernières années, les modèles de diffusion basés sur l’ajustement ont démontré des progrès remarquables dans une large gamme de tâches de personnalisation et de customisation d’images. Cependant, malgré leur potentiel, les modèles de diffusion basés sur l’ajustement actuels continuent de faire face à une série de défis complexes pour produire et générer des images cohérentes en termes de style, et il peut y avoir trois raisons à cela. Premièrement, le concept de style reste largement indéfini et non déterminé, et comprend une combinaison d’éléments, notamment l’atmosphère, la structure, la conception, le matériau, la couleur, et bien plus encore. Deuxièmement, les méthodes basées sur l’inversion sont sujettes à une dégradation du style, entraînant une perte fréquente de détails fins. Enfin, les approches basées sur les adaptateurs nécessitent un réglage fréquent des poids pour chaque image de référence afin de maintenir un équilibre entre la contrôlabilité du texte et l’intensité du style.

En outre, l’objectif principal de la plupart des approches de transfert de style ou de génération d’images de style est d’utiliser l’image de référence et d’appliquer son style spécifique à partir d’un sous-ensemble ou d’une image de référence à une image de contenu cible. Cependant, c’est le grand nombre d’attributs de style qui rend le travail difficile pour les chercheurs pour collecter des ensembles de données stylisés, représenter correctement le style et évaluer le succès du transfert. Auparavant, les modèles et les cadres qui traitent du processus de diffusion basé sur l’ajustement, affinent l’ensemble de données d’images qui partagent un style commun, un processus qui est à la fois chronophage et limité en termes de généralisation dans les tâches du monde réel, car il est difficile de rassembler un sous-ensemble d’images qui partagent le même style ou un style quasi identique.

Dans cet article, nous allons parler d’InstantStyle, un cadre conçu pour résoudre les problèmes rencontrés par les modèles de diffusion basés sur l’ajustement actuels pour la génération et la personnalisation d’images. Nous allons parler des deux stratégies clés mises en œuvre par le cadre InstantStyle :

Une approche simple mais efficace pour découpler le style et le contenu à partir d’images de référence dans l’espace de fonction, basée sur l’hypothèse que les fonctionnalités dans le même espace de fonction peuvent être ajoutées ou soustraites les unes des autres.
Prévenir les fuites de style en injectant les fonctionnalités de l’image de référence exclusivement dans les blocs spécifiques au style, et en évitant délibérément la nécessité d’utiliser des poids encombrants pour l’ajustement, souvent caractérisés par des conceptions plus lourdes en paramètres.

Cet article vise à couvrir le cadre InstantStyle en profondeur, et nous explorons le mécanisme, la méthodologie, l’architecture du cadre ainsi que sa comparaison avec les cadres d’état de l’art. Nous allons également parler de la façon dont le cadre InstantStyle démontre des résultats de stylisation visuelle remarquables, et trouve un équilibre optimal entre la contrôlabilité des éléments textuels et l’intensité du style. Alors, commençons.

InstantStyle : Préservation de style dans la génération d’images à partir de texte

Les cadres de génération d’images à partir de texte basés sur la diffusion ont obtenu un succès remarquable dans une large gamme de tâches de personnalisation et de customisation, en particulier dans les tâches de génération d’images cohérentes, y compris la personnalisation d’objets, la préservation d’images et le transfert de style. Cependant, malgré le succès récent et l’amélioration des performances, le transfert de style reste une tâche difficile pour les chercheurs en raison de la nature indéterminée et non définie du style, qui comprend souvent une variété d’éléments, notamment l’atmosphère, la structure, la conception, le matériau, la couleur, et bien plus encore. Avec cela dit, l’objectif principal de la génération d’images stylisées ou du transfert de style est d’appliquer le style spécifique à partir d’une image de référence ou d’un sous-ensemble d’images de référence à l’image de contenu cible. Cependant, le grand nombre d’attributs de style rend le travail difficile pour les chercheurs pour collecter des ensembles de données stylisés, représenter correctement le style et évaluer le succès du transfert. Auparavant, les modèles et les cadres qui traitent du processus de diffusion basé sur l’ajustement, affinent l’ensemble de données d’images qui partagent un style commun, un processus qui est à la fois chronophage et limité en termes de généralisation dans les tâches du monde réel, car il est difficile de rassembler un sous-ensemble d’images qui partagent le même style ou un style quasi identique.

Avec les défis rencontrés par l’approche actuelle, les chercheurs se sont intéressés au développement d’approches d’ajustement pour le transfert de style ou la génération d’images stylisées, et ces cadres peuvent être divisés en deux groupes différents :

Approches sans adaptateur : Les approches sans adaptateur et les cadres utilisent la puissance de l’auto-attention dans le processus de diffusion, et en mettant en œuvre une opération d’attention partagée, ces modèles sont capables d’extraire des fonctionnalités essentielles, y compris les clés et les valeurs, à partir d’images de style de référence directement.

Approches basées sur les adaptateurs : Les approches basées sur les adaptateurs et les cadres incorporent un modèle léger conçu pour extraire des représentations d’images détaillées à partir des images de style de référence. Le cadre intègre ensuite ces représentations dans le processus de diffusion de manière habile en utilisant des mécanismes d’attention croisée. L’objectif principal du processus d’intégration est de guider le processus de génération et de s’assurer que l’image résultante est alignée avec les nuances stylistiques souhaitées de l’image de référence.

Cependant, malgré les promesses, les méthodes sans ajustement rencontrent souvent des défis. Premièrement, l’approche sans adaptateur nécessite un échange de clés et de valeurs dans les couches d’auto-attention, et pré-capture les matrices de clés et de valeurs dérivées des images de style de référence. Lorsqu’elle est mise en œuvre sur des images naturelles, l’approche sans adaptateur exige l’inversion de l’image vers le bruit latent en utilisant des techniques telles que DDIM ou Denoising Diffusion Implicit Models inversion. Cependant, l’utilisation de DDIM ou d’autres approches d’inversion peut entraîner une perte de détails fins tels que la couleur et la texture, diminuant ainsi les informations de style dans les images générées. En outre, l’étape supplémentaire introduite par ces approches est un processus chronophage et peut présenter des inconvénients significatifs dans les applications pratiques. D’un autre côté, le défi principal pour les méthodes basées sur les adaptateurs réside dans la recherche de l’équilibre entre la fuite de contenu et l’intensité du style. La fuite de contenu se produit lorsque l’augmentation de l’intensité du style entraîne l’apparition d’éléments non stylistiques de l’image de référence dans la sortie générée, avec le point principal de difficulté étant de séparer les styles du contenu dans l’image de référence de manière efficace. Pour résoudre ce problème, certains cadres construisent des ensembles de données appariés qui représentent le même objet dans différents styles, facilitant ainsi l’extraction de la représentation de contenu et des styles dissociés. Cependant, en raison de la représentation inhérentement indéterminée du style, la tâche de création d’ensembles de données appariés à grande échelle est limitée en termes de diversité de styles qu’elle peut capturer, et c’est un processus gourmand en ressources.

Pour résoudre ces limitations, le cadre InstantStyle est introduit, qui est un mécanisme sans ajustement basé sur les méthodes basées sur les adaptateurs existants, capable de s’intégrer sans effort avec d’autres méthodes d’injection basées sur l’attention, et réalisant ainsi la découpe efficace du contenu et du style. En outre, le cadre InstantStyle introduit non pas une, mais deux méthodes efficaces pour réaliser la découpe du style et du contenu, atteignant ainsi une meilleure migration de style sans avoir besoin d’introduire des méthodes supplémentaires pour réaliser la découpe ou de construire des ensembles de données appariés.

En outre, les cadres basés sur les adaptateurs précédents ont été largement utilisés dans les méthodes basées sur CLIP en tant qu’extracteur de fonctionnalités d’images, certains cadres ont exploré la possibilité de mettre en œuvre la découpe de fonctionnalités dans l’espace de fonction, et lorsqu’ils sont comparés à l’indétermination des attributs de style, il est plus facile de décrire le contenu avec du texte. Puisque les images et les textes partagent un espace de fonction dans les méthodes basées sur CLIP, une simple opération de soustraction des fonctionnalités de texte de contenu et des fonctionnalités d’image peut réduire considérablement la fuite de contenu. En outre, dans la plupart des modèles de diffusion, il existe une couche particulière dans son architecture qui injecte les informations de style, et réalise la découpe du contenu et du style en injectant les fonctionnalités d’image uniquement dans les blocs spécifiques au style. En mettant en œuvre ces deux stratégies simples, le cadre InstantStyle est capable de résoudre les problèmes de fuite de contenu rencontrés par la plupart des cadres existants, tout en maintenant la force du style.

Pour résumer, le cadre InstantStyle emploie deux mécanismes simples, directs et efficaces pour réaliser une dissociation efficace du contenu et du style à partir d’images de référence. Le cadre InstantStyle est une approche indépendante du modèle et sans ajustement qui démontre des performances remarquables dans les tâches de transfert de style, avec un grand potentiel pour les tâches en aval.

Instant-Style : Méthodologie et Architecture

Comme le démontrent les approches précédentes, il existe un équilibre dans l’injection des conditions de style dans les modèles de diffusion sans ajustement. Si l’intensité de la condition d’image est trop élevée, elle peut entraîner une fuite de contenu, tandis que si l’intensité de la condition d’image est trop faible, le style peut ne pas être suffisamment évident. Une raison majeure derrière cette observation est que dans une image, le style et le contenu sont interconnectés, et en raison de l’indétermination inhérente des attributs de style, il est difficile de découper le style et l’intention. Par conséquent, des poids méticuleux sont souvent ajustés pour chaque image de référence afin de trouver un équilibre entre la contrôlabilité du texte et la force du style. En outre, pour une image de référence et une description de texte correspondante dans les méthodes basées sur l’inversion, les approches d’inversion telles que DDIM sont adoptées sur l’image pour obtenir la trajectoire de diffusion inversée, un processus qui approxime l’équation d’inversion pour transformer une image en représentation de bruit latent. En partant de là, et en commençant par la trajectoire de diffusion inversée ainsi que par un nouvel ensemble de prompts, ces méthodes génèrent de nouveaux contenus dont le style est aligné avec l’entrée. Cependant, comme le montre la figure suivante, l’approche d’inversion DDIM pour les images réelles est souvent instable car elle repose sur des hypothèses de linéarisation locales, entraînant une propagation d’erreurs et une perte de contenu et une reconstruction d’image incorrecte.

En venant à la méthodologie, au lieu d’employer des stratégies complexes pour découper le contenu et le style à partir d’images, le cadre InstantStyle adopte la approche la plus simple pour atteindre des performances similaires. Lorsqu’il est comparé aux attributs de style indéterminés, le contenu peut être représenté par du texte naturel, permettant ainsi au cadre InstantStyle d’utiliser l’encodeur de texte de CLIP pour extraire les caractéristiques du texte de contenu en tant que représentations de contexte. Simultanément, le cadre InstantStyle met en œuvre l’encodeur d’image de CLIP pour extraire les fonctionnalités de l’image de référence. En tirant parti de la caractérisation des fonctionnalités globales de CLIP, et en soustrayant les fonctionnalités de texte de contenu des fonctionnalités d’image, le cadre InstantStyle est capable de découper explicitement le style et le contenu. Bien que ce soit une stratégie simple, elle aide le cadre InstantStyle à être très efficace pour minimiser la fuite de contenu.

En outre, chaque couche dans un réseau profond est responsable de la capture de différentes informations sémantiques, et l’observation clé des modèles précédents est qu’il existe deux couches d’attention qui sont responsables de la gestion du style. Plus précisément, ce sont les blocs.0.attentions.1 et les couches down.blocks.2.attentions.1 qui capturent le style tel que la couleur, le matériau, l’atmosphère, et la couche de disposition spatiale capture la structure et la composition, respectivement. Le cadre InstantStyle utilise ces couches implicitement pour extraire les informations de style, et empêche la fuite de contenu sans perdre la force du style. La stratégie est simple mais efficace, car le modèle a localisé les blocs de style qui peuvent injecter les fonctionnalités d’image dans ces blocs pour réaliser un transfert de style sans effort. En outre, puisque le modèle réduit considérablement le nombre de paramètres de l’adaptateur, la capacité de contrôle du texte du cadre est améliorée, et le mécanisme est également applicable à d’autres modèles d’injection de fonctionnalités basés sur l’attention pour l’édition et d’autres tâches.

Instant-Style : Expériences et Résultats

Le cadre InstantStyle est mis en œuvre sur le cadre Stable Diffusion XL, et il utilise l’adaptateur IR-adapter pré-entraîné comme son exemple pour valider sa méthodologie, et mute tous les blocs sauf les blocs de style pour les fonctionnalités d’image. Le modèle InstantStyle forme également l’adaptateur IR-adapter sur 4 millions d’ensembles de données d’images de texte appariés à grande échelle à partir de zéro, et au lieu de former tous les blocs, met à jour uniquement les blocs de style.

Pour conduire ses capacités de généralisation et de robustesse, le cadre InstantStyle effectue de nombreuses expériences de transfert de style avec différents styles sur différents contenus, et les résultats peuvent être observés dans les images suivantes. Étant donné une seule image de référence de style ainsi que des prompts variables, le cadre InstantStyle fournit une génération d’images de haute qualité et cohérentes en termes de style.

En outre, puisque le modèle injecte les informations d’image uniquement dans les blocs de style, il est capable de mitiger considérablement le problème de fuite de contenu, et par conséquent, n’a pas besoin de réglage de poids.

Ensuite, le cadre InstantStyle adopte également l’architecture ControlNet pour réaliser une stylisation d’image avec contrôle spatial, et les résultats sont démontrés dans l’image suivante.

Lorsqu’il est comparé aux méthodes d’état de l’art précédentes, y compris StyleAlign, B-LoRA, Swapping Self Attention et IP-Adapter, le cadre InstantStyle démontre les meilleurs effets visuels.

Pensées finales

Dans cet article, nous avons parlé d’InstantStyle, un cadre général qui emploie deux stratégies simples mais efficaces pour réaliser une dissociation efficace du contenu et du style à partir d’images de référence. Le cadre InstantStyle est conçu pour résoudre les problèmes rencontrés par les modèles de diffusion basés sur l’ajustement actuels pour la génération et la personnalisation d’images. Le cadre InstantStyle met en œuvre deux stratégies essentielles : Une approche simple mais efficace pour découper le style et le contenu à partir d’images de référence dans l’espace de fonction, basée sur l’hypothèse que les fonctionnalités dans le même espace de fonction peuvent être ajoutées ou soustraites les unes des autres. Deuxièmement, en prévenant les fuites de style en injectant les fonctionnalités de l’image de référence exclusivement dans les blocs spécifiques au style, et en évitant délibérément la nécessité d’utiliser des poids encombrants pour l’ajustement, souvent caractérisés par des conceptions plus lourdes en paramètres.

Kunal Kejriwal

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.

Unite.AI

InstantStyle : Préservation de style dans la génération d’images à partir de texte

InstantStyle : Préservation de style dans la génération d’images à partir de texte

Instant-Style : Méthodologie et Architecture

Instant-Style : Expériences et Résultats

Pensées finales

You may like