Intelligence Artificielle

InstantID : génération zéro-shot préservant l'identité en quelques secondes

Publié 12 mars ,

Kunal Kejriwal

La technologie de génération d'images basée sur l'IA a connu une croissance remarquable au cours des dernières années, depuis que de grands modèles de diffusion de texte en image tels que DALL-E, GLIDE, Stable Diffusion, Imagen et bien d'autres ont fait leur apparition. Bien que les modèles d'IA de génération d'images aient une architecture et des méthodes de formation uniques, ils partagent tous un point commun : la génération d'images personnalisées qui vise à créer des images avec un identifiant de personnage, un sujet et un style cohérents sur la base d'images de référence. En raison de leurs capacités génératives remarquables, les cadres d'IA modernes de génération d'images ont trouvé des applications dans des domaines tels que l'animation d'images, la réalité virtuelle, le commerce électronique, les portraits IA, etc. Cependant, malgré leurs capacités génératives remarquables, ces frameworks partagent tous un obstacle commun : la majorité d’entre eux sont incapables de générer des images personnalisées tout en préservant les détails délicats de l’identité des objets humains.

Générer des images personnalisées tout en préservant les détails complexes est d'une importance cruciale, en particulier dans les tâches d'identité faciale humaine qui nécessitent un niveau élevé de fidélité et de détail, ainsi qu'une sémantique nuancée par rapport aux tâches générales de génération d'images d'objets qui se concentrent principalement sur des textures et des couleurs à gros grain. De plus, les cadres de synthèse d'images personnalisés ces dernières années, tels que LoRA, DreamBooth, Textual Inversion, etc., ont considérablement progressé. Cependant, les modèles d'IA génératifs d'images personnalisés ne sont toujours pas parfaits pour un déploiement dans des scénarios du monde réel, car ils nécessitent un stockage élevé, nécessitent plusieurs images de référence et nécessitent souvent un long processus de réglage fin. D'un autre côté, bien que les méthodes existantes basées sur l'intégration d'ID ne nécessitent qu'une seule référence directe, soit elles manquent de compatibilité avec les modèles pré-entraînés accessibles au public, soit elles nécessitent un processus de réglage fin excessif sur de nombreux paramètres, soit elles ne parviennent pas à maintenir un niveau élevé. faire face à la fidélité.

Pour relever ces défis et améliorer encore les capacités de génération d'images, cet article présente InstantID, une solution de génération d'images basée sur un modèle de diffusion. InstantID est un module prêt à l'emploi qui gère efficacement la génération et la personnalisation d'images pour différents styles à partir d'une seule image de référence, tout en garantissant une haute fidélité. L'objectif principal de cet article est de fournir à nos lecteurs une compréhension approfondie des fondements techniques et des composants du framework InstantID, en examinant en détail l'architecture du modèle, son processus d'entraînement et ses scénarios d'application. C'est parti !

InstantID : génération d'images Zero-Shot préservant l'identité

L’émergence de modèles de diffusion de texte en image a contribué de manière significative à l’avancement de la technologie de génération d’images. L'objectif principal de ces modèles est la génération personnalisée et personnelle, ainsi que la création d'images avec un sujet, un style et un identifiant de personnage cohérents à l'aide d'une ou plusieurs images de référence. La capacité de ces frameworks à créer des images cohérentes a créé des applications potentielles dans différents secteurs, notamment l'animation d'images, la génération de portraits IA, le commerce électronique, la réalité virtuelle et augmentée, et bien plus encore.

Cependant, malgré leurs capacités remarquables, ces cadres sont confrontés à un défi fondamental : ils ont souvent du mal à générer des images personnalisées qui préservent avec précision les détails complexes des sujets humains. Il convient de noter que générer des images personnalisées avec des détails intrinsèques est une tâche difficile, car l'identité faciale humaine nécessite un degré plus élevé de fidélité et de détail ainsi qu'une sémantique plus avancée par rapport aux objets ou styles généraux qui se concentrent principalement sur les couleurs ou les textures à gros grains. Les modèles texte-image existants dépendent de descriptions textuelles détaillées et ont du mal à atteindre une forte pertinence sémantique pour la génération d'images personnalisées. En outre, certains grands cadres de texte et d'image pré-entraînés ajoutent des contrôles de conditionnement spatial pour améliorer la contrôlabilité, facilitant un contrôle structurel plus fin à l'aide d'éléments tels que des poses corporelles, des cartes de profondeur, des croquis dessinés par l'utilisateur, des cartes de segmentation sémantique, etc. Cependant, malgré ces ajouts et améliorations, ces frameworks ne sont capables d'atteindre qu'une fidélité partielle de l'image générée à l'image de référence.

Pour surmonter ces obstacles, le framework InstantID se concentre sur la synthèse d'images instantanée préservant l'identité et tente de combler le fossé entre efficacité et haute fidélité en introduisant un simple module plug and play qui permet au framework de gérer la personnalisation d'image en utilisant une seule image faciale. tout en conservant une haute fidélité. De plus, pour préserver l'identité faciale de l'image de référence, le framework InstantID implémente un nouvel encodeur de visage qui conserve les détails complexes de l'image en ajoutant des conditions spatiales faibles et des conditions sémantiques fortes qui guident le processus de génération d'image en incorporant des invites textuelles, une image de repère et une image faciale. .

Il existe trois caractéristiques distinctives qui séparent le framework InstantID des frameworks de génération de texte en image existants.

Compatibilité et connectabilité: Au lieu de se former sur tous les paramètres du framework UNet, le framework InstantID se concentre sur la formation d'un adaptateur léger. En conséquence, le framework InstantID est compatible et connectable avec les modèles pré-entraînés existants.

Sans réglage : La méthodologie du framework InstantID élimine la nécessité d'un réglage fin puisqu'elle ne nécessite qu'une seule propagation vers l'avant pour l'inférence, ce qui rend le modèle très pratique et économique pour un réglage fin.
Une performance supérieure: Le framework InstantID démontre une grande flexibilité et fidélité car il est capable de fournir des performances de pointe en utilisant une seule image de référence, comparable aux méthodes basées sur la formation qui s'appuient sur plusieurs images de référence.

Dans l'ensemble, les contributions du framework InstantID peuvent être classées dans les points suivants.

Le framework InstantID est une méthode d'adaptation innovante et préservant l'identité pour les modèles de diffusion de texte pré-entraînés en images dans le but de combler le fossé entre efficacité et fidélité.
Le framework InstantID est compatible et connectable avec des modèles personnalisés personnalisés utilisant le même modèle de diffusion dans son architecture, permettant la préservation des identifiants dans des modèles pré-entraînés sans aucun coût supplémentaire.

InstantID : méthodologie et architecture

Comme mentionné précédemment, le framework InstantID est un adaptateur léger et efficace qui confère sans effort du texte pré-entraîné aux modèles de diffusion d'images avec des capacités de préservation des identifiants.

En ce qui concerne l'architecture, le framework InstantID est construit sur le Modèle de diffusion stable, réputé pour sa capacité à effectuer le processus de diffusion avec une efficacité de calcul élevée dans un espace latent de faible dimension au lieu d'un espace de pixels avec un encodeur automatique. Pour une image d'entrée, l'encodeur mappe d'abord l'image sur une représentation latente avec un facteur de sous-échantillonnage et des dimensions latentes. De plus, pour débruiter un bruit normalement distribué avec une latence, une condition et un pas de temps actuels bruyants, le processus de diffusion adopte un composant UNet de débruitage. La condition est une intégration d'invites textuelles générées à l'aide d'un composant d'encodeur de texte CLIP pré-entraîné.

De plus, le framework InstantID utilise également un composant ControlNet capable d'ajouter un contrôle spatial à un modèle de diffusion pré-entraîné comme condition, allant bien au-delà des capacités traditionnelles des invites textuelles. Le composant ControlNet intègre également l'architecture UNet du framework Stable Diffusion à l'aide d'une réplication entraînée du composant UNet. La réplique du composant UNet ne comporte aucune couche de convolution dans les blocs centraux et les blocs d'encodeur. Malgré leurs similitudes, le composant ControlNet se distingue du modèle Stable Diffusion ; ils diffèrent tous deux par ce dernier élément résiduel. Le composant ControlNet encode les informations sur les conditions spatiales telles que les poses, les cartes de profondeur, les croquis et bien plus encore en ajoutant les résidus au bloc UNet, puis intègre ces résidus dans le réseau d'origine.

Le framework InstantID s'inspire également d'IP-Adapter ou d'Image Prompt Adapter qui introduit une nouvelle approche pour obtenir des capacités d'invite d'image fonctionnant en parallèle avec des invites textuelles sans nécessiter de modifier le texte d'origine en modèles d'image. Le composant IP-Adapter utilise également une stratégie d'attention croisée découplée unique qui utilise des couches d'attention croisée supplémentaires pour intégrer les caractéristiques de l'image tout en laissant les autres paramètres inchangés.

Méthodologie

Pour vous donner un bref aperçu, le framework InstantID vise à générer des images personnalisées avec différents styles ou poses en utilisant une seule image d'identification de référence avec une haute fidélité. La figure suivante donne brièvement un aperçu du framework InstantID.

Comme on peut le constater, le framework InstantID comporte trois composants essentiels :

Un composant d'intégration d'ID qui capture des informations sémantiques robustes sur les traits du visage dans l'image.
Un module adopté léger avec un composant d'attention croisée découplé pour faciliter l'utilisation d'une image comme invite visuelle.
Un composant IdentityNet qui code les caractéristiques détaillées de l'image de référence à l'aide d'un contrôle spatial supplémentaire.

Intégration d'ID

Contrairement aux méthodes existantes telles que FaceStudio, PhotoMaker, IP-Adapter et bien d'autres qui s'appuient sur un encodeur d'image CLIP pré-entraîné pour extraire les invites visuelles, le framework InstantID se concentre sur une fidélité améliorée et des détails sémantiques plus forts dans la tâche de préservation de l'identité. Il convient de noter que les limites inhérentes du composant CLIP résident principalement dans son processus de formation sur des données faiblement alignées, ce qui signifie que les fonctionnalités codées de l'encodeur CLIP capturent principalement des informations sémantiques larges et ambiguës telles que les couleurs, le style et la composition. Bien que ces fonctionnalités puissent servir de complément général aux intégrations de texte, elles ne conviennent pas aux tâches précises de préservation des identifiants qui mettent fortement l’accent sur une sémantique forte et une haute fidélité. De plus, des recherches récentes sur les modèles de représentation des visages, notamment autour de la reconnaissance faciale, ont démontré l'efficacité de la représentation des visages dans des tâches complexes, notamment la reconstruction et la reconnaissance faciales. S'appuyant sur le même principe, le framework InstantID vise à exploiter un modèle de visage pré-entraîné pour détecter et extraire les intégrations d'identification de visage de l'image de référence, guidant ainsi le modèle pour la génération d'images.

Adaptateur d'image

La capacité de texte pré-entraîné vers des modèles de diffusion d'images dans les tâches d'invite d'image améliore considérablement les invites de texte, en particulier pour les scénarios qui ne peuvent pas être décrits de manière adéquate par les invites de texte. Le framework InstantID adopte une stratégie ressemblant à celle utilisée par le modèle IP-Adapter pour l'invite d'image, qui introduit un module adaptatif léger associé à un composant d'attention croisée découplé pour prendre en charge les images comme invites d'entrée. Cependant, contrairement aux intégrations CLIP grossièrement alignées, le cadre InstantID diverge en utilisant des intégrations d'ID lorsque l'image l'invite dans le but d'obtenir une intégration rapide sémantiquement riche et plus nuancée.

IdentitéNet

Bien que les méthodes existantes soient capables d'intégrer les invites d'image avec les invites de texte, le framework InstantID affirme que ces méthodes n'améliorent que les fonctionnalités grossières avec un niveau d'intégration insuffisant pour la génération d'images préservant l'identité. De plus, l'ajout de jetons d'image et de texte dans des couches d'attention croisée a directement tendance à affaiblir le contrôle des jetons de texte, et une tentative d'améliorer la force des jetons d'image pourrait entraîner une altération des capacités des jetons de texte lors des tâches d'édition. Pour relever ces défis, le framework InstantID opte pour ControlNet, une méthode alternative d'intégration de fonctionnalités qui utilise les informations spatiales comme entrée pour le module contrôlable, lui permettant de maintenir la cohérence avec les paramètres UNet dans les modèles de diffusion.

Le framework InstantID apporte deux modifications à l'architecture ControlNet traditionnelle : pour les entrées conditionnelles, le framework InstantID opte pour 5 points clés faciaux au lieu de points clés faciaux OpenPose à granularité fine. Deuxièmement, le framework InstantID utilise des intégrations d'ID au lieu d'invites textuelles comme conditions pour les couches d'attention croisée dans l'architecture ControlNet.

Formation et inférence

Pendant la phase de formation, le framework InstantID optimise les paramètres d'IdentityNet et de l'Image Adapter tout en figeant les paramètres du modèle de diffusion pré-entraîné. L'ensemble du pipeline InstantID est formé sur des paires image-texte qui présentent des sujets humains et utilise un objectif de formation similaire à celui utilisé dans le cadre de diffusion stable avec des conditions d'image spécifiques à la tâche. Le point culminant de la méthode de formation InstantID est la séparation entre les couches d'attention croisée d'image et de texte au sein de l'adaptateur d'invite d'image, un choix permettant au framework InstantID d'ajuster les poids de ces conditions d'image de manière flexible et indépendante, garantissant ainsi une approche plus ciblée et contrôlée. processus d’inférence et de formation.

InstantID : expériences et résultats

Le framework InstantID implémente la diffusion stable et l'entraîne sur LAION-Face, un ensemble de données open source à grande échelle composé de plus de 50 millions de paires image-texte. De plus, le framework InstantID collecte plus de 10 millions d'images humaines avec des automatisations générées automatiquement par le modèle BLIP2 pour améliorer encore la qualité de génération d'images. Le framework InstantID se concentre principalement sur les images d'une seule personne et utilise un modèle de visage pré-entraîné pour détecter et extraire les intégrations d'identification de visage à partir d'images humaines, et au lieu d'entraîner les ensembles de données de visage recadrés, entraîne les images humaines originales. De plus, pendant la formation, le framework InstantID gèle le modèle texte en image pré-entraîné et met à jour uniquement les paramètres d'IdentityNet et d'Image Adapter.

Génération d'images uniquement

Le modèle InstantID utilise une invite vide pour guider le processus de génération d'image en utilisant uniquement l'image de référence, et les résultats sans les invites sont illustrés dans l'image suivante.

La génération « Empty Prompt », comme le montre l'image ci-dessus, démontre la capacité du framework InstantID à conserver de manière robuste des caractéristiques faciales sémantiques riches telles que l'identité, l'âge et l'expression. Cependant, il convient de noter que l’utilisation d’invites vides pourrait ne pas permettre de reproduire avec précision les résultats sur d’autres sémantiques comme le genre. De plus, dans l'image ci-dessus, les colonnes 2 à 4 utilisent une image et une invite, et comme on peut le voir, l'image générée ne démontre aucune dégradation des capacités de contrôle de texte et garantit également la cohérence de l'identité. Enfin, les colonnes 5 à 9 utilisent une image, une invite et un contrôle spatial, démontrant la compatibilité du modèle avec des modèles de contrôle spatial pré-entraînés permettant au modèle InstantID d'introduire de manière flexible des contrôles spatiaux à l'aide d'un composant ControlNet pré-entraîné.

Il convient également de noter que le nombre d'images de référence a un impact significatif sur l'image générée, comme le démontre l'image ci-dessus. Bien que le framework InstantID soit capable de fournir de bons résultats en utilisant une seule image de référence, plusieurs images de référence produisent une image de meilleure qualité puisque le framework InstantID prend la moyenne moyenne des intégrations d'ID comme invite d'image. En progressant, il est essentiel de comparer le framework InstantID avec les méthodes précédentes qui génèrent des images personnalisées à l'aide d'une seule image de référence. La figure suivante compare les résultats générés par le framework InstantID et les modèles de pointe existants pour la génération d'images personnalisées à référence unique.

Comme on peut le constater, le framework InstantID est capable de préserver les caractéristiques faciales grâce à l'intégration d'identités qui contient intrinsèquement de riches informations sémantiques, telles que l'identité, l'âge et le sexe. Il serait prudent de dire que le framework InstantID surpasse les frameworks existants en matière de génération d'images personnalisées car il est capable de préserver l'identité humaine tout en conservant le contrôle et la flexibilité stylistique.

Réflexions finales

Dans cet article, nous avons parlé d'InstantID, une solution basée sur un modèle de diffusion pour la génération d'images. InstantID est un module plug and play qui gère efficacement la génération et la personnalisation d'images dans différents styles avec une seule image de référence et garantit également une haute fidélité. Le framework InstantID se concentre sur la synthèse d'images instantanée préservant l'identité et tente de combler le fossé entre efficacité et haute fidélité en introduisant un simple module plug and play qui permet au framework de gérer la personnalisation d'image en utilisant une seule image faciale tout en conservant une haute fidélité.

Rubriques connexes:CLIP modèles de diffusion ID instantané Diffusion stable coup zéro

Kunal Kejriwal

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.