Suivez nous sur

InstantID : gĂ©nĂ©ration zĂ©ro-shot prĂ©servant l'identitĂ© en quelques secondes

Intelligence Artificielle

InstantID : gĂ©nĂ©ration zĂ©ro-shot prĂ©servant l'identitĂ© en quelques secondes

mm

La technologie de gĂ©nĂ©ration d'images basĂ©e sur l'IA a connu une croissance remarquable au cours des dernières annĂ©es, depuis que de grands modèles de diffusion de texte en image tels que DALL-E, GLIDE, Stable Diffusion, Imagen et bien d'autres ont fait leur apparition. Bien que les modèles d'IA de gĂ©nĂ©ration d'images aient une architecture et des mĂ©thodes de formation uniques, ils partagent tous un point commun : la gĂ©nĂ©ration d'images personnalisĂ©es qui vise Ă  crĂ©er des images avec un identifiant de personnage, un sujet et un style cohĂ©rents sur la base d'images de rĂ©fĂ©rence. En raison de leurs capacitĂ©s gĂ©nĂ©ratives remarquables, les cadres d'IA modernes de gĂ©nĂ©ration d'images ont trouvĂ© des applications dans des domaines tels que l'animation d'images, la rĂ©alitĂ© virtuelle, le commerce Ă©lectronique, les portraits IA, etc. Cependant, malgrĂ© leurs capacitĂ©s gĂ©nĂ©ratives remarquables, ces frameworks partagent tous un obstacle commun : la majoritĂ© d’entre eux sont incapables de gĂ©nĂ©rer des images personnalisĂ©es tout en prĂ©servant les dĂ©tails dĂ©licats de l’identitĂ© des objets humains. 

GĂ©nĂ©rer des images personnalisĂ©es tout en prĂ©servant les dĂ©tails complexes est d'une importance cruciale, en particulier dans les tâches d'identitĂ© faciale humaine qui nĂ©cessitent un niveau Ă©levĂ© de fidĂ©litĂ© et de dĂ©tail, ainsi qu'une sĂ©mantique nuancĂ©e par rapport aux tâches gĂ©nĂ©rales de gĂ©nĂ©ration d'images d'objets qui se concentrent principalement sur des textures et des couleurs Ă  gros grain. De plus, les cadres de synthèse d'images personnalisĂ©s ces dernières annĂ©es, tels que LoRA, DreamBooth, Textual Inversion, etc., ont considĂ©rablement progressĂ©. Cependant, les modèles d'IA gĂ©nĂ©ratifs d'images personnalisĂ©s ne sont toujours pas parfaits pour un dĂ©ploiement dans des scĂ©narios du monde rĂ©el, car ils nĂ©cessitent un stockage Ă©levĂ©, nĂ©cessitent plusieurs images de rĂ©fĂ©rence et nĂ©cessitent souvent un long processus de rĂ©glage fin. D'un autre cĂ´tĂ©, bien que les mĂ©thodes existantes basĂ©es sur l'intĂ©gration d'ID ne nĂ©cessitent qu'une seule rĂ©fĂ©rence directe, soit elles manquent de compatibilitĂ© avec les modèles prĂ©-entraĂ®nĂ©s accessibles au public, soit elles nĂ©cessitent un processus de rĂ©glage fin excessif sur de nombreux paramètres, soit elles ne parviennent pas Ă  maintenir un niveau Ă©levĂ©. faire face Ă  la fidĂ©litĂ©. 

Pour relever ces dĂ©fis et amĂ©liorer encore les capacitĂ©s de gĂ©nĂ©ration d'images, cet article prĂ©sente InstantID, une solution de gĂ©nĂ©ration d'images basĂ©e sur un modèle de diffusion. InstantID est un module prĂŞt Ă  l'emploi qui gère efficacement la gĂ©nĂ©ration et la personnalisation d'images pour diffĂ©rents styles Ă  partir d'une seule image de rĂ©fĂ©rence, tout en garantissant une haute fidĂ©litĂ©. L'objectif principal de cet article est de fournir Ă  nos lecteurs une comprĂ©hension approfondie des fondements techniques et des composants du framework InstantID, en examinant en dĂ©tail l'architecture du modèle, son processus d'entraĂ®nement et ses scĂ©narios d'application. C'est parti !

InstantID : gĂ©nĂ©ration d'images Zero-Shot prĂ©servant l'identitĂ©


L’émergence de modèles de diffusion de texte en image a contribuĂ© de manière significative Ă  l’avancement de la technologie de gĂ©nĂ©ration d’images. L'objectif principal de ces modèles est la gĂ©nĂ©ration personnalisĂ©e et personnelle, ainsi que la crĂ©ation d'images avec un sujet, un style et un identifiant de personnage cohĂ©rents Ă  l'aide d'une ou plusieurs images de rĂ©fĂ©rence. La capacitĂ© de ces frameworks Ă  crĂ©er des images cohĂ©rentes a créé des applications potentielles dans diffĂ©rents secteurs, notamment l'animation d'images, la gĂ©nĂ©ration de portraits IA, le commerce Ă©lectronique, la rĂ©alitĂ© virtuelle et augmentĂ©e, et bien plus encore. 

Cependant, malgrĂ© leurs capacitĂ©s remarquables, ces cadres sont confrontĂ©s Ă  un dĂ©fi fondamental : ils ont souvent du mal Ă  gĂ©nĂ©rer des images personnalisĂ©es qui prĂ©servent avec prĂ©cision les dĂ©tails complexes des sujets humains. Il convient de noter que gĂ©nĂ©rer des images personnalisĂ©es avec des dĂ©tails intrinsèques est une tâche difficile, car l'identitĂ© faciale humaine nĂ©cessite un degrĂ© plus Ă©levĂ© de fidĂ©litĂ© et de dĂ©tail ainsi qu'une sĂ©mantique plus avancĂ©e par rapport aux objets ou styles gĂ©nĂ©raux qui se concentrent principalement sur les couleurs ou les textures Ă  gros grains. Les modèles texte-image existants dĂ©pendent de descriptions textuelles dĂ©taillĂ©es et ont du mal Ă  atteindre une forte pertinence sĂ©mantique pour la gĂ©nĂ©ration d'images personnalisĂ©es. En outre, certains grands cadres de texte et d'image prĂ©-entraĂ®nĂ©s ajoutent des contrĂ´les de conditionnement spatial pour amĂ©liorer la contrĂ´labilitĂ©, facilitant un contrĂ´le structurel plus fin Ă  l'aide d'Ă©lĂ©ments tels que des poses corporelles, des cartes de profondeur, des croquis dessinĂ©s par l'utilisateur, des cartes de segmentation sĂ©mantique, etc. Cependant, malgrĂ© ces ajouts et amĂ©liorations, ces frameworks ne sont capables d'atteindre qu'une fidĂ©litĂ© partielle de l'image gĂ©nĂ©rĂ©e Ă  l'image de rĂ©fĂ©rence. 

Pour surmonter ces obstacles, le framework InstantID se concentre sur la synthèse d'images instantanĂ©e prĂ©servant l'identitĂ© et tente de combler le fossĂ© entre efficacitĂ© et haute fidĂ©litĂ© en introduisant un simple module plug and play qui permet au framework de gĂ©rer la personnalisation d'image en utilisant une seule image faciale. tout en conservant une haute fidĂ©litĂ©. De plus, pour prĂ©server l'identitĂ© faciale de l'image de rĂ©fĂ©rence, le framework InstantID implĂ©mente un nouvel encodeur de visage qui conserve les dĂ©tails complexes de l'image en ajoutant des conditions spatiales faibles et des conditions sĂ©mantiques fortes qui guident le processus de gĂ©nĂ©ration d'image en incorporant des invites textuelles, une image de repère et une image faciale. . 

Il existe trois caractĂ©ristiques distinctives qui sĂ©parent le framework InstantID des frameworks de gĂ©nĂ©ration de texte en image existants. 

  • CompatibilitĂ© et connectabilitĂ©: Au lieu de se former sur tous les paramètres du framework UNet, le framework InstantID se concentre sur la formation d'un adaptateur lĂ©ger. En consĂ©quence, le framework InstantID est compatible et connectable avec les modèles prĂ©-entraĂ®nĂ©s existants. 
  • Sans rĂ©glage : La mĂ©thodologie du framework InstantID Ă©limine la nĂ©cessitĂ© d'un rĂ©glage fin puisqu'elle ne nĂ©cessite qu'une seule propagation vers l'avant pour l'infĂ©rence, ce qui rend le modèle très pratique et Ă©conomique pour un rĂ©glage fin. 
  • Une performance supĂ©rieure: Le framework InstantID dĂ©montre une grande flexibilitĂ© et fidĂ©litĂ© car il est capable de fournir des performances de pointe en utilisant une seule image de rĂ©fĂ©rence, comparable aux mĂ©thodes basĂ©es sur la formation qui s'appuient sur plusieurs images de rĂ©fĂ©rence. 

Dans l'ensemble, les contributions du framework InstantID peuvent ĂŞtre classĂ©es dans les points suivants. 

  1. Le framework InstantID est une mĂ©thode d'adaptation innovante et prĂ©servant l'identitĂ© pour les modèles de diffusion de texte prĂ©-entraĂ®nĂ©s en images dans le but de combler le fossĂ© entre efficacitĂ© et fidĂ©litĂ©. 
  2. Le framework InstantID est compatible et connectable avec des modèles personnalisĂ©s personnalisĂ©s utilisant le mĂŞme modèle de diffusion dans son architecture, permettant la prĂ©servation des identifiants dans des modèles prĂ©-entraĂ®nĂ©s sans aucun coĂ»t supplĂ©mentaire. 

InstantID : mĂ©thodologie et architecture

Comme mentionnĂ© prĂ©cĂ©demment, le framework InstantID est un adaptateur lĂ©ger et efficace qui confère sans effort du texte prĂ©-entraĂ®nĂ© aux modèles de diffusion d'images avec des capacitĂ©s de prĂ©servation des identifiants. 

En ce qui concerne l'architecture, le framework InstantID est construit sur le Modèle de diffusion stable, rĂ©putĂ© pour sa capacitĂ© Ă  effectuer le processus de diffusion avec une efficacitĂ© de calcul Ă©levĂ©e dans un espace latent de faible dimension au lieu d'un espace de pixels avec un encodeur automatique. Pour une image d'entrĂ©e, l'encodeur mappe d'abord l'image sur une reprĂ©sentation latente avec un facteur de sous-Ă©chantillonnage et des dimensions latentes. De plus, pour dĂ©bruiter un bruit normalement distribuĂ© avec une latence, une condition et un pas de temps actuels bruyants, le processus de diffusion adopte un composant UNet de dĂ©bruitage. La condition est une intĂ©gration d'invites textuelles gĂ©nĂ©rĂ©es Ă  l'aide d'un composant d'encodeur de texte CLIP prĂ©-entraĂ®nĂ©. 

De plus, le framework InstantID utilise Ă©galement un composant ControlNet capable d'ajouter un contrĂ´le spatial Ă  un modèle de diffusion prĂ©-entraĂ®nĂ© comme condition, allant bien au-delĂ  des capacitĂ©s traditionnelles des invites textuelles. Le composant ControlNet intègre Ă©galement l'architecture UNet du framework Stable Diffusion Ă  l'aide d'une rĂ©plication entraĂ®nĂ©e du composant UNet. La rĂ©plique du composant UNet ne comporte aucune couche de convolution dans les blocs centraux et les blocs d'encodeur. MalgrĂ© leurs similitudes, le composant ControlNet se distingue du modèle Stable Diffusion ; ils diffèrent tous deux par ce dernier Ă©lĂ©ment rĂ©siduel. Le composant ControlNet encode les informations sur les conditions spatiales telles que les poses, les cartes de profondeur, les croquis et bien plus encore en ajoutant les rĂ©sidus au bloc UNet, puis intègre ces rĂ©sidus dans le rĂ©seau d'origine. 

Le framework InstantID s'inspire Ă©galement d'IP-Adapter ou d'Image Prompt Adapter qui introduit une nouvelle approche pour obtenir des capacitĂ©s d'invite d'image fonctionnant en parallèle avec des invites textuelles sans nĂ©cessiter de modifier le texte d'origine en modèles d'image. Le composant IP-Adapter utilise Ă©galement une stratĂ©gie d'attention croisĂ©e dĂ©couplĂ©e unique qui utilise des couches d'attention croisĂ©e supplĂ©mentaires pour intĂ©grer les caractĂ©ristiques de l'image tout en laissant les autres paramètres inchangĂ©s. 

Méthodologie

Pour vous donner un bref aperçu, le framework InstantID vise Ă  gĂ©nĂ©rer des images personnalisĂ©es avec diffĂ©rents styles ou poses en utilisant une seule image d'identification de rĂ©fĂ©rence avec une haute fidĂ©litĂ©. La figure suivante donne brièvement un aperçu du framework InstantID. 

Comme on peut le constater, le framework InstantID comporte trois composants essentiels :

  1. Un composant d'intĂ©gration d'ID qui capture des informations sĂ©mantiques robustes sur les traits du visage dans l'image. 
  2. Un module adoptĂ© lĂ©ger avec un composant d'attention croisĂ©e dĂ©couplĂ© pour faciliter l'utilisation d'une image comme invite visuelle. 
  3. Un composant IdentityNet qui code les caractĂ©ristiques dĂ©taillĂ©es de l'image de rĂ©fĂ©rence Ă  l'aide d'un contrĂ´le spatial supplĂ©mentaire. 

Intégration d'ID

Contrairement aux mĂ©thodes existantes telles que FaceStudio, PhotoMaker, IP-Adapter et bien d'autres qui s'appuient sur un encodeur d'image CLIP prĂ©-entraĂ®nĂ© pour extraire les invites visuelles, le framework InstantID se concentre sur une fidĂ©litĂ© amĂ©liorĂ©e et des dĂ©tails sĂ©mantiques plus forts dans la tâche de prĂ©servation de l'identitĂ©. Il convient de noter que les limites inhĂ©rentes du composant CLIP rĂ©sident principalement dans son processus de formation sur des donnĂ©es faiblement alignĂ©es, ce qui signifie que les fonctionnalitĂ©s codĂ©es de l'encodeur CLIP capturent principalement des informations sĂ©mantiques larges et ambiguĂ«s telles que les couleurs, le style et la composition. Bien que ces fonctionnalitĂ©s puissent servir de complĂ©ment gĂ©nĂ©ral aux intĂ©grations de texte, elles ne conviennent pas aux tâches prĂ©cises de prĂ©servation des identifiants qui mettent fortement l’accent sur une sĂ©mantique forte et une haute fidĂ©litĂ©. De plus, des recherches rĂ©centes sur les modèles de reprĂ©sentation des visages, notamment autour de la reconnaissance faciale, ont dĂ©montrĂ© l'efficacitĂ© de la reprĂ©sentation des visages dans des tâches complexes, notamment la reconstruction et la reconnaissance faciales. S'appuyant sur le mĂŞme principe, le framework InstantID vise Ă  exploiter un modèle de visage prĂ©-entraĂ®nĂ© pour dĂ©tecter et extraire les intĂ©grations d'identification de visage de l'image de rĂ©fĂ©rence, guidant ainsi le modèle pour la gĂ©nĂ©ration d'images. 

Adaptateur d'image

La capacitĂ© de texte prĂ©-entraĂ®nĂ© vers des modèles de diffusion d'images dans les tâches d'invite d'image amĂ©liore considĂ©rablement les invites de texte, en particulier pour les scĂ©narios qui ne peuvent pas ĂŞtre dĂ©crits de manière adĂ©quate par les invites de texte. Le framework InstantID adopte une stratĂ©gie ressemblant Ă  celle utilisĂ©e par le modèle IP-Adapter pour l'invite d'image, qui introduit un module adaptatif lĂ©ger associĂ© Ă  un composant d'attention croisĂ©e dĂ©couplĂ© pour prendre en charge les images comme invites d'entrĂ©e. Cependant, contrairement aux intĂ©grations CLIP grossièrement alignĂ©es, le cadre InstantID diverge en utilisant des intĂ©grations d'ID lorsque l'image l'invite dans le but d'obtenir une intĂ©gration rapide sĂ©mantiquement riche et plus nuancĂ©e. 

IdentitéNet

Bien que les mĂ©thodes existantes soient capables d'intĂ©grer les invites d'image avec les invites de texte, le framework InstantID affirme que ces mĂ©thodes n'amĂ©liorent que les fonctionnalitĂ©s grossières avec un niveau d'intĂ©gration insuffisant pour la gĂ©nĂ©ration d'images prĂ©servant l'identitĂ©. De plus, l'ajout de jetons d'image et de texte dans des couches d'attention croisĂ©e a directement tendance Ă  affaiblir le contrĂ´le des jetons de texte, et une tentative d'amĂ©liorer la force des jetons d'image pourrait entraĂ®ner une altĂ©ration des capacitĂ©s des jetons de texte lors des tâches d'Ă©dition. Pour relever ces dĂ©fis, le framework InstantID opte pour ControlNet, une mĂ©thode alternative d'intĂ©gration de fonctionnalitĂ©s qui utilise les informations spatiales comme entrĂ©e pour le module contrĂ´lable, lui permettant de maintenir la cohĂ©rence avec les paramètres UNet dans les modèles de diffusion. 

Le framework InstantID apporte deux modifications Ă  l'architecture ControlNet traditionnelle : pour les entrĂ©es conditionnelles, le framework InstantID opte pour 5 points clĂ©s faciaux au lieu de points clĂ©s faciaux OpenPose Ă  granularitĂ© fine. Deuxièmement, le framework InstantID utilise des intĂ©grations d'ID au lieu d'invites textuelles comme conditions pour les couches d'attention croisĂ©e dans l'architecture ControlNet. 

Formation et inférence

Pendant la phase de formation, le framework InstantID optimise les paramètres d'IdentityNet et de l'Image Adapter tout en figeant les paramètres du modèle de diffusion prĂ©-entraĂ®nĂ©. L'ensemble du pipeline InstantID est formĂ© sur des paires image-texte qui prĂ©sentent des sujets humains et utilise un objectif de formation similaire Ă  celui utilisĂ© dans le cadre de diffusion stable avec des conditions d'image spĂ©cifiques Ă  la tâche. Le point culminant de la mĂ©thode de formation InstantID est la sĂ©paration entre les couches d'attention croisĂ©e d'image et de texte au sein de l'adaptateur d'invite d'image, un choix permettant au framework InstantID d'ajuster les poids de ces conditions d'image de manière flexible et indĂ©pendante, garantissant ainsi une approche plus ciblĂ©e et contrĂ´lĂ©e. processus d’infĂ©rence et de formation. 

InstantID : expĂ©riences et rĂ©sultats

Le framework InstantID implĂ©mente la diffusion stable et l'entraĂ®ne sur LAION-Face, un ensemble de donnĂ©es open source Ă  grande Ă©chelle composĂ© de plus de 50 millions de paires image-texte. De plus, le framework InstantID collecte plus de 10 millions d'images humaines avec des automatisations gĂ©nĂ©rĂ©es automatiquement par le modèle BLIP2 pour amĂ©liorer encore la qualitĂ© de gĂ©nĂ©ration d'images. Le framework InstantID se concentre principalement sur les images d'une seule personne et utilise un modèle de visage prĂ©-entraĂ®nĂ© pour dĂ©tecter et extraire les intĂ©grations d'identification de visage Ă  partir d'images humaines, et au lieu d'entraĂ®ner les ensembles de donnĂ©es de visage recadrĂ©s, entraĂ®ne les images humaines originales. De plus, pendant la formation, le framework InstantID gèle le modèle texte en image prĂ©-entraĂ®nĂ© et met Ă  jour uniquement les paramètres d'IdentityNet et d'Image Adapter. 

Génération d'images uniquement

Le modèle InstantID utilise une invite vide pour guider le processus de gĂ©nĂ©ration d'image en utilisant uniquement l'image de rĂ©fĂ©rence, et les rĂ©sultats sans les invites sont illustrĂ©s dans l'image suivante. 

La gĂ©nĂ©ration « Empty Prompt Â», comme le montre l'image ci-dessus, dĂ©montre la capacitĂ© du framework InstantID Ă  conserver de manière robuste des caractĂ©ristiques faciales sĂ©mantiques riches telles que l'identitĂ©, l'âge et l'expression. Cependant, il convient de noter que l’utilisation d’invites vides pourrait ne pas permettre de reproduire avec prĂ©cision les rĂ©sultats sur d’autres sĂ©mantiques comme le genre. De plus, dans l'image ci-dessus, les colonnes 2 Ă  4 utilisent une image et une invite, et comme on peut le voir, l'image gĂ©nĂ©rĂ©e ne dĂ©montre aucune dĂ©gradation des capacitĂ©s de contrĂ´le de texte et garantit Ă©galement la cohĂ©rence de l'identitĂ©. Enfin, les colonnes 5 Ă  9 utilisent une image, une invite et un contrĂ´le spatial, dĂ©montrant la compatibilitĂ© du modèle avec des modèles de contrĂ´le spatial prĂ©-entraĂ®nĂ©s permettant au modèle InstantID d'introduire de manière flexible des contrĂ´les spatiaux Ă  l'aide d'un composant ControlNet prĂ©-entraĂ®nĂ©. 

Il convient Ă©galement de noter que le nombre d'images de rĂ©fĂ©rence a un impact significatif sur l'image gĂ©nĂ©rĂ©e, comme le dĂ©montre l'image ci-dessus. Bien que le framework InstantID soit capable de fournir de bons rĂ©sultats en utilisant une seule image de rĂ©fĂ©rence, plusieurs images de rĂ©fĂ©rence produisent une image de meilleure qualitĂ© puisque le framework InstantID prend la moyenne moyenne des intĂ©grations d'ID comme invite d'image. En progressant, il est essentiel de comparer le framework InstantID avec les mĂ©thodes prĂ©cĂ©dentes qui gĂ©nèrent des images personnalisĂ©es Ă  l'aide d'une seule image de rĂ©fĂ©rence. La figure suivante compare les rĂ©sultats gĂ©nĂ©rĂ©s par le framework InstantID et les modèles de pointe existants pour la gĂ©nĂ©ration d'images personnalisĂ©es Ă  rĂ©fĂ©rence unique. 

Comme on peut le constater, le framework InstantID est capable de prĂ©server les caractĂ©ristiques faciales grâce Ă  l'intĂ©gration d'identitĂ©s qui contient intrinsèquement de riches informations sĂ©mantiques, telles que l'identitĂ©, l'âge et le sexe. Il serait prudent de dire que le framework InstantID surpasse les frameworks existants en matière de gĂ©nĂ©ration d'images personnalisĂ©es car il est capable de prĂ©server l'identitĂ© humaine tout en conservant le contrĂ´le et la flexibilitĂ© stylistique. 

Réflexions finales

Dans cet article, nous avons parlé d'InstantID, une solution basée sur un modèle de diffusion pour la génération d'images. InstantID est un module plug and play qui gère efficacement la génération et la personnalisation d'images dans différents styles avec une seule image de référence et garantit également une haute fidélité. Le framework InstantID se concentre sur la synthèse d'images instantanée préservant l'identité et tente de combler le fossé entre efficacité et haute fidélité en introduisant un simple module plug and play qui permet au framework de gérer la personnalisation d'image en utilisant une seule image faciale tout en conservant une haute fidélité.

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.