Intelligence artificielle
InstantID : GĂ©nĂ©ration d’images Ă prĂ©servation d’identitĂ© en quelques secondes
La technologie de génération d’images basée sur l’intelligence artificielle a connu une croissance remarquable ces dernières années, notamment avec l’émergence de modèles de diffusion de texte à image tels que DALL-E, GLIDE, Stable Diffusion, Imagen et bien d’autres. Malgré le fait que les modèles de génération d’images AI ont des architectures et des méthodes de formation uniques, ils partagent tous un point focal commun : la génération d’images personnalisées et customisées qui visent à créer des images avec une identité de caractère, un sujet et un style cohérents sur la base d’images de référence. En raison de leurs capacités de génération remarquables, les cadres de génération d’images AI modernes ont trouvé des applications dans des domaines tels que l’animation d’images, la réalité virtuelle, le commerce électronique, les portraits AI et bien d’autres. Cependant, malgré leurs capacités de génération remarquables, ces cadres partagent tous un obstacle commun, la majorité d’entre eux sont incapables de générer des images customisées tout en préservant les détails d’identité délicats des objets humains.
Générer des images customisées tout en préservant les détails intriqués est d’une importance critique, notamment dans les tâches d’identité faciale humaine qui nécessitent un niveau élevé de fidélité et de détail, ainsi que des sémantiques nuancées par rapport aux tâches de génération d’images d’objets généraux qui se concentrent principalement sur les textures et les couleurs grossières. De plus, les cadres de synthèse d’images personnalisées ces dernières années, tels que LoRA, DreamBooth, Textual Inversion et bien d’autres, ont considérablement progressé. Cependant, les modèles de génération d’images personnalisées AI ne sont pas encore parfaits pour le déploiement dans des scénarios du monde réel, car ils ont des exigences de stockage élevées, nécessitent plusieurs images de référence et ont souvent un processus de fine-tuning long. D’un autre côté, bien que les méthodes basées sur l’incrustation d’ID existantes nécessitent seulement une référence unique, elles manquent soit de compatibilité avec les modèles pré-entraînés publics, soit nécessitent un processus de fine-tuning excessif sur de nombreux paramètres, soit échouent à maintenir une haute fidélité faciale.
Pour relever ces défis et améliorer davantage les capacités de génération d’images, dans cet article, nous allons discuter d’InstantID, une solution basée sur le modèle de diffusion pour la génération d’images. InstantID est un module plug and play qui gère la génération d’images et la personnalisation avec compétence à travers différents styles avec une seule image de référence et assure également une haute fidélité. L’objectif principal de cet article est de fournir à nos lecteurs une compréhension approfondie des fondements techniques et des composants du cadre InstantID, car nous allons examiner en détail l’architecture du modèle, le processus de formation et les scénarios d’application. Alors, commençons.
InstantID : Génération d’images à préservation d’identité en quelques secondes
L’émergence des modèles de diffusion de texte à image a contribué de manière significative à l’avancement de la technologie de génération d’images. L’objectif principal de ces modèles est la génération personnalisée et la création d’images avec un sujet, un style et une identité de caractère cohérents à l’aide d’une ou plusieurs images de référence. La capacité de ces cadres à créer des images cohérentes a créé des applications potentielles dans différents secteurs, notamment l’animation d’images, la génération de portraits AI, le commerce électronique, la réalité virtuelle et augmentée, et bien d’autres.
Cependant, malgré leurs capacités remarquables, ces cadres sont confrontés à un défi fondamental : ils ont souvent du mal à générer des images customisées qui préservent avec précision les détails intriqués des sujets humains. Il est important de noter que générer des images customisées avec des détails intriqués est une tâche difficile, car l’identité faciale humaine nécessite un degré élevé de fidélité et de détail, ainsi que des sémantiques plus avancées par rapport aux objets généraux ou aux styles qui se concentrent principalement sur les couleurs ou les textures grossières. Les modèles de texte à image existants dépendent de descriptions textuelles détaillées et ont du mal à atteindre une pertinence sémantique forte pour la génération d’images customisées. De plus, certains grands modèles de texte à image pré-entraînés ajoutent des contrôles de conditionnement spatial pour améliorer la contrôlabilité, facilitant ainsi le contrôle structural fin à l’aide d’éléments tels que les poses du corps, les cartes de profondeur, les croquis dessinés par l’utilisateur, les cartes de segmentation sémantique, et bien d’autres. Cependant, malgré ces ajouts et améliorations, ces cadres ne parviennent à atteindre qu’une fidélité partielle de l’image générée par rapport à l’image de référence.
Pour surmonter ces obstacles, le cadre InstantID se concentre sur la synthèse d’images à préservation d’identité instantanée et tente de combler le fossé entre l’efficacité et la haute fidélité en introduisant un simple module plug and play qui permet au cadre de gérer la personnalisation d’images en utilisant seulement une image faciale unique tout en maintenant une haute fidélité. De plus, pour préserver l’identité faciale de l’image de référence, le cadre InstantID met en œuvre un nouvel encodeur de visage qui retient les détails d’image intriqués en ajoutant des conditions spatiales faibles et des conditions sémantiques fortes qui guident le processus de génération d’images en intégrant des invites textuelles, des images de repère et des images faciales.
Il y a trois caractéristiques distinctives qui distinguent le cadre InstantID des cadres de génération d’images de texte à image existants.
- Compatibilité et pluggabilité : Au lieu de former sur les paramètres complets du cadre UNet, le cadre InstantID se concentre sur la formation d’un adaptateur léger. En conséquence, le cadre InstantID est compatible et pluggable avec les modèles pré-entraînés existants.
- Sans réglage : La méthodologie du cadre InstantID élimine la nécessité de réglage, car il n’a besoin que d’une seule propagation vers l’avant pour l’inférence, ce qui rend le modèle très pratique et économique pour le réglage.
- Performance supérieure : Le cadre InstantID démontre une grande flexibilité et une fidélité élevée, car il est capable de fournir des performances de pointe en utilisant seulement une image de référence unique, comparable aux méthodes basées sur la formation qui reposent sur plusieurs images de référence.
Dans l’ensemble, les contributions du cadre InstantID peuvent être catégorisées dans les points suivants.
- Le cadre InstantID est une méthode innovante d’adaptation à la préservation d’ID pour les modèles de diffusion de texte à image pré-entraînés, visant à combler le fossé entre l’efficacité et la fidélité.
- Le cadre InstantID est compatible et pluggable avec les modèles personnalisés réglés à l’aide du même modèle de diffusion dans son architecture, permettant la préservation d’ID dans les modèles pré-entraînés sans aucun coût supplémentaire.
InstantID : Méthodologie et architecture
Comme mentionné précédemment, le cadre InstantID est un adaptateur léger efficace qui dote les modèles de diffusion de texte à image pré-entraînés de capacités de préservation d’ID sans effort.
En parlant de l’architecture, le cadre InstantID est construit sur le modèle de diffusion stable, renommé pour sa capacité à effectuer le processus de diffusion avec une efficacité computationnelle élevée dans un espace latent de faible dimension au lieu de l’espace de pixels avec un auto-encodeur. Pour une image d’entrée, l’encodeur mappe d’abord l’image à une représentation latente avec un facteur de downsampling et des dimensions latentes. De plus, pour débruir un bruit normalement distribué avec un bruit latent, la condition et l’étape de temps actuelle, le processus de diffusion adopte un composant de débruitage UNet. La condition est une embedding d’invites textuelles générées à l’aide d’un encodeur de texte CLIP pré-entraîné.
De plus, le cadre InstantID utilise également un composant ControlNet capable d’ajouter un contrôle spatial à un modèle de diffusion pré-entraîné en tant que condition, allant bien au-delà des capacités traditionnelles des invites textuelles. Le composant ControlNet intègre également l’architecture UNet du cadre de diffusion stable en utilisant une réplique formée du composant UNet. La réplique du composant UNet présente des couches de convolution nulles dans les blocs intermédiaires et les blocs d’encodeur. Malgré leurs similitudes, le composant ControlNet se distingue du modèle de diffusion stable ; ils diffèrent dans l’élément résiduel ultérieur. Le composant ControlNet encode les informations de condition spatiale telles que les poses, les cartes de profondeur, les croquis et bien d’autres en ajoutant les résidus au bloc UNet, puis embed les résidus dans le réseau d’origine.
Le cadre InstantID s’inspire également du modèle IP-Adapter ou de l’adaptateur d’invite d’image qui introduit une nouvelle approche pour atteindre les capacités d’invite d’image en parallèle avec les invites textuelles sans nécessiter de modifier les modèles de texte à image d’origine. Le composant IP-Adapter utilise également une stratégie d’attention croisée déconnectée qui utilise des couches d’attention croisée supplémentaires pour embed les fonctionnalités d’image tout en laissant les autres paramètres inchangés.
Méthodologie
Pour vous donner un aperçu rapide, le cadre InstantID vise à générer des images customisées avec différents styles ou poses en utilisant seulement une image de référence unique avec une haute fidélité. La figure suivante donne un aperçu rapide du cadre InstantID.

Comme on peut l’observer, le cadre InstantID a trois composants essentiels :
- Un composant d’incrustation d’ID qui capture des informations sémantiques robustes des fonctionnalités faciales de l’image.
- Un module d’adaptation léger avec un composant d’attention croisée déconnecté pour faciliter l’utilisation d’une image en tant qu’invite visuelle.
- Un composant IdentityNet qui encode les fonctionnalités détaillées de l’image de référence en utilisant un contrôle spatial supplémentaire.
Incrustration d’ID
Contrairement aux méthodes existantes telles que FaceStudio, PhotoMaker, IP-Adapter et bien d’autres qui reposent sur un encodeur d’image CLIP pré-entraîné pour extraire les invites visuelles, le cadre InstantID se concentre sur une fidélité améliorée et des détails sémantiques plus solides dans la tâche de préservation d’ID. Il est important de noter que les limitations inhérentes du composant CLIP résident principalement dans son processus de formation sur des données faiblement alignées, ce qui signifie que les fonctionnalités encodées du encodeur CLIP capturent principalement des informations sémantiques larges et ambiguës telles que les couleurs, le style et la composition. Bien que ces fonctionnalités puissent agir comme un complément général aux embeddings de texte, elles ne sont pas adaptées pour les tâches de préservation d’ID précises qui mettent l’accent sur une sémantique solide et une haute fidélité. De plus, des recherches récentes sur les modèles de représentation faciale, notamment dans la reconnaissance faciale, ont démontré l’efficacité de la représentation faciale dans des tâches complexes, notamment la reconstruction et la reconnaissance faciale. En s’appuyant sur cela, le cadre InstantID vise à exploiter un modèle de visage pré-entraîné pour détecter et extraire les incrustations d’ID de l’image de référence, guidant ainsi le modèle pour la génération d’images.
Adaptateur d’image
La capacité des modèles de diffusion de texte à image pré-entraînés dans les tâches d’invite d’image améliore considérablement les invites textuelles, notamment dans les scénarios qui ne peuvent pas être décrits de manière adéquate par les invites textuelles. Le cadre InstantID adopte une stratégie ressemblant à celle utilisée par le modèle IP-Adapter pour l’invite d’image, qui introduit un module d’adaptation léger apparié avec un composant d’attention croisée déconnecté pour supporter les images en tant qu’invites d’entrée. Cependant, contrairement aux embeddings CLIP grossièrement alignés, le cadre InstantID diverge en employant des incrustations d’ID en tant qu’invites d’image dans une tentative d’atteindre une intégration d’invite plus riche et plus nuancée.
IdentityNet
Bien que les méthodes existantes soient capables d’intégrer les invites d’image avec les invites textuelles, le cadre InstantID soutient que ces méthodes n’améliorent que les fonctionnalités grossières avec un niveau d’intégration insuffisant pour la génération d’images à préservation d’ID. De plus, l’ajout des jetons d’image et de texte dans les couches d’attention croisée directement tend à affaiblir le contrôle des jetons de texte, et une tentative d’améliorer la force des jetons d’image pourrait entraîner une altération des capacités des jetons de texte sur les tâches d’édition. Pour contrer ces défis, le cadre InstantID opte pour ControlNet, une méthode d’incrustation de fonctionnalités alternative qui utilise les informations spatiales comme entrée pour le module contrôlable, permettant ainsi de maintenir la cohérence avec les paramètres UNet dans les modèles de diffusion.
Le cadre InstantID apporte deux changements à l’architecture traditionnelle de ControlNet : pour les entrées conditionnelles, le cadre InstantID opte pour 5 points clés faciaux au lieu de points clés faciaux OpenPose fins. Deuxièmement, le cadre InstantID utilise des incrustations d’ID au lieu d’invites textuelles en tant que conditions pour les couches d’attention croisée dans l’architecture de ControlNet.
Formation et inférence
Pendant la phase de formation, le cadre InstantID optimise les paramètres de IdentityNet et de l’adaptateur d’image tout en gelant les paramètres du modèle de diffusion pré-entraîné. L’ensemble du pipeline InstantID est formé sur des paires d’images et de texte qui présentent des sujets humains et utilise un objectif de formation similaire à celui utilisé dans le cadre de diffusion stable avec des conditions d’image spécifiques à la tâche. Le point fort de la méthode de formation InstantID est la séparation entre les couches d’attention croisée pour l’image et le texte dans l’adaptateur d’invite d’image, un choix qui permet au cadre InstantID d’ajuster les poids de ces conditions d’image de manière flexible et indépendante, assurant ainsi un processus d’inférence et de formation plus ciblé et contrôlé.
InstantID : Expériences et résultats
Le cadre InstantID met en œuvre le modèle de diffusion stable et le forme sur LAION-Face, un ensemble de données ouvert à grande échelle composé de plus de 50 millions de paires d’images et de texte. De plus, le cadre InstantID collecte plus de 10 millions d’images humaines avec des automatisations générées automatiquement par le modèle BLIP2 pour améliorer encore la qualité de la génération d’images. Le cadre InstantID se concentre principalement sur les images de personnes uniques et utilise un modèle de visage pré-entraîné pour détecter et extraire les incrustations d’ID de l’image humaine, et au lieu de former les ensembles de données de visages découpés, il forme les images humaines originales. De plus, pendant la formation, le cadre InstantID gèle le modèle de texte à image pré-entraîné et ne met à jour que les paramètres de IdentityNet et de l’adaptateur d’image.
Génération d’image uniquement
Le modèle InstantID utilise une invite vide pour guider le processus de génération d’images en utilisant uniquement l’image de référence, et les résultats sans invites sont démontrés dans l’image suivante.

La génération « d’invite vide » démontrée dans l’image ci-dessus montre la capacité du cadre InstantID à maintenir des fonctionnalités faciales sémantiques riches comme l’identité, l’âge et l’expression de manière robuste. Cependant, il est important de noter que l’utilisation d’invites vides peut ne pas être en mesure de reproduire les résultats sur d’autres sémantiques comme le sexe avec précision. De plus, dans l’image ci-dessus, les colonnes 2 à 4 utilisent une image et une invite, et comme on peut le voir, l’image générée ne démontre pas de dégradation des capacités de contrôle de texte et assure également la cohérence d’identité. Enfin, les colonnes 5 à 9 utilisent une image, une invite et un contrôle spatial, démontrant ainsi la compatibilité du modèle avec les modèles de contrôle spatial pré-entraînés, permettant au modèle InstantID d’introduire des contrôles spatiaux de manière flexible à l’aide d’un composant ControlNet pré-entraîné.

Il est également important de noter que le nombre d’images de référence a un impact significatif sur l’image générée, comme le démontre l’image ci-dessus. Bien que le cadre InstantID soit capable de fournir de bons résultats en utilisant une seule image de référence, plusieurs images de référence produisent une image de meilleure qualité, car le cadre InstantID prend la moyenne des incrustations d’ID en tant qu’invite d’image. En poursuivant, il est essentiel de comparer le cadre InstantID avec les méthodes existantes qui génèrent des images personnalisées en utilisant une seule image de référence. La figure suivante compare les résultats générés par le cadre InstantID et les modèles d’état de l’art existants pour la génération d’images customisées à partir d’une seule référence.

Comme on peut le voir, le cadre InstantID est capable de préserver les caractéristiques faciales grâce aux incrustations d’ID qui portent naturellement des informations sémantiques riches, telles que l’identité, l’âge et le sexe. Il serait sage de dire que le cadre InstantID surpasse les cadres existants dans la génération d’images customisées, car il est capable de préserver l’identité humaine tout en maintenant le contrôle et la flexibilité stylistique.

Pensées finales
Dans cet article, nous avons discuté d’InstantID, une solution basée sur le modèle de diffusion pour la génération d’images. InstantID est un module plug and play qui gère la génération d’images et la personnalisation avec compétence à travers différents styles avec une seule image de référence et assure également une haute fidélité. Le cadre InstantID se concentre sur la synthèse d’images à préservation d’identité instantanée et tente de combler le fossé entre l’efficacité et la haute fidélité en introduisant un simple module plug and play qui permet au cadre de gérer la personnalisation d’images en utilisant seulement une image faciale unique tout en maintenant une haute fidélité.












