Connect with us

Intelligence artificielle

InstantID: Génération d’identité préservée en quelques secondes

mm

La technologie de génération d’images basée sur l’intelligence artificielle a connu une croissance remarquable au cours des dernières années, depuis l’apparition de grands modèles de diffusion de texte à image comme DALL-E, GLIDE, Stable Diffusion, Imagen et plus. Malgré le fait que les modèles de génération d’images AI ont une architecture et des méthodes de formation uniques, ils partagent tous un point focal commun : la génération d’images personnalisées et personnalisées qui vise à créer des images avec une identité de personnage, un sujet et un style cohérents sur la base d’images de référence. En raison de leurs capacités de génération remarquables, les cadres de génération d’images AI modernes ont trouvé des applications dans des domaines tels que l’animation d’images, la réalité virtuelle, le commerce électronique, les portraits AI et plus. Cependant, malgré leurs capacités de génération remarquables, ces cadres partagent tous un obstacle commun, la majorité d’entre eux sont incapables de générer des images personnalisées tout en préservant les détails d’identité délicats des objets humains.

Générer des images personnalisées tout en préservant les détails intriqués est d’une importance critique, en particulier dans les tâches d’identité faciale humaine qui nécessitent un niveau élevé de fidélité et de détail, ainsi que des sémantiques nuancées par rapport aux tâches de génération d’images d’objets généraux qui se concentrent principalement sur les textures et les couleurs grossières. De plus, les cadres de synthèse d’images personnalisées au cours des dernières années, tels que LoRA, DreamBooth, Textual Inversion et plus, ont progressé de manière significative. Cependant, les modèles de génération d’images personnalisées AI ne sont toujours pas parfaits pour le déploiement dans des scénarios du monde réel, car ils ont une exigence de stockage élevée, nécessitent plusieurs images de référence et ont souvent un processus de réglage long. D’un autre côté, bien que les méthodes basées sur l’incrustation d’ID existantes nécessitent seulement une référence unique, elles manquent soit de compatibilité avec les modèles pré-entraînés publics, soit nécessitent un processus de réglage excessif sur de nombreux paramètres, soit échouent à maintenir une haute fidélité du visage.

Pour relever ces défis et améliorer encore les capacités de génération d’images, dans cet article, nous allons parler d’InstantID, une solution basée sur un modèle de diffusion pour la génération d’images. InstantID est un module plug and play qui gère la génération d’images et la personnalisation de manière experte à travers différents styles avec seulement une image de référence et assure également une haute fidélité. L’objectif principal de cet article est de fournir à nos lecteurs une compréhension approfondie des fondements techniques et des composants du cadre InstantID, car nous allons examiner en détail l’architecture du modèle, le processus de formation et les scénarios d’application. Alors commençons.

InstantID : Génération d’images avec préservation d’identité en quelques secondes

L’émergence des modèles de diffusion de texte à image a contribué de manière significative à l’avancement de la technologie de génération d’images. L’objectif principal de ces modèles est la génération personnalisée et personnalisée, et la création d’images avec un sujet, un style et une identité de personnage cohérents à l’aide d’une ou plusieurs images de référence. La capacité de ces cadres à créer des images cohérentes a créé des applications potentielles dans différentes industries, notamment l’animation d’images, la génération de portraits AI, le commerce électronique, la réalité virtuelle et augmentée, et bien plus.

Cependant, malgré leurs capacités remarquables, ces cadres rencontrent un défi fondamental : ils ont souvent du mal à générer des images personnalisées qui préservent avec précision les détails intriqués des sujets humains. Il est important de noter que générer des images personnalisées avec des détails intriqués est une tâche difficile, car l’identité faciale humaine nécessite un degré élevé de fidélité et de détail, ainsi que des sémantiques plus avancées par rapport aux objets ou styles généraux qui se concentrent principalement sur les couleurs ou les textures grossières. Les modèles de génération d’images basés sur le texte existants dépendent de descriptions textuelles détaillées et ont du mal à atteindre une forte pertinence sémantique pour la génération d’images personnalisées. De plus, certains grands cadres de génération d’images pré-entraînés ajoutent des contrôles de conditionnement spatiaux pour améliorer la contrôlabilité, facilitant le contrôle structurel fine-grain à l’aide d’éléments tels que les poses du corps, les cartes de profondeur, les croquis dessinés par l’utilisateur, les cartes de segmentation sémantique, et plus. Cependant, malgré ces ajouts et améliorations, ces cadres ne sont capables d’atteindre qu’une fidélité partielle de l’image générée à l’image de référence.

Pour surmonter ces obstacles, le cadre InstantID se concentre sur la synthèse d’images avec préservation d’identité instantanée, et tente de combler le fossé entre l’efficacité et la haute fidélité en introduisant un module plug and play simple qui permet au cadre de gérer la personnalisation d’images à l’aide d’une seule image faciale tout en maintenant une haute fidélité. De plus, pour préserver l’identité faciale de l’image de référence, le cadre InstantID met en œuvre un nouvel encodeur de visage qui retient les détails d’image intriqués en ajoutant des conditions spatiales faibles et des conditions sémantiques fortes qui guident le processus de génération d’images en intégrant des invites textuelles, des images de repère et des images faciales.

Il y a trois caractéristiques distinctives qui séparent le cadre InstantID des cadres de génération d’images basés sur le texte existants.

  • Compatibilité et plugabilité : Au lieu de former sur les paramètres complets du framework UNet, le cadre InstantID se concentre sur la formation d’un adaptateur léger. En conséquence, le cadre InstantID est compatible et plug and play avec les modèles pré-entraînés existants.
  • Ajustement libre : La méthodologie du cadre InstantID élimine la nécessité de réglage, car elle n’a besoin que d’une seule propagation vers l’avant pour l’inférence, ce qui rend le modèle très pratique et économique pour le réglage.
  • Performance supérieure : Le cadre InstantID démontre une grande flexibilité et fidélité, car il est capable de fournir des performances de pointe à l’aide d’une seule image de référence, comparable aux méthodes basées sur la formation qui s’appuient sur plusieurs images de référence.

Dans l’ensemble, les contributions du cadre InstantID peuvent être catégorisées dans les points suivants.

  1. Le cadre InstantID est une méthode innovante d’adaptation ID-préservante pour les modèles de diffusion de texte à image pré-entraînés, visant à combler le fossé entre l’efficacité et la fidélité.
  2. Le cadre InstantID est compatible et plug and play avec les modèles personnalisés réglés à l’aide du même modèle de diffusion dans son architecture, permettant la préservation d’ID dans les modèles pré-entraînés sans aucun coût supplémentaire.

InstantID : Méthodologie et architecture

Comme mentionné précédemment, le cadre InstantID est un adaptateur léger efficace qui dote les modèles de diffusion de texte à image pré-entraînés de capacités de préservation d’ID sans effort.

En parlant de l’architecture, le cadre InstantID est construit sur le modèle de Stable Diffusion, réputé pour sa capacité à effectuer le processus de diffusion avec une grande efficacité de calcul dans un espace latent de faible dimension au lieu de l’espace de pixels avec un auto-encodeur. Pour une image d’entrée, l’encodeur mappe d’abord l’image à une représentation latente avec un facteur de downsampling et des dimensions latentes. De plus, pour débruir un bruit normalement distribué avec un bruit latent, une condition et un temps de référence, le processus de diffusion adopte un composant UNet de débruitage. La condition est une incrustation d’invites textuelles générées à l’aide d’un encodeur de texte CLIP pré-entraîné.

De plus, le cadre InstantID utilise également un composant ControlNet capable d’ajouter un contrôle spatial à un modèle de diffusion pré-entraîné en tant que condition, allant bien au-delà des capacités traditionnelles des invites textuelles. Le composant ControlNet intègre également l’architecture UNet du framework Stable Diffusion en utilisant une réplication formée du composant UNet. La réplication du composant UNet comporte des couches de convolution nulles dans les blocs du milieu et les blocs de l’encodeur. Malgré leurs similitudes, le composant ControlNet se distingue du modèle Stable Diffusion ; ils diffèrent dans l’élément résiduel ultérieur. Le composant ControlNet encode les informations de condition spatiale telles que les poses, les cartes de profondeur, les croquis et plus en ajoutant les résidus au bloc UNet, puis intègre ces résidus dans le réseau d’origine.

Le cadre InstantID s’inspire également de l’IP-Adapter ou de l’Image Prompt Adapter qui introduit une nouvelle approche pour atteindre les capacités d’invite d’image en parallèle avec les invites textuelles sans nécessiter de modifier les modèles de texte à image d’origine. Le composant IP-Adapter emploie également une stratégie d’attention croisée déconnectée unique qui utilise des couches d’attention croisée supplémentaires pour intégrer les caractéristiques d’image tout en laissant les autres paramètres inchangés.

Méthodologie

Pour vous donner un aperçu rapide, le cadre InstantID vise à générer des images personnalisées avec différents styles ou poses à l’aide d’une seule image de référence ID avec une haute fidélité. La figure suivante fournit un aperçu rapide du cadre InstantID.

Comme on peut l’observer, le cadre InstantID comporte trois composants essentiels :

  1. Un composant d’incrustation d’ID qui capture des informations sémantiques robustes des caractéristiques faciales de l’image.
  2. Un module d’adaptation léger avec un composant d’attention croisée déconnectée pour faciliter l’utilisation d’une image en tant qu’invite visuelle.
  3. Un composant IdentityNet qui encode les caractéristiques détaillées de l’image de référence à l’aide d’un contrôle spatial supplémentaire.

Incrustation d’ID

Contrairement aux méthodes existantes telles que FaceStudio, PhotoMaker, IP-Adapter et plus qui s’appuient sur un encodeur d’image CLIP pré-entraîné pour extraire des invites visuelles, le cadre InstantID se concentre sur une fidélité améliorée et des détails sémantiques plus forts dans la tâche de préservation d’ID. Il est important de noter que les limites inhérentes du composant CLIP résident principalement dans son processus de formation sur des données faiblement alignées, ce qui signifie que les caractéristiques encodées de l’encodeur CLIP capturent principalement des informations sémantiques larges et ambiguës telles que les couleurs, le style et la composition. Bien que ces caractéristiques puissent agir comme un supplément général aux incrustations de texte, elles ne sont pas adaptées aux tâches de préservation d’ID précises qui mettent l’accent sur une forte sémantique et une haute fidélité. De plus, des recherches récentes sur les modèles de représentation de visage, en particulier autour de la reconnaissance faciale, ont démontré l’efficacité de la représentation de visage dans des tâches complexes, notamment la reconstruction et la reconnaissance faciale. En s’appuyant sur cela, le cadre InstantID vise à exploiter un modèle de visage pré-entraîné pour détecter et extraire des incrustations d’ID de l’image de référence, guidant ainsi le modèle pour la génération d’images.

Adaptateur d’image

La capacité des modèles de diffusion de texte à image pré-entraînés dans les tâches d’invite d’image améliore considérablement les invites textuelles, en particulier pour les scénarios qui ne peuvent pas être décrits de manière adéquate par les invites textuelles. Le cadre InstantID adopte une stratégie ressemblant à celle utilisée par le modèle IP-Adapter pour l’invite d’image, qui introduit un module d’adaptation léger associé à un composant d’attention croisée déconnectée pour supporter les images en tant qu’invites. Cependant, contrairement aux incrustations CLIP grossièrement alignées, le cadre InstantID diverge en employant des incrustations d’ID en tant qu’invites d’image dans une tentative d’atteindre une intégration d’invite plus sémantiquement riche et nuancée.

IdentityNet

Bien que les méthodes existantes soient capables d’intégrer les invites d’image avec les invites textuelles, le cadre InstantID soutient que ces méthodes n’améliorent que les caractéristiques grossières, avec un niveau d’intégration qui est insuffisant pour la génération d’images avec préservation d’ID. De plus, l’ajout des jetons d’image et de texte dans les couches d’attention croisée directement tend à affaiblir le contrôle des jetons de texte, et une tentative d’améliorer la force des jetons d’image pourrait entraîner une altération des capacités des jetons de texte sur les tâches d’édition. Pour contrer ces défis, le cadre InstantID opte pour ControlNet, une méthode d’incrustation de caractéristiques alternative qui utilise les informations spatiales en tant qu’entrée pour le module contrôlable, permettant ainsi de maintenir la cohérence avec les paramètres UNet dans les modèles de diffusion.

Le cadre InstantID apporte deux changements à l’architecture traditionnelle de ControlNet : pour les entrées conditionnelles, le cadre InstantID opte pour 5 points clés faciaux au lieu de points clés faciaux fine-grain OpenPose. Deuxièmement, le cadre InstantID utilise des incrustations d’ID au lieu d’invites textuelles en tant que conditions pour les couches d’attention croisée dans l’architecture de ControlNet.

Formation et inférence

Pendant la phase de formation, le cadre InstantID optimise les paramètres de IdentityNet et de l’Adaptateur d’image tout en gelant les paramètres du modèle de diffusion pré-entraîné. L’ensemble du pipeline InstantID est formé sur des paires d’images et de texte qui présentent des sujets humains, et emploie un objectif de formation similaire à celui utilisé dans le framework de diffusion stable avec des conditions d’image spécifiques à la tâche. Le point fort de la méthode de formation InstantID est la séparation entre les couches d’attention croisée d’image et de texte dans l’adaptateur d’invite d’image, un choix qui permet au cadre InstantID d’ajuster les poids de ces conditions d’image de manière flexible et indépendante, assurant ainsi un processus d’inférence et de formation plus ciblé et contrôlé.

InstantID : Expériences et résultats

Le cadre InstantID met en œuvre le modèle de diffusion stable et le forme sur LAION-Face, un grand ensemble de données ouvertes composé de plus de 50 millions de paires d’images et de texte. De plus, le cadre InstantID collecte plus de 10 millions d’images humaines avec des automations générées automatiquement par le modèle BLIP2 pour améliorer encore la qualité de la génération d’images. Le cadre InstantID se concentre principalement sur les images de personnes uniques et utilise un modèle de visage pré-entraîné pour détecter et extraire des incrustations d’ID de l’image humaine, et au lieu de former les ensembles de données de visages découpés, il forme les images humaines originales. De plus, pendant la formation, le cadre InstantID gèle le modèle de texte à image pré-entraîné et ne met à jour que les paramètres de IdentityNet et de l’Adaptateur d’image.

Génération d’image uniquement

Le modèle InstantID utilise une invite vide pour guider le processus de génération d’images en utilisant uniquement l’image de référence, et les résultats sans invites sont démontrés dans l’image suivante.

La génération avec « invite vide » démontre la capacité du cadre InstantID à maintenir des caractéristiques sémantiques faciales riches telles que l’identité, l’âge et l’expression de manière robuste. Cependant, il est important de noter que l’utilisation d’invites vides peut ne pas être en mesure de reproduire les résultats sur d’autres sémantiques telles que le sexe avec précision. De plus, dans l’image ci-dessus, les colonnes 2 à 4 utilisent une image et une invite, et comme on peut le voir, l’image générée ne démontre aucune dégradation des capacités de contrôle de texte, et assure également la cohérence d’identité. Enfin, les colonnes 5 à 9 utilisent une image, une invite et un contrôle spatial, démontrant la compatibilité du modèle avec les modèles de contrôle spatial pré-entraînés, permettant ainsi au modèle InstantID d’introduire des contrôles spatiaux de manière flexible à l’aide d’un composant ControlNet pré-entraîné.

Il est également important de noter que le nombre d’images de référence a un impact significatif sur l’image générée, comme le démontre l’image ci-dessus. Bien que le cadre InstantID soit capable de fournir de bons résultats en utilisant une seule image de référence, plusieurs images de référence produisent une image de meilleure qualité, car le cadre InstantID prend la moyenne des incrustations d’ID en tant qu’invite d’image. En poursuivant, il est essentiel de comparer le cadre InstantID avec les méthodes précédentes qui génèrent des images personnalisées en utilisant une seule image de référence. La figure suivante compare les résultats générés par le cadre InstantID et les modèles d’état de l’art existants pour la génération d’images personnalisées avec une seule référence.

Comme on peut le voir, le cadre InstantID est capable de préserver les caractéristiques faciales grâce aux incrustations d’ID qui portent intrinsèquement des informations sémantiques riches, telles que l’identité, l’âge et le sexe. Il serait sage de dire que le cadre InstantID surpasse les cadres existants dans la génération d’images personnalisées, car il est capable de préserver l’identité humaine tout en maintenant le contrôle et la flexibilité stylistique.

Pensées finales

Dans cet article, nous avons parlé d’InstantID, une solution basée sur un modèle de diffusion pour la génération d’images. InstantID est un module plug and play qui gère la génération d’images et la personnalisation de manière experte à travers différents styles avec seulement une image de référence et assure également une haute fidélité. Le cadre InstantID se concentre sur la synthèse d’images avec préservation d’identité instantanée, et tente de combler le fossé entre l’efficacité et la haute fidélité en introduisant un module plug and play simple qui permet au cadre de gérer la personnalisation d’images à l’aide d’une seule image faciale tout en maintenant une haute fidélité.

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.