Angle d'Anderson
La lutte pour une personnalisation sans faille dans l'IA générative

Si vous souhaitez vous positionner dans un outil de génération d'images ou de vidéos populaire, mais que vous n'êtes pas déjà assez célèbre pour que le modèle de base vous reconnaisse, vous devrez former un adaptation de bas rang Modèle (LoRA) utilisant une collection de vos propres photos. Une fois créé, ce modèle LoRA personnalisé permet au modèle génératif d'inclure votre identité dans les résultats futurs.
C'est ce qu'on appelle communément personnalisation dans le secteur de la recherche en synthèse d'images et de vidéos. Elle est apparue quelques mois après l'arrivée de Stable Diffusion à l'été 2022, avec Google Research. cabine de rêve projet proposant des modèles de personnalisation de grande taille, dans un schéma à source fermée qui a été rapidement adapté par les passionnés et publié dans la communauté.
Les modèles LoRA ont rapidement suivi et ont offert une formation plus facile et des tailles de fichiers beaucoup plus légères, à un coût minimal ou nul en termes de qualité, dominant rapidement la scène de personnalisation pour Stable Diffusion et ses successeurs, des modèles ultérieurs tels que Flux, et maintenant de nouveaux modèles de vidéo générative comme Vidéo Hunyuan et Wan2.1.
Rincez et répétez
Le problème est, comme nous l'avons déjà noté, qu'à chaque fois qu'un nouveau modèle sort, il faut qu'une nouvelle génération de LoRA soit formée, ce qui représente une friction considérable pour les producteurs de LoRA, qui peuvent former une gamme de modèles personnalisés pour découvrir ensuite qu'une mise à jour du modèle ou un nouveau modèle populaire signifie qu'ils doivent tout recommencer.
C'est pourquoi les approches de personnalisation « zero-shot » sont devenues un courant dominant dans la littérature ces derniers temps. Dans ce scénario, au lieu de gérer un ensemble de données et d'entraîner votre propre sous-modèle, il suffit de fournir une ou plusieurs photos du sujet à intégrer à la génération, et le système interprète ces sources d'entrée pour obtenir une sortie combinée.
Ci-dessous, nous voyons qu'en plus de l'échange de visages, un système de ce type (ici utilisant PuLID) peut également intégrer des valeurs d'ID dans le transfert de style :

Exemples de transfert d'identification faciale à l'aide du système PuLID. Source : https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file
Bien que le remplacement d'un système fragile et exigeant en main-d'œuvre comme LoRA par un adaptateur générique soit une excellente (et populaire) idée, c'est aussi un défi ; l'extrême attention portée aux détails et à la couverture obtenue dans le processus de formation LoRA est très difficile à imiter en un seul coup Adaptateur IP-modèle de style, qui doit correspondre au niveau de détail et de flexibilité de LoRA sans l'avantage préalable d'analyser un ensemble complet d'images d'identité.
HyperLoRA
Dans cet esprit, ByteDance publie un nouvel article intéressant proposant un système qui génère du code LoRA réel. à la volée, qui est actuellement unique parmi les solutions zero-shot :

À gauche, les images d'entrée. À droite, une gamme flexible de sorties basées sur les images sources, produisant ainsi des deepfakes des acteurs Anthony Hopkins et Anne Hathaway. Source : https://arxiv.org/pdf/2503.16944
Le papier déclare:
« Les techniques basées sur des adaptateurs telles que IP-Adapter gèlent les paramètres fondamentaux du modèle et utilisent une architecture de plug-in pour permettre l'inférence zéro-shot, mais elles présentent souvent un manque de naturel et d'authenticité, qui ne doivent pas être négligés dans les tâches de synthèse de portraits.
« [Nous] introduisons une méthode de génération adaptative efficace en termes de paramètres, à savoir HyperLoRA, qui utilise un réseau de plug-ins adaptatif pour générer des poids LoRA, fusionnant les performances supérieures de LoRA avec la capacité de tir zéro du schéma d'adaptateur.
« Grâce à notre structure de réseau soigneusement conçue et à notre stratégie de formation, nous parvenons à générer des portraits personnalisés sans prise de vue (prenant en charge les entrées d'images simples et multiples) avec un photoréalisme, une fidélité et une éditabilité élevés. »
Plus utilement, le système tel que formé peut être utilisé avec les systèmes existants ContrôleNet, permettant un niveau élevé de spécificité dans la génération :

Timothy Chalomet fait une apparition inattendue et joyeuse dans « The Shining » (1980), basée sur trois photos d'entrée dans HyperLoRA, avec un masque ControlNet définissant la sortie (de concert avec une invite de texte).
Quant à savoir si le nouveau système sera un jour mis à la disposition des utilisateurs finaux, ByteDance a un historique raisonnable à cet égard, ayant publié le très puissant LatentSync cadre de synchronisation labiale, et venant tout juste de sortir également le InfiniteYou cadre.
Négativement, le document ne donne aucune indication d’une intention de publication, et les ressources de formation nécessaires pour recréer l’œuvre sont si exorbitantes qu’il serait difficile pour la communauté des passionnés de la recréer (comme elle l’a fait avec DreamBooth).
L'espace nouveau papier est intitulé HyperLoRA : Génération adaptative efficace en termes de paramètres pour la synthèse de portraits, et provient de sept chercheurs de ByteDance et du département dédié à la création intelligente de ByteDance.
Méthode
La nouvelle méthode utilise le modèle de diffusion latente de diffusion stable (LDM) SDXL comme modèle de base, bien que les principes semblent applicables aux modèles de diffusion en général (cependant, les exigences de formation – voir ci-dessous – pourraient rendre difficile leur application aux modèles vidéo génératifs).
Le processus de formation pour HyperLoRA est divisé en trois étapes, chacune conçue pour isoler et préserver des informations spécifiques dans les informations apprises. poidsL'objectif de cette procédure cloisonnée est d'empêcher que les caractéristiques pertinentes pour l'identité soient polluées par des éléments non pertinents tels que les vêtements ou l'arrière-plan, tout en obtenant une convergence rapide et stable.

Schéma conceptuel pour HyperLoRA. Le modèle est divisé en « Hyper ID-LoRA » pour les caractéristiques d'identité et « Hyper Base-LoRA » pour l'arrière-plan et les vêtements. Cette séparation réduit les fuites de caractéristiques. Lors de l'apprentissage, la base SDXL et les encodeurs sont figés, et seuls les modules HyperLoRA sont mis à jour. Lors de l'inférence, seul ID-LoRA est requis pour générer des images personnalisées.
La première étape se concentre entièrement sur l’apprentissage d’un « Base-LoRA » (en bas à gauche dans l'image du schéma ci-dessus), qui capture des détails sans rapport avec l'identité.
Pour renforcer cette séparation, les chercheurs ont volontairement flouté le visage dans les images d'entraînement, permettant au modèle de s'accrocher à des éléments tels que l'arrière-plan, l'éclairage et la pose, mais pas à son identité. Cette phase d'échauffement agit comme un filtre, éliminant les distractions mineures avant le début de l'apprentissage spécifique à l'identité.
Dans la deuxième étape, un « ID-LoRA » (en haut à gauche dans le schéma ci-dessus) est introduit. Ici, l'identité faciale est codée par deux voies parallèles : a CLIP Transformateur de vision (CLIP ViT) pour les caractéristiques structurelles et la Encodeur InsightFace AntelopeV2 pour des représentations d’identité plus abstraites.
Approche transitoire
Les fonctionnalités CLIP aident le modèle à converger rapidement, mais risquent surajustement, tandis que les intégrations Antelope sont plus stables, mais plus lentes à entraîner. Par conséquent, le système commence par s'appuyer davantage sur CLIP, puis intègre progressivement Antelope pour éviter toute instabilité.
Dans la phase finale, les couches d'attention guidées par CLIP sont gelé entièrement. Seuls les modules d'attention liés à AntelopeV2 continuent leur formation, permettant au modèle d'affiner la préservation de l'identité sans dégrader la fidélité ou la généralité des composants précédemment appris.
Cette structure par étapes est essentiellement une tentative de démêlageLes caractéristiques identitaires et non identitaires sont d'abord séparées, puis affinées indépendamment. Il s'agit d'une réponse méthodique aux échecs habituels de la personnalisation : dérive identitaire, faible éditabilité et surapprentissage des caractéristiques accessoires.
Pendant que vous pesez
Une fois que CLIP ViT et AntelopeV2 ont extrait les caractéristiques structurelles et identitaires d'un portrait donné, les caractéristiques obtenues sont ensuite passées à travers un rééchantillonneur de perception (dérivé du projet IP-Adapter susmentionné) – un module basé sur un transformateur qui mappe les fonctionnalités à un ensemble compact de coefficients.
Deux rééchantillonneurs distincts sont utilisés : l'un pour générer des poids Base-LoRA (qui codent les éléments d'arrière-plan et non identitaires) et l'autre pour les poids ID-LoRA (qui se concentrent sur l'identité faciale).

Schéma du réseau HyperLoRA.
Les coefficients de sortie sont ensuite combinés linéairement avec un ensemble de matrices de base LoRA apprises, produisant des pondérations LoRA complètes sans qu'il soit nécessaire de affiner le modèle de base.
Cette approche permet au système de générer des poids personnalisés entièrement à la volée, en utilisant uniquement des encodeurs d'image et une projection légère, tout en exploitant la capacité de LoRA à modifier directement le comportement du modèle de base.
Données et tests
Pour former HyperLoRA, les chercheurs ont utilisé un sous-ensemble de 4.4 millions d'images de visages provenant du LAION-2B ensemble de données (maintenant mieux connu comme la source de données des modèles de diffusion stable originaux de 2022).
InsightFace a été utilisé pour filtrer les visages non portrait et les images multiples. Les images ont ensuite été annotées avec le BLIP-2 système de sous-titrage.
Sur le plan de augmentation des données, les images ont été recadrées de manière aléatoire autour du visage, mais toujours focalisées sur la région du visage.
Les rangs LoRA respectifs ont dû s'adapter à la mémoire disponible dans la configuration d'entraînement. Par conséquent, le rang LoRA pour ID-LoRA a été fixé à 8 et celui pour Base-LoRA à 4, tandis que le rang à huit étapes accumulation de gradient a été utilisé pour simuler un plus grand taille du lot que ce qui était réellement possible sur le matériel.
Les chercheurs ont entraîné les modules Base-LoRA, ID-LoRA (CLIP) et ID-LoRA (intégration d'identité) séquentiellement pendant respectivement 20 15, 55 0.9 et 0.05 0.05 itérations. Durant l'entraînement ID-LoRA, ils ont échantillonné trois scénarios de conditionnement avec des probabilités de XNUMX, XNUMX et XNUMX.
Le système a été mis en œuvre à l'aide de PyTorch et de diffuseurs, et le processus de formation complet s'est déroulé pendant environ dix jours sur 16 GPU NVIDIA A100*.
Tests ComfyUI
Les auteurs ont construit des flux de travail dans le Interface utilisateur confortable plateforme de synthèse permettant de comparer HyperLoRA à trois méthodes concurrentes : ID instantané; l'adaptateur IP susmentionné, sous la forme du Adaptateur IP-FaceID-Portrait cadre ; et le PuLID cité ci-dessus. Des graines, des invites et des méthodes d'échantillonnage cohérentes ont été utilisées dans tous les cadres.
Les auteurs notent que les méthodes basées sur l'adaptateur (plutôt que sur LoRA) nécessitent généralement moins de ressources. Guidage sans classificateur (CFG) évolue, tandis que LoRA (y compris HyperLoRA) est plus permissif à cet égard.
Ainsi, pour une comparaison équitable, les chercheurs ont utilisé la variante de point de contrôle SDXL affinée open source Bonjour le monde de LEOSAM à travers les tests. Pour les tests quantitatifs, le Unsplash-50 Un ensemble de données d'images a été utilisé.
Métrique
Pour un test de fidélité, les auteurs ont mesuré la similarité faciale en utilisant des distances cosinus entre les images CLIP (CLIP-I) et les identités distinctes (ID Sim) extraites via CurricularFace, un modèle non utilisé pendant la formation.
Chaque méthode a généré quatre portraits haute résolution par identité dans l’ensemble de test, les résultats étant ensuite moyennés.
L'éditabilité a été évaluée à la fois en comparant les scores CLIP-I entre les sorties avec et sans les modules d'identité (pour voir dans quelle mesure les contraintes d'identité modifiaient l'image) et en mesurant l'alignement image-texte CLIP (CLIP-T) sur dix variations d'invite couvrant coiffures, accessoires, vêtements et milieux.
Les auteurs ont inclus le Arc2Face modèle de base dans les comparaisons – une ligne de base formée sur des légendes fixes et des régions faciales recadrées.
Pour HyperLoRA, deux variantes ont été testées : l'une utilisant uniquement le module ID-LoRA, et l'autre utilisant à la fois ID-LoRA et Base-LoRA, ce dernier étant pondéré à 0.4. Si Base-LoRA a amélioré la fidélité, il a légèrement limité la possibilité de modification.

Résultats de la comparaison quantitative initiale.
Concernant les tests quantitatifs, les auteurs commentent :
Base-LoRA améliore la fidélité, mais limite la possibilité de modification. Bien que notre conception découple les caractéristiques de l'image en différents LoRA, il est difficile d'éviter les fuites mutuelles. Ainsi, nous pouvons ajuster le poids de Base-LoRA pour nous adapter à différents scénarios d'application.
« Nos HyperLoRA (Full et ID) atteignent la meilleure et la deuxième meilleure fidélité faciale tandis qu'InstantID montre une supériorité en termes de similarité d'identification faciale mais une fidélité faciale inférieure.
« Ces deux mesures doivent être prises en compte ensemble pour évaluer la fidélité, car la similarité de l'identification du visage est plus abstraite et la fidélité du visage reflète plus de détails. »
Dans les tests qualitatifs, les différents compromis impliqués dans la proposition essentielle sont mis en évidence (veuillez noter que nous n'avons pas l'espace pour reproduire toutes les images pour les résultats qualitatifs, et renvoyons le lecteur à l'article source pour plus d'images à meilleure résolution) :

Comparaison qualitative. De haut en bas, les questions utilisées étaient : « chemise blanche » et « oreilles de loup » (voir le document pour d'autres exemples).
Voici le commentaire des auteurs :
« La peau des portraits générés par IP-Adapter et InstantID a une texture apparente générée par l'IA, qui est un peu [sursaturée] et loin du photoréalisme.
Il s'agit d'un défaut courant des méthodes basées sur des adaptateurs. PuLID corrige ce problème en affaiblissant l'intrusion dans le modèle de base, surpassant ainsi IP-Adapter et InstantID, mais souffrant toujours de flou et de manque de détails.
« En revanche, LoRA modifie directement les poids du modèle de base au lieu d'introduire des modules d'attention supplémentaires, générant généralement des images très détaillées et photoréalistes. »
Les auteurs soutiennent que, comme HyperLoRA modifie directement les poids du modèle de base au lieu de s'appuyer sur des modules d'attention externes, il conserve la capacité non linéaire des méthodes traditionnelles basées sur LoRA, offrant potentiellement un avantage en termes de fidélité et permettant une meilleure capture de détails subtils tels que la couleur de la pupille.
Dans les comparaisons qualitatives, l'article affirme que les dispositions d'HyperLoRA étaient plus cohérentes et mieux alignées avec les invites, et similaires à celles produites par PuLID, tout en étant nettement plus fortes qu'InstantID ou IP-Adapter (qui ne parvenaient parfois pas à suivre les invites ou produisaient des compositions non naturelles).

Autres exemples de générations ControlNet avec HyperLoRA.
Conclusion
Le flot constant de systèmes de personnalisation ponctuels au cours des 18 derniers mois a désormais pris des allures de désespoir. Rares sont les offres qui ont réalisé des avancées notables par rapport aux technologies de pointe ; et celles qui ont légèrement progressé ont tendance à avoir des besoins de formation exorbitants et/ou des besoins d'inférence extrêmement complexes ou gourmands en ressources.
Bien que le propre programme d'entraînement d'HyperLoRA soit aussi gourmand que de nombreuses entrées similaires récentes, au moins l'une d'entre elles aboutit à un modèle capable de gérer ad hoc personnalisation prête à l'emploi.
D'après les documents supplémentaires du document, nous notons que la vitesse d'inférence d'HyperLoRA est meilleure que celle d'IP-Adapter, mais pire que les deux autres méthodes précédentes - et que ces chiffres sont basés sur un GPU NVIDIA V100, qui n'est pas un matériel grand public typique (bien que les GPU NVIDIA « domestiques » plus récents puissent égaler ou dépasser les 100 Go maximum de VRAM du V32).

Les vitesses d'inférence des méthodes concurrentes, en millisecondes.
Il est juste de dire que la personnalisation zero-shot reste un problème non résolu d'un point de vue pratique, puisque les exigences matérielles importantes d'HyperLoRA sont sans doute en contradiction avec sa capacité à produire un modèle de fondation unique véritablement à long terme.
* Représentant soit 640 Go soit 1280 Go de VRAM, selon le modèle utilisé (ceci n'est pas spécifié)
Première publication le lundi 24 mars 2025
