Angle d’Anderson

L’essor des deepfakes vidĂ©o Hunyuan

mm
An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

En raison de la nature de certains des sujets abordés ici, cet article contiendra moins de liens de référence et d’illustrations que d’habitude.

Quelque chose de notable se passe actuellement dans la communauté de synthèse d’IA, bien que sa signification puisse prendre du temps à devenir claire. Les amateurs forment des modèles d’IA vidéo génératifs pour reproduire les similitudes de personnes, en utilisant des LoRAs basés sur des vidéos sur le cadre de vidéo Hunyuan open source récemment publié par Tencent.*

Cliquez pour jouer. Résultats diversifiés à partir de personnalisations Hunyuan basées sur LoRA librement disponibles sur la communauté Civit. En formant des modèles d’adaptation de bas rang (LoRAs), les problèmes de stabilité temporelle, qui ont tourmenté la génération de vidéos d’IA pendant deux ans, sont considérablement réduits. Sources: civit.ai

Dans la vidéo ci-dessus, les similitudes des actrices Natalie Portman, Christina Hendricks et Scarlett Johansson, ainsi que du leader technologique Elon Musk, ont été formées dans des fichiers d’ajout relativement petits pour le système de vidéo générative Hunyuan, qui peut être installé sans filtres de contenu (tels que des filtres NSFW) sur l’ordinateur d’un utilisateur.

Le créateur de la LoRA de Christina Hendricks ci-dessus déclare qu’il n’a besoin que de 16 images de la série télévisée Mad Men pour développer le modèle (qui est un téléchargement de seulement 307 Mo) ; de nombreux messages de la communauté Stable Diffusion sur Reddit et Discord confirment que les LoRAs de ce type n’exigent pas de grandes quantités de données de formation, ni de longs temps de formation, dans la plupart des cas.

Cliquez pour jouer. Arnold Schwarzenegger est ramené à la vie dans une LoRA de vidéo Hunyuan qui peut être téléchargée sur Civit. Voir https://www.youtube.com/watch?v=1D7B9g9rY68 pour d’autres exemples d’Arnie, de l’enthousiaste d’IA Bob Doyle.

Les LoRAs Hunyuan peuvent être formés sur des images statiques ou des vidéos, bien que la formation sur des vidéos nécessite plus de ressources matérielles et de temps de formation.

Le modèle de vidéo Hunyuan comporte 13 milliards de paramètres, dépassant les 12 milliards de paramètres de Sora, et dépassant considérablement le modèle moins capable Hunyuan-DiT publié en open source en été 2024, qui n’a que 1,5 milliard de paramètres.

Comme c’était le cas il y a deux ans et demi avec Stable Diffusion et LoRA (voir des exemples de célébrités ‘natives’ de Stable Diffusion 1.5 ici), le modèle de base en question a une compréhension beaucoup plus limitée des personnalités de célébrités, par rapport au niveau de fidélité qui peut être obtenu grâce à des implémentations de LoRA ‘injectées d’identité’.

En effet, une LoRA personnalisée et axée sur la personnalité bénéficie d’un ‘aller simple’ sur les capacités de synthèse importantes du modèle de base Hunyuan, offrant une synthèse humaine nettement plus efficace que celle qui peut être obtenue soit par des auto-encodeurs de deepfakes de 2017, soit en ajoutant du mouvement à des images statiques via des systèmes tels que le célèbre LivePortrait.

Toutes les LoRAs présentées ici peuvent être téléchargées gratuitement à partir de la communauté Civit très populaire, tandis que le plus grand nombre de LoRAs personnalisées ‘d’images statiques’ plus anciennes peuvent également potentiellement créer des ‘images de départ’ pour le processus de création de vidéos (c’est-à-dire l’image-vidéo, une version à venir pour Hunyuan Video, bien que des contournements soient possibles pour l’instant).

Cliquez pour jouer. Plus haut, des échantillons d’une LoRA statique Flux ; plus bas, des exemples d’une LoRA de vidéo Hunyuan mettant en vedette la musicienne Taylor Swift. Ces deux LoRAs sont librement disponibles sur la communauté Civit.

Alors que j’écris, le site Web Civit propose 128 résultats de recherche pour ‘Hunyuan’*. Presque tous sont en quelque sorte des modèles NSFW ; 22 représentent des célébrités ; 18 sont conçus pour faciliter la génération de pornographie hardcore ; et seulement sept représentent des hommes plutôt que des femmes.

Qu’est-ce qui est nouveau ?

En raison de la nature évolutive du terme deepfake, et de la compréhension limitée du public des (très graves) limitations des cadres de synthèse de vidéos d’IA à ce jour, la signification de la LoRA Hunyuan n’est pas facile à comprendre pour une personne qui suit occasionnellement la scène de l’IA générative. Révisons quelques-unes des principales différences entre les LoRAs Hunyuan et les approches antérieures de génération de vidéos d’IA basées sur l’identité.

1: Installation locale sans entrave

L’aspect le plus important de la vidéo Hunyuan est le fait qu’elle peut être téléchargée localement, et qu’elle met un système de génération de vidéos d’IA très puissant et non censuré entre les mains de l’utilisateur occasionnel, ainsi que de la communauté VFX (dans la mesure où les licences le permettent à travers les régions géographiques).

La dernière fois que cela s’est produit, c’était l’avènement de la publication en open source du modèle de diffusion stable de Stability.ai en été 2022. À cette époque, DALL-E2 d’OpenAI avait capturé l’imagination du public, bien que DALLE-2 soit un service payant avec des restrictions notables (qui ont augmenté avec le temps).

Quand Stable Diffusion est devenu disponible, et que la adaptation de bas rang a rendu possible la génération d’images de l’identité de personne (célébrité ou non), le grand locus d’intérêt des développeurs et des consommateurs a aidé Stable Diffusion à éclipser la popularité de DALLE-2 ; bien que ce dernier soit un système plus capable en boîte, ses routines de censure étaient considérées comme oppressives par de nombreux utilisateurs, et la personnalisation n’était pas possible.

On peut soutenir que le même scénario s’applique maintenant entre Sora et Hunyuan – ou, plus précisément, entre les systèmes de génération de vidéos d’IA de type Sora propriétaires et les rivaux open source, dont Hunyuan est le premier – mais probablement pas le dernier (ici, considérez que Flux gagnerait éventuellement du terrain sur Stable Diffusion).

Les utilisateurs qui souhaitent créer des sorties de LoRA Hunyuan, mais qui manquent d’équipement suffisamment puissant, peuvent, comme toujours, décharger l’aspect GPU de la formation sur des services de calcul en ligne tels que RunPod. Ce n’est pas la même chose que créer des vidéos d’IA sur des plateformes telles que Kaiber ou Kling, puisqu’il n’y a pas de filtrage sémantique ou basé sur des images (censure) impliqué dans la location d’un GPU en ligne pour soutenir un flux de travail autrement local.

2: Pas besoin de vidéos ‘hôtes’ et d’efforts importants

Lorsque les deepfakes sont apparus sur la scène à la fin de 2017, le code publié de manière anonyme évoluerait dans les forks principaux DeepFaceLab et FaceSwap (ainsi que le système de deepfaking en temps réel DeepFaceLive).

Cette méthode nécessitait la curation minutieuse de milliers d’images de visage de chaque identité à échanger ; moins d’efforts étaient consacrés à cette étape, moins le modèle serait efficace. De plus, les temps de formation variaient entre 2-14 jours, selon le matériel disponible, en mettant à rude épreuve même les systèmes capables à long terme.

Quand le modèle était enfin prêt, il ne pouvait imposer que des visages dans des vidéos existantes, et avait généralement besoin d’une ‘cible’ (c’est-à-dire une identité réelle) qui était proche en apparence de l’identité superposée.

Plus récemment, ROOP, LivePortrait et de nombreux cadres similaires ont fourni des fonctionnalités similaires avec beaucoup moins d’efforts, et souvent avec de meilleurs résultats – mais sans capacité à générer des deepfakes de corps entier précis – ou tout élément autre que les visages.

Exemples de ROOP Unleashed et LivePortrait (inset lower left), from Bob Doyle's content stream at YouTube. Sources: https://www.youtube.com/watch?v=i39xeYPBAAM and https://www.youtube.com/watch?v=QGatEItg2Ns

Exemples de ROOP Unleashed et LivePortrait (inset lower left), from Bob Doyle’s content stream at YouTube. Sources: https://www.youtube.com/watch?v=i39xeYPBAAM and https://www.youtube.com/watch?v=QGatEItg2Ns

Contrairement à cela, les LoRAs Hunyuan (et les systèmes similaires qui suivront inévitablement) permettent la création sans entrave de mondes entiers, y compris la simulation de corps entier de l’identité LoRA formée par l’utilisateur.

3: Consistance temporelle massivement améliorée

La consistance temporelle a été le Graal de la diffusion vidéo pendant plusieurs années maintenant. L’utilisation d’une LoRA, avec des invites appropriées, donne à la génération de vidéos Hunyuan une référence d’identité constante à laquelle se conformer. En théorie (ce sont les premiers jours), on pourrait former plusieurs LoRAs d’une identité particulière, chacune portant des vêtements spécifiques.

Sous ces auspices, les vêtements sont également moins susceptibles de ‘muter’ tout au long de la génération d’une vidéo (puisque le système de génération se base sur une fenêtre très limitée de cadres précédents).

(Alternativement, comme pour les systèmes de LoRA basés sur des images, on peut simplement appliquer plusieurs LoRAs, telles que des LoRAs d’identité + costume, à une seule génération de vidéos)

4: Accès à l’expérience humaine

Comme je l’ai récemment observé, le secteur de l’IA générative propriétaire et de niveau FAANG semble maintenant être si méfiant des capacités de synthèse humaine de ses projets, que les personnes réelles apparaissent rarement dans les pages de projets pour les annonces et les sorties majeures. Au lieu de cela, la littérature de publicité associée montre de plus en plus des sujets ‘mignons’ et ‘non menaçants’ dans les résultats synthétisés.

Avec l’avènement des LoRAs Hunyuan, pour la première fois, la communauté a l’occasion de repousser les limites de la synthèse de vidéos humaines basée sur LDM dans un système très capable (plutôt que marginal), et d’explorer pleinement le sujet qui intéresse la majorité d’entre nous – les personnes.

Implications

Puisque la recherche de ‘Hunyuan’ sur la communauté Civit montre principalement des LoRAs de célébrités et des LoRAs ‘hardcore’, l’implication centrale de l’avènement des LoRAs Hunyuan est qu’ils seront utilisés pour créer des vidéos pornographiques d’IA (ou dénigrantes) de personnes réelles – célébrités et inconnus.

Pour des raisons de conformité, les amateurs qui créent des LoRAs Hunyuan et qui expérimentent avec eux sur divers serveurs Discord sont prudents pour interdire les exemples de personnes réelles d’être publiés. La réalité est que même les images de deepfakes sont maintenant très armées ; et la perspective d’ajouter des vidéos réalistes à ce mélange peut justifier enfin les craintes accrues qui ont été récurrentes dans les médias au cours des sept dernières années, et qui ont conduit à de nouvelles réglementations.

La force motrice

Comme toujours, la pornographie reste la force motrice de la technologie. Quelle que soit notre opinion sur une telle utilisation, ce moteur d’impulsion incessant pousse les progrès de l’état de l’art qui peuvent finalement bénéficier à une adoption plus mainstream.

Dans ce cas, il est possible que le prix soit plus élevé que d’habitude, puisque la publication en open source de la création de vidéos hyper-réalistes a des implications évidentes pour une utilisation criminelle, politique et éthique abusive.

Un groupe Reddit (que je ne nommerai pas ici) dédié à la génération de vidéos NSFW d’IA a un serveur Discord associé où les utilisateurs affinent ComfyUI pour la génération de vidéos pornographiques basées sur Hunyuan. Chaque jour, les utilisateurs publient des exemples de clips NSFW – dont beaucoup peuvent raisonnablement être qualifiés de ‘extrêmes’, ou du moins de ‘tendus’ par rapport aux restrictions énoncées dans les règles du forum.

Cette communauté entretient également un dépôt GitHub important et bien développé présentant des outils qui peuvent télécharger et traiter des vidéos pornographiques, pour fournir des données de formation pour de nouveaux modèles.

Depuis que le formateur de LoRA le plus populaire, Kohya-ss, prend désormais en charge la formation de LoRA Hunyuan, les barrières à l’entrée pour la formation de vidéos génératives sans limites sont abaissées chaque jour, ainsi que les exigences matérielles pour la formation et la génération de vidéos Hunyuan.

L’aspect crucial des schémas de formation dédiés pour l’IA basée sur la pornographie (plutôt que des modèles basés sur l’identité, tels que des célébrités) est que le modèle de base standard comme Hunyuan n’est pas spécifiquement formé sur des sorties NSFW, et peut donc soit performer mal lorsqu’on lui demande de générer du contenu NSFW, soit échouer à dissocier les concepts et les associations appris de manière performative ou convaincante.

En développant des modèles de base NSFW et des LoRAs affinés, il sera de plus en plus possible de projeter des identités formées dans un domaine de vidéo ‘pornographique’ dédié ; après tout, c’est seulement la version vidéo de quelque chose qui s’est déjà produit pour les images fixes au cours des deux dernières années et demie.

VFX

L’augmentation massive de la consistance temporelle que les LoRAs de vidéo Hunyuan offrent est un avantage évident pour l’industrie des effets visuels d’IA, qui s’appuie très lourdement sur l’adaptation de logiciels open source.

Bien que l’approche de LoRA de vidéo Hunyuan génère un cadre entier et un environnement, les sociétés de VFX ont probablement déjà commencé à expérimenter l’isolement des visages humains temporellement cohérents qui peuvent être obtenus par cette méthode, afin de les superposer ou de les intégrer dans des images de source réelles.

Comme la communauté des amateurs, les sociétés de VFX doivent attendre la fonctionnalité d’image-vidéo et de vidéo-vidéo de Hunyuan Video, qui est potentiellement le pont le plus utile entre le contenu ‘deepfake’ basé sur LoRA et l’identité ; ou improviser, et utiliser l’intervalle pour sonder les capacités extérieures du cadre et des adaptations potentielles, et même des fourches propriétaires internes de Hunyuan Video.

Bien que les termes de la licence pour Hunyuan Video permettent techniquement la représentation de personnes réelles tant que la permission est donnée, ils interdisent son utilisation dans l’UE, le Royaume-Uni et en Corée du Sud. Sur le principe ‘ce qui se passe à Vegas reste à Vegas’, cela ne signifie pas nécessairement que Hunyuan Video ne sera pas utilisé dans ces régions ; cependant, la perspective d’audits de données externes pour faire respecter les réglementations croissantes autour de l’IA générative pourrait rendre une telle utilisation illicite risquée.

Un autre domaine potentiellement ambigu des termes de la licence indique:

‘Si, à la date de publication de la version Hunyuan de Tencent, les utilisateurs actifs mensuels de tous les produits ou services mis à disposition par ou pour le titulaire de la licence sont supérieurs à 100 millions d’utilisateurs actifs mensuels au cours du mois civil précédent, vous devez demander une licence à Tencent, que Tencent peut accorder à sa discrétion, et vous n’êtes pas autorisé à exercer aucun des droits en vertu de cet accord, à moins que et jusqu’à ce que Tencent ne vous accorde expressément ces droits.’

Cette clause est clairement destinée à la multitude d’entreprises qui sont susceptibles de ‘courtier’ Hunyuan Video pour un corps d’utilisateurs relativement technophobes, et qui devront couper Tencent dans l’action au-dessus d’un certain plafond d’utilisateurs.

Il n’est pas clair si la formulation large pourrait également couvrir l’utilisation indirecte (c’est-à-dire via la fourniture de sortie d’effets visuels Hunyuan dans des films et des émissions de télévision populaires) et pourrait nécessiter une clarification.

Conclusion

Puisque les deepfakes vidéo existent depuis longtemps, il serait facile de sous-estimer la signification de la LoRA de vidéo Hunyuan comme une approche de synthèse d’identité, et de deepfaking ; et de supposer que les développements actuellement manifestés sur la communauté Civit, et sur les Discords et subreddits associés, représentent un simple petit pas vers une synthèse de vidéos humaines vraiment contrôlable.

Il est plus probable que les efforts actuels ne représentent qu’une fraction du potentiel de la vidéo Hunyuan pour créer des deepfakes de corps entier et d’environnement entièrement convaincants ; une fois que la composante image-vidéo est publiée (on suppose que cela se produira ce mois), un niveau de puissance générative beaucoup plus granulaire sera disponible pour les communautés amateur et professionnelle.

Quand Stability.ai a publié Stable Diffusion en 2022, de nombreux observateurs ne pouvaient pas déterminer pourquoi l’entreprise donnerait simplement ce qui était, à l’époque, un système génératif si précieux et puissant. Avec Hunyuan Video, le motif de profit est intégré directement dans la licence – bien qu’il puisse s’avérer difficile pour Tencent de déterminer quand une entreprise déclenche le schéma de partage de profits.

Quoi qu’il en soit, le résultat est le même qu’en 2022: des communautés de développement dédiées se sont formées immédiatement et avec un zèle intense autour de la publication. Certaines des routes que ces efforts prendront au cours des 12 prochains mois sont sûres de provoquer de nouveaux titres.

 

* Jusqu’à 136 au moment de la publication.

Publié pour la première fois mardi 7 janvier 2025

Écrivain sur l'apprentissage automatique, spĂ©cialiste de domaine en synthĂšse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.