Connect with us

L’essor des vidéos Deepfakes Hunyuan

Intelligence artificielle

L’essor des vidéos Deepfakes Hunyuan

mm
An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

En raison de la nature de certains des contenus discutés ici, cet article contiendra moins de liens de référence et d’illustrations que d’habitude.

Quelque chose de remarquable se passe actuellement dans la communauté de synthèse d’IA, bien que sa signification puisse prendre un certain temps pour devenir claire. Les amateurs entraînent des modèles de vidéos génératives d’IA pour reproduire les ressemblances de personnes, en utilisant des LoRAs basés sur des vidéos sur le cadre Hunyuan Video open source récemment publié par Tencent.*

Cliquez pour jouer. Résultats divers de personnalisations LoRA basées sur Hunyuan librement disponibles sur la communauté Civit. En entraînant des modèles d’adaptation de bas rang (LoRAs), les problèmes de stabilité temporelle, qui ont plagué la génération de vidéos d’IA pendant deux ans, sont considérablement réduits. Sources : civit.ai

Dans la vidéo ci-dessus, les ressemblances des actrices Natalie Portman, Christina Hendricks et Scarlett Johansson, ainsi que du leader technologique Elon Musk, ont été entraînées dans des fichiers d’ajout relativement petits pour le système de vidéo générative Hunyuan, qui peut être installé sans filtres de contenu (tels que des filtres NSFW) sur l’ordinateur d’un utilisateur.

Le créateur de la LoRA Christina Hendricks ci-dessus déclare qu’il n’a besoin que de 16 images de la série télévisée Mad Men pour développer le modèle (qui est un simple téléchargement de 307 Mo) ; de nombreux messages de la communauté Stable Diffusion sur Reddit et Discord confirment que les LoRAs de ce type n’exigent pas de grandes quantités de données de formation, ni de longs temps de formation, dans la plupart des cas.

Cliquez pour jouer. Arnold Schwarzenegger est ramené à la vie dans une LoRA de vidéo Hunyuan qui peut être téléchargée sur Civit. Voir https://www.youtube.com/watch?v=1D7B9g9rY68 pour d’autres exemples d’Arnie, de l’enthousiaste d’IA Bob Doyle.

Les LoRAs Hunyuan peuvent être formés sur des images statiques ou des vidéos, bien que la formation sur des vidéos nécessite plus de ressources matérielles et un temps de formation accru.

Le modèle de vidéo Hunyuan comporte 13 milliards de paramètres, dépassant les 12 milliards de paramètres de Sora, et dépassant de loin le modèle moins capable Hunyuan-DiT publié en open source à l’été 2024, qui n’a que 1,5 milliard de paramètres.

Comme c’était le cas il y a deux ans et demi avec Stable Diffusion et LoRA (voir des exemples de célébrités ‘natifs’ de Stable Diffusion 1.5 ici), le modèle de base en question a une compréhension beaucoup plus limitée des personnalités de célébrités, par rapport au niveau de fidélité qui peut être obtenu grâce à des implémentations de LoRA ‘injectées d’ID’.

En effet, une LoRA personnalisée, axée sur la personnalité, bénéficie d’un ‘aller simple’ sur les capacités de synthèse importantes du modèle de base Hunyuan, offrant une synthèse humaine beaucoup plus efficace que ce qui peut être obtenu soit par les auto-encodeurs de deepfakes de 2017, soit en ajoutant du mouvement à des images statiques via des systèmes tels que le LivePortrait acclamé.

Toutes les LoRAs présentées ici peuvent être téléchargées gratuitement à partir de la communauté Civit très populaire, tandis que le plus grand nombre de LoRAs ‘d’images statiques’ personnalisées plus anciennes peuvent également potentiellement créer des ‘images de graines’ pour le processus de création de vidéos (c’est-à-dire l’image-vidéo, une version pendante pour Hunyuan Video, bien que des contournements soient possibles, pour le moment).

Cliquez pour jouer. Plus haut, des échantillons d’une LoRA ‘statique’ Flux ; plus bas, des exemples d’une LoRA de vidéo Hunyuan mettant en vedette la musicienne Taylor Swift. Ces deux LoRAs sont librement disponibles sur la communauté Civit.

Alors que j’écris, le site Web Civit propose 128 résultats de recherche pour ‘Hunyuan’*. Presque tous sont d’une manière ou d’une autre des modèles NSFW ; 22 représentent des célébrités ; 18 sont conçus pour faciliter la génération de pornographie hardcore ; et seulement sept d’entre eux représentent des hommes plutôt que des femmes.

Qu’est-ce qui est nouveau ?

En raison de la nature évolutive du terme deepfake, et de la compréhension limitée du public des (très sévères) limitations des cadres de synthèse vidéo humaine d’IA à ce jour, la signification de la LoRA Hunyuan n’est pas facile à comprendre pour une personne qui suit occasionnellement la scène de l’IA générative. Résumons quelques-unes des principales différences entre les LoRAs Hunyuan et les approches antérieures de génération de vidéos d’IA basées sur l’identité.

1 : Installation locale sans entrave

L’aspect le plus important de la vidéo Hunyuan est le fait qu’elle peut être téléchargée localement, et qu’elle met un système de génération de vidéos d’IA très puissant et non censuré entre les mains de l’utilisateur occasionnel, ainsi que de la communauté VFX (dans la mesure où les licences le permettent à travers les régions géographiques).

La dernière fois que cela s’est produit, c’était lors de la publication en open source du modèle Stable Diffusion de Stability.ai à l’été 2022. À cette époque, OpenAI’s DALL-E2 avait capturé l’imagination du public, bien que DALLE-2 soit un service payant avec des restrictions notables (qui ont augmenté avec le temps).

Lorsque Stable Diffusion est devenu disponible, et que la adaptation de bas rang a ensuite rendu possible la génération d’images de l’identité de personne (célébrité ou non), le grand locus d’intérêt des développeurs et des consommateurs a aidé Stable Diffusion à éclipser la popularité de DALLE-2 ; bien que ce dernier soit un système plus capable en boîte, ses routines de censure étaient considérées comme onéreuses par de nombreux utilisateurs, et la personnalisation n’était pas possible.

On peut soutenir que le même scénario s’applique maintenant entre Sora et Hunyuan – ou, plus précisément, entre les systèmes de vidéo générative propriétaires de type Sora et les rivaux open source, dont Hunyuan est le premier – mais probablement pas le dernier (ici, considérez que Flux gagnerait éventuellement du terrain sur Stable Diffusion).

Les utilisateurs qui souhaitent créer une sortie LoRA Hunyuan, mais qui manquent d’équipement efficace, peuvent, comme toujours, décharger l’aspect GPU de la formation sur des services de calcul en ligne tels que RunPod. Ce n’est pas la même chose que créer des vidéos d’IA sur des plateformes telles que Kaiber ou Kling, puisqu’il n’y a pas de filtrage sémantique ou d’image (censure) impliqué dans la location d’un GPU en ligne pour soutenir un flux de travail autrement local.

2 : Pas besoin de vidéos ‘hôtes’ et d’efforts importants

Lorsque les deepfakes ont éclaté sur la scène à la fin de 2017, le code anonymement publié évoluerait dans les fourches principales DeepFaceLab et FaceSwap (ainsi que le système de DeepFaceLive de deepfaking en temps réel).

Cette méthode nécessitait la curation minutieuse de milliers d’images de visage de chaque identité à échanger ; moins d’efforts ont été consacrés à cette étape, le modèle serait moins efficace. De plus, les temps de formation variaient entre 2-14 jours, selon le matériel disponible, en mettant même à rude épreuve les systèmes capables à long terme.

Lorsque le modèle était enfin prêt, il ne pouvait imposer que des visages dans des vidéos existantes, et avait généralement besoin d’une ‘cible’ (c’est-à-dire une identité réelle) qui était proche en apparence de l’identité superposée.

Plus récemment, ROOP, LivePortrait et de nombreux cadres similaires ont fourni des fonctionnalités similaires avec beaucoup moins d’efforts, et souvent avec de meilleurs résultats – mais avec aucune capacité à générer des deepfakes de corps entier précis – ou tout élément autre que les visages.

Exemples de ROOP Unleashed et LivePortrait (inset lower left), from Bob Doyle's content stream at YouTube. Sources: https://www.youtube.com/watch?v=i39xeYPBAAM and https://www.youtube.com/watch?v=QGatEItg2Ns

Exemples de ROOP Unleashed et LivePortrait (inset lower left), from Bob Doyle’s content stream at YouTube. Sources: https://www.youtube.com/watch?v=i39xeYPBAAM and https://www.youtube.com/watch?v=QGatEItg2Ns

Par contraste, les LoRAs Hunyuan (et les systèmes similaires qui suivront inévitablement) permettent la création sans entrave d’univers entiers, y compris la simulation de corps entier de l’identité LoRA formée par l’utilisateur.

3 : Cohérence temporelle massivement améliorée

La cohérence temporelle a été le Graal de la diffusion de vidéos pendant plusieurs années maintenant. L’utilisation d’une LoRA, avec des invites appropriées, donne à la génération de vidéos Hunyuan une référence d’identité constante à laquelle adhérer. En théorie (ce sont les premiers jours), on pourrait former plusieurs LoRAs d’une identité particulière, chacune portant des vêtements spécifiques.

Sous ces auspices, les vêtements sont également moins susceptibles de ‘muter’ tout au long de la génération d’une vidéo (puisque le système génératif se base sur une fenêtre très limitée de cadres précédents).

(Alternativement, comme pour les systèmes de LoRA basés sur des images, on peut simplement appliquer plusieurs LoRAs, telles que des LoRAs d’identité + costume, à une seule génération de vidéos)

4 : Accès à l’expérience humaine

Comme je l’ai récemment observé, le secteur de l’IA générative propriétaire et de niveau FAANG semble maintenant si prudent face à la critique potentielle liée aux capacités de synthèse humaine de ses projets, que les personnes réelles apparaissent rarement dans les pages de projet pour les annonces et les sorties majeures. Au lieu de cela, la littérature de publicité connexe montre de plus en plus des sujets ‘mignons’ et ‘non menaçants’ dans les résultats synthétisés.

Avec l’avènement des LoRAs Hunyuan, pour la première fois, la communauté a l’occasion de repousser les limites de la synthèse de vidéos humaines basée sur LDM dans un système capable (plutôt que marginal), et de explorer pleinement le sujet qui intéresse la majorité d’entre nous – les personnes.

Implications

Puisque la recherche de ‘Hunyuan’ sur la communauté Civit montre principalement des LoRAs de célébrités et des LoRAs ‘hardcore’, l’implication centrale de l’avènement des LoRAs Hunyuan est qu’ils seront utilisés pour créer des vidéos pornographiques d’IA (ou autrement diffamatoires) de personnes réelles – célébrités et inconnus.

Pour des raisons de conformité, les amateurs qui créent des LoRAs Hunyuan et qui expérimentent avec eux sur divers serveurs Discord sont prudents pour interdire les exemples de personnes réelles d’être publiés. La réalité est que même les images de deepfakes sont maintenant très armés ; et la perspective d’ajouter des vidéos réellement réalistes dans le mélange peut justifier enfin les craintes accrues qui ont été récurrentes dans les médias au cours des sept dernières années, et qui ont conduit à de nouvelles réglementations.

La force motrice

Comme toujours, la pornographie reste la force motrice de la technologie. Quelle que soit notre opinion de cette utilisation, ce moteur impétueux d’impulsion pousse les progrès de l’état de l’art qui peuvent éventuellement bénéficier à une adoption plus mainstream.

Dans ce cas, il est possible que le prix soit plus élevé que d’habitude, puisque la publication en open source de la création de vidéos hyper-réalistes a des implications évidentes pour une utilisation criminelle, politique et éthique abusive.

Un groupe Reddit (que je ne nommerai pas ici) dédié à la génération de vidéos NSFW d’IA a un serveur Discord ouvert associé où les utilisateurs affinent ComfyUI workflows pour la génération de vidéos pornographiques basées sur Hunyuan. Chaque jour, les utilisateurs publient des exemples de clips NSFW – dont beaucoup peuvent raisonnablement être qualifiés de ‘extrêmes’, ou du moins de tendance à dépasser les restrictions énoncées dans les règles du forum.

Cette communauté maintient également un référentiel GitHub important et bien développé présentant des outils qui peuvent télécharger et traiter des vidéos pornographiques, pour fournir des données de formation pour de nouveaux modèles.

Puisque le formateur de LoRA le plus populaire, Kohya-ss, prend maintenant en charge la formation de LoRA Hunyuan, les barrières à l’entrée pour la formation de vidéos génératives sans limite sont abaissées chaque jour, ainsi que les exigences matérielles pour la formation et la génération de vidéos Hunyuan.

L’aspect crucial des schémas de formation dédiés à l’IA pornographique (plutôt que des modèles basés sur l’identité, tels que des célébrités) est qu’un modèle de base standard comme Hunyuan n’est pas spécifiquement formé sur la sortie NSFW, et peut donc soit performer mal lorsqu’il est invité à générer du contenu NSFW, soit échouer à dissocier les concepts et les associations appris d’une manière performative ou convaincante.

En développant des modèles de base NSFW et des LoRAs affinés, il sera de plus en plus possible de projeter des identités formées dans un domaine de vidéo ‘pornographique’ dédié ; après tout, il ne s’agit que de la version vidéo de quelque chose qui s’est déjà produit pour les images fixes au cours des deux dernières années et demie.

VFX

L’augmentation énorme de la cohérence temporelle que les LoRAs de vidéos Hunyuan offrent est un avantage évident pour l’industrie des effets visuels d’IA, qui s’appuie lourdement sur l’adaptation de logiciels open source.

Bien que l’approche LoRA de vidéo Hunyuan génère un cadre entier et un environnement, les sociétés de VFX ont probablement déjà commencé à expérimenter l’isolement des visages temporellement cohérents qui peuvent être obtenus par cette méthode, afin de superposer ou d’intégrer des visages dans des images source réelles.

Comme la communauté des amateurs, les sociétés de VFX doivent attendre la fonctionnalité image-vidéo et vidéo-vidéo de Hunyuan Video, qui est potentiellement le pont le plus utile entre le contenu ‘deepfake’ basé sur LoRA et l’identité ; ou improvise, et utilise l’intervalle pour sonder les capacités extérieures du cadre et des adaptations potentielles, et même des fourches propriétaires de Hunyuan Video.

Bien que les conditions de licence de Hunyuan Video permettent techniquement la représentation d’individus réels à condition que la permission soit donnée, elles interdisent son utilisation dans l’UE, le Royaume-Uni et en Corée du Sud. Sur le principe ‘ce qui se passe à Vegas reste à Vegas’, cela ne signifie pas nécessairement que Hunyuan Video ne sera pas utilisé dans ces régions ; cependant, la perspective d’audits de données externes pour faire respecter les réglementations croissantes autour de l’IA générative pourrait rendre une telle utilisation illicite risquée.

Un autre domaine potentiellement ambigu des conditions de licence indique :

‘Si, à la date de publication de la version Hunyuan de Tencent, les utilisateurs actifs mensuels de tous les produits ou services mis à disposition par ou pour le titulaire de la licence sont supérieurs à 100 millions d’utilisateurs actifs mensuels au cours du mois civil précédent, vous devez demander une licence à Tencent, qui peut vous accorder une licence à sa discrétion, et vous n’êtes pas autorisé à exercer l’un des droits en vertu de cet accord, à moins que Tencent ne vous accorde expressément ces droits.’

Cette clause est clairement destinée à la multitude de sociétés qui sont susceptibles de ‘middleman’ Hunyuan Video pour un corps d’utilisateurs relativement technophobes, et qui devront couper Tencent dans l’action, au-dessus d’un certain plafond d’utilisateurs.

Que la formulation large puisse également couvrir l’utilisation indirecte (c’est-à-dire via la fourniture de sortie de VFX activée par Hunyuan dans des films et des émissions de télévision populaires) peut nécessiter une clarification.

Conclusion

Puisque les vidéos de deepfakes existent depuis longtemps, il serait facile de sous-estimer la signification de la LoRA de vidéo Hunyuan comme une approche de synthèse d’identité, et de deepfaking ; et de supposer que les développements actuellement manifestés sur la communauté Civit, et sur les Discords et les subreddits associés, représentent un simple coup de pouce incrémental vers une synthèse de vidéos humaines vraiment contrôlable.

Il est plus probable que les efforts actuels ne représentent qu’une fraction du potentiel de la vidéo Hunyuan pour créer des deepfakes de corps entier et d’environnement entièrement convaincants ; une fois que le composant image-vidéo est publié (prévu pour ce mois), un niveau de puissance générative beaucoup plus granulaire sera disponible pour les communautés de loisirs et professionnelles.

Lorsque Stability.ai a publié Stable Diffusion en 2022, de nombreux observateurs ne pouvaient pas déterminer pourquoi la société donnerait simplement un système génératif d’IA aussi précieux et puissant. Avec Hunyuan Video, le motif de profit est intégré directement dans la licence – bien qu’il puisse s’avérer difficile pour Tencent de déterminer quand une société déclenche le schéma de partage de profit.

Dans tous les cas, le résultat est le même qu’en 2022 : des communautés de développement dédiées se sont formées immédiatement et avec une ferveur intense autour de la publication. Certains des chemins que ces efforts prendront au cours des 12 prochains mois sont sûrement destinés à provoquer de nouveaux titres.

 

* Jusqu’à 136 au moment de la publication.

Publié pour la première fois mardi 7 janvier 2025

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.