Suivez nous sur

L'essor des deepfakes vidéo Hunyuan

Intelligence Artificielle

L'essor des deepfakes vidéo Hunyuan

mm
Une vidéo d'Arnie Hunyuan montrant LoRA par Bob Doyle, sur ComfyUI, sur YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – et, encart à droite, des captures de divers exemples de vidéos pour le même LoRA sur Civit.ai

En raison de la nature de certains éléments abordés ici, cet article contiendra moins de liens de référence et d’illustrations que d’habitude.

Un phénomène remarquable se produit actuellement dans la communauté de synthèse de l'IA, même si son importance peut prendre un certain temps à devenir claire. Les amateurs entraînent des modèles vidéo génératifs d'IA pour reproduire l'apparence de personnes, en utilisant des techniques basées sur la vidéo. LoRA sur le logiciel open source récemment publié par Tencent Cadre vidéo Hunyuan.*

Cliquez pour jouer. Divers résultats issus des personnalisations LoRA basées sur Hunyuan sont disponibles gratuitement dans la communauté Civit. En entraînant des modèles d'adaptation de bas rang (LoRA), les problèmes de stabilité temporelle, qui ont affecté la génération de vidéos IA pendant deux ans, sont considérablement réduits. Sources : civit.ai

Dans la vidéo ci-dessus, les portraits des actrices Natalie Portman, Christina Hendricks et Scarlett Johansson, ainsi que du leader technologique Elon Musk, ont été formés dans des fichiers complémentaires relativement petits pour le système vidéo génératif Hunyuan, qui peut être installé sans filtres de contenu (tels que les filtres NSFW) sur l'ordinateur d'un utilisateur.

Le créateur du LoRA de Christina Hendricks présenté ci-dessus déclare que seules 16 images de la Mad Men Une émission de télévision a été nécessaire pour développer le modèle (qui ne représente qu'un téléchargement de 307 Mo) ; plusieurs publications de la communauté Stable Diffusion sur Reddit et Discord confirment que les LoRA de ce type ne nécessitent pas de grandes quantités de données de formation, ni de temps de formation élevés, dans la plupart des cas.

Clécher pour jouer. Arnold Schwarzenegger prend vie dans une vidéo Hunyuan LoRA téléchargeable sur Civit. Voir https://www.youtube.com/watch?v=1D7B9g9rY68 pour d'autres exemples d'Arnie, de Bob Doyle, passionné d'IA.

Les LoRA Hunyuan peuvent être formés sur des images statiques ou des vidéos, bien que la formation sur des vidéos nécessite des ressources matérielles plus importantes et un temps de formation accru.

Le modèle vidéo Hunyuan comporte 13 milliards de paramètres, dépassant les 12 milliards de paramètres de Sora et dépassant de loin les modèles moins performants. Hunyuan-DiT modèle publié en open source à l'été 2024, qui n'a que 1.5 milliard de paramètres.

Comme c'était le cas il y a deux ans et demi avec Stable Diffusion et LoRA (voir des exemples de célébrités « natives » de Stable Diffusion 1.5 here.), le modèle de fondation en question a une compréhension beaucoup plus limitée des personnalités des célébrités, par rapport au niveau de fidélité qui peut être obtenu grâce aux implémentations LoRA « injectées par ID ».

En effet, un LoRA personnalisé et axé sur la personnalité bénéficie d'un « accès gratuit » aux importantes capacités de synthèse du modèle de base Hunyuan, offrant une synthèse humaine nettement plus efficace que celle qui peut être obtenue d'ici 2017. autoencodeur deepfakes ou en essayant d'ajouter du mouvement à des images statiques via des systèmes tels que le feted Portrait en direct.

Tous les LoRA représentés ici peuvent être téléchargés gratuitement à partir de la très populaire communauté Civit, tandis que le nombre plus abondant d'anciens LoRA « à images statiques » personnalisés peuvent également potentiellement créer des images « de départ » pour le processus de création vidéo (c'est-à-dire, image-à-vidéo, une version en attente pour Hunyuan Video, cependant des solutions de contournement sont possibles, pour le moment).

Cliquez pour jouer. Ci-dessus, des extraits d'un flux LoRA « statique Â» ; ci-dessous, des exemples d'une vidĂ©o LoRA Hunyuan mettant en vedette la musicienne Taylor Swift. Ces deux LoRA sont disponibles gratuitement sur la communautĂ© Civit.

Au moment oĂą j'Ă©cris ces lignes, le site web de Civit propose 128 rĂ©sultats de recherche pour « Hunyuan Â»*. Presque tous sont des modèles NSFW ; 22 reprĂ©sentent des cĂ©lĂ©britĂ©s ; 18 sont conçus pour faciliter la production de pornographie hardcore ; et seulement sept d'entre eux reprĂ©sentent des hommes plutĂ´t que des femmes.

Alors quoi de neuf?

En raison de la nature évolutive du terme deepfake, et une compréhension publique limitée de la (assez sévère) Compte tenu des limites actuelles des cadres de synthèse vidéo humaine par IA, l'importance du LoRA Hunyuan est difficile à comprendre pour un observateur occasionnel du secteur de l'IA générative. Examinons quelques-unes des principales différences entre les LoRA Hunyuan et les approches antérieures de génération vidéo par IA basée sur l'identité.

1 : Installation locale sans entraves

L'aspect le plus important de Hunyuan Video est le fait qu'il peut être téléchargé localement et qu'il met à votre disposition un outil très puissant et non censuré Système de génération de vidéo IA entre les mains de l'utilisateur occasionnel, ainsi que de la communauté VFX (dans la mesure où les licences peuvent le permettre dans toutes les régions géographiques).

La dernière fois que cela s'est produit, c'était lors de la sortie en open source du modèle Stable Diffusion de Stability.ai à l'été de 2022À cette époque, le DALL-E2 d'OpenAI avait capturé l'imagination du public, bien que DALLE-2 soit un service payant avec des restrictions notables (qui ont augmenté au fil du temps).

Lorsque la diffusion stable est devenue disponible et que l'adaptation de bas rang a permis de générer des images de l'identité de tout personne (célébrité ou non), l'énorme intérêt des développeurs et des consommateurs a aidé Stable Diffusion à éclipser la popularité de DALLE-2 ; bien que ce dernier soit un système plus performant dès le départ, ses routines de censure étaient considéré comme onéreux par beaucoup de ses utilisateurs, et la personnalisation n'était pas possible.

On peut dire que le même scénario s’applique désormais entre Sora et Hunyuan – ou, plus précisément, entre De qualité Sora systèmes vidéo génératifs propriétaires et rivaux open source, dont Hunyuan est le premier – mais probablement pas le dernier (ici, considérez que Flux finirait par gagner un terrain significatif sur Stable Diffusion).

Les utilisateurs qui souhaitent créer une sortie Hunyuan LoRA, mais qui ne disposent pas d'un équipement performant, peuvent, comme toujours, décharger l'aspect GPU de la formation sur des services de calcul en ligne comme RunPodCe n’est pas la même chose que de créer des vidéos d’IA sur des plateformes telles que Kaiber ou Kling, car il n’y a pas de filtrage sémantique ou basé sur l’image (censure) impliqué dans la location d’un GPU en ligne pour prendre en charge un flux de travail par ailleurs local.

2 : Pas besoin de vidĂ©os « hĂ©bergĂ©es Â» et d'efforts importants

Lorsque les deepfakes ont fait leur apparition à la fin de 2017, le code publié de manière anonyme allait évoluer vers les forks grand public Laboratoire DeepFace et Échange de visage (aussi bien que DeepFaceLive système de deepfaking en temps réel).

Cette méthode nécessitait la sélection minutieuse de milliers d'images de visages de chaque identité à échanger. Moins on mettait d'efforts dans cette étape, moins le modèle était efficace. De plus, les temps de formation variaient entre 2 et 14 jours, selon le matériel disponible, ce qui mettait à rude épreuve même les systèmes les plus performants à long terme.

Lorsque le modèle était enfin prêt, il ne pouvait qu'imposer des visages dans une vidéo existante et nécessitait généralement une identité « cible » (c'est-à-dire réelle) qui était proche en apparence de l'identité superposée.

Plus récemment, CROIXLivePortrait et de nombreux frameworks similaires ont fourni des fonctionnalités similaires avec beaucoup moins d'efforts et souvent avec des résultats supérieurs, mais sans capacité à générer des images précises. deepfakes de corps entier – ou tout autre élément autre que les visages.

Exemples de ROOP Unleashed et LivePortrait (encart en bas Ă  gauche), issus du flux de contenu de Bob Doyle sur YouTube. Sources : https://www.youtube.com/watch?v=i39xeYPBAAM et https://www.youtube.com/watch?v=QGatEItg2Ns

Exemples de ROOP Unleashed et LivePortrait (encart en bas Ă  gauche), issus du flux de contenu de Bob Doyle sur YouTube. Sources : https://www.youtube.com/watch?v=i39xeYPBAAM et https://www.youtube.com/watch?v=QGatEItg2Ns

En revanche, les LoRA Hunyuan (et les systèmes similaires qui suivront inévitablement) permettent la création sans entrave de mondes entiers, y compris la simulation du corps entier de l'identité LoRA formée par l'utilisateur.

3 : CohĂ©rence temporelle considĂ©rablement amĂ©liorĂ©e

La cohérence temporelle a été le Saint-Graal de diffusion vidéo depuis plusieurs années maintenant. L'utilisation d'un LoRA, associé à des invites appropriées, donne à une génération de vidéo Hunyuan une référence d'identité constante à laquelle adhérer. En théorie (nous en sommes encore au début), on pourrait entraîner plusieurs LoRA d'une identité particulière, chacun portant des vêtements spécifiques.

Sous ces auspices, les vêtements sont également moins susceptibles de « muter » au cours d’une génération vidéo (puisque le système génératif base l’image suivante sur une fenêtre très limitée d’images précédentes).

(Alternativement, comme avec les systèmes LoRA basés sur l'image, on peut simplement appliquer plusieurs LoRA, tels que des LoRA d'identité + de costume, à une seule génération de vidéo)

4 : Accès à « l'expérience humaine »

Comme je rĂ©cemment observĂ©, le secteur de l'IA gĂ©nĂ©rative propriĂ©taire et de niveau FAANG semble dĂ©sormais si mĂ©fiant Ă  l'Ă©gard des critiques potentielles relatives aux capacitĂ©s de synthèse humaine de ses projets, que personnes Ils apparaissent rarement dans les pages de projets pour les annonces et les communiquĂ©s majeurs. Au contraire, la littĂ©rature publicitaire associĂ©e tend de plus en plus Ă  prĂ©senter des sujets « attirants Â» et par ailleurs « inoffensifs Â» dans les rĂ©sultats synthĂ©tisĂ©s.

Avec l'avènement des LoRA Hunyuan, pour la première fois, la communauté a l'opportunité de repousser les limites de la synthèse vidéo humaine basée sur LDM dans un système hautement performant (plutôt que marginal) et d'explorer pleinement le sujet qui intéresse le plus la majorité d'entre nous : les gens.

Implications

Étant donné qu'une recherche sur « Hunyuan » dans la communauté Civit montre principalement des LoRA de célébrités et des LoRA « hardcore », l'implication centrale de l'avènement des LoRA Hunyuan est qu'ils seront utilisés pour créer des vidéos pornographiques (ou autrement diffamatoires) d'IA de personnes réelles - célébrités et inconnus.

Pour des raisons de conformité, les amateurs qui créent des LoRA Hunyuan et qui les expérimentent sur divers serveurs Discord prennent soin d'interdire la publication d'exemples de personnes réelles. La réalité est que même imageLes deepfakes basés sur gravement militarisé; et la perspective d'ajouter des vidéos vraiment réalistes au mélange peut enfin justifier les craintes accrues qui sont récurrentes dans les médias depuis sept ans et qui ont suscité de nouvelles règlements.

La force motrice

Comme toujours, le porno reste la force motrice de la technologieQuelle que soit notre opinion sur un tel usage, ce moteur implacable d’impulsion entraîne des avancées dans l’état de l’art qui peuvent finalement bénéficier à une adoption plus large.

Dans ce cas, il est possible que le prix soit plus élevé que d’habitude, car l’open source de création vidéo hyperréaliste a des implications évidentes en termes d’utilisation abusive à des fins criminelles, politiques et éthiques.

Un groupe Reddit (que je ne nommerai pas ici) dédié à la génération par l'IA de contenu vidéo NSFW dispose d'un serveur Discord ouvert associé où les utilisateurs peaufinent Interface utilisateur confortable Flux de travail pour la production de vidéos pornographiques à Hunyuan. Chaque jour, les utilisateurs publient des exemples de clips NSFW, dont beaucoup peuvent raisonnablement être qualifiés d'« extrêmes », ou du moins allant à l'encontre des restrictions stipulées dans le règlement du forum.

Cette communauté maintient également un référentiel GitHub substantiel et bien développé comprenant des outils permettant de télécharger et de traiter des vidéos pornographiques, afin de fournir des données de formation pour de nouveaux modèles.

Depuis que le formateur LoRA le plus populaire, Kohya-ss, prend désormais en charge la formation Hunyuan LoRA, les barrières à l'entrée pour la formation vidéo générative sans limites diminuent de jour en jour, ainsi que les exigences matérielles pour la formation Hunyuan et la génération de vidéos.

L'aspect crucial des programmes de formation dédiés à l'IA basée sur la pornographie (plutôt que identitémodèles basés sur le NSFW, tels que les célébrités) est qu'un modèle de base standard comme Hunyuan n'est pas spécifiquement formé sur la sortie NSFW, et peut donc soit avoir de mauvaises performances lorsqu'on lui demande de générer du contenu NSFW, soit ne pas y parvenir. démêler concepts et associations appris de manière performative ou convaincante.

En développant des modèles de fondation NSFW et des LoRA affinés, il sera de plus en plus possible de projeter des identités entraînées dans un domaine vidéo « porno » dédié ; après tout, ce n'est que la version vidéo de quelque chose qui s'est déjà produit pour les images fixes des deux dernières années et demie.

VFX

L’augmentation considérable de la cohérence temporelle offerte par les LoRA de Hunyuan Video est une aubaine évidente pour l’industrie des effets visuels de l’IA, qui s’appuie fortement sur l’adaptation des logiciels open source.

Bien qu'une approche Hunyuan Video LoRA génère une image et un environnement entiers, les sociétés d'effets visuels ont presque certainement commencé à expérimenter l'isolement des visages humains temporellement cohérents qui peuvent être obtenus par cette méthode, afin de superposer ou d'intégrer des visages dans des séquences sources du monde réel.

Comme la communauté des amateurs, les sociétés VFX doivent attendre la fonctionnalité image-vidéo et vidéo-vidéo de Hunyuan Video, qui est potentiellement le pont le plus utile entre le contenu « deepfake » basé sur LoRA et l'ID ; ou bien improviser et utiliser l'intervalle pour sonder les capacités externes du framework et des adaptations potentielles, et même des forks propriétaires internes de Hunyuan Video.

Bien que le termes de la licence Si Hunyuan Video autorise techniquement la reprĂ©sentation de personnes rĂ©elles sous rĂ©serve d'autorisation, son utilisation est interdite dans l'UE, au Royaume-Uni et en CorĂ©e du Sud. ConformĂ©ment au principe de la confidentialitĂ©, cela ne signifie pas nĂ©cessairement que Hunyuan Video ne sera pas utilisĂ© dans ces rĂ©gions ; toutefois, la perspective d'audits externes des donnĂ©es, visant Ă  garantir une protection adĂ©quate, est Ă  prendre en compte. rĂ©glementation croissante autour de l'IA gĂ©nĂ©rative, pourrait rendre une telle utilisation illicite risquĂ©e.

Un autre point potentiellement ambigu des conditions de licence stipule :

« Si, à la date de sortie de la version Tencent Hunyuan, le nombre d'utilisateurs actifs mensuels de tous les produits ou services mis à disposition par ou pour le titulaire de la licence est supérieur à 100 millions d'utilisateurs actifs mensuels au cours du mois civil précédent, vous devez demander une licence à Tencent, que Tencent peut vous accorder à sa seule discrétion, et vous n'êtes pas autorisé à exercer l'un quelconque des droits en vertu du présent Contrat, à moins que ou jusqu'à ce que Tencent vous accorde expressément ces droits. »

Cette clause vise clairement la multitude d'entreprises susceptibles de servir d'intermédiaires à Hunyuan Video pour un groupe d'utilisateurs relativement peu familiarisés avec la technologie, et qui seront obligées de couper Tencent dans l'action, au-delà d'un certain plafond d'utilisateurs.

La question de savoir si la formulation large pourrait également couvrir indirect L'utilisation (c'est-à-dire via la fourniture d'effets visuels compatibles Hunyuan dans les films et émissions de télévision populaires) peut nécessiter des éclaircissements.

Conclusion

Étant donné que les vidéos deepfake existent depuis longtemps, il serait facile de sous-estimer l’importance de Hunyuan Video LoRA en tant qu’approche de la synthèse d’identité et du deepfaking ; et de supposer que les développements qui se manifestent actuellement au sein de la communauté Civit, et sur les Discords et subreddits associés, ne représentent qu’un simple coup de pouce progressif vers une synthèse vidéo humaine véritablement contrôlable.

Il est plus probable que les efforts actuels ne représentent qu'une fraction du potentiel de Hunyuan Video pour créer des deepfakes de corps entier et d'environnement complet complètement convaincants ; une fois que le composant image-vidéo sera publié (selon les rumeurs, ce mois-ci), un niveau de puissance génératrice beaucoup plus granulaire sera disponible pour les communautés amateurs et professionnelles.

Lorsque Stability.ai a lancé Stable Diffusion en 2022, de nombreux observateurs n’ont pas pu comprendre pourquoi l’entreprise avait simplement donné ce qui était, à l’époque, un système génératif si précieux et si puissant. Avec Hunyuan Video, la motivation du profit est directement intégrée dans la licence – même s’il peut s’avérer difficile pour Tencent de déterminer quand une entreprise déclenche le système de partage des bénéfices.

Quoi qu’il en soit, le résultat est le même qu’en 2022 : des communautés de développement dédiées se sont immédiatement constituées et avec une ferveur intense autour de la sortie. Certaines des voies que ces efforts emprunteront au cours des 12 prochains mois ne manqueront pas de faire la une des journaux.

 

* Jusqu'Ă  136 au moment de la publication.

Première publication le mardi 7 janvier 2025

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai