Suivez nous sur

HunyuanCustom propose des deepfakes vidéo à image unique, avec audio et synchronisation labiale

Angle d'Anderson

HunyuanCustom propose des deepfakes vidéo à image unique, avec audio et synchronisation labiale

mm
Images du nouvel article sur https://arxiv.org/pdf/2505.04512

Cet article prĂ©sente une nouvelle version d'un modèle mondial multimodal Hunyuan Video, appelĂ© « HunyuanCustom Â». L'Ă©tendue du contenu de ce nouvel article, combinĂ©e Ă  plusieurs problĂ©matiques soulevĂ©es par de nombreuses vidĂ©os d'exemple fournies, est remarquable. page du projet*, nous contraint Ă  une couverture plus gĂ©nĂ©rale que d'habitude et Ă  une reproduction limitĂ©e de l'Ă©norme quantitĂ© de matĂ©riel vidĂ©o accompagnant ce communiquĂ© (car de nombreuses vidĂ©os nĂ©cessitent une réédition et un traitement importants afin d'amĂ©liorer la lisibilitĂ© de la mise en page).

Veuillez Ă©galement noter que l'article dĂ©signe le système gĂ©nĂ©ratif Kling basĂ© sur une API par le terme « Keling Â». Par souci de clartĂ©, j'utiliserai plutĂ´t « Kling Â» dans l'ensemble du document.

 

Tencent est en train de sortir une nouvelle version de son Modèle vidéo Hunyuan, Intitulé HunyuanCustom. La nouvelle version est apparemment capable de faire Modèles Hunyuan LoRA redondant, en permettant à l'utilisateur de créer une personnalisation vidéo de type « deepfake » via un unique image:

Cliquez pour jouer. Invite : « Un homme Ă©coute de la musique et cuisine des nouilles aux escargots. Â» La nouvelle mĂ©thode est comparĂ©e aux mĂ©thodes open source et close-source, notamment Kling, qui est un adversaire sĂ©rieux dans ce domaine. Source : https://hunyuancustom.github.io/ (attention : site gourmand en CPU/mĂ©moire !)

Dans la colonne de gauche de la vidĂ©o ci-dessus, nous voyons l'image source unique fournie Ă  HunyuanCustom, suivie de l'interprĂ©tation de l'invite par le nouveau système dans la deuxième colonne, juste Ă  cĂ´tĂ©. Les colonnes suivantes prĂ©sentent les rĂ©sultats de divers systèmes propriĂ©taires et logiciels libres et open source : Lame; Je vois; Pika; Hailuo; et le Wan -Base SkyReels-A2.

Dans la vidéo ci-dessous, nous voyons des rendus de trois scénarios essentiels à cette version : respectivement, personne + objet; émulation d'un seul caractèreEt l’essayage virtuel (personne + vêtements) :

Cliquez ici pour lire. Trois exemples édités à partir du matériel du site de support de Hunyuan Video.

Nous pouvons remarquer quelques éléments à partir de ces exemples, principalement liés au système reposant sur un image source unique, au lieu de plusieurs images du même sujet.

Dans le premier clip, l'homme est quasiment toujours face à la caméra. Il incline la tête vers le bas et sur le côté, avec un angle de rotation d'à peine 20-25 degrés, mais avec une inclinaison supérieure, le système devrait vraiment commencer à deviner à quoi il ressemble de profil. C'est difficile, voire impossible, à évaluer précisément à partir d'une seule image frontale.

Dans le deuxième exemple, nous voyons que la petite fille est souriant Dans la vidéo rendue, elle est telle qu'elle apparaît dans l'image source statique unique. Là encore, avec cette seule image comme référence, HunyuanCustom devrait se contenter d'une estimation relativement approximative de l'apparence de son « visage au repos ». De plus, son visage ne s'écarte pas plus de la position face caméra que dans l'exemple précédent (« homme mangeant des chips »).

Dans le dernier exemple, nous voyons que puisque le matériel source – la femme et les vêtements qu’elle est invitée à porter – ne sont pas des images complètes, le rendu a recadré le scénario pour l’adapter – ce qui est en fait une bonne solution à un problème de données !

Le fait est que même si le nouveau système peut gérer plusieurs images (telles que personne + chips, ou personne + vêtements), il ne permet apparemment pas de multiples angles ou vues alternatives d'un seul caractère, afin de prendre en compte diverses expressions ou angles inhabituels. Dans cette mesure, le système pourrait donc avoir du mal à remplacer l'écosystème croissant de modèles LoRA qui ont surgi autour de HunyuanVideo depuis sa sortie en décembre dernier, car ils peuvent aider HunyuanVideo à produire des personnages cohérents sous n'importe quel angle et avec n'importe quelle expression faciale représentée dans l'ensemble de données d'entraînement (20 à 60 images sont typiques).

Câblé pour le son

Pour l'audio, HunyuanCustom exploite le LatentSync système (notoirement difficile à mettre en place pour les amateurs et à obtenir de bons résultats) permettant d'obtenir des mouvements des lèvres adaptés à l'audio et au texte fournis par l'utilisateur :

Caractéristiques audio. Cliquez pour écouter. Divers exemples de synchronisation labiale du site supplémentaire HunyuanCustom, édités ensemble.

Au moment de la rédaction de cet article, il n’existe pas d’exemples en anglais, mais ceux-ci semblent plutôt bons – d’autant plus si la méthode de création est facilement installable et accessible.

Montage d'une vidéo existante

Le nouveau système offre des rĂ©sultats impressionnants pour le montage vidĂ©o Ă  vidĂ©o (V2V ou Vid2Vid), oĂą un segment d'une vidĂ©o existante (rĂ©elle) est masquĂ© et remplacĂ© intelligemment par un sujet donnĂ© dans une seule image de rĂ©fĂ©rence. Voici un exemple tirĂ© du site de ressources complĂ©mentaires :

Cliquez pour jouer. Seul l'objet central est ciblé, mais ce qui reste autour de lui est également modifié dans un passage HunyuanCustom vid2vid.

Comme nous pouvons le voir, et comme c'est la norme dans un scénario vid2vid, le vidéo complète est dans une certaine mesure modifiée par le procédé, bien que la plus grande partie soit modifiée dans la région ciblée, c'est-à-dire la peluche. Des pipelines pourraient vraisemblablement être développés pour créer de telles transformations dans un environnement tapis poubelle Une approche qui laisse la majorité du contenu vidéo identique à l'original. C'est ce que fait Adobe Firefly en coulisses, et il le fait plutôt bien, mais c'est un processus peu étudié dans le domaine de la génération de logiciels libres et open source.

Cela dit, la plupart des exemples alternatifs fournis font un meilleur travail de ciblage de ces intĂ©grations, comme nous pouvons le voir dans la compilation assemblĂ©e ci-dessous :

Cliquez pour jouer. Divers exemples de contenu interjecté utilisant vid2vid dans HunyuanCustom, montrant un respect notable pour le matériel non ciblé.

Un nouveau départ ?

Cette initiative est un développement de la Projet vidéo Hunyuan, sans rupture radicale avec ce courant de développement. Les améliorations du projet sont introduites sous forme d'insertions architecturales discrètes plutôt que de changements structurels radicaux, visant à permettre au modèle de conserver une identité fidèle d'un cadre à l'autre sans dépendre de spécifique à la matière réglage fin, comme avec les approches LoRA ou d’inversion textuelle.

Pour être clair, HunyuanCustom n'est donc pas formé à partir de zéro, mais constitue plutôt un ajustement précis du modèle de fondation HunyuanVideo de décembre 2024.

Ceux qui ont développé HunyuanVideo LoRAs peuvent se demander s'ils fonctionneront toujours avec cette nouvelle édition, ou s'ils devront réinventer la roue LoRA encore s'ils souhaitent davantage de capacités de personnalisation que celles intégrées dans cette nouvelle version.

En général, une version très affinée d'un modèle hyperscale modifie la poids du modèle Il est donc certain que les LoRA conçus pour le modèle précédent ne fonctionneront pas correctement, voire pas du tout, avec le modèle nouvellement affiné.

Parfois, cependant, la popularitĂ© d'un rĂ©glage fin peut remettre en question ses origines : un exemple d'un rĂ©glage fin devenant un outil efficace fourche, avec un Ă©cosystème dĂ©diĂ© et ses propres adeptes, est le Poney Diffusion rĂ©glage de Diffusion Stable XL (SDXL). Pony compte actuellement plus de 592,000 XNUMX tĂ©lĂ©chargements sur en constante Ă©volution Domaine CivitAI, avec une vaste gamme de LoRA qui ont utilisĂ© Pony (et non SDXL) comme modèle de base, et qui nĂ©cessitent Pony au moment de l'infĂ©rence.

Libération

Construction page du projet pour nouveau papier (qui s'intitule HunyuanCustom : une architecture multimodale pour la gĂ©nĂ©ration de vidĂ©os personnalisĂ©es) propose des liens vers un Site GitHub qui, au moment oĂą j'Ă©cris, vient de devenir fonctionnel et semble contenir tout le code et les poids nĂ©cessaires Ă  la mise en Ĺ“uvre locale, ainsi qu'un calendrier proposĂ© (oĂą la seule chose importante Ă  venir est l'intĂ©gration de ComfyUI).

Au moment de la rédaction du présent document, le projet Présence du visage enlacé est toujours un 404. Il y a cependant un Version basée sur l'API où l'on peut apparemment faire une démonstration du système, à condition de pouvoir fournir un code de numérisation WeChat.

J'ai rarement vu une utilisation aussi élaborée et étendue d'une telle variété de projets dans un seul assemblage, comme cela est évident dans HunyuanCustom - et vraisemblablement certaines des licences obligeraient de toute façon à une sortie complète.

Deux modèles sont annoncés sur la page GitHub : une version 720px1280px nécessitant 8 Go de mémoire GPU Peak, et une version 512px896px nécessitant 60 Go de mémoire GPU Peak.

Le référentiel indique « La mémoire GPU minimale requise est de 24 Go pour 720px1280px129f, mais elle est très lente… Nous recommandons d'utiliser un GPU avec 80 Go de mémoire pour une meilleure qualité de génération. » – et répète que le système n’a été testé jusqu’à présent que sur Linux.

Le modèle précédent de Hunyuan Video a, depuis sa sortie officielle, été quantifié réduit à des tailles où il peut être exécuté sur moins de 24 Go de VRAM, et il semble raisonnable de supposer que le nouveau modèle sera également adapté à des formes plus conviviales pour les consommateurs par la communauté, et qu'il sera rapidement adapté pour être utilisé sur les systèmes Windows également.

En raison des contraintes de temps et de la quantité impressionnante d'informations accompagnant cette sortie, nous ne pouvons l'examiner que de manière plus générale, sans l'approfondir. Néanmoins, découvrons un peu HunyuanCustom.

Un regard sur le papier

Le pipeline de données pour HunyuanCustom, apparemment conforme à la GDPR cadre, intègre à la fois des ensembles de données vidéo synthétisés et open source, y compris OpenHumanVid, avec huit catégories principales représentées : les humains, animaux, plantes, paysages, véhicules, objets, architecturebauen Anime. .

Extrait du document de publication : aperçu des diffĂ©rents packages contribuant au pipeline de construction de donnĂ©es HunyuanCustom. Source : https://arxiv.org/pdf/2505.04512

À partir du document de publication, un aperçu des divers packages contribuant au pipeline de construction de données HunyuanCustom. Source : https://arxiv.org/pdf/2505.04512

Le filtrage initial commence par Détection PyScene, qui segmente les vidéos en clips à prise unique. TexteBPN-Plus-Plus est ensuite utilisé pour supprimer les vidéos contenant du texte excessif à l'écran, des sous-titres, des filigranes ou des logos.

Pour corriger les incohérences de résolution et de durée, les clips sont standardisés à cinq secondes et redimensionnés à 512 ou 720 pixels. Le filtrage esthétique est assuré par Koala-36M, avec un seuil personnalisé de 0.06 appliqué à l'ensemble de données personnalisé organisé par les chercheurs du nouvel article.

Le processus d’extraction des sujets combine les Qwen7B Grand Modèle de Langage (LLM), le YOLO11X cadre de reconnaissance d'objets et le populaire InsightFace l'architecture, pour identifier et valider les identités humaines.

Pour les sujets non humains, QwenVL que le béton ey SAM 2 au sol sont utilisés pour extraire les boîtes englobantes pertinentes, qui sont rejetées si elles sont trop petites.

Exemples de segmentation sĂ©mantique avec Grounded SAM 2, utilisĂ© dans le projet Hunyuan Control. Source : https://github.com/IDEA-Research/Grounded-SAM-2

Exemples de segmentation sémantique avec Grounded SAM 2, utilisé dans le projet Hunyuan Control. Source : https://github.com/IDEA-Research/Grounded-SAM-2

L'extraction multi-sujets utilise Florence2 pour l'annotation de la boîte englobante et Grounded SAM 2 pour la segmentation, suivi du clustering et de la segmentation temporelle des cadres d'entraînement.

Les clips traités sont encore améliorés par annotation, en utilisant un système d'étiquetage structuré propriétaire développé par l'équipe Hunyuan, et qui fournit des métadonnées en couches telles que des descriptions et des indices de mouvement de caméra.

Augmentation du masque des stratégies, y compris la conversion en boîtes englobantes, ont été appliquées pendant la formation pour réduire surajustement et s'assurer que le modèle s'adapte à diverses formes d'objets.

Les données audio ont été synchronisées à l'aide de LatentSync susmentionné et les clips ont été supprimés si les scores de synchronisation tombaient en dessous d'un seuil minimum.

Le cadre d'évaluation de la qualité de l'image à l'aveugle HyperIQA a été utilisé pour exclure les vidéos ayant obtenu un score inférieur à 40 (sur l'échelle sur mesure d'HyperIQA). Les pistes audio valides ont ensuite été traitées avec Whisper pour extraire des fonctionnalités pour les tâches en aval.

Les auteurs intègrent les LLaVA LLaVA est utilisé pour générer des légendes d'images et harmoniser le contenu visuel avec les invites textuelles, favorisant ainsi la construction d'un signal d'apprentissage cohérent entre les différentes modalités.

Le framework HunyuanCustom prend en charge la génération de vidéos cohérentes en termes d'identité, conditionnées par des entrées de texte, d'image, d'audio et de vidéo.

Le framework HunyuanCustom prend en charge la génération de vidéos cohérentes en termes d'identité, conditionnées par des entrées de texte, d'image, d'audio et de vidéo.

En exploitant les capacités d'alignement vision-langage de LLaVA, le pipeline obtient une couche supplémentaire de cohérence sémantique entre les éléments visuels et leurs descriptions textuelles, particulièrement utile dans les scénarios multi-sujets ou à scènes complexes.

Vidéo personnalisée

Pour permettre la génération de vidéos à partir d'une image de référence et d'une invite, les deux modules centrés autour de LLaVA ont été créés, en adaptant d'abord la structure d'entrée de HunyuanVideo afin qu'il puisse accepter une image avec du texte.

Cela impliquait de formater l'invite de manière à intégrer directement l'image ou à l'étiqueter avec une courte description. Un jeton de séparation a été utilisé pour éviter que l'intégration de l'image ne surcharge le contenu de l'invite.

Étant donné que l'encodeur visuel de LLaVA a tendance à compresser ou à supprimer les détails spatiaux à granularité fine lors de l'alignement des caractéristiques de l'image et du texte (en particulier lors de la traduction d'une image de référence unique en une intégration sémantique générale), un module d'amélioration de l'identité a été incorporé. Étant donné que la quasi-totalité des modèles de diffusion latente vidéo ont du mal à maintenir une identité sans LoRA, même dans un clip de cinq secondes, les performances de ce module lors des tests communautaires pourraient s'avérer significatives.

Dans tous les cas, l'image de référence est ensuite redimensionnée et codée à l'aide du 3D-VAE causal du modèle HunyuanVideo original, et son latent inséré dans la vidéo latente sur l'axe temporel, avec un décalage spatial appliqué pour empêcher que l'image ne soit directement reproduite dans la sortie, tout en guidant la génération.

Le modèle a été formé en utilisant Correspondance de flux, avec des échantillons de bruit tirés d'un logit-normal Distribution – et le réseau a été entraîné à récupérer la vidéo correcte à partir de ces signaux latents bruyants. LLaVA et le générateur vidéo ont été optimisés ensemble afin que l'image et l'invite puissent guider la sortie plus facilement et préserver la cohérence de l'identité du sujet.

Pour les invites multi-sujets, chaque paire image-texte a été intégrée séparément et s'est vu attribuer une position temporelle distincte, permettant de distinguer les identités et de prendre en charge la génération de scènes impliquant plusieurs sujets en interaction.

Son et vision

HunyuanCustom conditionne la génération audio/vocale en utilisant à la fois l'audio saisi par l'utilisateur et une invite textuelle, permettant aux personnages de parler dans des scènes qui reflètent le cadre décrit.

Pour ce faire, un module AudioNet dissocié de l'identité introduit des fonctionnalités audio sans perturber les signaux d'identité intégrés à l'image de référence et à l'invite. Ces fonctionnalités sont alignées sur la timeline vidéo compressée, divisées en segments image par image et injectées à l'aide d'une méthode spatiale. attention croisée mécanisme qui maintient chaque image isolée, préservant la cohérence du sujet et évitant les interférences temporelles.

Un deuxième module d'injection temporelle offre un contrôle plus précis du timing et du mouvement, fonctionnant en tandem avec AudioNet, mappant les caractéristiques audio à des régions spécifiques de la séquence latente et utilisant un Perceptron multicouche (MLP) pour les convertir en jeton par jeton Décalages de mouvement. Cela permet aux gestes et aux mouvements du visage de suivre le rythme et l'accentuation de la parole avec une plus grande précision.

HunyuanCustom permet de modifier directement les sujets des vidéos existantes, en remplaçant ou en insérant des personnes ou des objets dans une scène sans avoir à reconstruire entièrement le clip. Cela est particulièrement utile pour les tâches impliquant des modifications d'apparence ou de mouvement ciblées.

Cliquez pour jouer. Un autre exemple du site supplémentaire.

Pour faciliter le remplacement efficace des sujets dans les vidéos existantes, le nouveau système évite l'approche gourmande en ressources des méthodes récentes telles que la méthode actuellement populaire VACE, ou ceux qui fusionnent des séquences vidéo entières, privilégiant la compression d'une vidéo de référence à l'aide du 3D-VAE causal pré-entraîné, en l'alignant sur les latentes vidéo internes du pipeline de génération, puis en les additionnant. Cela permet de maintenir un processus relativement léger, tout en permettant au contenu vidéo externe de guider la sortie.

Un petit rĂ©seau neuronal gère l'alignement entre la vidĂ©o d'entrĂ©e propre et les latentes bruitĂ©es utilisĂ©es lors de la gĂ©nĂ©ration. Le système teste deux mĂ©thodes pour injecter ces informations : fusionner les deux ensembles de caractĂ©ristiques avant de les compresser Ă  nouveau ; et ajouter les caractĂ©ristiques image par image. Les auteurs ont constatĂ© que la deuxième mĂ©thode est plus efficace et Ă©vite les pertes de qualitĂ© tout en maintenant la charge de calcul inchangĂ©e.

Données et tests

Lors des tests, les mesures utilisĂ©es Ă©taient : le module de cohĂ©rence d'identitĂ© dans ArcFace, qui extrait les incorporations faciales Ă  la fois de l'image de rĂ©fĂ©rence et de chaque image de la vidĂ©o gĂ©nĂ©rĂ©e, puis calcule la similaritĂ© cosinus moyenne entre elles ; similaritĂ© des sujets, via l'envoi de segments YOLO11x Ă  Dinosaure 2 Ă  titre de comparaison; CLIP-B, alignement texte-vidĂ©o, qui mesure la similaritĂ© entre l'invite et la vidĂ©o gĂ©nĂ©rĂ©e ; CLIP-B Ă  nouveau, pour calculer la similaritĂ© entre chaque image et ses images voisines et la première image, ainsi que la cohĂ©rence temporelle ; et diplĂ´me dynamique, tel que dĂ©fini par Banc V.

Comme indiquĂ© prĂ©cĂ©demment, les principaux concurrents en matière de logiciels libres Ă©taient Hailuo ; Vidu 2.0 ; Kling (1.6) ; et Pika. Les frameworks FOSS concurrents Ă©taient VACE et SkyReels-A2.

Évaluation des performances du modèle comparant HunyuanCustom aux principales méthodes de personnalisation vidéo pour la cohérence des identifiants (Face-Sim), la similarité des sujets (DINO-Sim), l'alignement texte-vidéo (CLIP-BT), la cohérence temporelle (Temp-Consis) et l'intensité du mouvement (DD). Les résultats optimaux et sous-optimaux sont indiqués respectivement en gras et soulignés.

Évaluation des performances du modèle comparant HunyuanCustom aux principales méthodes de personnalisation vidéo pour la cohérence des identifiants (Face-Sim), la similarité des sujets (DINO-Sim), l'alignement texte-vidéo (CLIP-BT), la cohérence temporelle (Temp-Consis) et l'intensité du mouvement (DD). Les résultats optimaux et sous-optimaux sont indiqués respectivement en gras et soulignés.

Parmi ces résultats, les auteurs déclarent :

Notre [HunyuanCustom] atteint la meilleure cohérence d'identification et de sujet. Il obtient également des résultats comparables en termes de suivi des invites et de cohérence temporelle. [Hailuo] obtient le meilleur score de clip, car il suit correctement les instructions textuelles avec la seule cohérence d'identification, au détriment de la cohérence des sujets non humains (le pire DINO-Sim). En termes de degré dynamique, [Vidu] et [VACE] sont peu performants, ce qui peut s'expliquer par la petite taille du modèle.

Bien que le site du projet regorge de vidĂ©os comparatives (dont la mise en page semble avoir Ă©tĂ© conçue pour l'esthĂ©tique du site web plutĂ´t que pour faciliter la comparaison), il ne propose pas actuellement d'Ă©quivalent vidĂ©o des rĂ©sultats statiques regroupĂ©s dans le PDF, concernant les tests qualitatifs initiaux. Bien que je les inclue ici, j'encourage le lecteur Ă  examiner attentivement les vidĂ©os du site du projet, car elles donnent une meilleure idĂ©e des rĂ©sultats :

Extrait de l'article : une comparaison sur la personnalisation vidĂ©o centrĂ©e sur les objets. Bien que le spectateur soit invitĂ© (comme toujours) Ă  se rĂ©fĂ©rer au PDF source pour une meilleure rĂ©solution, les vidĂ©os sur le site du projet pourraient constituer une ressource plus Ă©clairante.

Extrait de l'article : une comparaison sur la personnalisation vidĂ©o centrĂ©e sur les objets. Bien que le spectateur soit invitĂ© (comme toujours) Ă  se rĂ©fĂ©rer au PDF source pour une meilleure rĂ©solution, les vidĂ©os sur le site du projet pourraient ĂŞtre une ressource plus Ă©clairante dans ce cas.

Les auteurs commentent ici :

« On peut voir que [Vidu], [Skyreels A2] et notre méthode obtiennent des résultats relativement bons en termes d'alignement rapide et de cohérence du sujet, mais notre qualité vidéo est meilleure que celle de Vidu et Skyreels, grâce aux bonnes performances de génération vidéo de notre modèle de base, c'est-à-dire [Hunyuanvideo-13B].

« Parmi les produits commerciaux, bien que [Kling] ait une bonne qualité vidéo, la première image de la vidéo présente un [problème] de copier-coller, et parfois le sujet bouge trop vite et [est flou], ce qui entraîne une mauvaise expérience de visionnage. »

Les auteurs commentent en outre que Pika est peu performant en termes de cohérence temporelle, introduisant des artefacts de sous-titres (effets d'une mauvaise conservation des données, où les éléments de texte dans les clips vidéo ont été autorisés à polluer les concepts de base).

Hailuo préserve l'identité faciale, affirment-ils, mais ne parvient pas à préserver la cohérence corporelle. Parmi les méthodes open source, VACE, affirment les chercheurs, est incapable de maintenir la cohérence de l'identité, tandis que HunyuanCustom produit des vidéos avec une forte préservation de l'identité, tout en préservant qualité et diversité.

Ensuite, des tests ont Ă©tĂ© effectuĂ©s pour personnalisation vidĂ©o multi-sujets, contre les mĂŞmes concurrents. Comme dans l'exemple prĂ©cĂ©dent, les rĂ©sultats PDF aplatis ne sont pas des Ă©quivalents papier des vidĂ©os disponibles sur le site du projet, mais sont uniques parmi les rĂ©sultats prĂ©sentĂ©s :

Comparaisons utilisant des personnalisations vidéo multi-sujets. Veuillez consulter le PDF pour plus de détails et une meilleure résolution.

Comparaisons utilisant des personnalisations vidéo multi-sujets. Veuillez consulter le PDF pour plus de détails et une meilleure résolution.

Le papier déclare:

« [Pika] peut gĂ©nĂ©rer les sujets spĂ©cifiĂ©s, mais prĂ©sente une instabilitĂ© dans les images vidĂ©o, avec des exemples d'un homme disparaissant dans un scĂ©nario et d'une femme ne parvenant pas Ă  ouvrir une porte comme demandĂ©. [Vidu] et [VACE] capturent partiellement l'identitĂ© humaine, mais perdent des dĂ©tails importants des objets non humains, ce qui indique une limitation dans la reprĂ©sentation des sujets non humains. Â»

« [SkyReels A2] subit une grave instabilitĂ© d'image, avec des changements notables dans les puces et de nombreux artefacts dans le bon scĂ©nario.

« En revanche, notre HunyuanCustom capture efficacement les identités des sujets humains et non humains, génère des vidéos qui adhèrent aux invites données et maintient une qualité visuelle et une stabilité élevées. »

Une autre expérience était la « publicité humaine virtuelle », dans laquelle les frameworks étaient chargés d’intégrer un produit à une personne :

Exemples de placement de produit neuronal issus de la phase de tests qualitatifs. Veuillez consulter le PDF pour plus de détails et une meilleure résolution.

Exemples de placement de produit neuronal issus de la phase de tests qualitatifs. Veuillez consulter le PDF pour plus de détails et une meilleure résolution.

Pour ce tour, les auteurs déclarent :

« Les [résultats] démontrent que HunyuanCustom préserve efficacement l'identité de l'humain tout en préservant les détails du produit cible, y compris le texte qui y figure.

« De plus, l'interaction entre l'humain et le produit semble naturelle et la vidéo adhère étroitement à l'invite donnée, soulignant le potentiel substantiel de HunyuanCustom dans la génération de vidéos publicitaires. »

Un domaine dans lequel les résultats vidéo auraient été très utiles était le tour qualitatif pour la personnalisation du sujet pilotée par l'audio, où le personnage prononce l'audio correspondant à partir d'une scène et d'une posture décrites par un texte.

RĂ©sultats partiels pour l'Ă©preuve audio ; des rĂ©sultats vidĂ©o auraient peut-ĂŞtre Ă©tĂ© prĂ©fĂ©rables dans ce cas. Seule la moitiĂ© supĂ©rieure du PDF est reproduite ici, car elle est volumineuse et difficile Ă  intĂ©grer dans cet article. Veuillez vous rĂ©fĂ©rer au PDF source pour plus de dĂ©tails et une meilleure rĂ©solution.

RĂ©sultats partiels pour l'Ă©preuve audio ; des rĂ©sultats vidĂ©o auraient peut-ĂŞtre Ă©tĂ© prĂ©fĂ©rables dans ce cas. Seule la moitiĂ© supĂ©rieure du PDF est reproduite ici, car elle est volumineuse et difficile Ă  intĂ©grer dans cet article. Veuillez vous rĂ©fĂ©rer au PDF source pour plus de dĂ©tails et une meilleure rĂ©solution.

Les auteurs affirment :

« Les méthodes d'animation humaine pilotées par l'audio précédentes saisissent une image humaine et un son, où la posture, la tenue et l'environnement humains restent cohérents avec l'image donnée et ne peuvent pas générer de vidéos dans d'autres gestes et environnements, ce qui peut [restreindre] leur application.

« … [Notre] HunyuanCustom permet une personnalisation humaine pilotée par l'audio, où le personnage prononce l'audio correspondant dans une scène et une posture décrites par du texte, permettant une animation humaine pilotée par l'audio plus flexible et contrôlable. »

D'autres tests (veuillez consulter le PDF pour tous les dĂ©tails) comprenaient un tour opposant le nouveau système Ă  VACE et Kling 1.6 pour le remplacement du sujet vidĂ©o :

Remplacement du sujet de test en mode vidéo. Veuillez consulter le PDF source pour plus de détails et une meilleure résolution.

Remplacement du sujet de test en mode vidéo. Veuillez consulter le PDF source pour plus de détails et une meilleure résolution.

Parmi ceux-ci, les derniers tests présentés dans le nouvel article, les chercheurs estiment :

« VACE souffre d'artefacts de limite dus au strict respect des masques de saisie, ce qui entraĂ®ne des formes de sujet non naturelles et une perturbation de la continuitĂ© du mouvement. [Kling], en revanche, prĂ©sente un effet copier-coller, oĂą les sujets sont directement superposĂ©s sur la vidĂ©o, ce qui entraĂ®ne une mauvaise intĂ©gration avec l'arrière-plan. Â»

« En comparaison, HunyuanCustom évite efficacement les artefacts de limite, réalise une intégration transparente avec l'arrière-plan vidéo et maintient une forte préservation de l'identité, démontrant ainsi ses performances supérieures dans les tâches de montage vidéo. »

Conclusion

Il s'agit d'une version fascinante, notamment parce qu'elle aborde un sujet dont la scène amateur toujours mécontente se plaint davantage ces derniers temps : le manque de synchronisation labiale, de sorte que le réalisme accru capable de systèmes tels que Hunyuan Video et Wan 2.1 pourrait recevoir une nouvelle dimension d'authenticité.

Bien que la disposition de presque tous les exemples de vidéos comparatives sur le site du projet rende assez difficile la comparaison des capacités de HunyuanCustom avec les concurrents précédents, il faut noter que très, très peu de projets dans l'espace de synthèse vidéo ont le courage de se mesurer à Kling, l'API de diffusion vidéo commerciale qui plane toujours au sommet ou près du sommet des classements ; Tencent semble avoir fait des progrès contre ce titulaire d'une manière assez impressionnante.

 

* Le problème est que certaines vidéos sont si larges, courtes et en haute résolution qu'elles ne peuvent pas être lues dans les lecteurs vidéo standard tels que VLC ou Windows Media Player, affichant des écrans noirs.

Première publication le jeudi 8 mai 2025

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai