Angle d'Anderson
HunyuanCustom propose des deepfakes vidéo à image unique, avec audio et synchronisation labiale

Cet article présente une nouvelle version d'un modèle mondial multimodal Hunyuan Video, appelé « HunyuanCustom ». L'étendue du contenu de ce nouvel article, combinée à plusieurs problématiques soulevées par de nombreuses vidéos d'exemple fournies, est remarquable. page du projet*, nous contraint à une couverture plus générale que d'habitude et à une reproduction limitée de l'énorme quantité de matériel vidéo accompagnant ce communiqué (car de nombreuses vidéos nécessitent une réédition et un traitement importants afin d'améliorer la lisibilité de la mise en page).
Veuillez également noter que l'article désigne le système génératif Kling basé sur une API par le terme « Keling ». Par souci de clarté, j'utiliserai plutôt « Kling » dans l'ensemble du document.
Tencent est en train de sortir une nouvelle version de son Modèle vidéo Hunyuan, Intitulé HunyuanCustom. La nouvelle version est apparemment capable de faire Modèles Hunyuan LoRA redondant, en permettant à l'utilisateur de créer une personnalisation vidéo de type « deepfake » via un unique image:
Cliquez pour jouer. Invite : « Un homme écoute de la musique et cuisine des nouilles aux escargots. » La nouvelle méthode est comparée aux méthodes open source et close-source, notamment Kling, qui est un adversaire sérieux dans ce domaine. Source : https://hunyuancustom.github.io/ (attention : site gourmand en CPU/mémoire !)
Dans la colonne de gauche de la vidéo ci-dessus, nous voyons l'image source unique fournie à HunyuanCustom, suivie de l'interprétation de l'invite par le nouveau système dans la deuxième colonne, juste à côté. Les colonnes suivantes présentent les résultats de divers systèmes propriétaires et logiciels libres et open source : Lame; Je vois; Pika; Hailuo; et le Wan -Base SkyReels-A2.
Dans la vidéo ci-dessous, nous voyons des rendus de trois scénarios essentiels à cette version : respectivement, personne + objet; émulation d'un seul caractèreEt l’essayage virtuel (personne + vêtements) :
Cliquez ici pour lire. Trois exemples édités à partir du matériel du site de support de Hunyuan Video.
Nous pouvons remarquer quelques éléments à partir de ces exemples, principalement liés au système reposant sur un image source unique, au lieu de plusieurs images du même sujet.
Dans le premier clip, l'homme est quasiment toujours face à la caméra. Il incline la tête vers le bas et sur le côté, avec un angle de rotation d'à peine 20-25 degrés, mais avec une inclinaison supérieure, le système devrait vraiment commencer à deviner à quoi il ressemble de profil. C'est difficile, voire impossible, à évaluer précisément à partir d'une seule image frontale.
Dans le deuxième exemple, nous voyons que la petite fille est souriant Dans la vidéo rendue, elle est telle qu'elle apparaît dans l'image source statique unique. Là encore, avec cette seule image comme référence, HunyuanCustom devrait se contenter d'une estimation relativement approximative de l'apparence de son « visage au repos ». De plus, son visage ne s'écarte pas plus de la position face caméra que dans l'exemple précédent (« homme mangeant des chips »).
Dans le dernier exemple, nous voyons que puisque le matériel source – la femme et les vêtements qu’elle est invitée à porter – ne sont pas des images complètes, le rendu a recadré le scénario pour l’adapter – ce qui est en fait une bonne solution à un problème de données !
Le fait est que même si le nouveau système peut gérer plusieurs images (telles que personne + chips, ou personne + vêtements), il ne permet apparemment pas de multiples angles ou vues alternatives d'un seul caractère, afin de prendre en compte diverses expressions ou angles inhabituels. Dans cette mesure, le système pourrait donc avoir du mal à remplacer l'écosystème croissant de modèles LoRA qui ont surgi autour de HunyuanVideo depuis sa sortie en décembre dernier, car ils peuvent aider HunyuanVideo à produire des personnages cohérents sous n'importe quel angle et avec n'importe quelle expression faciale représentée dans l'ensemble de données d'entraînement (20 à 60 images sont typiques).
Câblé pour le son
Pour l'audio, HunyuanCustom exploite le LatentSync système (notoirement difficile à mettre en place pour les amateurs et à obtenir de bons résultats) permettant d'obtenir des mouvements des lèvres adaptés à l'audio et au texte fournis par l'utilisateur :
Caractéristiques audio. Cliquez pour écouter. Divers exemples de synchronisation labiale du site supplémentaire HunyuanCustom, édités ensemble.
Au moment de la rédaction de cet article, il n’existe pas d’exemples en anglais, mais ceux-ci semblent plutôt bons – d’autant plus si la méthode de création est facilement installable et accessible.
Montage d'une vidéo existante
Le nouveau système offre des résultats impressionnants pour le montage vidéo à vidéo (V2V ou Vid2Vid), où un segment d'une vidéo existante (réelle) est masqué et remplacé intelligemment par un sujet donné dans une seule image de référence. Voici un exemple tiré du site de ressources complémentaires :
Cliquez pour jouer. Seul l'objet central est ciblé, mais ce qui reste autour de lui est également modifié dans un passage HunyuanCustom vid2vid.
Comme nous pouvons le voir, et comme c'est la norme dans un scénario vid2vid, le vidéo complète est dans une certaine mesure modifiée par le procédé, bien que la plus grande partie soit modifiée dans la région ciblée, c'est-à -dire la peluche. Des pipelines pourraient vraisemblablement être développés pour créer de telles transformations dans un environnement tapis poubelle Une approche qui laisse la majorité du contenu vidéo identique à l'original. C'est ce que fait Adobe Firefly en coulisses, et il le fait plutôt bien, mais c'est un processus peu étudié dans le domaine de la génération de logiciels libres et open source.
Cela dit, la plupart des exemples alternatifs fournis font un meilleur travail de ciblage de ces intégrations, comme nous pouvons le voir dans la compilation assemblée ci-dessous :
Cliquez pour jouer. Divers exemples de contenu interjecté utilisant vid2vid dans HunyuanCustom, montrant un respect notable pour le matériel non ciblé.
Un nouveau départ ?
Cette initiative est un développement de la Projet vidéo Hunyuan, sans rupture radicale avec ce courant de développement. Les améliorations du projet sont introduites sous forme d'insertions architecturales discrètes plutôt que de changements structurels radicaux, visant à permettre au modèle de conserver une identité fidèle d'un cadre à l'autre sans dépendre de spécifique à la matière réglage fin, comme avec les approches LoRA ou d’inversion textuelle.
Pour être clair, HunyuanCustom n'est donc pas formé à partir de zéro, mais constitue plutôt un ajustement précis du modèle de fondation HunyuanVideo de décembre 2024.
Ceux qui ont développé HunyuanVideo LoRAs peuvent se demander s'ils fonctionneront toujours avec cette nouvelle édition, ou s'ils devront réinventer la roue LoRA encore s'ils souhaitent davantage de capacités de personnalisation que celles intégrées dans cette nouvelle version.
En général, une version très affinée d'un modèle hyperscale modifie la poids du modèle Il est donc certain que les LoRA conçus pour le modèle précédent ne fonctionneront pas correctement, voire pas du tout, avec le modèle nouvellement affiné.
Parfois, cependant, la popularité d'un réglage fin peut remettre en question ses origines : un exemple d'un réglage fin devenant un outil efficace fourche, avec un écosystème dédié et ses propres adeptes, est le Poney Diffusion réglage de Diffusion Stable XL (SDXL). Pony compte actuellement plus de 592,000 XNUMX téléchargements sur en constante évolution Domaine CivitAI, avec une vaste gamme de LoRA qui ont utilisé Pony (et non SDXL) comme modèle de base, et qui nécessitent Pony au moment de l'inférence.
Libération
Construction page du projet pour nouveau papier (qui s'intitule HunyuanCustom : une architecture multimodale pour la génération de vidéos personnalisées) propose des liens vers un Site GitHub qui, au moment où j'écris, vient de devenir fonctionnel et semble contenir tout le code et les poids nécessaires à la mise en œuvre locale, ainsi qu'un calendrier proposé (où la seule chose importante à venir est l'intégration de ComfyUI).
Au moment de la rédaction du présent document, le projet Présence du visage enlacé est toujours un 404. Il y a cependant un Version basée sur l'API où l'on peut apparemment faire une démonstration du système, à condition de pouvoir fournir un code de numérisation WeChat.
J'ai rarement vu une utilisation aussi élaborée et étendue d'une telle variété de projets dans un seul assemblage, comme cela est évident dans HunyuanCustom - et vraisemblablement certaines des licences obligeraient de toute façon à une sortie complète.
Deux modèles sont annoncés sur la page GitHub : une version 720px1280px nécessitant 8 Go de mémoire GPU Peak, et une version 512px896px nécessitant 60 Go de mémoire GPU Peak.
Le référentiel indique « La mémoire GPU minimale requise est de 24 Go pour 720px1280px129f, mais elle est très lente… Nous recommandons d'utiliser un GPU avec 80 Go de mémoire pour une meilleure qualité de génération. » – et répète que le système n’a été testé jusqu’à présent que sur Linux.
Le modèle précédent de Hunyuan Video a, depuis sa sortie officielle, été quantifié réduit à des tailles où il peut être exécuté sur moins de 24 Go de VRAM, et il semble raisonnable de supposer que le nouveau modèle sera également adapté à des formes plus conviviales pour les consommateurs par la communauté, et qu'il sera rapidement adapté pour être utilisé sur les systèmes Windows également.
En raison des contraintes de temps et de la quantité impressionnante d'informations accompagnant cette sortie, nous ne pouvons l'examiner que de manière plus générale, sans l'approfondir. Néanmoins, découvrons un peu HunyuanCustom.
Un regard sur le papier
Le pipeline de données pour HunyuanCustom, apparemment conforme à la GDPR cadre, intègre à la fois des ensembles de données vidéo synthétisés et open source, y compris OpenHumanVid, avec huit catégories principales représentées : les humains, animaux, plantes, paysages, véhicules, objets, architecturebauen Anime. .

À partir du document de publication, un aperçu des divers packages contribuant au pipeline de construction de données HunyuanCustom. Source : https://arxiv.org/pdf/2505.04512
Le filtrage initial commence par Détection PyScene, qui segmente les vidéos en clips à prise unique. TexteBPN-Plus-Plus est ensuite utilisé pour supprimer les vidéos contenant du texte excessif à l'écran, des sous-titres, des filigranes ou des logos.
Pour corriger les incohérences de résolution et de durée, les clips sont standardisés à cinq secondes et redimensionnés à 512 ou 720 pixels. Le filtrage esthétique est assuré par Koala-36M, avec un seuil personnalisé de 0.06 appliqué à l'ensemble de données personnalisé organisé par les chercheurs du nouvel article.
Le processus d’extraction des sujets combine les Qwen7B Grand Modèle de Langage (LLM), le YOLO11X cadre de reconnaissance d'objets et le populaire InsightFace l'architecture, pour identifier et valider les identités humaines.
Pour les sujets non humains, QwenVL que le béton ey SAM 2 au sol sont utilisés pour extraire les boîtes englobantes pertinentes, qui sont rejetées si elles sont trop petites.

Exemples de segmentation sémantique avec Grounded SAM 2, utilisé dans le projet Hunyuan Control. Source : https://github.com/IDEA-Research/Grounded-SAM-2
L'extraction multi-sujets utilise Florence2 pour l'annotation de la boîte englobante et Grounded SAM 2 pour la segmentation, suivi du clustering et de la segmentation temporelle des cadres d'entraînement.
Les clips traités sont encore améliorés par annotation, en utilisant un système d'étiquetage structuré propriétaire développé par l'équipe Hunyuan, et qui fournit des métadonnées en couches telles que des descriptions et des indices de mouvement de caméra.
Augmentation du masque des stratégies, y compris la conversion en boîtes englobantes, ont été appliquées pendant la formation pour réduire surajustement et s'assurer que le modèle s'adapte à diverses formes d'objets.
Les données audio ont été synchronisées à l'aide de LatentSync susmentionné et les clips ont été supprimés si les scores de synchronisation tombaient en dessous d'un seuil minimum.
Le cadre d'évaluation de la qualité de l'image à l'aveugle HyperIQA a été utilisé pour exclure les vidéos ayant obtenu un score inférieur à 40 (sur l'échelle sur mesure d'HyperIQA). Les pistes audio valides ont ensuite été traitées avec Whisper pour extraire des fonctionnalités pour les tâches en aval.
Les auteurs intègrent les LLaVA LLaVA est utilisé pour générer des légendes d'images et harmoniser le contenu visuel avec les invites textuelles, favorisant ainsi la construction d'un signal d'apprentissage cohérent entre les différentes modalités.

Le framework HunyuanCustom prend en charge la génération de vidéos cohérentes en termes d'identité, conditionnées par des entrées de texte, d'image, d'audio et de vidéo.
En exploitant les capacités d'alignement vision-langage de LLaVA, le pipeline obtient une couche supplémentaire de cohérence sémantique entre les éléments visuels et leurs descriptions textuelles, particulièrement utile dans les scénarios multi-sujets ou à scènes complexes.
Vidéo personnalisée
Pour permettre la génération de vidéos à partir d'une image de référence et d'une invite, les deux modules centrés autour de LLaVA ont été créés, en adaptant d'abord la structure d'entrée de HunyuanVideo afin qu'il puisse accepter une image avec du texte.
Cela impliquait de formater l'invite de manière à intégrer directement l'image ou à l'étiqueter avec une courte description. Un jeton de séparation a été utilisé pour éviter que l'intégration de l'image ne surcharge le contenu de l'invite.
Étant donné que l'encodeur visuel de LLaVA a tendance à compresser ou à supprimer les détails spatiaux à granularité fine lors de l'alignement des caractéristiques de l'image et du texte (en particulier lors de la traduction d'une image de référence unique en une intégration sémantique générale), un module d'amélioration de l'identité a été incorporé. Étant donné que la quasi-totalité des modèles de diffusion latente vidéo ont du mal à maintenir une identité sans LoRA, même dans un clip de cinq secondes, les performances de ce module lors des tests communautaires pourraient s'avérer significatives.
Dans tous les cas, l'image de référence est ensuite redimensionnée et codée à l'aide du 3D-VAE causal du modèle HunyuanVideo original, et son latent inséré dans la vidéo latente sur l'axe temporel, avec un décalage spatial appliqué pour empêcher que l'image ne soit directement reproduite dans la sortie, tout en guidant la génération.
Le modèle a été formé en utilisant Correspondance de flux, avec des échantillons de bruit tirés d'un logit-normal Distribution – et le réseau a été entraîné à récupérer la vidéo correcte à partir de ces signaux latents bruyants. LLaVA et le générateur vidéo ont été optimisés ensemble afin que l'image et l'invite puissent guider la sortie plus facilement et préserver la cohérence de l'identité du sujet.
Pour les invites multi-sujets, chaque paire image-texte a été intégrée séparément et s'est vu attribuer une position temporelle distincte, permettant de distinguer les identités et de prendre en charge la génération de scènes impliquant plusieurs sujets en interaction.
Son et vision
HunyuanCustom conditionne la génération audio/vocale en utilisant à la fois l'audio saisi par l'utilisateur et une invite textuelle, permettant aux personnages de parler dans des scènes qui reflètent le cadre décrit.
Pour ce faire, un module AudioNet dissocié de l'identité introduit des fonctionnalités audio sans perturber les signaux d'identité intégrés à l'image de référence et à l'invite. Ces fonctionnalités sont alignées sur la timeline vidéo compressée, divisées en segments image par image et injectées à l'aide d'une méthode spatiale. attention croisée mécanisme qui maintient chaque image isolée, préservant la cohérence du sujet et évitant les interférences temporelles.
Un deuxième module d'injection temporelle offre un contrôle plus précis du timing et du mouvement, fonctionnant en tandem avec AudioNet, mappant les caractéristiques audio à des régions spécifiques de la séquence latente et utilisant un Perceptron multicouche (MLP) pour les convertir en jeton par jeton Décalages de mouvement. Cela permet aux gestes et aux mouvements du visage de suivre le rythme et l'accentuation de la parole avec une plus grande précision.
HunyuanCustom permet de modifier directement les sujets des vidéos existantes, en remplaçant ou en insérant des personnes ou des objets dans une scène sans avoir à reconstruire entièrement le clip. Cela est particulièrement utile pour les tâches impliquant des modifications d'apparence ou de mouvement ciblées.
Cliquez pour jouer. Un autre exemple du site supplémentaire.
Pour faciliter le remplacement efficace des sujets dans les vidéos existantes, le nouveau système évite l'approche gourmande en ressources des méthodes récentes telles que la méthode actuellement populaire VACE, ou ceux qui fusionnent des séquences vidéo entières, privilégiant la compression d'une vidéo de référence à l'aide du 3D-VAE causal pré-entraîné, en l'alignant sur les latentes vidéo internes du pipeline de génération, puis en les additionnant. Cela permet de maintenir un processus relativement léger, tout en permettant au contenu vidéo externe de guider la sortie.
Un petit réseau neuronal gère l'alignement entre la vidéo d'entrée propre et les latentes bruitées utilisées lors de la génération. Le système teste deux méthodes pour injecter ces informations : fusionner les deux ensembles de caractéristiques avant de les compresser à nouveau ; et ajouter les caractéristiques image par image. Les auteurs ont constaté que la deuxième méthode est plus efficace et évite les pertes de qualité tout en maintenant la charge de calcul inchangée.
Données et tests
Lors des tests, les mesures utilisées étaient : le module de cohérence d'identité dans ArcFace, qui extrait les incorporations faciales à la fois de l'image de référence et de chaque image de la vidéo générée, puis calcule la similarité cosinus moyenne entre elles ; similarité des sujets, via l'envoi de segments YOLO11x à Dinosaure 2 à titre de comparaison; CLIP-B, alignement texte-vidéo, qui mesure la similarité entre l'invite et la vidéo générée ; CLIP-B à nouveau, pour calculer la similarité entre chaque image et ses images voisines et la première image, ainsi que la cohérence temporelle ; et diplôme dynamique, tel que défini par Banc V.
Comme indiqué précédemment, les principaux concurrents en matière de logiciels libres étaient Hailuo ; Vidu 2.0 ; Kling (1.6) ; et Pika. Les frameworks FOSS concurrents étaient VACE et SkyReels-A2.

Évaluation des performances du modèle comparant HunyuanCustom aux principales méthodes de personnalisation vidéo pour la cohérence des identifiants (Face-Sim), la similarité des sujets (DINO-Sim), l'alignement texte-vidéo (CLIP-BT), la cohérence temporelle (Temp-Consis) et l'intensité du mouvement (DD). Les résultats optimaux et sous-optimaux sont indiqués respectivement en gras et soulignés.
Parmi ces résultats, les auteurs déclarent :
Notre [HunyuanCustom] atteint la meilleure cohérence d'identification et de sujet. Il obtient également des résultats comparables en termes de suivi des invites et de cohérence temporelle. [Hailuo] obtient le meilleur score de clip, car il suit correctement les instructions textuelles avec la seule cohérence d'identification, au détriment de la cohérence des sujets non humains (le pire DINO-Sim). En termes de degré dynamique, [Vidu] et [VACE] sont peu performants, ce qui peut s'expliquer par la petite taille du modèle.
Bien que le site du projet regorge de vidéos comparatives (dont la mise en page semble avoir été conçue pour l'esthétique du site web plutôt que pour faciliter la comparaison), il ne propose pas actuellement d'équivalent vidéo des résultats statiques regroupés dans le PDF, concernant les tests qualitatifs initiaux. Bien que je les inclue ici, j'encourage le lecteur à examiner attentivement les vidéos du site du projet, car elles donnent une meilleure idée des résultats :

Extrait de l'article : une comparaison sur la personnalisation vidéo centrée sur les objets. Bien que le spectateur soit invité (comme toujours) à se référer au PDF source pour une meilleure résolution, les vidéos sur le site du projet pourraient être une ressource plus éclairante dans ce cas.
Les auteurs commentent ici :
« On peut voir que [Vidu], [Skyreels A2] et notre méthode obtiennent des résultats relativement bons en termes d'alignement rapide et de cohérence du sujet, mais notre qualité vidéo est meilleure que celle de Vidu et Skyreels, grâce aux bonnes performances de génération vidéo de notre modèle de base, c'est-à -dire [Hunyuanvideo-13B].
« Parmi les produits commerciaux, bien que [Kling] ait une bonne qualité vidéo, la première image de la vidéo présente un [problème] de copier-coller, et parfois le sujet bouge trop vite et [est flou], ce qui entraîne une mauvaise expérience de visionnage. »
Les auteurs commentent en outre que Pika est peu performant en termes de cohérence temporelle, introduisant des artefacts de sous-titres (effets d'une mauvaise conservation des données, où les éléments de texte dans les clips vidéo ont été autorisés à polluer les concepts de base).
Hailuo préserve l'identité faciale, affirment-ils, mais ne parvient pas à préserver la cohérence corporelle. Parmi les méthodes open source, VACE, affirment les chercheurs, est incapable de maintenir la cohérence de l'identité, tandis que HunyuanCustom produit des vidéos avec une forte préservation de l'identité, tout en préservant qualité et diversité.
Ensuite, des tests ont été effectués pour personnalisation vidéo multi-sujets, contre les mêmes concurrents. Comme dans l'exemple précédent, les résultats PDF aplatis ne sont pas des équivalents papier des vidéos disponibles sur le site du projet, mais sont uniques parmi les résultats présentés :

Comparaisons utilisant des personnalisations vidéo multi-sujets. Veuillez consulter le PDF pour plus de détails et une meilleure résolution.
Le papier déclare:
« [Pika] peut générer les sujets spécifiés, mais présente une instabilité dans les images vidéo, avec des exemples d'un homme disparaissant dans un scénario et d'une femme ne parvenant pas à ouvrir une porte comme demandé. [Vidu] et [VACE] capturent partiellement l'identité humaine, mais perdent des détails importants des objets non humains, ce qui indique une limitation dans la représentation des sujets non humains. »
« [SkyReels A2] subit une grave instabilité d'image, avec des changements notables dans les puces et de nombreux artefacts dans le bon scénario.
« En revanche, notre HunyuanCustom capture efficacement les identités des sujets humains et non humains, génère des vidéos qui adhèrent aux invites données et maintient une qualité visuelle et une stabilité élevées. »
Une autre expérience était la « publicité humaine virtuelle », dans laquelle les frameworks étaient chargés d’intégrer un produit à une personne :

Exemples de placement de produit neuronal issus de la phase de tests qualitatifs. Veuillez consulter le PDF pour plus de détails et une meilleure résolution.
Pour ce tour, les auteurs déclarent :
« Les [résultats] démontrent que HunyuanCustom préserve efficacement l'identité de l'humain tout en préservant les détails du produit cible, y compris le texte qui y figure.
« De plus, l'interaction entre l'humain et le produit semble naturelle et la vidéo adhère étroitement à l'invite donnée, soulignant le potentiel substantiel de HunyuanCustom dans la génération de vidéos publicitaires. »
Un domaine dans lequel les résultats vidéo auraient été très utiles était le tour qualitatif pour la personnalisation du sujet pilotée par l'audio, où le personnage prononce l'audio correspondant à partir d'une scène et d'une posture décrites par un texte.

Résultats partiels pour l'épreuve audio ; des résultats vidéo auraient peut-être été préférables dans ce cas. Seule la moitié supérieure du PDF est reproduite ici, car elle est volumineuse et difficile à intégrer dans cet article. Veuillez vous référer au PDF source pour plus de détails et une meilleure résolution.
Les auteurs affirment :
« Les méthodes d'animation humaine pilotées par l'audio précédentes saisissent une image humaine et un son, où la posture, la tenue et l'environnement humains restent cohérents avec l'image donnée et ne peuvent pas générer de vidéos dans d'autres gestes et environnements, ce qui peut [restreindre] leur application.
« … [Notre] HunyuanCustom permet une personnalisation humaine pilotée par l'audio, où le personnage prononce l'audio correspondant dans une scène et une posture décrites par du texte, permettant une animation humaine pilotée par l'audio plus flexible et contrôlable. »
D'autres tests (veuillez consulter le PDF pour tous les détails) comprenaient un tour opposant le nouveau système à VACE et Kling 1.6 pour le remplacement du sujet vidéo :

Remplacement du sujet de test en mode vidéo. Veuillez consulter le PDF source pour plus de détails et une meilleure résolution.
Parmi ceux-ci, les derniers tests présentés dans le nouvel article, les chercheurs estiment :
« VACE souffre d'artefacts de limite dus au strict respect des masques de saisie, ce qui entraîne des formes de sujet non naturelles et une perturbation de la continuité du mouvement. [Kling], en revanche, présente un effet copier-coller, où les sujets sont directement superposés sur la vidéo, ce qui entraîne une mauvaise intégration avec l'arrière-plan. »
« En comparaison, HunyuanCustom évite efficacement les artefacts de limite, réalise une intégration transparente avec l'arrière-plan vidéo et maintient une forte préservation de l'identité, démontrant ainsi ses performances supérieures dans les tâches de montage vidéo. »
Conclusion
Il s'agit d'une version fascinante, notamment parce qu'elle aborde un sujet dont la scène amateur toujours mécontente se plaint davantage ces derniers temps : le manque de synchronisation labiale, de sorte que le réalisme accru capable de systèmes tels que Hunyuan Video et Wan 2.1 pourrait recevoir une nouvelle dimension d'authenticité.
Bien que la disposition de presque tous les exemples de vidéos comparatives sur le site du projet rende assez difficile la comparaison des capacités de HunyuanCustom avec les concurrents précédents, il faut noter que très, très peu de projets dans l'espace de synthèse vidéo ont le courage de se mesurer à Kling, l'API de diffusion vidéo commerciale qui plane toujours au sommet ou près du sommet des classements ; Tencent semble avoir fait des progrès contre ce titulaire d'une manière assez impressionnante.
* Le problème est que certaines vidéos sont si larges, courtes et en haute résolution qu'elles ne peuvent pas être lues dans les lecteurs vidéo standard tels que VLC ou Windows Media Player, affichant des écrans noirs.
Première publication le jeudi 8 mai 2025












