Anderson's hoek
HunyuanCustom brengt single-image video deepfakes, met audio en lipsynchronisatie

Dit artikel bespreekt een nieuwe versie van een multimodaal Hunyuan Video-wereldmodel, genaamd 'HunyuanCustom'. De brede dekking van het nieuwe artikel, gecombineerd met diverse problemen in veel van de meegeleverde voorbeeldvideo's, project pagina*, beperkt ons tot een meer algemene verslaggeving dan gebruikelijk en tot een beperkte weergave van de enorme hoeveelheid videomateriaal die bij dit persbericht hoort (aangezien veel video's aanzienlijk opnieuw bewerkt en verwerkt moeten worden om de leesbaarheid van de lay-out te verbeteren).
Houd er ook rekening mee dat in dit artikel het API-gebaseerde generatieve systeem Kling wordt aangeduid als 'Keling'. Voor de duidelijkheid gebruik ik hier in plaats daarvan 'Kling'.
Tencent is bezig met het uitbrengen van een nieuwe versie van zijn Hunyuan Videomodel, getiteld HunyuanAangepast. De nieuwe release is blijkbaar in staat om Hunyuan LoRA-modellen overbodig, door de gebruiker toe te staan ​​om 'deepfake'-stijl video-aanpassingen te maken via een single foto:
Klik om te spelen. Opdracht: 'Een man luistert naar muziek en kookt slakkennoedels in de keuken.' De nieuwe methode wordt vergeleken met zowel close-source- als open-sourcemethoden, waaronder Kling, een belangrijke tegenstander in deze branche. Bron: https://hunyuancustom.github.io/ (waarschuwing: CPU-/geheugenintensieve site!)
In de meest linkse kolom van de video hierboven zien we de single source-afbeelding die aan HunyuanCustom is geleverd, gevolgd door de interpretatie van de prompt door het nieuwe systeem in de tweede kolom ernaast. De overige kolommen tonen de resultaten van verschillende bedrijfseigen en FOSS-systemen: Kling; ik snap het; Pika; Hailuo; en de WanGebaseerde SkyReels-A2.
In de onderstaande video zien we renders van drie scenario's die essentieel zijn voor deze release: respectievelijk, persoon + object; emulatie van één tekenund virtueel uitproberen (persoon + kleding):
Klik om te spelenDrie voorbeelden, bewerkt uit het materiaal op de ondersteunende site voor Hunyuan Video.
Uit deze voorbeelden kunnen we een paar dingen opmerken, die vooral te maken hebben met het systeem dat afhankelijk is van een afbeelding uit één bron, in plaats van meerdere afbeeldingen van hetzelfde onderwerp.
In de eerste clip staat de man nog steeds met zijn gezicht naar de camera. Hij buigt zijn hoofd naar beneden en opzij met een rotatie van niet veel meer dan 20-25 graden, maar bij een grotere hoek zou het systeem echt moeten gaan raden hoe hij er in profiel uitziet. Dit is moeilijk, waarschijnlijk onmogelijk, om nauwkeurig in te schatten op basis van een enkele frontale opname.
In het tweede voorbeeld zien we dat het kleine meisje glimlachen in de gerenderde video zoals ze is op de enkele statische bronafbeelding. Nogmaals, met deze ene afbeelding als referentie zou de HunyuanCustom een ​​relatief ongefundeerde gok moeten wagen over hoe haar 'rustende gezicht' eruitziet. Bovendien wijkt haar gezicht niet meer af van de camerastand dan in het vorige voorbeeld ('man die chips eet').
In het laatste voorbeeld zien we dat het bronmateriaal – de vrouw en de kleding die ze moet dragen – geen complete afbeeldingen zijn. Daarom heeft de render het scenario bijgesneden zodat het past. Dat is eigenlijk een goede oplossing voor een dataprobleem!
Het punt is dat hoewel het nieuwe systeem meerdere afbeeldingen kan verwerken (zoals persoon + chipsof persoon + kleding), het laat blijkbaar geen ruimte voor meerdere hoeken of alternatieve perspectieven van een enkel karakter, zodat diverse gezichtsuitdrukkingen of ongebruikelijke hoeken mogelijk zijn. In die zin kan het systeem moeite hebben om het groeiende ecosysteem van LoRA-modellen te vervangen die opgesprongen rond HunyuanVideo sinds de release afgelopen december, omdat deze HunyuanVideo kunnen helpen bij het produceren van consistente karakters vanuit elke hoek en met elke gezichtsuitdrukking die in de trainingsdataset wordt weergegeven (typisch 20-60 afbeeldingen).
Bedraad voor geluid
Voor audio maakt HunyuanCustom gebruik van de LatentSync systeem (dat voor hobbyisten notoir moeilijk is in te stellen en waarmee goede resultaten te behalen zijn) voor het verkrijgen van lipbewegingen die overeenkomen met de audio en tekst die de gebruiker invoert:
Met audio. Klik om af te spelen. Verschillende voorbeelden van lipsynchronisatie van de aanvullende site van HunyuanCustom, gezamenlijk gemonteerd.
Er zijn op het moment van schrijven geen Engelstalige voorbeelden beschikbaar, maar deze lijken behoorlijk goed te zijn, vooral als de methode om ze te maken eenvoudig te installeren en toegankelijk is.
Bestaande video bewerken
Het nieuwe systeem biedt ogenschijnlijk zeer indrukwekkende resultaten voor video-naar-video (V2V, of Vid2Vid) bewerking, waarbij een segment van een bestaande (echte) video wordt gemaskeerd en intelligent wordt vervangen door een onderwerp dat in één referentiebeeld wordt weergegeven. Hieronder vindt u een voorbeeld van de website met aanvullende materialen:
Klik om te spelen. Alleen het centrale object wordt aangepakt, maar wat er omheen overblijft wordt ook aangepast in een HunyuanCustom vid2vid-bewerking.
Zoals we kunnen zien, en zoals standaard is in een vid2vid-scenario, hele video wordt tot op zekere hoogte door het proces gewijzigd, hoewel het meest gewijzigd in het beoogde gebied, d.w.z. het knuffeldier. Vermoedelijk zouden pijpleidingen ontwikkeld kunnen worden om dergelijke transformaties te creëren onder een afvalmat Een aanpak die het merendeel van de videocontent identiek laat aan het origineel. Dit is wat Adobe Firefly onder de motorkap doet, en behoorlijk goed ook – maar het is een onderbelicht proces in de FOSS-generatiescene.
Dat gezegd hebbende, zijn de meeste alternatieve voorbeelden beter toegesneden op deze integraties, zoals u kunt zien in de onderstaande compilatie:
Klik om te spelen. Diverse voorbeelden van ingevoegde inhoud met behulp van vid2vid in HunyuanCustom, waarbij opmerkelijk respect voor het niet-gerichte materiaal wordt getoond.
Een nieuw begin?
Dit initiatief is een ontwikkeling van de Hunyuan Videoproject, geen harde wending weg van die ontwikkelingsstroom. De verbeteringen van het project worden geĂŻntroduceerd als afzonderlijke architecturale invoegingen in plaats van ingrijpende structurele wijzigingen, met als doel het model de identiteitsgetrouwheid over frames heen te laten behouden zonder afhankelijk te zijn van vakspecifiek scherpstellen, zoals bij LoRA of tekstuele inversiebenaderingen.
Om het duidelijk te maken: HunyuanCustom is niet vanaf nul opgebouwd, maar is een verdere verfijning van het HunyuanVideo basismodel van december 2024.
Degenen die HunyuanVideo LoRAs hebben ontwikkeld, vragen zich misschien af ​​of ze nog steeds met deze nieuwe editie zullen werken, of dat ze het LoRA-wiel opnieuw zullen moeten uitvinden nogmaals als ze meer aanpassingsmogelijkheden willen dan in deze nieuwe versie zijn ingebouwd.
Over het algemeen verandert een sterk verfijnde release van een hyperschaalmodel de modelgewichten genoeg om ervoor te zorgen dat de LoRA's die voor het eerdere model zijn ontwikkeld, niet goed of helemaal niet werken met het nieuwe, verbeterde model.
Soms kan de populariteit van een fine-tune echter de oorsprong ervan in twijfel trekken: een voorbeeld van een fine-tune die een effectieve vork, met een toegewijd ecosysteem en eigen volgers, is de Pony Diffusie afstemming van Stabiele diffusie XL (SDXL). Pony heeft momenteel meer dan 592,000 downloads op de steeds veranderend CivitAI-domein, met een groot aantal LoRA's die Pony (en niet SDXL) als basismodel hebben gebruikt en die Pony nodig hebben op het moment van de inferentie.
Het loslaten van
Ocuco's Medewerkers project pagina voor de nieuw papier (die getiteld is HunyuanCustom: een multimodaal gestuurde architectuur voor aangepaste videogeneratie) bevat links naar een GitHub-site dat, terwijl ik dit schrijf, net functioneel is geworden en alle code en benodigde gewichten voor lokale implementatie lijkt te bevatten, samen met een voorgesteld tijdschema (het enige belangrijke dat nog moet komen is de integratie met ComfyUI).
Op het moment van schrijven is het project Knuffelende gezichtsaanwezigheid is nog steeds een 404. Er is echter een API-gebaseerde versie waar je het systeem kunt demonstreren, zolang je een WeChat-scancode kunt overleggen.
Zelden heb ik zo'n uitgebreid en uitgebreid gebruik van zo'n grote verscheidenheid aan projecten in één assemblage gezien, zoals blijkt uit HunyuanCustom – en vermoedelijk zouden sommige van de licenties in ieder geval een volledige release noodzakelijk maken.
Op de GitHub-pagina worden twee modellen aangekondigd: een 720px-1280px-versie die 8 GB GPU-piekgeheugen vereist, en een 512px-896px-versie die 60 GB GPU-piekgeheugen vereist.
De repositorystaten 'Het minimaal vereiste GPU-geheugen is 24 GB voor 720px1280px129f, maar dit is erg traag. We raden aan een GPU met 80 GB geheugen te gebruiken voor een betere generatiekwaliteit.' – en herhaalt dat het systeem tot nu toe alleen op Linux is getest.
Het eerdere Hunyuan Video-model is sinds de officiële release gekwantiseerd tot formaten waarbij het op minder dan 24 GB VRAM kan worden uitgevoerd. Het lijkt redelijk om aan te nemen dat het nieuwe model door de community eveneens zal worden aangepast naar meer gebruiksvriendelijke vormen en dat het snel ook geschikt zal zijn voor gebruik op Windows-systemen.
Vanwege tijdsgebrek en de overweldigende hoeveelheid informatie die bij deze release hoort, kunnen we deze release slechts uitgebreider dan diepgaand bekijken. Toch willen we HunyuanCustom even onder de loep nemen.
Een blik op het papier
De datapijplijn voor HunyuanCustom, blijkbaar in overeenstemming met de GDPR framework, omvat zowel gesynthetiseerde als open-source videodatasets, inclusief OpenHumanVid, met acht vertegenwoordigde kerncategorieën: mensen, dieren, planten, landschappen, voertuigen, objecten, architectuuren anime.

In het releasepaper vindt u een overzicht van de verschillende bijdragende pakketten in de HunyuanCustom-pijplijn voor gegevensconstructie. Bron: https://arxiv.org/pdf/2505.04512
De eerste filtering begint met PySceneDetect, waarmee video's in afzonderlijke clips worden opgedeeld. TextBPN-Plus-Plus wordt vervolgens gebruikt om video's te verwijderen die overmatig veel tekst, ondertitels, watermerken of logo's op het scherm bevatten.
Om inconsistenties in resolutie en duur aan te pakken, worden clips gestandaardiseerd tot vijf seconden lang en verkleind tot 512 of 720 pixels aan de korte kant. Esthetische filtering wordt uitgevoerd met Koala-36M, met een aangepaste drempelwaarde van 0.06 die werd toegepast op de aangepaste dataset die werd samengesteld door de onderzoekers van het nieuwe artikel.
Het onderwerp-extractieproces combineert de Qwen7B Groot Taalmodel (LLM), de YOLO11X objectherkenningsframework en de populaire InzichtGezicht architectuur, om menselijke identiteiten te identificeren en valideren.
Voor niet-menselijke proefpersonen, QwenVL en Geaarde SAM 2 worden gebruikt om relevante omkaderingsvakken te extraheren, die worden verwijderd als ze te klein zijn.

Voorbeelden van semantische segmentatie met Grounded SAM 2, gebruikt in het Hunyuan Control-project. Bron: https://github.com/IDEA-Research/Grounded-SAM-2
Multi-onderwerp extractie maakt gebruik van Firenze2 voor de annotatie van de begrenzende doos en Grounded SAM 2 voor segmentatie, gevolgd door clustering en temporele segmentatie van trainingsframes.
De verwerkte clips worden verder verbeterd via annotatie, waarbij gebruik wordt gemaakt van een eigen gestructureerd labelsysteem dat is ontwikkeld door het Hunyuan-team. Dit systeem levert gelaagde metadata, zoals beschrijvingen en signalen voor camerabewegingen.
Maskervergroting Tijdens de training werden strategieën toegepast, waaronder de omzetting naar omsluitende vakken, om de kans op overfitting en ervoor zorgen dat het model zich aanpast aan verschillende objectvormen.
Audiogegevens werden gesynchroniseerd met behulp van de eerder genoemde LatentSync en clips werden verwijderd als de synchronisatiescores onder een minimumdrempel kwamen.
Het blinde kader voor de beoordeling van de beeldkwaliteit HyperIQA werd gebruikt om video's met een score onder de 40 (op de op maat gemaakte schaal van HyperIQA) uit te sluiten. Geldige audiotracks werden vervolgens verwerkt met Fluisteren om kenmerken voor downstream-taken te extraheren.
De auteurs nemen de LLaVA Taalassistentmodel tijdens de annotatiefase, en ze benadrukken de centrale positie die dit raamwerk inneemt in HunyuanCustom. LLaVA wordt gebruikt om bijschriften bij afbeeldingen te genereren en te helpen bij het afstemmen van visuele content op tekstprompts, ter ondersteuning van de constructie van een coherent trainingssignaal over modaliteiten heen:

Het HunyuanCustom-framework ondersteunt identiteitsconsistente videogeneratie op basis van tekst-, beeld-, audio- en video-invoer.
Door de mogelijkheden van LLaVA op het gebied van uitlijning van beeld en taal te benutten, krijgt de pijplijn een extra laag semantische consistentie tussen visuele elementen en hun tekstuele beschrijvingen – dit is vooral waardevol in scenario's met meerdere onderwerpen of complexe scènes.
Aangepaste video
Om videogeneratie op basis van een referentieafbeelding en een prompt mogelijk te maken, werden de twee modules rondom LLaVA gecreëerd. Eerst werd de invoerstructuur van HunyuanVideo aangepast, zodat deze een afbeelding samen met tekst kon accepteren.
Dit betekende dat de prompt zo moest worden opgemaakt dat de afbeelding direct werd ingesloten of werd voorzien van een korte identiteitsbeschrijving. Er werd een scheidingstoken gebruikt om te voorkomen dat de ingesloten afbeelding de promptinhoud zou overschaduwen.
Omdat de visuele encoder van LLaVA de neiging heeft om fijnkorrelige ruimtelijke details te comprimeren of weg te gooien tijdens de uitlijning van beeld- en tekstkenmerken (vooral bij het vertalen van een enkele referentieafbeelding naar een algemene semantische inbedding), identiteitsverbeteringsmodule werd opgenomen. Aangezien bijna alle video-latente diffusiemodellen moeite hebben met het behouden van een identiteit zonder LoRA, zelfs in een clip van vijf seconden, kunnen de prestaties van deze module in communitytests van belang blijken.
In ieder geval wordt het referentiebeeld vervolgens van formaat veranderd en gecodeerd met behulp van de causale 3D-VAE van het originele HunyuanVideo-model, en zijn latent ingevoegd in de video latent over de tijdsas, waarbij een ruimtelijke offset wordt toegepast om te voorkomen dat het beeld rechtstreeks in de uitvoer wordt gereproduceerd, terwijl het genereren nog steeds wordt geleid.
Het model werd getraind met behulp van Stroommatching, met ruismonsters afkomstig van een logit-normaal distributie – en het netwerk werd getraind om de juiste video uit deze ruisende latenten te halen. LLaVA en de videogenerator werden samen verfijnd, zodat de afbeelding en de prompt de uitvoer vloeiender konden sturen en de identiteit van het onderwerp consistent konden houden.
Voor multi-onderwerp prompts werd elk beeld-tekstpaar apart ingebed en toegewezen aan een aparte temporele positie, waardoor identiteiten konden worden onderscheiden en de generatie van scènes met meerdere onderwerpen werd ondersteund. meervoudig interacterende onderwerpen.
Beeld en geluid
HunyuanCustom bepaalt de generatie van audio/spraak met behulp van zowel audio-invoer van de gebruiker als een tekstprompt, waardoor personages kunnen spreken in scènes die de beschreven setting weerspiegelen.
Om dit te ondersteunen, introduceert een Identity-disentangled AudioNet-module audiofuncties zonder de identiteitssignalen van de referentie-afbeelding en prompt te verstoren. Deze functies zijn afgestemd op de gecomprimeerde videotijdlijn, verdeeld in segmenten op frameniveau en geĂŻnjecteerd met behulp van een ruimtelijke kruis-aandacht Een mechanisme dat elk frame geĂŻsoleerd houdt, waardoor de consistentie van het onderwerp behouden blijft en temporele interferentie wordt vermeden.
Een tweede temporele injectiemodule biedt een nauwkeurigere controle over timing en beweging, werkt samen met AudioNet, brengt audiokenmerken in kaart aan specifieke regio's van de latente sequentie en gebruikt een Meerlaagse Perceptron (MLP) om ze om te zetten in token-gewijs Bewegingscompensatie. Hierdoor kunnen gebaren en gezichtsbewegingen het ritme en de nadruk van de gesproken invoer nauwkeuriger volgen.
Met HunyuanCustom kunnen onderwerpen in bestaande video's direct worden bewerkt, waarbij mensen of objecten in een scène kunnen worden vervangen of toegevoegd zonder de hele clip helemaal opnieuw te hoeven bouwen. Dit maakt het handig voor taken waarbij het uiterlijk of de beweging gericht moeten worden aangepast.
Klik om te spelen. Nog een voorbeeld van de aanvullende site.
Om efficiënte onderwerpvervanging in bestaande video's te vergemakkelijken, vermijdt het nieuwe systeem de resource-intensieve aanpak van recente methoden zoals de momenteel populaire VACE, of die hele videosequenties samenvoegen, waarbij in plaats daarvan de compressie van een referentievideo met behulp van de voorgeprogrammeerde causale 3D-VAE wordt bevorderd – door deze af te stemmen op de interne videolatenten van de generatiepijplijn, en deze vervolgens samen te voegen. Dit houdt het proces relatief licht, terwijl externe videocontent toch de output kan sturen.
Een klein neuraal netwerk zorgt voor de uitlijning tussen de schone invoervideo en de ruisende latenten die bij de generatie worden gebruikt. Het systeem test twee manieren om deze informatie te injecteren: het samenvoegen van de twee sets kenmerken voordat ze opnieuw worden gecomprimeerd; en het frame voor frame toevoegen van de kenmerken. De tweede methode werkt beter, zo ontdekten de auteurs, en voorkomt kwaliteitsverlies terwijl de rekenkracht ongewijzigd blijft.
Gegevens en testen
Bij tests werden de volgende meetgegevens gebruikt: de identiteitsconsistentiemodule in ArcFace, die gezichtsinsluitingen uit zowel de referentieafbeelding als elk frame van de gegenereerde video extraheert en vervolgens de gemiddelde cosinusgelijkenis tussen hen berekent; onderwerpsgelijkenis, door YOLO11x-segmenten te verzenden naar Dino 2 ter vergelijking; CLIP-B, tekst-video-uitlijning, die de gelijkenis meet tussen de prompt en de gegenereerde video; CLIP-B om opnieuw de gelijkenis te berekenen tussen elk frame en zowel de aangrenzende frames als het eerste frame, evenals de temporele consistentie; en dynamische graad, zoals gedefinieerd door VBench.
Zoals eerder aangegeven, waren de belangrijkste closed source-concurrenten Hailuo, Vidu 2.0, Kling (1.6) en Pika. De concurrerende FOSS-frameworks waren VACE en SkyReels-A2.

Evaluatie van de modelprestaties waarbij HunyuanCustom wordt vergeleken met toonaangevende methoden voor video-aanpassing op het gebied van ID-consistentie (Face-Sim), onderwerpsgelijkenis (DINO-Sim), tekst-video-uitlijning (CLIP-BT), temporele consistentie (Temp-Consis) en bewegingsintensiteit (DD). Optimale en suboptimale resultaten worden respectievelijk vetgedrukt en onderstreept weergegeven.
Over deze resultaten stellen de auteurs:
'Onze [HunyuanCustom] behaalt de beste ID-consistentie en onderwerpsconsistentie. Hij behaalt ook vergelijkbare resultaten wat betreft prompt-following en temporele consistentie. [Hailuo] heeft de beste clipscore omdat hij tekstinstructies goed kan volgen met alleen ID-consistentie, waardoor de consistentie van niet-menselijke proefpersonen (de slechtste DINO-Sim) verloren gaat. Qua dynamische graad presteren [Vidu] en [VACE] slecht, wat mogelijk te wijten is aan de kleine omvang van het model.'
Hoewel de projectwebsite vol staat met vergelijkende video's (waarvan de lay-out eerder lijkt te zijn ontworpen voor website-esthetiek dan voor eenvoudige vergelijking), bevat deze momenteel geen video-equivalent van de statische resultaten die samengeperst zijn in de pdf, met betrekking tot de initiële kwalitatieve tests. Hoewel ik het hier opneem, raad ik de lezer aan de video's op de projectwebsite goed te bekijken, aangezien deze een betere indruk geven van de resultaten:

Uit het artikel, een vergelijking over objectgerichte video-aanpassing. Hoewel de kijker (zoals altijd) de bron-pdf moet raadplegen voor een betere resolutie, kunnen de video's op de projectwebsite in dit geval een verhelderendere bron zijn.
De auteurs geven hier commentaar:
'Het is te zien dat [Vidu], [Skyreels A2] en onze methode relatief goede resultaten behalen wat betreft snelle uitlijning en onderwerpconsistentie, maar onze videokwaliteit is beter dan die van Vidu en Skyreels, dankzij de goede videogeneratieprestaties van ons basismodel, d.w.z. [Hunyuanvideo-13B].
'Bij commerciële producten heeft [Kling] weliswaar een goede videokwaliteit, maar het eerste frame van de video heeft een [kopieer-plak]-probleem en soms beweegt het onderwerp te snel en [wordt het beeld wazig], wat leidt tot een slechte kijkervaring.'
De auteurs merken verder op dat Pika slecht presteert op het gebied van tijdsconsistentie, waardoor er ondertitelartefacten ontstaan ​​(gevolgen van slechte datacuratie, waarbij tekstelementen in videoclips de kernconcepten vervuilen).
Hailuo behoudt de gezichtsidentiteit, stellen ze, maar slaagt er niet in de consistentie van het hele lichaam te behouden. Van alle open-sourcemethoden is VACE, zo stellen de onderzoekers, niet in staat de identiteitsconsistentie te behouden, terwijl HunyuanCustom video's produceert met sterk identiteitsbehoud, terwijl kwaliteit en diversiteit behouden blijven.
Vervolgens werden er testen uitgevoerd voor multi-onderwerp video-aanpassing, tegen dezelfde concurrenten. Net als in het vorige voorbeeld zijn de afgevlakte PDF-resultaten geen gedrukte equivalenten van video's die beschikbaar zijn op de projectwebsite, maar zijn ze uniek binnen de gepresenteerde resultaten:

Vergelijkingen met behulp van video-aanpassingen voor meerdere onderwerpen. Zie de PDF voor meer details en resolutie.
In de krant staat:
'[Pika] kan de gespecificeerde onderwerpen genereren, maar vertoont instabiliteit in videoframes, met voorbeelden van een man die in één scenario verdwijnt en een vrouw die er niet in slaagt een deur te openen zoals gevraagd. [Vidu] en [VACE] leggen de menselijke identiteit gedeeltelijk vast, maar verliezen belangrijke details van niet-menselijke objecten, wat wijst op een beperking bij het weergeven van niet-menselijke onderwerpen.
'[SkyReels A2] ervaart ernstige frame-instabiliteit, met merkbare veranderingen in chips en talrijke artefacten in het juiste scenario.
'Onze HunyuanCustom daarentegen legt effectief de identiteit van zowel menselijke als niet-menselijke onderwerpen vast, genereert video's die voldoen aan de gegeven prompts en behoudt een hoge visuele kwaliteit en stabiliteit.'
Een ander experiment was 'virtuele menselijke reclame', waarbij de raamwerken de taak hadden om een ​​product met een persoon te integreren:

Voorbeelden van neurale 'product placement' uit de kwalitatieve testronde. Zie de PDF voor meer details en resolutie.
Voor deze ronde stellen de auteurs:
'De [resultaten] tonen aan dat HunyuanCustom de identiteit van de mens effectief behoudt, terwijl de details van het doelproduct, inclusief de tekst erop, bewaard blijven.
'Bovendien lijkt de interactie tussen de mens en het product natuurlijk en sluit de video nauw aan bij de gegeven opdracht. Dit onderstreept het aanzienlijke potentieel van HunyuanCustom bij het maken van reclamevideo's.'
Eén gebied waarbij videoresultaten erg nuttig zouden zijn geweest, was de kwalitatieve ronde voor audiogestuurde aanpassing van het onderwerp, waarbij het personage de bijbehorende audio uitspreekt vanuit een scène en houding die met tekst wordt beschreven.

Gedeeltelijke resultaten voor de audioronde – hoewel videoresultaten in dit geval wellicht beter waren geweest. Alleen de bovenste helft van de PDF-afbeelding wordt hier weergegeven, omdat deze groot is en moeilijk in dit artikel te plaatsen. Raadpleeg de bron-PDF voor meer details en een betere resolutie.
De auteurs beweren:
'Eerdere audiogestuurde methoden voor menselijke animatie gebruiken een afbeelding van een mens en audio als invoer, waarbij de menselijke houding, kleding en omgeving consistent blijven met de gegeven afbeelding. Ze kunnen geen video's genereren in andere gebaren en omgevingen, wat hun toepassing kan beperken.
'…[Onze] HunyuanCustom maakt audiogestuurde menselijke aanpassingen mogelijk, waarbij het personage de bijbehorende audio uitspreekt in een tekstbeschreven scène en houding, wat zorgt voor flexibeler en beter controleerbare audiogestuurde menselijke animatie.'
Verdere tests (zie PDF voor alle details) omvatten een ronde waarin het nieuwe systeem werd ingezet tegen VACE en Kling 1.6 voor het vervangen van video-onderwerpen:

Vervanging van proefpersonen in video-naar-video-modus. Raadpleeg de bron-pdf voor meer details en resolutie.
Van deze laatste tests die in het nieuwe artikel worden gepresenteerd, zijn de onderzoekers van mening dat:
'VACE heeft last van grensartefacten als gevolg van strikte naleving van de invoermaskers, wat resulteert in onnatuurlijke onderwerpvormen en verstoorde bewegingscontinuĂŻteit. [Kling] daarentegen vertoont een kopieer-plak-effect, waarbij onderwerpen direct over de video worden gelegd, wat leidt tot een slechte integratie met de achtergrond.
'Ter vergelijking: HunyuanCustom vermijdt effectief grensartefacten, realiseert naadloze integratie met de video-achtergrond en behoudt een sterk identiteitsbehoud. Dit toont de superieure prestaties bij videobewerkingstaken aan.'
Conclusie
Dit is een fascinerende release, niet in de laatste plaats omdat het iets aanpakt waar de steeds ontevredener hobbyistenscene de laatste tijd steeds meer over klaagt: het ontbreken van lipsynchronisatie, waardoor het toegenomen realisme in systemen als Hunyuan Video en Wan 2.1 een nieuwe dimensie van authenticiteit krijgt.
Hoewel de lay-out van bijna alle vergelijkende videovoorbeelden op de projectwebsite het lastig maakt om de mogelijkheden van HunyuanCustom te vergelijken met die van eerdere concurrenten, moet worden opgemerkt dat maar heel weinig projecten in de videosynthesesector de moed hebben om zichzelf te meten met Kling, de commerciële API voor videodiffusie die altijd bovenaan of bijna bovenaan de ranglijsten staat. Tencent lijkt op indrukwekkende wijze vooruitgang te hebben geboekt ten opzichte van deze gevestigde speler.
* Het probleem is dat sommige video's zo breed, kort en van zo'n hoge resolutie zijn dat ze niet afgespeeld kunnen worden in standaard videospelers als VLC of Windows Media Player. In plaats daarvan worden zwarte schermen weergegeven.
Eerste publicatie donderdag 8 mei 2025