stomp MagicDance: realistische videogeneratie voor menselijke dans - Unite.AI
Verbind je met ons

Artificial Intelligence

MagicDance: het genereren van realistische menselijke dansvideo's

mm

gepubliceerd

 on

MagicDance: het genereren van realistische menselijke dansvideo's

Computervisie is een van de meest besproken vakgebieden in de AI-industrie, dankzij de potentiële toepassingen ervan voor een breed scala aan realtime taken. De afgelopen jaren zijn de computer vision-frameworks snel vooruitgegaan, waarbij moderne modellen nu gezichtskenmerken, objecten en nog veel meer in realtime scenario's kunnen analyseren. Ondanks deze mogelijkheden blijft de overdracht van menselijke bewegingen een enorme uitdaging voor computer vision-modellen. Deze taak omvat het opnieuw richten van gezichts- en lichaamsbewegingen van een bronafbeelding of -video naar een doelafbeelding of -video. Overdracht van menselijke bewegingen wordt veel gebruikt in computer vision-modellen voor het stylen van afbeeldingen of video's, het bewerken van multimedia-inhoud, digitale menselijke synthese en zelfs het genereren van gegevens voor op perceptie gebaseerde raamwerken.

In dit artikel concentreren we ons op MagicDance, een op diffusie gebaseerd model dat is ontworpen om een ​​revolutie teweeg te brengen in de overdracht van menselijke bewegingen. Het MagicDance-framework is specifiek bedoeld om 2D menselijke gezichtsuitdrukkingen en bewegingen over te brengen naar uitdagende menselijke dansvideo's. Het doel is om nieuwe, op posesequenties gebaseerde dansvideo's te genereren voor specifieke doelidentiteiten, terwijl de oorspronkelijke identiteit behouden blijft. Het MagicDance-framework maakt gebruik van een trainingsstrategie in twee fasen, waarbij de nadruk ligt op het ontwarren van menselijke bewegingen en uiterlijke factoren zoals huidskleur, gezichtsuitdrukkingen en kleding. We zullen ons verdiepen in het MagicDance-framework en de architectuur, functionaliteit en prestaties ervan onderzoeken in vergelijking met andere ultramoderne raamwerken voor menselijke bewegingsoverdracht. Laten we erin duiken.

MagicDance: realistische overdracht van menselijke bewegingen

Zoals eerder vermeld is de overdracht van menselijke bewegingen een van de meest complexe computer vision-taken vanwege de enorme complexiteit die gepaard gaat met het overbrengen van menselijke bewegingen en uitdrukkingen van de bronafbeelding of -video naar de doelafbeelding of -video. Traditioneel hebben computer vision-frameworks menselijke bewegingsoverdracht bereikt door een taakspecifiek generatief model te trainen, waaronder GAN of Generatieve tegengestelde netwerken op doeldatasets voor gezichtsuitdrukkingen en lichaamshoudingen. Hoewel training en het gebruik van generatieve modellen in sommige gevallen bevredigende resultaten opleveren, hebben ze meestal twee belangrijke beperkingen. 

  1. Ze zijn sterk afhankelijk van een beeldvervormingscomponent, waardoor ze vaak moeite hebben met het interpoleren van lichaamsdelen die onzichtbaar zijn in het bronbeeld, hetzij als gevolg van een verandering in perspectief of zelfocclusie. 
  2. Ze kunnen niet generaliseren naar andere afbeeldingen van buitenaf, wat hun toepassingen beperkt, vooral in realtime scenario's in het wild. 

Moderne diffusiemodellen hebben uitzonderlijke mogelijkheden voor het genereren van beelden onder verschillende omstandigheden aangetoond, en diffusiemodellen zijn nu in staat krachtige beelden te presenteren voor een reeks stroomafwaartse taken, zoals het genereren van video's en het inkleuren van afbeeldingen, door te leren van beelddatasets op webschaal. Vanwege hun mogelijkheden kunnen diffusiemodellen een ideale keuze zijn voor taken voor menselijke bewegingsoverdracht. Hoewel diffusiemodellen kunnen worden geïmplementeerd voor de overdracht van menselijke bewegingen, heeft het enkele beperkingen in termen van de kwaliteit van de gegenereerde inhoud, of in termen van identiteitsbehoud of lijden onder temporele inconsistenties als gevolg van modelontwerp en beperkingen van de trainingsstrategie. Bovendien laten op diffusie gebaseerde modellen geen significant voordeel zien ten opzichte van GAN-frameworks in termen van generaliseerbaarheid. 

Om de hindernissen te overwinnen waarmee diffusie en op GAN gebaseerde raamwerken voor menselijke bewegingsoverdrachtstaken worden geconfronteerd, hebben ontwikkelaars MagicDance geïntroduceerd, een nieuw raamwerk dat tot doel heeft het potentieel van diffusieraamwerken voor menselijke bewegingsoverdracht te benutten, wat een ongekend niveau van identiteitsbehoud en superieure visuele kwaliteit demonstreert. en domeingeneraliseerbaarheid. In de kern is het fundamentele concept van het MagicDance-framework het opsplitsen van het probleem in twee fasen: uiterlijkcontrole en bewegingscontrole, twee mogelijkheden die vereist zijn voor beeldverspreidingsframeworks om nauwkeurige bewegingsoverdrachtsresultaten te leveren. 

De bovenstaande afbeelding geeft een kort overzicht van het MagicDance-framework, en zoals je kunt zien, maakt het framework gebruik van het Stabiel diffusiemodel, en zet ook twee extra componenten in: Appearance Control Model en Pose ControlNet, waarbij de eerste uiterlijkbegeleiding biedt aan het SD-model vanuit een referentiebeeld via aandacht, terwijl de laatste expressie/pose-begeleiding biedt aan het diffusiemodel vanuit een geconditioneerde afbeelding of video. Het raamwerk maakt ook gebruik van een meerfasige trainingsstrategie om deze submodules effectief te leren en posecontrole en uiterlijk te ontwarren. 

Samenvattend is het MagicDance-framework een

  1. Een nieuw en effectief raamwerk dat bestaat uit uiterlijk-ontwarde posecontrole en voortraining over uiterlijkcontrole.  
  2. Het MagicDance-framework is in staat realistische menselijke gezichtsuitdrukkingen en menselijke bewegingen te genereren onder controle van pose-conditie-invoer en referentiebeelden of video's. 
  3. Het MagicDance-framework heeft tot doel uiterlijkconsistente menselijke inhoud te genereren door de introductie van een Multi-Source Attention Module die nauwkeurige begeleiding biedt voor het Stable Diffusion UNet-framework. 
  4. Het MagicDance-framework kan ook worden gebruikt als een handige uitbreiding of plug-in voor het Stable Diffusion-framework, en zorgt ook voor compatibiliteit met bestaande modelgewichten omdat er geen extra fijnafstemming van de parameters nodig is. 

Bovendien vertoont het MagicDance-framework uitzonderlijke generalisatiemogelijkheden voor zowel uiterlijke als bewegingsgeneralisatie. 

  1. Uiterlijk-generalisatie: Het MagicDance-framework demonstreert superieure mogelijkheden als het gaat om het genereren van diverse verschijningsvormen. 
  2. Bewegingsgeneralisatie: Het MagicDance-framework heeft ook de mogelijkheid om een ​​breed scala aan bewegingen te genereren. 

MagicDance: doelstellingen en architectuur

Voor een gegeven referentiebeeld, van een echt mens of een gestileerd beeld, is het primaire doel van het MagicDance-framework het genereren van een uitvoerbeeld of een uitvoervideo, afhankelijk van de invoer en de pose-invoer {P, F} waarbij P de menselijke pose vertegenwoordigt skelet en F vertegenwoordigt de gezichtsoriëntatiepunten. Het gegenereerde uitvoerbeeld of de gegenereerde video moet het uiterlijk en de identiteit van de betrokken mensen kunnen behouden, samen met de achtergrondinhoud die aanwezig is in het referentiebeeld, terwijl de pose en uitdrukkingen behouden blijven die door de pose-invoer worden gedefinieerd. 

Architectuur

Tijdens de training wordt het MagicDance-framework getraind als een frame-reconstructietaak om de grondwaarheid te reconstrueren met het referentiebeeld en pose-invoer afkomstig van dezelfde referentievideo. Tijdens het testen om bewegingsoverdracht te bereiken, zijn de pose-invoer en het referentiebeeld afkomstig van verschillende bronnen. 

De algehele architectuur van het MagicDance-framework kan worden opgesplitst in vier categorieën: voorbereidende fase, voortraining van uiterlijke controle, uiterlijke ontwarde posecontrole en bewegingsmodule. 

Voortraject

Latent Diffusion Models of LDM vertegenwoordigen uniek ontworpen diffusiemodellen om binnen de latente ruimte te werken, mogelijk gemaakt door het gebruik van een autoencoder, en het Stable Diffusion-framework is een opmerkelijk voorbeeld van LDM's dat gebruik maakt van een Vector Quantized-Variational AutoEncoder en tijdelijke U-Net-architectuur. Het Stable Diffusion-model maakt gebruik van een op CLIP gebaseerde transformator als tekstencoder om tekstinvoer te verwerken door tekstinvoer om te zetten in insluitingen. De trainingsfase van het Stable Diffusion-framework stelt het model bloot aan een tekstvoorwaarde en een invoerafbeelding, waarbij het proces de codering van de afbeelding naar een latente representatie omvat, en onderwerpt deze aan een vooraf gedefinieerde reeks diffusiestappen, geregisseerd door een Gaussiaanse methode. De resulterende reeks levert een latente representatie met ruis op die een standaard normale verdeling biedt, waarbij het primaire leerdoel van het Stable Diffusion-framework het iteratief deruis van de latente representaties met ruis in latente representaties is. 

Uiterlijkcontrole Voortraining

Een groot probleem met het originele ControlNet-framework is het onvermogen om het uiterlijk tussen ruimtelijk variërende bewegingen consistent te controleren, hoewel het de neiging heeft om afbeeldingen te genereren met poses die sterk lijken op die in het invoerbeeld, waarbij het algehele uiterlijk voornamelijk wordt beïnvloed door tekstuele invoer. Hoewel deze methode werkt, is deze niet geschikt voor bewegingsoverdracht waarbij taken betrokken zijn waarbij het niet de tekstuele invoer is, maar het referentiebeeld dat als primaire bron voor uiterlijkinformatie dient. 

De Appearance Control Pre-trainingsmodule in het MagicDance-framework is ontworpen als een aanvullende tak om begeleiding te bieden voor uiterlijkcontrole in een laag-voor-laag-aanpak. In plaats van te vertrouwen op tekstinvoer, richt de algemene module zich op het benutten van de uiterlijkkenmerken van het referentiebeeld met als doel het vermogen van het raamwerk om de uiterlijkkenmerken nauwkeurig te genereren te verbeteren, vooral in scenario's met complexe bewegingsdynamiek. Bovendien is alleen het uiterlijkcontrolemodel trainbaar tijdens de voortraining van uiterlijkcontrole. 

Uiterlijk ontwarde houdingscontrole

Een naïeve oplossing om de pose in het uitvoerbeeld te controleren, is om het vooraf getrainde ControlNet-model rechtstreeks te integreren met het vooraf getrainde Appearance Control Model, zonder fijnafstemming. De integratie kan er echter toe leiden dat het raamwerk worstelt met uiterlijkonafhankelijke posecontrole, wat kan leiden tot een discrepantie tussen de invoerposes en de gegenereerde poses. Om deze discrepantie aan te pakken, verfijnt het MagicDance-framework het Pose ControlNet-model samen met het vooraf getrainde Appearance Control-model. 

Bewegingsmodule

Wanneer ze samenwerken, kunnen het Appearance-disentangled Pose ControlNet en het Appearance Control Model een nauwkeurige en effectieve beeld-naar-bewegingsoverdracht bereiken, hoewel dit kan resulteren in tijdelijke inconsistentie. Om temporele consistentie te garanderen, integreert het raamwerk een extra bewegingsmodule in de primaire Stable Diffusion UNet-architectuur. 

MagicDance: pre-training en datasets

Voor pre-training maakt het MagicDance-framework gebruik van een TikTok-dataset die bestaat uit meer dan 350 dansvideo's met verschillende lengtes tussen 10 en 15 seconden, waarbij een enkele persoon wordt vastgelegd die danst, waarbij de meeste van deze video's het gezicht en het bovenlichaam van de persoon bevatten. de mens. Het MagicDance-framework extraheert elke individuele video met 30 FPS en voert OpenPose op elk frame afzonderlijk uit om het pose-skelet, de handposities en gezichtsoriëntatiepunten af ​​te leiden. 

Voor pre-training is het uiterlijkcontrolemodel vooraf getraind met een batchgrootte van 64 op 8 NVIDIA A100 GPU's voor 10 stappen met een beeldgrootte van 512 x 512, gevolgd door het gezamenlijk verfijnen van de posecontrole- en uiterlijkcontrolemodellen met een batchgrootte van 16 voor 20 stappen. Tijdens de training bemonstert het MagicDance-framework willekeurig twee frames als respectievelijk het doel en de referentie, waarbij de afbeeldingen op dezelfde positie en op dezelfde hoogte worden bijgesneden. Tijdens de evaluatie snijdt het model de afbeelding centraal bij in plaats van deze willekeurig bij te snijden. 

MagicDance: Resultaten

De experimentele resultaten die zijn uitgevoerd met het MagicDance-framework worden gedemonstreerd in de volgende afbeelding, en zoals je kunt zien presteert het MagicDance-framework beter dan bestaande frameworks zoals Disco en DreamPose voor de overdracht van menselijke bewegingen in alle metrieken. Frameworks met een “*” voor hun naam gebruiken de doelafbeelding direct als invoer en bevatten meer informatie vergeleken met de andere frameworks. 

Het is interessant om op te merken dat het MagicDance-framework een Face-Cos-score van 0.426 behaalt, een verbetering van 156.62% ten opzichte van het Disco-framework, en een stijging van bijna 400% vergeleken met het DreamPose-framework. De resultaten duiden op het robuuste vermogen van het MagicDance-framework om identiteitsinformatie te behouden, en de zichtbare prestatieverbetering duidt op de superioriteit van het MagicDance-framework ten opzichte van bestaande state-of-the-art methoden. 

De volgende figuren vergelijken de kwaliteit van het genereren van menselijke video's tussen de MagicDance-, Disco- en TPS-frameworks. Zoals kan worden opgemerkt, lijden de resultaten die worden gegenereerd door de GT-, Disco- en TPS-frameworks onder inconsistente menselijke pose-identiteit en gezichtsuitdrukkingen. 

Bovendien demonstreert de volgende afbeelding de visualisatie van gezichtsuitdrukking en overdracht van menselijke poses op de TikTok-dataset, waarbij het MagicDance-framework realistische en levendige uitdrukkingen en bewegingen kan genereren onder verschillende gezichtsoriëntatiepunten en skeletinvoer kan vormen, terwijl de identiteitsinformatie van de referentie-invoer nauwkeurig behouden blijft afbeelding. 

Het is vermeldenswaard dat het MagicDance-framework beschikt over uitzonderlijke generalisatiemogelijkheden voor referentiebeelden buiten het domein van onzichtbare poses en stijlen met een indrukwekkende beheersbaarheid van het uiterlijk, zelfs zonder enige aanvullende verfijning van het doeldomein, waarbij de resultaten worden gedemonstreerd in de volgende afbeelding . 

De volgende afbeeldingen demonstreren de visualisatiemogelijkheden van het MagicDance-framework in termen van gezichtsuitdrukkingsoverdracht en zero-shot menselijke beweging. Zoals je kunt zien generaliseert het MagicDance-framework perfect naar menselijke bewegingen in het wild. 

MagicDance: Beperkingen

OpenPose is een essentieel onderdeel van het MagicDance-framework omdat het een cruciale rol speelt bij posecontrole, waardoor de kwaliteit en temporele consistentie van de gegenereerde afbeeldingen aanzienlijk worden beïnvloed. Het MagicDance-framework vindt het echter nog steeds een beetje uitdagend om gezichtsoriëntatiepunten te detecteren en skeletten nauwkeurig te positioneren, vooral wanneer de objecten in de afbeeldingen gedeeltelijk zichtbaar zijn of snelle bewegingen vertonen. Deze problemen kunnen resulteren in artefacten in de gegenereerde afbeelding. 

Conclusie

In dit artikel hebben we gesproken over MagicDance, een op diffusie gebaseerd model dat tot doel heeft de overdracht van menselijke bewegingen radicaal te veranderen. Het MagicDance-framework probeert 2D menselijke gezichtsuitdrukkingen en bewegingen over te brengen op uitdagende menselijke dansvideo's met het specifieke doel om nieuwe, door posesequenties aangedreven menselijke dansvideo's te genereren voor specifieke doelidentiteiten, terwijl de identiteit constant blijft. Het MagicDance-framework is een tweetrapstrainingsstrategie voor het ontwarren van menselijke bewegingen en het uiterlijk, zoals huidskleur, gezichtsuitdrukkingen en kleding.

MagicDance is een nieuwe aanpak om het genereren van realistische menselijke video's te vergemakkelijken door de overdracht van gezichts- en bewegingsuitdrukkingen op te nemen, en consistente in-the-wilde animatiegeneratie mogelijk te maken zonder dat verdere verfijning nodig is, wat een aanzienlijke vooruitgang ten opzichte van bestaande methoden aantoont. Bovendien demonstreert het MagicDance-framework uitzonderlijke generalisatiemogelijkheden over complexe bewegingssequenties en diverse menselijke identiteiten, waardoor het MagicDance-framework een leidende positie inneemt op het gebied van AI-ondersteunde bewegingsoverdracht en videogeneratie. 

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.