Tehisintellekt

AniPortrait: fotorealistliku portree-animatsiooni helipõhine süntees

avaldatud

2 nädalat tagasi

Võib 3 2024

Aastate jooksul on realistlike ja väljendusrikaste portree-animatsioonide loomine staatilistest piltidest ja helist leidnud mitmeid rakendusi, sealhulgas mängimine, digitaalne meedia, virtuaalne reaalsus ja palju muud. Vaatamata selle potentsiaalsele rakendusele on arendajatel endiselt raske luua raamistikke, mis suudaksid genereerida kvaliteetseid animatsioone, mis säilitavad ajalise järjepidevuse ja on visuaalselt köitvad. Peamine keerukuse põhjus on vajadus huulte liigutuste, peaasendi ja näoilmete keeruka koordineerimise järele, et luua visuaalselt mõjuv efekt.

Selles artiklis räägime AniPortraitist, uudsest raamistikust, mis on loodud kvaliteetsete animatsioonide loomiseks, mis on juhitud võrdlusportreepildi ja helinäidise abil. AniPortrait raamistiku töö on jagatud kaheks etapiks. Esiteks eraldab AniPortrait raamistik helinäidistest vahepealsed 3D-esitlused ja projitseerib need näo 2D-maamärkide jadaks. Pärast seda kasutab raamistik tugevat difusioonimudelit, mis on ühendatud liikumismooduliga, et teisendada orientiiride jadad ajaliselt järjekindlateks ja fotorealistlikeks animatsioonideks. Katsetulemused näitavad AniPortrait raamistiku paremust ja võimet luua kvaliteetseid animatsioone, millel on erakordne visuaalne kvaliteet, pooside mitmekesisus ja näo loomulikkus, pakkudes seega täiustatud ja rikastatud tajukogemust. Lisaks omab AniPortrait raamistik märkimisväärset juhitavuse ja paindlikkuse potentsiaali ning seda saab tõhusalt rakendada sellistes valdkondades nagu näo taasesitus, näo liikumise redigeerimine ja palju muud. Selle artikli eesmärk on käsitleda AniPortrait raamistikku põhjalikult ning me uurime raamistiku mehhanismi, metoodikat, arhitektuuri ja selle võrdlust nüüdisaegsete raamistikega. Nii et alustame.

AniPortrait: fotorealistlik portree-animatsioon

Realistlike ja ekspressiivsete portree-animatsioonide loomine on olnud teadlaste tähelepanu keskmes juba mõnda aega tänu selle uskumatule potentsiaalile ja rakendustele, mis ulatuvad digitaalsest meediast ja virtuaalsest reaalsusest kuni mängude ja muuni. Vaatamata aastatepikkusele uurimis- ja arendustegevusele on kvaliteetsete animatsioonide loomine, mis säilitavad ajalise järjepidevuse ja on visuaalselt kütkestavad, endiselt suur väljakutse. Peamiseks takistuseks arendajatele on vajadus keeruka koordineerimise järele peaasendi, visuaalsete ilmete ja huulte liigutuste vahel, et luua visuaalselt mõjuv efekt. Olemasolevad meetodid ei ole suutnud neid väljakutseid lahendada, peamiselt seetõttu, et enamik neist tugineb visuaalse sisu loomisel piiratud võimsusega generaatoritele, nagu NeRF, liikumispõhistele dekooderitele ja GAN-ile. Nendel võrkudel on piiratud üldistusvõimalused ja nad on kvaliteetse sisu loomisel ebastabiilsed. Hiljutine difusioonimudelite esilekerkimine on aga hõlbustanud kvaliteetsete piltide loomist ning mõned difusioonimudelitele ja ajalistele moodulitele ehitatud raamistikud on hõlbustanud mõjuvate videote loomist, võimaldades difusioonimudelitel silma paista.

Tuginedes difusioonimudelite edusammudele, on AniPortrait raamistiku eesmärk luua kvaliteetseid animeeritud portreesid, kasutades võrdluspilti ja helinäidist. AniPortrait raamistiku töö on jagatud kaheks etapiks. Esimeses etapis kasutab AniPortrait raamistik trafopõhiseid mudeleid, et eraldada helisisendist 3D-näovõrgu ja peapoosi jada ning seejärel projitseerida need 2D-näo orientiiride jadaks. Esimene etapp hõlbustab AniPortrait'i raamistikku, et lisaks helinäidise rütmiga sünkroniseerivatele pealiigutustele jäädvustada helist ka huulte liigutusi ja peeneid väljendeid. Teises etapis, AniPortrait raamistik kasutab tugevat difusioonimudelit ja integreerib selle liikumismooduliga, et muuta näo maamärgi jada fotorealistlikuks ja ajaliselt järjepidevaks animeeritud portreeks. Täpsemalt tugineb AniPortrait raamistik olemasoleva AnimateAnyone mudeli võrguarhitektuurile, mis kasutab tõhusat Stable Diffusion 1.5. difusioonimudel et luua elutruu ja sujuv võrdluspildi ja keha liikumisjärjestuse põhjal. Väärib märkimist, et AniPortrait raamistik ei kasuta selles võrgus poseerimisjuhiste moodulit, nagu see on rakendatud AnimateAnyone raamistikus, vaid kujundab selle ümber, võimaldades AniPortrait raamistikul mitte ainult säilitada kerget disaini, vaid näidata ka suuremat täpsust huule genereerimisel. liigutused.

Katsetulemused näitavad AniPortrait raamistiku paremust muljetavaldava näo loomulikkuse, suurepärase visuaalse kvaliteedi ja mitmekesiste poosidega animatsioonide loomisel. Kasutades vahefunktsioonidena 3D-näoesitusi, saavutab AniPortrait raamistik paindlikkuse nende esituste muutmiseks vastavalt oma nõuetele. Kohanemisvõime suurendab märkimisväärselt AniPortrait raamistiku rakendatavust erinevates valdkondades, sealhulgas näo taasesitus ja näo liikumise redigeerimine.

AniPortrait: töö ja metoodika

Kavandatav AniPortrait raamistik koosneb kahest moodulist, nimelt Lmk2Video ja Audio2Lmk. Moodul Audio2Lmk püüab eraldada maamärkide jada, mis jäädvustab helisisendist keerukaid huulte liigutusi ja näoilmeid, samal ajal kui moodul Lmk2Video kasutab seda maamärgi jada kvaliteetsete portreevideote loomiseks ajalise stabiilsusega. Järgmine joonis annab ülevaate AniPortrait raamistiku tööst. Nagu võib täheldada, eraldab AniPortrait raamistik kõigepealt helist 3D-näovõrgu ja peapoosi ning projitseerib need kaks elementi seejärel 2D-põhipunktidesse. Teises etapis kasutab raamistik difusioonimudelit, et muuta 2D võtmepunktid portreevideoks, kusjuures võrgus treenitakse samaaegselt kahte etappi.

Audio2Lmk

Antud kõnejuppide jada puhul on AniPortrait raamistiku esmane eesmärk ennustada vastavat 3D näovõrgu jada translatsiooni ja pööramise vektorkujutistega. AniPortrait raamistik kasutab helifunktsioonide eraldamiseks eelkoolitatud wav2vec meetodit ja mudel on suure üldistusastmega ning suudab helist intonatsiooni ja häälduse täpselt ära tunda, mis mängib loomisel üliolulist rolli. realistlikud näoanimatsioonid. Omandatud tugevaid kõnefunktsioone võimendades suudab AniPortrait raamistik tõhusalt kasutada lihtsat kahest fc-kihist koosnevat arhitektuuri, et muuta need funktsioonid 3D-näovõrkudeks. AniPortrait raamistik märgib, et see mudeli poolt rakendatud sirgjooneline disain mitte ainult ei suurenda järeldusprotsessi tõhusust, vaid tagab ka täpsuse. Heli poseerimiseks teisendamisel kasutab AniPortrait raamistik sama wav2vec võrku nagu selgroog, ehkki mudel ei jaga raskusi heli ja võrgu mooduliga. See on peamiselt tingitud asjaolust, et poosi seostatakse rohkem helis esineva tooni ja rütmiga, millel on heli ja võrgusilma ülesannetega võrreldes erinev rõhk. Eelmiste olekute mõju arvessevõtmiseks kasutab AniPortrait raamistik poosijärjestuse dekodeerimiseks trafo dekoodrit. Selle protsessi käigus integreerib raamistik helifunktsioonid dekoodrisse, kasutades risttähelepanu mehhanisme, ja mõlema mooduli puhul treenib raamistik neid L1 kadu kasutades. Kui mudel saab poosi ja võrgusilma jada, kasutab see perspektiivprojektsiooni, et muuta need jadad näo orientiiride 2D jadaks, mida kasutatakse seejärel sisendsignaalidena järgmises etapis.

Lmk2Video

Antud portree võrdluspildi ja näo orientiiride jada jaoks loob pakutud Lmk2Video moodul ajaliselt järjepideva portree-animatsiooni ja see animatsioon joondab liikumise orientiiri jadaga ning säilitab välimuse, mis on kooskõlas võrdluspildiga ja lõpuks. , kujutab raamistik portree-animatsiooni portreekaadrite jadana. Lmk2Video võrgustruktuuri kujundus otsib inspiratsiooni juba olemasolevast AnimateAnyone raamistikust. AniPortrait raamistik kasutab a Stabiilne difusioon 1.5, mis on selle selgrooks äärmiselt võimas difusioonimudel ja sisaldab ajalist liikumismoodulit, mis teisendab tõhusalt mitme kaadri müra sisendid videokaadrite jadaks. Samal ajal peegeldab ReferencenNeti võrgukomponent Stable Diffusion 1.5 struktuuri ja kasutab seda võrdluspildist välimusteabe eraldamiseks ja selle põhisüsteemi integreerimiseks. Strateegiline disain tagab, et näo ID jääb kogu väljundvideo jooksul ühtseks. AnimateAnyone raamistikust eristuv AniPortrait raamistik muudab PoseGuideri disaini keerukamaks. AnimateAnyone'i raamistiku algversioon sisaldab vaid mõnda keerdkihti, mille maamärgifunktsioonid liidetakse latentse ja selgroo sisendkihiga. AniPortrait raamistik avastab, et kujundus ei suuda huulte keerulisi liigutusi jäädvustada, ja selle probleemi lahendamiseks võtab raamistik kasutusele ConvNeti arhitektuuri mitmemõõtmelise strateegia ja lisab vastavate skaalade olulised tunnused selgroo erinevatesse plokkidesse. Lisaks pakub AniPortrait raamistik täiendavat täiustust, lisades võrdluspildi maamärgid täiendava sisendina. PoseGuideri komponendi risttähelepanu moodul hõlbustab iga kaadri sihtorientiiride ja võrdlusmaamärkide vahelist koostoimet. See protsess annab võrgule täiendavaid näpunäiteid välimuse ja näo orientiiride vahelise seose mõistmiseks, aidates seega luua täpsema liikumisega portreeanimatsioone.

AniPortrait: rakendamine ja tulemus

Audio2Lmk etapi jaoks võtab AniPortrait raamistik aluseks wav2vec2.0 komponendi ja kasutab MediaPipe'i arhitektuuri, et eraldada 3D-võrgud ja 6D-poosid annotatsioonide jaoks. Mudel hangib Audio2Meshi komponendi treeningandmed oma sisemisest andmekogumist, mis sisaldab peaaegu 60 minutit ühest kõlarist pärit kvaliteetset kõneandmeid. MediaPipe'i komponendi poolt eraldatud 3D-silma stabiilsuse tagamiseks juhendatakse häälnäitlejal olema näoga kaamera poole ja hoidma pea ühtlast asendit kogu salvestusprotsessi ajal. Lmk2Video mooduli jaoks rakendab AniPortrait raamistik kaheetapilise koolituse lähenemisviisi. Esimeses etapis keskendub raamistik ReferenceNeti ja PoseGuideri, selgroo 2D komponendi treenimisele ning jätab liikumismooduli välja. Teises etapis külmutab AniPortrait raamistik kõik muud komponendid ja keskendub liikumismooduli treenimisele. Selles etapis kasutab raamistik mudeli koolitamiseks kahte suuremahulist kvaliteetset näovideo andmestikku ja töötleb kõiki andmeid MediaPipe'i komponendi abil, et eraldada 2D-näo orientiirid. Lisaks, et suurendada võrgustiku tundlikkust huulte liigutuste suhtes, eristab mudel AniPortrait üla- ja alahuuli erinevate värvidega, kui renderdab poosipilti 2D-maamärkidest.

Nagu on näidatud järgmisel pildil, genereerib AniPortrait raamistik animatsioone, mis näitavad nii kõrget kvaliteeti kui ka realistlikkust.

Seejärel kasutab raamistik vahepealset 3D-esitlust, mida saab redigeerida väljundiga vastavalt nõuetele. Näiteks saavad kasutajad eraldada teatud allikast maamärke ja muuta selle ID-d, võimaldades seega AniPortrait raamistikul luua näo taasesitamise efekti.

Final Thoughts

Selles artiklis oleme rääkinud AniPortraitist, uudsest raamistikust, mis on loodud kvaliteetsete animatsioonide genereerimiseks, mida juhivad võrdlusportree kujutis ja helinäidis. Sisestades lihtsalt võrdluspildi ja heliklipi, suudab AniPortrait raamistik luua portreevideo, millel on loomulik peade liikumine ja sujuv huulte liikumine. Hajutusmudeli jõulisi üldistusvõimalusi ära kasutades genereerib AniPortrait raamistik animatsioone, mis näitavad muljetavaldavat realistlikku pildikvaliteeti ja elutruud liikumist. AniPortrait raamistiku töö on jagatud kaheks etapiks. Esiteks eraldab AniPortrait raamistik helinäidistest vahepealsed 3D-esitlused ja projitseerib need näo 2D-maamärkide jadaks. Pärast seda kasutab raamistik tugevat difusioonimudelit, mis on ühendatud liikumismooduliga, et teisendada orientiiride jadad ajaliselt järjekindlateks ja fotorealistlikeks animatsioonideks. Katsetulemused näitavad AniPortrait raamistiku paremust ja võimet luua kvaliteetseid animatsioone, millel on erakordne visuaalne kvaliteet, pooside mitmekesisus ja näo loomulikkus, pakkudes seega täiustatud ja rikastatud tajukogemust. Lisaks omab AniPortrait raamistik märkimisväärset juhitavuse ja paindlikkuse potentsiaali ning seda saab tõhusalt rakendada sellistes valdkondades nagu näo taasesitus, näo liikumise redigeerimine ja palju muud.

Seotud teemad:animatsioon animatsioone AniPortree tehisintellekti difusioonimudelid generatiivne ai Stabiilne difusioon

Järgmisena

Solvava AI oht ja selle eest kaitsmine

Ära jäta

Illuminating AI: neuromorfsete optiliste närvivõrkude transformatiivne potentsiaal

Kunal Kejriwal

"Elukutselt insener, hingelt kirjanik". Kunal on tehniline kirjanik, kes armastab ja mõistab sügavalt AI-d ja ML-i ning on pühendunud nende valdkondade keerukate kontseptsioonide lihtsustamisele oma kaasahaarava ja informatiivse dokumentatsiooni kaudu.

Ühendage.AI

AniPortrait: fotorealistliku portree-animatsiooni helipõhine süntees

Tehisintellekt

AniPortrait: fotorealistliku portree-animatsiooni helipõhine süntees

Sisukord

AniPortrait: fotorealistlik portree-animatsioon

AniPortrait: töö ja metoodika

Audio2Lmk

Lmk2Video

AniPortrait: rakendamine ja tulemus

Final Thoughts

Ühendage.AI

AniPortrait: fotorealistliku portree-animatsiooni helipõhine süntees

Sisukord

AniPortrait: fotorealistlik portree-animatsioon

AniPortrait: töö ja metoodika

Audio2Lmk

Lmk2Video

AniPortrait: rakendamine ja tulemus

Final Thoughts

Võib meeldida