никулец AniPortrait: Аудио-управувана синтеза на фотореалистична портретна анимација - Unite.AI
Поврзете се со нас

Вештачка интелигенција

AniPortrait: Аудио-водена синтеза на фотореалистична портретна анимација

mm

Објавено

 on

Со текот на годините, создавањето на реални и експресивни портрети анимации од статични слики и аудио најде низа апликации вклучувајќи игри, дигитални медиуми, виртуелна реалност и многу повеќе. И покрај неговата потенцијална примена, сè уште е тешко за програмерите да создадат рамки способни да генерираат висококвалитетни анимации кои одржуваат временска конзистентност и визуелно волшебни. Главна причина за сложеноста е потребата за сложена координација на движењата на усните, позициите на главата и изразите на лицето за да се создаде визуелно привлечен ефект. 

Во оваа статија, ќе зборуваме за AniPortrait, нова рамка дизајнирана да генерира висококвалитетни анимации управувани од референтна слика на портрет и аудио примерок. Работата на рамката AniPortrait е поделена во две фази. Прво, рамката AniPortrait ги извлекува средните 3D претстави од аудио примероците и ги проектира во низа од 2D обележја на лицето. Следејќи го ова, рамката користи робустен модел на дифузија заедно со модул за движење за конвертирање на значајните секвенци во временски конзистентни и фотореалистични анимации. Експерименталните резултати ја демонстрираат супериорноста и способноста на рамката AniPortrait да генерира висококвалитетни анимации со исклучителен визуелен квалитет, разновидност на пози и природност на лицето, па затоа нуди подобрено и збогатено перцептивно искуство. Понатаму, рамката AniPortrait има извонреден потенцијал во смисла на контролирање и флексибилност и може ефективно да се примени во областите вклучувајќи реконструкција на лицето, уредување движења на лицето и многу повеќе. Оваа статија има за цел да ја опфати рамката AniPortrait во длабочина, а ние ги истражуваме механизмите, методологијата, архитектурата на рамката заедно со нејзината споредба со најсовремените рамки. Па ајде да започнеме. 

AniPortrait: фотореалистична портретна анимација

Создавањето реални и експресивни портрети анимации веќе некое време е во фокусот на истражувачите поради неговиот неверојатен потенцијал и апликации кои се протегаат од дигитални медиуми и виртуелна реалност до игри и многу повеќе. И покрај долгогодишното истражување и развој, производството на висококвалитетни анимации кои одржуваат временска конзистентност и визуелно воодушевуваат сè уште претставува значаен предизвик. Главната пречка за програмерите е потребата за сложена координација помеѓу позициите на главата, визуелните изрази и движењата на усните за да се создаде визуелно привлечен ефект. Постојните методи не успеаја да се справат со овие предизвици, првенствено бидејќи повеќето од нив се потпираат на генератори со ограничен капацитет како NeRF, декодери базирани на движење и GAN за создавање визуелна содржина. Овие мрежи покажуваат ограничени можности за генерализација и се нестабилни во генерирањето на висококвалитетна содржина. Сепак, неодамнешното појавување на модели за дифузија го олесни генерирањето слики со висок квалитет, а некои рамки изградени на врвот на моделите за дифузија заедно со временските модули го олеснија создавањето привлечни видеа, дозволувајќи им на моделите на дифузија да се истакнат. 

Надоврзувајќи се на напредокот на моделите за дифузија, рамката AniPortrait има за цел да генерира висококвалитетни анимирани портрети користејќи референтна слика и аудио примерок. Работата на рамката AniPortrait е поделена во две фази. Во првата фаза, рамката AniPortrait користи модели базирани на трансформатори за да извлече низа од 3D мрежа на лицето и поза на главата од аудио влезот, и потоа ги проектира во низа од 2D обележја на лицето. Првата фаза ја олеснува рамката AniPortrait за снимање на движењата на усните и суптилните изрази од звукот, како и движењата на главата кои се синхронизираат со ритамот на аудио примерокот. Втората фаза, рамката AniPortrait користи робустен дифузен модел и го интегрира со модул за движење за да ја трансформира секвенцата на обележје на лицето во фотореалистичен и временски конзистентен анимиран портрет. Да бидеме поконкретни, рамката AniPortrait се потпира на мрежната архитектура од постоечкиот модел AnimateAnyone кој користи Stable Diffusion 1.5, моќен модел на дифузија да генерира живописно и течно врз основа на референтна слика и низа на движење на телото. Она што вреди да се напомене е дека рамката AniPortrait не го користи модулот за водич за пози во оваа мрежа како што е имплементиран во рамката AnimateAnyone, туку го редизајнира, дозволувајќи му на рамката AniPortrait не само да одржува лесен дизајн, туку и покажува зголемена прецизност во генерирањето на усните. движења. 

Експерименталните резултати ја покажуваат супериорноста на рамката AniPortrait во создавањето анимации со импресивна природност на лицето, одличен визуелен квалитет и разновидни пози. Со користење на 3D претстави на лицето како посредни карактеристики, рамката AniPortrait добива флексибилност да ги менува овие претстави според нејзините барања. Приспособливоста значително ја подобрува применливоста на рамката AniPortrait низ домени, вклучувајќи реконструкција на лицето и уредување на движењата на лицето. 

AniPortrait: Работа и методологија

Предложената рамка AniPortrait се состои од два модула, имено Lmk2Video и Audio2Lmk. Модулот Audio2Lmk се обидува да извлече низа обележја што ги доловува сложените движења на усните и изразите на лицето од аудио влезот, додека модулот Lmk2Video ја користи оваа значајна низа за да генерира висококвалитетни портрети видеа со временска стабилност. Следната слика претставува преглед на работата на рамката AniPortrait. Како што може да се забележи, рамката AniPortrait најпрво ја извлекува 3D мрежата на лицето и позата на главата од аудиото, и последователно ги проектира овие два елементи во 2D клучни точки. Во втората фаза, рамката користи модел на дифузија за да ги трансформира 2D клучните точки во портрет видео со две фази кои се обучуваат истовремено во мрежата. 

Audio2Lmk

За даден редослед на фрагменти од говор, примарна цел на рамката AniPortrait е да се предвиди соодветната 3D мрежна низа на лицето со векторски претстави на транслација и ротација. Рамката AniPortrait го користи претходно обучениот метод wav2vec за извлекување аудио функции, а моделот покажува висок степен на генерализација и е способен точно да препознае интонација и изговор од аудиото што игра клучна улога во генерирањето реални анимации на лицето. Со искористување на стекнатите робусни карактеристики на говорот, рамката AniPortrait е во состојба ефикасно да примени едноставна архитектура која се состои од два слоја fc за да ги претвори овие карактеристики во 3D мрежи на лицето. Рамката AniPortrait забележува дека овој јасен дизајн имплементиран од моделот не само што ја подобрува ефикасноста на процесот на заклучување, туку и обезбедува точност. Кога го конвертирате звукот во поза, рамката AniPortrait ја користи истата мрежа wav2vec како столбот, иако моделот не ги дели тежините со модулот за аудио во мрежа. Тоа главно се должи на фактот дека позата е повеќе поврзана со тонот и ритамот присутни во аудиото, што има различен акцент кога ќе се спореди со задачите за аудио и мрежести задачи. За да се земе предвид влијанието на претходните состојби, рамката AniPortrait користи трансформаторски декодер за декодирање на низата на пози. За време на овој процес, рамката ги интегрира аудио функциите во декодерот користејќи механизми за вкрстено внимание, а и за двата модула, рамката ги обучува користејќи ја загубата L1. Откако моделот ќе ја добие секвенцата на поза и мрежа, тој користи перспективна проекција за да ги трансформира овие секвенци во 2D низа од обележја на лицето кои потоа се користат како влезни сигнали за следната фаза. 

Lmk2Video

За дадена референтна слика на портрет и низа обележја на лицето, предложениот Lmk2Video модул создава привремено конзистентна анимација на портрет, и оваа анимација го усогласува движењето со секвенцата на обележје и одржува изглед што е во согласност со референтната слика, и на крајот , рамката ја претставува портретната анимација како низа од рамки за портрет. Дизајнот на мрежната структура на Lmk2Video бара инспирација од веќе постоечката рамка AnimateAnyone. Рамката AniPortrait користи a Стабилна дифузија 1.5, екстремно моќен модел на дифузија како негов столб, и вклучува модул за временско движење кој ефикасно ги конвертира влезовите за бучава со повеќе слики во низа видео кадри. Во исто време, мрежната компонента ReferencenNet ја отсликува структурата на Stable Diffusion 1.5 и ја користи за да ги извлече информациите за изгледот од референтната слика и да ги интегрира во 'рбетот. Стратешкиот дизајн гарантира дека идентификацијата на лицето останува конзистентна во текот на излезното видео. Разликувајќи се од рамката AnimateAnyone, рамката AniPortrait ја подобрува сложеноста на дизајнот на PoseGuider. Оригиналната верзија на рамката AnimateAnyone содржи само неколку слоеви на конволуција по кои карактеристиките на обележјето се спојуваат со латентите и влезниот слој на 'рбетот. Рамката AniPortrait открива дека дизајнот не успева да ги долови сложените движења на усните и за да се справи со ова прашање, рамката ја усвојува стратегијата со повеќе размери на архитектурата ConvNet и ги вклучува значајните карактеристики на соодветните скали во различни блокови на 'рбетот. Понатаму, рамката AniPortrait воведува дополнително подобрување со вклучување на обележјата на референтната слика како дополнителен влез. Модулот за вкрстено внимание на компонентата PoseGuider ја олеснува интеракцијата помеѓу целните обележја на секоја рамка и референтните обележја. Овој процес и дава на мрежата дополнителни знаци за разбирање на корелацијата помеѓу изгледот и обележјата на лицето, а со тоа помага во генерирањето портретни анимации со попрецизно движење. 

AniPortrait: Имплементација и резултат

За сцената Audio2Lmk, рамката AniPortrait ја усвојува компонентата wav2vec2.0 како нејзин столб и ја користи архитектурата MediaPipe за извлекување 3D мрежи и 6D пози за прибелешки. Моделот ги добива податоците за обуката за компонентата Audio2Mesh од неговата внатрешна база на податоци што опфаќа скоро 60 минути висококвалитетни говорни податоци добиени од еден звучник. За да се осигури дека 3D мрежата извлечена од компонентата MediaPipe е стабилна, гласовниот актер добива инструкции да биде свртен кон камерата и да одржува стабилна положба на главата во текот на целиот процес на снимање. За модулот Lmk2Video, рамката AniPortrait имплементира пристап за обука во две фази. Во првата фаза, рамката се фокусира на обуката ReferenceNet и PoseGuider, 2D компонентата на 'рбетот, и го изоставува модулот за движење. Во вториот чекор, рамката AniPortrait ги замрзнува сите други компоненти и се концентрира на обука на модулот за движење. За оваа фаза, рамката користи две големи, висококвалитетни групи на податоци за лице за да го обучи моделот и ги обработува сите податоци користејќи ја компонентата MediaPipe за да извлече 2D обележја на лицето. Понатаму, за да се подобри чувствителноста на мрежата кон движењата на усните, моделот AniPortrait ги разликува горните и долните усни со различни бои при прикажување на позата од 2D обележја. 

Како што е прикажано на следната слика, рамката AniPortrait генерира серија анимации кои покажуваат супериорен квалитет, како и реализам.

Рамката потоа користи средно 3D претставување што може да се уредува за да се манипулира со излезот според барањата. На пример, корисниците можат да извлечат знаменитости од одреден извор и да го променат неговиот ID, така што ќе ѝ дозволат на рамката AniPortrait да создаде ефект на реконструкција на лицето. 

Последни мисли

Во оваа статија, зборувавме за AniPortrait, нова рамка дизајнирана да генерира висококвалитетни анимации управувани од референтна слика на портрет и аудио примерок. Со едноставно внесување референтна слика и аудио клип, рамката AniPortrait е способна да генерира видео за портрет што содржи природно движење на главите и непречено движење на усните. Со искористување на моќните можности за генерализирање на моделот за дифузија, рамката AniPortrait генерира анимации што прикажуваат импресивен реалистичен квалитет на сликата и реалистични движења. Работата на рамката AniPortrait е поделена во две фази. Прво, рамката AniPortrait ги извлекува средните 3D претстави од аудио примероците и ги проектира во низа од 2D обележја на лицето. Следејќи го ова, рамката користи робустен модел на дифузија заедно со модул за движење за конвертирање на значајните секвенци во временски конзистентни и фотореалистични анимации. Експерименталните резултати ја демонстрираат супериорноста и способноста на рамката AniPortrait да генерира висококвалитетни анимации со исклучителен визуелен квалитет, разновидност на пози и природност на лицето, па затоа нуди подобрено и збогатено перцептивно искуство. Понатаму, рамката AniPortrait има извонреден потенцијал во смисла на контролирање и флексибилност и може ефективно да се примени во областите вклучувајќи реконструкција на лицето, уредување движења на лицето и многу повеќе.

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.