никулец DynamiCrafter: анимирање слики од отворен домен со видео дифузија на претходници - Unite.AI
Поврзете се со нас

Вештачка интелигенција

DynamiCrafter: Анимирање на слики од отворен домен со видео дифузија приори

mm

Објавено

 on

DynamiCrafter: Анимирање на слики од отворен домен со видео дифузија приори

Компјутерска визија е едно од највозбудливите и најдобро истражените полиња во заедницата за вештачка интелигенција денес, и покрај брзото подобрување на моделите за компјутерска визија, долгогодишен предизвик што сè уште ги мачи програмерите е анимацијата на слики. Дури и денес, рамки за анимација на слики се борат да ги претворат фотографиите во нивните соодветни видео колеги кои прикажуваат природна динамика додека го зачувуваат оригиналниот изглед на сликите. Традиционално, рамки за анимација на слики првенствено се фокусираат на анимирање природни сцени со движења специфични за домен, како движења на човечка коса или тело, или стохастичка динамика како течности и облаци. Иако овој пристап функционира до одреден степен, тој ја ограничува применливоста на овие рамки за анимација на погенерички визуелни содржини. 

Понатаму, конвенционалните пристапи за анимација на слики се концентрираат првенствено на синтетизирање на осцилирачки и стохастички движења или на приспособување за одредени категории на објекти. Сепак, забележителен недостаток на пристапот се силните претпоставки што се наметнуваат на овие методи што на крајот ја ограничува нивната применливост особено во општите сценарија како што е анимацијата на слики со отворен домен. Во текот на изминатите неколку години, T2V или модели од текст во видео покажаа извонреден успех во генерирањето живописни и разновидни видеа со користење на текстуални инструкции, а оваа демонстрација на T2V модели е она што ја формира основата за рамката DynamiCrafter. 

Рамката DynamiCrafter е обид да се надминат сегашните ограничувања на моделите за анимација на слики и да се прошири нивната применливост на генерички сценарија кои вклучуваат слики од отворен свет. Рамката DynamiCrafter се обидува да синтетизира динамична содржина за слики со отворен домен, претворајќи ги во анимирани видеа. Клучната идеја зад DynamiCrafter е да се вгради сликата како водич во генеративниот процес во обид да се искористи движењето пред веќе постоечкиот текст на моделите за дифузија на видео. За дадена слика, моделот DynamiCrafter прво имплементира трансформатор за пребарување кој ја проектира сликата во простор за богат контекст за претставување порамнет со текст, олеснувајќи го видео моделот да ја свари содржината на сликата на компатибилен начин. Сепак, моделот DynamiCrafter сè уште се бори да зачува некои визуелни детали во резултантните видеа, проблем што моделот DynamiCrafter го надминува со напојување на целосната слика до моделот на дифузија со поврзување на сликата со почетните звуци, па затоа го надополнува моделот со попрецизна слика информации. 

Оваа статија има за цел да ја опфати рамката на DynamiCrafter во длабочина, а ние ги истражуваме механизмите, методологијата, архитектурата на рамката заедно со нејзината споредба со најсовремените рамки за генерирање слики и видео. Па ајде да започнеме. 

DynamiCrafter: Анимација на слики со отворен домен

Анимирањето на неподвижна слика често нуди привлечно визуелно искуство за публиката бидејќи се чини дека ја оживува неподвижната слика. Со текот на годините, бројни рамки истражувале различни методи за анимирање фотографии. Почетните рамки за анимација имплементираа пристапи засновани на физичка симулација кои се фокусираа на симулирање на движење на одредени објекти. Сепак, поради независното моделирање на секоја категорија на објекти, овие пристапи не беа ниту ефективни, ниту имаа генерализирање. За да се реплицираат пореалистични движења, се појавија методи засновани на референца кои пренесуваат информации за движење или изглед од референтни сигнали како видеа во процесот на синтеза. Иако пристапите засновани на референца дадоа подобри резултати со подобра временска кохерентност во споредба со пристапите базирани на симулација, им требаше дополнително водство што ги ограничуваше нивните практични апликации. 

Во последниве години, повеќето рамки за анимација се фокусираат првенствено на анимирање природни сцени со стохастички, специфични за домен или осцилирачки движења. Иако пристапот што го спроведуваат овие рамки функционира до одреден степен, резултатите што ги создаваат овие рамки не се задоволителни, со значителен простор за подобрување. Извонредните резултати постигнати со генеративните модели од текст во видео во изминатите неколку години ги инспирираа развивачите на рамката DynamiCrafter да ги искористат моќните генеративни способности на моделите од текст во видео за анимација на слики. 

Клучната основа на рамката DynamiCrafter е да се вгради условна слика во обид да се управува со процесот на генерирање видео на Модели за дифузија од текст во видео. Сепак, крајната цел на анимацијата на сликите сè уште останува нетривијална бидејќи анимацијата на слики бара зачувување на деталите, како и разбирање на визуелните контексти неопходни за создавање динамика. Сепак, мултимодалните модели на видео дифузија што може да се контролира како VideoComposer се обидоа да овозможат генерирање видео со визуелно водство од слика. Сепак, овие пристапи не се погодни за анимација на слики бидејќи тие или резултираат со нагли временски промени или ниска визуелна усогласеност со влезната слика поради нивните помалку сеопфатни механизми за вбризгување на сликата. За да се спротивстави на оваа пречка, рамката DyaniCrafter предлага пристап за вбризгување со двоен поток, кој се состои од визуелни насоки за детали и приказ на контекст усогласен со текст. Пристапот за вбризгување со двоен поток овозможува рамката DynamiCrafter да осигура дека моделот на видео дифузија синтетизира динамична содржина зачувана со детали на комплементарен начин. 

За дадена слика, рамката DynamiCrafter прво ја проектира сликата во просторот за прикажување на контекстот усогласен со текст користејќи специјално дизајнирана мрежа за учење контекст. Да бидеме поконкретни, просторот за претставување на контекстот се состои од трансформатор за пребарување што може да се научи за понатамошно промовирање на неговата адаптација на моделите за дифузија и претходно обучен CLIP енкодер за слики за да се извлечат карактеристиките на сликата порамнети со текст. Моделот потоа ги користи карактеристиките на богат контекст користејќи слоеви со вкрстено внимание, а моделот користи затворена фузија за да ги комбинира овие текстуални карактеристики со слоевите со вкрстено внимание. Сепак, овој пристап ги заменува научените претстави на контекстот со визуелни детали усогласени со текст што го олеснува семантичкото разбирање на контекстот на сликата овозможувајќи да се синтетизира разумна и живописна динамика. Понатаму, во обид да се дополнат дополнителни визуелни детали, рамката ја поврзува целосната слика со почетниот шум на моделот на дифузија. Како резултат на тоа, пристапот со двојно вбризгување имплементиран од рамката DynamiCrafter гарантира визуелна усогласеност, како и веродостојна динамичка содржина на влезната слика. 

Движејќи се заедно, моделите со дифузија или DM покажаа извонредни перформанси и генеративна моќ во генерирањето T2I или Текст во слика. За да се повтори успехот на моделите T2I на генерирање видео, предложени се модели на VDM или Видео дифузија кои користат просторно-временска факторизирана U-New архитектура во просторот на пиксели за да моделира видеа со ниска резолуција. Пренесувањето на учењето од T2I рамки на T2V рамки ќе помогне во намалувањето на трошоците за обука. Иако VDM или моделите за дифузија на видео имаат способност да генерираат видеа со висок квалитет, тие прифаќаат само текстуални барања како единствено семантичко упатство што може да не ги одразува вистинските намери на корисникот или може да биде нејасно. Сепак, резултатите од мнозинството модели на VDM ретко се придржуваат до влезната слика и страдаат од нереалните временски варијации. Пристапот DynamiCrafter е изграден на модели на видео дифузија условени со текст, кои ја користат нивната богата динамика за анимирање на слики од отворен домен. Тоа го прави со инкорпорирање на приспособени дизајни за подобро семантичко разбирање и усогласеност со влезната слика. 

DynamiCrafter: Метод и архитектура

За дадена неподвижна слика, рамката DyanmiCrafter се обидува да ја анимира слика до видео односно изработи краток видео клип. Видео клипот ја наследува визуелната содржина од сликата и покажува природна динамика. Сепак, постои можност сликата да се појави на произволна локација на добиената низа на кадри. Појавата на слика на произволна локација е посебен вид на предизвик забележан во задачите за генерирање видео условени со слики со високи барања за визуелна сообразност. Рамката DynamiCrafter го надминува овој предизвик со користење на генеративните приоритети на претходно обучените модели на видео дифузија. 

Динамика на слика од видео дифузија претходно

Обично, моделите за дифузија на текст до видео од отворен домен се познати по тоа што прикажуваат динамична визуелна содржина моделирана условеност на описите на текстот. За да се анимира неподвижна слика со генерирачки приори од текст во видео, рамки прво треба да ги инјектираат визуелните информации во процесот на генерирање видео на сеопфатен начин. Понатаму, за динамична синтеза, моделот T2V треба да ја свари сликата за разбирање на контекстот, додека исто така треба да може да ги зачува визуелните детали во генерираните видеа. 

Текст порамнето контекстуално претставување

За да го води генерирањето видео со контекст на слика, рамката DynamiCrafter се обидува да ја проектира сликата во подреден простор за вградување што му дозволува на видео моделот да ги користи информациите за сликата на компатибилен начин. Следејќи го ова, рамката DynamiCrafter го користи кодерот за слики за да ги извлече карактеристиките на сликата од влезната слика, бидејќи вградувањата на текстот се генерираат со користење на претходно обучен CLIP енкодер за текст. Сега, иако глобалните семантички токени од кодерот за слики CLIP се порамнети со натписите на сликата, тој првенствено ја претставува визуелната содржина на семантичко ниво, со што не успева да го долови целосниот обем на сликата. Рамката DynamiCrafter имплементира целосни визуелни токени од последниот слој на кодерот CLIP за да извлече поцелосни информации бидејќи овие визуелни токени покажуваат висока верност во задачите за условно генерирање слики. Понатаму, рамката користи вградување на контекст и текст за да комуницира со средните функции на U-Net користејќи ги слоевите со двојни вкрстено внимание. Дизајнот на оваа компонента ја олеснува способноста на моделот да ги апсорбира условите на сликата на начин зависен од слојот. Понатаму, бидејќи средните слоеви на U-Net архитектурата повеќе се поврзуваат со позите или формите на објектите, се очекува дека карактеристиките на сликата ќе влијаат на изгледот на видеата претежно, особено затоа што слоевите со два краја се повеќе поврзани со изгледот. 

Насоки за визуелни детали

Рамката DyanmiCrafter користи богато информативно претставување на контекстот што му овозможува на моделот на видео дифузија во својата архитектура да произведува видеа што многу личат на влезната слика. Меѓутоа, како што е прикажано на следната слика, генерираната содржина може да прикаже некои несовпаѓања поради ограничената способност на претходно обучениот CLIP енкодер целосно да ги зачува влезните информации, бидејќи е дизајниран да ги усогласува јазикот и визуелните карактеристики. 

За да се подобри визуелната усогласеност, рамката DynamiCrafter предлага да се обезбеди моделот на видео дифузија со дополнителни визуелни детали извлечени од влезната слика. За да се постигне ова, моделот DyanmiCrafter ја спојува условната слика со почетниот шум по кадар и ги доставува до компонентата за отпишување U-Net како водич. 

Парадигма за обука

Рамката DynamiCrafter ја интегрира условната слика преку два комплементарни текови кои играат значајна улога во деталното водство и контролата на контекстот. За да се олесни истото, моделот DynamiCrafter користи процес на обука во три чекори

  1. Во првиот чекор, моделот ја обучува мрежата за претставување на контекстот на сликата. 
  2. Во вториот чекор, моделот ја прилагодува мрежата за претставување на контекстот на сликата на моделот Текст во видео. 
  3. Во третиот и последен чекор, моделот фино ја прилагодува мрежата за претставување контекст на сликата заедно со компонентата Visual Detail Guidance. 

За да се приспособат информациите за сликата за компатибилност со моделот Text-to-Video (T2V), рамката DynamiCrafter предлага да се развие мрежа за претставување на контекст, P, дизајнирана да доловува визуелни детали усогласени со текст од дадената слика. Признавајќи дека P бара многу чекори за оптимизација за конвергенција, пристапот на рамката вклучува првично тренирање со користење на поедноставен модел од текст-во-слика (T2I). Оваа стратегија овозможува мрежата за претставување на контекстот да се концентрира на учење за контекстот на сликата пред да ја интегрира со моделот T2V преку заедничка обука со P и просторните слоеви, наспроти временските слоеви, на моделот T2V. 

За да се обезбеди компатибилност со T2V, рамката DyanmiCrafter ја спојува влезната слика со шумот по кадар, продолжувајќи со фино прилагодување на просторните слоеви и на P и на моделот за визуелна дискриминација (VDM). Овој метод е избран за да се одржи интегритетот на постојните временски сознанија на моделот T2V без негативните ефекти од густото спојување на слики, што може да ги загрози перформансите и да се оддалечи од нашата примарна цел. Покрај тоа, рамката користи стратегија за случаен избор на видео рамка како услов за слика за да се постигнат две цели: (i) да се избегне мрежата да развие предвидлива шема која директно ја поврзува споената слика со одредена локација на рамката, и (ii) да поттикнување на поприлагодливо претставување на контекстот со спречување на обезбедувањето премногу крути информации за која било одредена рамка. 

DynamiCrafter: Експерименти и резултати

Рамката DynamiCrafter прво ја обучува мрежата за претставување на контекстот и слоевите за вкрстено внимание на сликата на Стабилна дифузија. Рамката потоа го заменува Стабилна дифузија компонента со VideoCrafter и дополнително ја дотерува мрежата за претставување на контекстот и просторните слоеви за адаптација и со поврзување на слики. Како заклучок, рамката го усвојува семплерот DDIM со насоки без класификатор со повеќе услови. Понатаму, за да се процени временската кохерентност и квалитетот на видеата синтетизирани и во временскиот и во просторниот домен, рамката известува за FVD или Frechet Video Distance, како и KVD или Kernel Video Distance, и ја проценува изведбата на нулта снимка на сите методи на одредниците MSR-VTT и UCF-101. За да се истражи перцептивната усогласеност помеѓу генерираните резултати и влезната слика, рамката воведува PIC или сообразност на перцептивен влез и ја усвојува метриката за перцептивна далечина DreamSim како функција на растојание. 

На следната слика е прикажана визуелна споредба на генерирана анимирана содржина со различни стилови и содржини. 

Како што може да се забележи, меѓу сите различни методи, рамката DynamiCrafter добро се придржува до состојбата на влезната слика и генерира временски кохерентни видеа. Следната табела ги содржи статистиките од студијата на корисници со 49 учесници за стапката на предност за временска кохерентност (TC) и квалитет на движење (MC) заедно со стапката на избор за визуелна усогласеност со влезната слика. (ИЦ). Како што може да се забележи, рамката DynamiCrafter може да ги надмине постоечките методи со значителна разлика. 

Следната слика ги прикажува резултатите постигнати со користење на методот на вбризгување со двоен тек и парадигмата за обука. 

Последни мисли

Во оваа статија, зборувавме за DynamiCrafter, обид да се надминат сегашните ограничувања на моделите за анимација на слики и да се прошири нивната применливост на генерички сценарија кои вклучуваат слики од отворен свет. Рамката DynamiCrafter се обидува да синтетизира динамична содржина за слики со отворен домен, претворајќи ги во анимирани видеа. Клучната идеја зад DynamiCrafter е да се вгради сликата како водич во генеративниот процес во обид да се искористи движењето пред веќе постоечкиот текст на моделите за дифузија на видео. За дадена слика, моделот DynamiCrafter прво имплементира трансформатор за пребарување кој ја проектира сликата во простор за богат контекст за претставување порамнет со текст, олеснувајќи го видео моделот да ја свари содржината на сликата на компатибилен начин. Сепак, моделот DynamiCrafter сè уште се бори да зачува некои визуелни детали во резултантните видеа, проблем што моделот DynamiCrafter го надминува со напојување на целосната слика до моделот на дифузија со поврзување на сликата со почетните звуци, па затоа го надополнува моделот со попрецизна слика информации. 

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.