кочан DynamiCrafter: Анимиране на изображения с отворен домейн с Video Diffusion Priors - Unite.AI
Свържете се с нас

Изкуствен интелект

DynamiCrafter: Анимиране на изображения с отворен домейн с Video Diffusion Priors

mm

Публикуван

 on

DynamiCrafter: Анимиране на изображения с отворен домейн с Video Diffusion Priors

Компютърно зрение е една от най-вълнуващите и добре проучени области в общността на AI днес и въпреки бързото подобряване на моделите на компютърното зрение, дългогодишно предизвикателство, което все още притеснява разработчиците, е анимацията на изображения. Дори днес рамките за анимация на изображения се борят да преобразуват неподвижни изображения в съответните им видео двойници, които показват естествена динамика, като същевременно запазват оригиналния вид на изображенията. Традиционно рамките за анимация на изображения се фокусират основно върху анимирането на природни сцени със специфични за домейн движения като човешка коса или движения на тялото, или стохастична динамика като течности и облаци. Въпреки че този подход работи до известна степен, той ограничава приложимостта на тези рамки за анимация до по-общо визуално съдържание. 

Освен това, конвенционалните подходи за анимация на изображения се концентрират предимно върху синтезиране на осцилиращи и стохастични движения или върху персонализиране за конкретни категории обекти. Въпреки това, забележителен недостатък на подхода са силните предположения, които се налагат на тези методи, което в крайна сметка ограничава тяхната приложимост, особено в общи сценарии като анимация на изображение с отворен домейн. През последните няколко години, Модели T2V или Text to Video демонстрираха забележителен успех в генерирането на ярки и разнообразни видеоклипове, използвайки текстови подкани, и тази демонстрация на T2V модели е това, което формира основата за рамката DynamiCrafter. 

Рамката DynamiCrafter е опит да се преодолеят настоящите ограничения на моделите за анимация на изображения и да се разшири тяхната приложимост към общи сценарии, включващи изображения от отворен свят. Рамката DynamiCrafter се опитва да синтезира динамично съдържание за изображения с отворен домейн, като ги преобразува в анимирани видеоклипове. Ключовата идея зад DynamiCrafter е да се включи изображението като насока в процеса на генериране в опит да се използва предишното движение на вече съществуващите модели за разпространение на текст към видео. За дадено изображение моделът DynamiCrafter първо внедрява преобразувател на заявки, който проектира изображението в подравнено с текст богато пространство за контекстно представяне, улеснявайки видео модела да усвои съдържанието на изображението по съвместим начин. Моделът DynamiCrafter обаче все още се бори да запази някои визуални детайли в получените видеоклипове, проблем, който моделът DynamiCrafter преодолява чрез подаване на пълното изображение към модела на дифузия чрез свързване на изображението с първоначалните шумове, следователно допълвайки модела с по-прецизно изображение информация. 

Тази статия има за цел да покрие рамката DynamiCrafter в дълбочина и ние изследваме механизма, методологията, архитектурата на рамката заедно с нейното сравнение с най-съвременните рамки за генериране на изображения и видео. Така че да започваме. 

DynamiCrafter : Анимация на изображения с отворен домейн

Анимирането на неподвижно изображение често предлага привлекателно визуално изживяване за публиката, тъй като изглежда, че оживява неподвижното изображение. През годините множество рамки са изследвали различни методи за анимиране на неподвижни изображения. Първоначалните рамки за анимация прилагат подходи, базирани на физическа симулация, които се фокусират върху симулирането на движението на конкретни обекти. Въпреки това, поради независимото моделиране на всяка категория обекти, тези подходи не бяха нито ефективни, нито имаха възможност за обобщаване. За възпроизвеждане на по-реалистични движения се появиха референтни методи, които прехвърлят информация за движение или външен вид от референтни сигнали като видеоклипове към процеса на синтез. Въпреки че базираните на референтни подходи дадоха по-добри резултати с по-добра времева кохерентност в сравнение с подходите, базирани на симулация, те се нуждаеха от допълнителни насоки, които ограничаваха техните практически приложения. 

През последните години по-голямата част от анимационните рамки се фокусират предимно върху анимиране на природни сцени със стохастични, специфични за домейн или осцилиращи движения. Въпреки че подходът, прилаган от тези рамки, работи до известна степен, резултатите, генерирани от тези рамки, не са задоволителни и има значително място за подобрение. Забележителните резултати, постигнати от моделите за генериране на текст към видео през последните няколко години, вдъхновиха разработчиците на рамката DynamiCrafter да използват мощните генеративни възможности на моделите за генериране на текст към видео за анимация на изображения. 

Ключовата основа на рамката DynamiCrafter е да включи условно изображение в опит да управлява процеса на генериране на видео на Модели за разпространение на текст към видео. Въпреки това, крайната цел на анимацията на изображения все още остава нетривиална, тъй като анимацията на изображения изисква запазване на детайлите, както и разбиране на визуални контексти, които са от съществено значение за създаването на динамика. Въпреки това, мултимодални управляеми модели за разпространение на видео, като VideoComposer, се опитаха да позволят генериране на видео с визуално напътствие от изображение. Въпреки това, тези подходи не са подходящи за анимация на изображение, тъй като те или водят до резки времеви промени, или ниско визуално съответствие с входното изображение поради техните по-малко изчерпателни механизми за инжектиране на изображение. За да се противопостави на това препятствие, рамката DyaniCrafter предлага подход за инжектиране на двоен поток, състоящ се от визуални детайлни насоки и текстово подравнено контекстно представяне. Подходът за инжектиране на двоен поток позволява на рамката DynamiCrafter да гарантира, че моделът на видео дифузия синтезира динамично съдържание, запазено в детайли, по допълващ се начин. 

За дадено изображение рамката DynamiCrafter първо проектира изображението в пространството за представяне на контекст, подравнен с текст, използвайки специално проектирана мрежа за обучение на контекст. За да бъдем по-конкретни, пространството за контекстно представяне се състои от обучаем преобразувател на заявки за по-нататъшно насърчаване на адаптирането му към дифузионните модели и предварително обучен CLIP енкодер за изображения за извличане на подравнени с текст характеристики на изображението. След това моделът използва богатите контекстни функции, използвайки слоеве за кръстосано внимание, а моделът използва затворено сливане, за да комбинира тези текстови характеристики със слоевете за кръстосано внимание. Въпреки това, този подход търгува с наученото контекстно представяне с подравнени по текст визуални детайли, което улеснява семантичното разбиране на контекста на изображението, което позволява да се синтезира разумна и ярка динамика. Освен това, в опит да допълни допълнителни визуални детайли, рамката свързва пълното изображение с първоначалния шум към модела на дифузия. В резултат на това подходът с двойно инжектиране, реализиран от рамката DynamiCrafter, гарантира визуално съответствие, както и правдоподобно динамично съдържание на входното изображение. 

Продължавайки напред, дифузионните модели или DM демонстрираха забележителна производителност и генеративна мощ в T2I или генерирането на текст към изображение. За възпроизвеждане на успеха на моделите T2I при генериране на видео се предлагат модели VDM или Video Diffusion, които използват пространствено-времева факторизирана U-нова архитектура в пространството на пикселите за моделиране на видеоклипове с ниска разделителна способност. Прехвърлянето на наученото от рамки T2I към рамки T2V ще помогне за намаляване на разходите за обучение. Въпреки че моделите VDM или Video Diffusion имат способността да генерират висококачествени видеоклипове, те приемат само текстови подкани като единствено семантично ръководство, което може да не отразява истинските намерения на потребителя или да е неясно. Резултатите от повечето VDM модели обаче рядко се придържат към входното изображение и страдат от проблема с нереалистичните временни вариации. Подходът на DynamiCrafter е изграден върху обусловени от текст модели на видео дифузия, които използват своето богато динамично предишно за анимиране на изображения с отворен домейн. Това става чрез включване на персонализирани дизайни за по-добро семантично разбиране и съответствие с въведеното изображение. 

DynamiCrafter: Метод и архитектура

За дадено неподвижно изображение рамката DyanmiCrafter се опитва да анимира изображение към видео т.е. създайте кратък видеоклип. Видеоклипът наследява визуалното съдържание от изображението и показва естествена динамика. Съществува обаче възможност изображението да се появи на произволно място в резултантната последователност от кадри. Появата на изображение на произволно място е специален вид предизвикателство, наблюдавано при задачи за генериране на видео с условия за изображение с високи изисквания за визуално съответствие. Рамката DynamiCrafter преодолява това предизвикателство, като използва генеративните предварителни настройки на предварително обучени модели за видео дифузия. 

Динамика на изображението от Video Diffusion Prior

Обикновено е известно, че моделите за разпространение на текст към видео с отворен домейн показват динамично визуално съдържание, моделирано обуславяне на текстови описания. За анимиране на неподвижно изображение с предишни настройки за генериране на текст към видео, рамките трябва първо да инжектират визуалната информация в процеса на генериране на видео по цялостен начин. Освен това, за динамичен синтез, моделът T2V трябва да усвои изображението за разбиране на контекста, като същевременно трябва да може да запази визуалните детайли в генерираните видеоклипове. 

Текстово подравнено контекстно представяне

За да ръководи генерирането на видео с контекста на изображението, рамката DynamiCrafter се опитва да проектира изображението в подравнено пространство за вграждане, което позволява на видеомодела да използва информацията за изображението по съвместим начин. След това рамката DynamiCrafter използва енкодера на изображението, за да извлече характеристиките на изображението от входното изображение, тъй като вграждането на текст се генерира с помощта на предварително обучен енкодер на текст CLIP. Сега, въпреки че глобалните семантични токени от енкодера на изображения CLIP са подравнени с надписите на изображенията, той представя основно визуалното съдържание на семантично ниво, като по този начин не успява да улови пълния обхват на изображението. Рамката DynamiCrafter внедрява пълни визуални токени от последния слой на CLIP енкодера, за да извлече по-пълна информация, тъй като тези визуални токени демонстрират висока точност при задачи за генериране на условни изображения. Освен това рамката използва контекстни и текстови вграждания, за да взаимодейства с междинните характеристики на U-Net, използвайки двойните слоеве за кръстосано внимание. Дизайнът на този компонент улеснява способността на модела да абсорбира условията на изображението по начин, зависим от слоя. Освен това, тъй като междинните слоеве на U-Net архитектурата се свързват повече с пози или форми на обекти, се очаква, че характеристиките на изображението ще повлияят предимно на външния вид на видеоклиповете, особено след като двата крайни слоя са по-свързани с външния вид. 

Визуално подробно ръководство

Рамката DyanmiCrafter използва богато информативно контекстно представяне, което позволява на модела за разпространение на видео в своята архитектура да произвежда видеоклипове, които много приличат на входното изображение. Въпреки това, както е показано на следното изображение, генерираното съдържание може да показва някои несъответствия поради ограничената способност на предварително обучения CLIP енкодер да запазва изцяло входната информация, тъй като е проектиран да подравнява езикови и визуални функции. 

За да се подобри визуалното съответствие, рамката DynamiCrafter предлага да се предостави моделът на видео дифузия с допълнителни визуални детайли, извлечени от входното изображение. За да постигне това, моделът DyanmiCrafter обединява условното изображение с начален шум на кадър и ги подава към премахващия шум компонент U-Net като насока. 

Парадигма на обучение

Рамката DynamiCrafter интегрира условното изображение чрез два допълващи се потока, които играят важна роля в подробното насочване и контрола на контекста. За да улесни същото, моделът DynamiCrafter използва процес на обучение в три стъпки

  1. В първата стъпка моделът обучава мрежата за представяне на контекста на изображението. 
  2. Във втората стъпка моделът адаптира мрежата за представяне на контекста на изображението към модела Text to Video. 
  3. В третата и последна стъпка моделът прецизира мрежата за представяне на контекста на изображението съвместно с компонента Visual Detail Guidance. 

За да се адаптира информацията за изображението за съвместимост с модела Text-to-Video (T2V), рамката DynamiCrafter предлага да се разработи мрежа за контекстно представяне, P, предназначена да улавя подравнени по текст визуални детайли от даденото изображение. Признавайки, че P изисква много стъпки за оптимизация за конвергенция, подходът на рамката включва първоначално обучение с помощта на по-прост модел Text-to-Image (T2I). Тази стратегия позволява на мрежата за представяне на контекста да се концентрира върху изучаването на контекста на изображението, преди да го интегрира с модела T2V чрез съвместно обучение с P и пространствените слоеве, за разлика от времевите слоеве, на модела T2V. 

За да осигури съвместимост с T2V, рамката DyanmiCrafter обединява входното изображение с шума за всеки кадър, като пристъпва към фина настройка както на P, така и на пространствените слоеве на модела на визуална дискриминация (VDM). Този метод е избран, за да поддържа целостта на съществуващите времеви прозрения на модела T2V без неблагоприятните ефекти от плътното сливане на изображения, което би могло да компрометира производителността и да се отклони от нашата основна цел. Освен това рамката използва стратегия за произволно избиране на видеокадър като условие за изображение, за да постигне две цели: (i) да избегне разработването на предсказуем модел от мрежата, който директно свързва обединеното изображение с конкретно местоположение на кадъра, и (ii) да насърчаване на по-адаптивно представяне на контекста чрез предотвратяване на предоставянето на прекалено твърда информация за всяка конкретна рамка. 

DynamiCrafter : Експерименти и резултати

Рамката DynamiCrafter първо обучава мрежата за представяне на контекста и слоевете за кръстосано внимание на изображението на Stable Diffusion. След това рамката заменя Стабилна дифузия компонент с VideoCrafter и допълнително фино настройва мрежата за представяне на контекста и пространствените слоеве за адаптиране и с конкатенация на изображения. При заключение рамката приема DDIM семплера с насоки без класификатори с множество условия. Освен това, за да оцени времевата кохерентност и качеството на видеоклиповете, синтезирани както във времеви, така и в пространствени домейни, рамката отчита FVD или Frechet Video Distance, както и KVD или Kernel Video Distance, и оценява производителността при нулев изстрел при всички методи на MSR-VTT и UCF-101 показатели. За да се изследва перцептивното съответствие между генерираните резултати и входното изображение, рамката въвежда PIC или Perceptual Input Conformity и приема метриката за перцептивно разстояние DreamSim като функция на разстоянието. 

Следващата фигура демонстрира визуално сравнение на генерирано анимирано съдържание с различни стилове и съдържание. 

Както може да се види, сред всички различни методи, рамката DynamiCrafter се придържа добре към състоянието на входното изображение и генерира съгласувани във времето видеоклипове. Следващата таблица съдържа статистическите данни от потребителско проучване с 49 участници за степента на предпочитание за времева кохерентност (TC) и качество на движение (MC) заедно със степента на избор за визуално съответствие с входното изображение. (ИНТЕГРАЛНА СХЕМА). Както може да се види, рамката DynamiCrafter е в състояние да превъзхожда съществуващите методи със значителна разлика. 

Следващата фигура демонстрира резултатите, постигнати с помощта на метода на инжектиране с двоен поток и парадигмата на обучение. 

Заключителни мисли

В тази статия говорихме за DynamiCrafter, опит за преодоляване на текущите ограничения на моделите за анимация на изображения и разширяване на тяхната приложимост към общи сценарии, включващи изображения от отворен свят. Рамката DynamiCrafter се опитва да синтезира динамично съдържание за изображения с отворен домейн, като ги преобразува в анимирани видеоклипове. Основната идея зад DynamiCrafter е да се включи изображението като насока в процеса на генериране в опит да се използва движението преди вече съществуващите модели за разпространение на текст към видео. За дадено изображение моделът DynamiCrafter първо внедрява преобразувател на заявки, който проектира изображението в подравнено с текст богато пространство за контекстно представяне, улеснявайки видео модела да усвои съдържанието на изображението по съвместим начин. Моделът DynamiCrafter обаче все още се бори да запази някои визуални детайли в получените видеоклипове, проблем, който моделът DynamiCrafter преодолява чрез подаване на пълното изображение към модела на дифузия чрез свързване на изображението с първоначалните шумове, следователно допълвайки модела с по-прецизно изображение информация. 

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.