никулец Стабилна видео дифузија: модели на латентна видео дифузија до големи збирки на податоци - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Стабилна видео дифузија: модели на латентна видео дифузија до големи збирки на податоци

mm
Ажурирани on

Генеративна АИ веќе некое време е движечка сила во заедницата за вештачка интелигенција, а напредокот направен на полето на генеративно моделирање на слики, особено со употребата на моделите за дифузија, им помогна на генеративните видео модели значително да напредуваат не само во истражувањето, туку и во однос на апликации од реалниот свет. Конвенционално, генеративните видео модели се или обучени од почеток, или делумно или целосно се дотеруваат од претходно обучени модели на слики со дополнителни временски слоеви, на мешавина од збирки податоци за слики и видео. 

Следејќи ги напредните достигнувања во генеративните видео модели, во оваа статија ќе зборуваме за Стабилен модел на видео дифузија, латентен модел на дифузија на видео способен да генерира со висока резолуција, најсовремена слика во видео и текст во видео содржина. Ќе зборуваме за тоа како моделите на латентна дифузија обучени за синтетизирање 2D слики ги подобрија способностите и ефикасноста на генеративните видео модели со додавање временски слоеви и фино прилагодување на моделите на мали збирки на податоци што се состојат од висококвалитетни видеа. Подлабоко ќе се нурнеме во архитектурата и работата на стабилниот модел на видео дифузија и ќе ги процениме неговите перформанси на различни метрики и ќе ги споредиме со тековните најсовремени рамки за генерирање видео. Па ајде да започнеме. 

Стабилен модел на видео дифузија и генеративни видео модели: вовед

Благодарение на речиси неограничениот потенцијал, Генеративната вештачка интелигенција веќе извесно време е примарен предмет на истражување за практичарите на вештачка интелигенција и ML, а во изминатите неколку години е забележан брз напредок и во однос на ефикасноста и перформансите на генеративните модели на слики. Учењата од генеративните модели на слики им овозможија на истражувачите и програмерите да постигнат напредок во генеративните видео модели што резултираат со зголемена практичност и апликации во реалниот свет. Сепак, повеќето од истражувањата кои се обидуваат да ги подобрат можностите на генеративните видео модели се фокусираат првенствено на точниот распоред на временските и просторните слоеви, при што малку внимание се посветува на истражување на влијанието на изборот на вистинските податоци врз исходот на овие генеративни модели.

Благодарение на напредокот постигнат од генеративните модели на слики, истражувачите забележаа дека влијанието на дистрибуцијата на податоците за обука врз перформансите на генеративните модели е навистина значајно и неспорно. Понатаму, истражувачите, исто така, забележаа дека предобучувањето на генеративен модел на слика на голема и разновидна база на податоци проследено со негово дотерување на помала база на податоци со подобар квалитет често резултира со значително подобрување на перформансите. Традиционално, генеративните видео модели ги имплементираат учењата добиени од успешните модели на генеративни слики, а истражувачите допрва треба да го проучуваат ефектот на податоците, а стратегиите за обука допрва треба да се проучуваат. Моделот за стабилна видео дифузија е обид да се подобрат способностите на генеративните видео модели со навлегување во претходно непознати територии со посебен фокус на селектирање податоци. 

Неодамнешните генеративни видео модели се потпираат на модели на дифузија и пристапи за уредување текст или уредување на слика за синтетизирање на повеќе конзистентни видео или слики. Моделите за дифузија се познати по нивната способност да научат како постепено да го отфрлаат примерокот од нормалната дистрибуција со имплементирање на итеративен процес на рафинирање, и тие дадоа посакувани резултати на видео со висока резолуција и синтеза од текст во слика. Користејќи го истиот принцип во неговото јадро, Стабилниот модел на видео дифузија обучува латентен модел на видео дифузија на неговата видео база на податоци заедно со употребата на генеративни противнички мрежи или GAN, па дури и авторегресивни модели до одреден степен. 

Стабилниот модел на видео дифузија следи уникатна стратегија која никогаш не била имплементирана од ниту еден генеративен видео модел бидејќи се потпира на основни линии на латентна дифузија на видео со фиксна архитектура и фиксна стратегија за обука проследена со проценка на ефектот од курирање на податоците. Стабилниот модел на видео дифузија има за цел да ги даде следните придонеси во областа на генеративно видео моделирање. 

  1. Да се ​​претстави систематски и ефективен работен тек за курирање податоци во обид да се претвори голема колекција од некурирани видео примероци во висококвалитетна база на податоци што потоа се користи од генеративните видео модели. 
  2. Да се ​​обучат најсовремената слика за видео и текст во видео модели што ги надминуваат постоечките рамки. 
  3. Спроведување експерименти специфични за домен за испитување на 3D разбирањето и силно пред движење на моделот. 

Сега, Стабилниот модел на видео дифузија ги имплементира учењето од моделите за латентна дифузија на видео и техниките за курирање податоци во основата на неговата основа. 

Латентни модели на видео дифузија

Моделите за латентна дифузија на видео или видео-LDM го следат пристапот на тренирање на примарниот генеративен модел во латентен простор со намалена пресметковна сложеност, а повеќето Video-LDM имплементираат претходно обучен модел од текст во слика заедно со додавање на слоеви за временско мешање во предобука архитектура. Како резултат на тоа, повеќето модели на видео латентна дифузија или обучуваат само временски слоеви, или целосно го прескокнуваат процесот на обука за разлика од Стабилниот модел на видео дифузија што фино ја прилагодува целата рамка. Понатаму, за синтетизирање текст во видео податоци, моделот за стабилна видео дифузија директно се условува на текстуално известување, а резултатите покажуваат дека добиената рамка може лесно да се прилагоди во синтеза со повеќе прегледи или модел од слика во видео. 

Курирање на податоци

Курирањето на податоци е суштинска компонента не само на стабилниот модел на видео дифузија, туку и за генеративните модели како целина, бидејќи е од суштинско значење да се предобучуваат големи модели на збирки на податоци од големи размери за да се подобрат перформансите во различни задачи, вклучително и моделирање јазик или генерирање дискриминативен текст во слика. , и уште повеќе. Data Curation е успешно имплементиран на генеративни модели на слики со искористување на можностите на ефикасните репрезентации на слики со јазик, иако таквите дискусии никогаш не биле фокусирани на развивање генеративни видео модели. Има неколку пречки со кои се соочуваат програмерите кога курираат податоци за генеративни видео модели, а за да се справи со овие предизвици, Стабилниот модел на видео дифузија имплементира стратегија за обука во три фази, што резултира со подобри резултати и значително зголемување на перформансите. 

Курација на податоци за висококвалитетна видео синтеза

Како што беше дискутирано во претходниот дел, моделот за стабилна видео дифузија имплементира стратегија за обука во три фази, што резултира со подобри резултати и значително зголемување на перформансите. Фаза I е ан предобука за слики фаза која користи 2D модел на дифузија од текст во слика. Фаза II е за видео предобука во која рамката тренира на големо количество видео податоци. Конечно, имаме трета фаза за видео дотерување во кој моделот е рафиниран на мала подгрупа видеа со висок квалитет и висока резолуција. 

Сепак, пред да ги имплементира овие три фази Стабилниот модел на видео дифузија, од витално значење е да се обработат и да се прибележат податоците бидејќи тие служат како основа за фаза II или фазата на видео пред-тренинг и игра клучна улога во обезбедувањето оптимален излез. За да се обезбеди максимална ефикасност, рамката прво имплементира каскадно цевковод за откривање на сечењето на 3 различни нивоа на FPS или Рамки во секунда, а потребата за овој гасовод е прикажана на следната слика. 

Следно, моделот за стабилна видео дифузија дава прибелешки за секој видео клип користејќи три различни синтетички методи на титлови. Следната табела ги споредува збирките на податоци што се користат во рамката за стабилна дифузија пред и по процесот на филтрирање. 

Фаза I: Пред-тренинг со слики

Првата фаза во тристепениот цевковод имплементиран во стабилниот модел на видео дифузија е пред-тренинг на слики, а за да се постигне ова, почетната рамка на моделот за стабилна видео дифузија е втемелена на претходно обучен модел за дифузија на слики, имено Стабилна дифузија 2.1 модел кој го опремува со посилни визуелни претстави. 

Фаза II: Видео пред-тренинг

Втората фаза е фазата на видео пред-тренинг, и се надоврзува на наодите дека употребата на курирање податоци во мултимодалните генеративни модели на слики често резултира со подобри резултати и зголемена ефикасност заедно со моќно дискриминативно генерирање слики. Сепак, поради недостатокот на слични моќни репрезентации надвор од полицата за филтрирање на несаканите примероци за генеративни видео модели, Стабилниот модел на видео дифузија се потпира на човечките преференци како влезни сигнали за создавање на соодветна база на податоци што се користи за претходна обука на рамката. Следната слика го демонстрира позитивниот ефект од пред-тренингот на рамката на курирана база на податоци што помага во зајакнувањето на севкупните перформанси за видео пред-обука на помали збирки податоци. 

За да бидеме поконкретни, рамката користи различни методи за курирање на подмножества на латентна видео дифузија и го разгледува рангирањето на моделите LVD обучени за овие збирки на податоци. Понатаму, рамката за стабилна видео дифузија, исто така, открива дека употребата на курирани сетови на податоци за обука на рамки помага во зајакнувањето на перформансите на рамката и на моделите за дифузија воопшто. Понатаму, стратегијата за чување податоци работи и на поголеми, порелевантни и многу практични сетови на податоци. Следната слика го демонстрира позитивниот ефект од пред-тренингот на рамката на курирана база на податоци што помага во зајакнувањето на севкупните перформанси за видео пред-обука на помали збирки податоци. 

Фаза III: Висококвалитетно фино подесување

До фаза II, рамката за стабилна видео дифузија се фокусира на подобрување на перформансите пред видео предобука, а во третата фаза, рамката го става својот акцент на оптимизирање или дополнително зајакнување на перформансите на рамката по висококвалитетно дотерување на видеото, и како преминот од Фаза II во Фаза III се постигнува во рамката. Во Фаза III, рамката се базира на техники за обука позајмени од моделите на латентна дифузија на слики и ја зголемува резолуцијата на примерите за обука. За да се анализира ефективноста на овој пристап, рамката го споредува со три идентични модели кои се разликуваат само во однос на нивната иницијализација. Првиот идентичен модел има иницијализирани тежини, а процесот на видео обука е прескокнат додека преостанатите два идентични модели се иницијализираат со тежините позајмени од други латентни видео модели. 

Резултати и наоди

Време е да погледнеме како рамката за стабилна видео дифузија функционира на задачи од реалниот свет и како се споредува со моменталната состојба на рамки на уметноста. Рамката за стабилна видео дифузија прво го користи оптималниот пристап на податоци за да обучи базен модел, а потоа врши фино подесување за да генерира неколку најсовремени модели, каде што секој модел извршува одредена задача. 

Горенаведената слика ја претставува сликата со висока резолуција на видео примероците генерирани од рамката, додека следната слика ја демонстрира способноста на рамката да генерира висококвалитетен текст во видео примероци. 

Претходно обучена база Мodel

Како што беше дискутирано претходно, моделот Stable Video Diffusion е изграден на рамката Stable Diffusion 2.1 и врз основа на неодамнешните наоди, од клучно значење за програмерите беше да го усвојат распоредот за шум и да го зголемат шумот за да добијат слики со подобра резолуција кога тренираат дифузија на слики модели. Благодарение на овој пристап, основниот модел на стабилна видео дифузија учи моќни претстави на движење и во тој процес ги надминува основните модели за текст до генерирање видео во поставка нулта снимка, а резултатите се прикажани во следната табела. 

Интерполација на рамки и генерирање на повеќе прегледи

Рамката за стабилна видео дифузија ја дотерува сликата во видео-модел на збирки на податоци со повеќе прегледи за да добие повеќе нови прикази на објектот, и овој модел е познат како SVD-MV или Стабилен модел на видео дифузија-повеќе приказ. Оригиналниот SVD модел е фино подесен со помош на две збирки на податоци на начин што рамката внесува една слика и враќа низа од слики со повеќе прегледи како нејзин излез. 

Како што може да се види на следните слики, рамката Stable Video Diffusion Multi View обезбедува високи перформанси споредливи со најсовремената рамка Scratch Multi View, а резултатите се јасна демонстрација на способноста на SVD-MV да ги искористи добиените учења од оригиналната SVD рамка за генерирање слики со повеќе прегледи. Понатаму, резултатите, исто така, укажуваат дека извршувањето на моделот за релативно помал број повторувања помага во обезбедувањето оптимални резултати како што е случајот со повеќето модели фино подесени од рамката SVD. 

На горната слика, метриката е означена на левата страна и како што може да се види, рамката за стабилна дифузија на видео со повеќе прегледи ја надминува рамката Scratch-MV и SD2.1 Multi-View со пристојна маргина. Втората слика го демонстрира ефектот на бројот на повторувања на обуката врз севкупните перформанси на рамката во однос на оценката за клип, а рамки SVD-MV даваат одржливи резултати. 

Последни мисли

Во оваа статија, зборувавме за Стабилна видео дифузија, модел на латентна видео дифузија способен да генерира современа слика во видео со висока резолуција и содржина од текст во видео. Стабилниот модел на видео дифузија следи уникатна стратегија која никогаш не била имплементирана од ниту еден генеративен видео модел бидејќи се потпира на основни линии на латентна дифузија на видео со фиксна архитектура и фиксна стратегија за обука проследена со проценка на ефектот од курирање на податоците. 

Зборувавме за тоа како моделите на латентна дифузија обучени за синтетизирање на 2D слики ги подобрија способностите и ефикасноста на генеративни видео модели со додавање временски слоеви и дотерување на моделите на мали збирки на податоци што се состојат од висококвалитетни видеа. За да се соберат податоците од пред обуката, рамката спроведува студија за скалирање и следи систематски практики за собирање податоци, и на крајот предлага метод за курирање на голема количина на видео податоци и конвертира бучни видеа во влезни податоци погодни за генеративни видео модели. 

Понатаму, рамката за стабилна видео дифузија користи три различни фази на обука за видео модели кои се анализираат независно за да се процени нивното влијание врз перформансите на рамката. Рамката на крајот дава видео претставување доволно моќно за да ги прилагоди моделите за оптимална видео синтеза, а резултатите се споредливи со најсовремените модели за генерирање видео што веќе се користат. 

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.