Изкуствен интелект

Microsoft предлага GODIVA, рамка за машинно обучение от текст към видео

Обновено on Декември 9, 2022

Сътрудничеството между Microsoft Research Asia и Duke University създаде система за машинно обучение, способна да генерира видео единствено от текстова подкана, без използването на Generative Adversarial Networks (GAN).

- проект е озаглавен GODIVA (Генериране на видеоклипове с отворен домейн от nAtural описания) и се основава на някои от подходите, използвани от DALL-E системата за синтез на изображения на OpenAI, разкри по-рано тази година.

Ранни резултати от GODIVA, с кадри от видеоклипове, създадени от две подкани. Първите два примера бяха генерирани от подканата „Играйте голф на трева“, а долната трета от подканата „Игра се бейзболен мач“. Източник: https://arxiv.org/pdf/2104.14806.pdf

GODIVA използва модела Vector Quantised-Variational AutoEncoder (VQ-VAE) за първи път от изследователи от проекта DeepMind на Google през 2018 г., а също и основен компонент в трансформационните възможности на DALL-E.

Архитектура на модела VQ-VAE, с пространство за вграждане отдясно и енкодер/декодер, споделящ пространствено пространство, за да се намалят загубите по време на реконструкция. Източник: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE е използван в редица проекти за генериране на предвидено видео, където потребителят предоставя първоначален брой кадри и изисква от системата да генерира допълнителни кадри:

По-ранна работа: VQ-VAE извежда кадри от доста ограничен изходен материал. Източник: Допълнителни материали на https://openreview.net/forum?id=bBDlTR5eDIX

Въпреки това, авторите на новата статия твърдят, че GODIVA представлява първото изпълнение на чист текст към видео (T2V), което използва VQ-VAE, а не повече непостоянен резултати които предишни проекти са получили с GAN.

Начални точки в текст към видео

Въпреки че представянето е кратко за подробности относно критериите, по които се създават първоначалните кадри, GODIVA изглежда извиква начални изображения от нищото, преди да продължи да ги екстраполира във видео кадри с ниска разделителна способност.

Колонно представяне на триизмерната система за оскъдно внимание, която захранва GODIVA за задачи от текст към изображение. Автоматичната регресия се прогнозира чрез четири фактора: въведен текст, относително позициониране с предишния кадър (подобно на NVIDIA МЕЧОВЕ и други методи, които надграждат или се развиват отвъд подходите на Optical Flow), едни и същи редове в една и съща рамка и едни и същи колони в една и съща колона.

Всъщност произходът идва от етикетите в използваните данни: GODIVA беше предварително обучен на Как да100M набор от данни, състоящ се от 136 милиона видео клипа с надписи, извлечени от YouTube за 15 години, и включващ 23,000 3.5 етикетирани дейности. Независимо от това, всяка възможна дейност присъства в много голям брой клипове, нарастващ с обобщаването (т.е. „Домашни любимци и животни“ има 762,000 милиона клипа, докато „кучета“ има XNUMX XNUMX клипа), така че все още има голям избор от възможни начални точки .

Моделът беше оценен на Microsoft MSR Video to Text (MSR-VTT) набор от данни. Като допълнителни тестове на архитектурата, GODIVA беше обучен от нулата на Преместване на Mnist набор от данни и набор от данни Double Moving Mnist, и двата извлечени от оригинала База данни MNIST, сътрудничество между Microsoft, Google и Института по математически науки Courant в Нюйоркския университет.

Оценка на рамката при непрекъснат видео синтез

В съответствие с Пекинския университет IRC-GAN, GODIVA добавя четири допълнителни колонни проверки към оригиналния метод MNIST, който оценява предишни и следващи кадри чрез движение нагоре>надолу и след това наляво>надясно. IRC-GAN и GODIVA също вземат предвид рамки чрез преместване на вниманието наляво>надясно, надясно>наляво, нагоре>надолу и надолу>нагоре.

Допълнително генерирани рамки от GODIVA.

Оценяване на качеството и достоверността на видеозаписа до подкана

За да разберат колко добре е успяло генерирането на изображението, изследователите са използвали два показателя: един, базиран на сходството на CLIP, и нов показател за относително съвпадение (RM).

OpenAI's CLIP Framework е способен на нулево съвпадение на изображения с текст, както и улесняване на синтеза на изображения чрез обръщане на този модел. Изследователите разделиха резултата, получен от CLIP, на изчисленото сходство между текстовата подкана и видеото с основната истина, за да достигнат до RM резултат. В отделен кръг за точкуване резултатът беше оценен от 200 души и резултатите бяха сравнени с програмните резултати.

Накрая GODIVA беше тестван спрямо две предишни рамки, TFGAN и сътрудничеството на Duke/NEC от 2017 г., T2V.

TFGAN може да произведе 128 квадратни пиксела в сравнение с изхода 64 × 64, който ограничава GODIVA и T2V в горните примери, но изследователите отбелязват не само, че GODIVA произвежда по-смели и по-ангажирани движения, но ще генерира промени в сцената без конкретно подсказване, и не се стеснява да генерира снимки в близък план.

В по-късни изпълнения GODIVA също генерира 128x128px изход, с промени в POV:

В собствената RM метрика на проекта GODIVA е в състояние да постигне резултати, приближаващи се до 100% по отношение на автентичност (качество на видео) и вярност (колко точно генерираното съдържание съответства на подканата за въвеждане).

Изследователите обаче признават, че разработването на видео-базирани CLIP показатели би било добре дошло допълнение към тази област на синтез на изображения, тъй като би осигурило равни условия за оценка на качеството на резултатите, без да се прибягва до прекомерно приспособяване и липса на генерализация, която все повече се критикува по отношение на предизвикателствата на „стандартното“ компютърно зрение през последните десет години.

Те също така отбелязват, че генерирането на по-дълги видеоклипове ще бъде логистично съображение при по-нататъшното развитие на системата, тъй като само 10 кадъра от 64x64px изход изискват 2560 визуални токена, раздуване на конвейера, което вероятно ще стане скъпо и неуправляемо доста бързо.