Изкуствен интелект
Microsoft предлага GODIVA, рамка за машинно обучение от текст към видео
Сътрудничеството между Microsoft Research Asia и Duke University създаде система за машинно обучение, способна да генерира видео единствено от текстова подкана, без използването на Generative Adversarial Networks (GAN).
- проект е озаглавен GODIVA (Генериране на видеоклипове с отворен домейн от nAtural описания) и се основава на някои от подходите, използвани от DALL-E системата за синтез на изображения на OpenAI, разкри по-рано тази година.
GODIVA използва модела Vector Quantised-Variational AutoEncoder (VQ-VAE) за първи път от изследователи от проекта DeepMind на Google през 2018 г., а също и основен компонент в трансформационните възможности на DALL-E.
VQ-VAE е използван в редица проекти за генериране на предвидено видео, където потребителят предоставя първоначален брой кадри и изисква от системата да генерира допълнителни кадри:
Въпреки това, авторите на новата статия твърдят, че GODIVA представлява първото изпълнение на чист текст към видео (T2V), което използва VQ-VAE, а не повече непостоянен резултати които предишни проекти са получили с GAN.
Начални точки в текст към видео
Въпреки че представянето е кратко за подробности относно критериите, по които се създават първоначалните кадри, GODIVA изглежда извиква начални изображения от нищото, преди да продължи да ги екстраполира във видео кадри с ниска разделителна способност.
Всъщност произходът идва от етикетите в използваните данни: GODIVA беше предварително обучен на Как да100M набор от данни, състоящ се от 136 милиона видео клипа с надписи, извлечени от YouTube за 15 години, и включващ 23,000 3.5 етикетирани дейности. Независимо от това, всяка възможна дейност присъства в много голям брой клипове, нарастващ с обобщаването (т.е. „Домашни любимци и животни“ има 762,000 милиона клипа, докато „кучета“ има XNUMX XNUMX клипа), така че все още има голям избор от възможни начални точки .
Моделът беше оценен на Microsoft MSR Video to Text (MSR-VTT) набор от данни. Като допълнителни тестове на архитектурата, GODIVA беше обучен от нулата на Преместване на Mnist набор от данни и набор от данни Double Moving Mnist, и двата извлечени от оригинала База данни MNIST, сътрудничество между Microsoft, Google и Института по математически науки Courant в Нюйоркския университет.
Оценка на рамката при непрекъснат видео синтез
В съответствие с Пекинския университет IRC-GAN, GODIVA добавя четири допълнителни колонни проверки към оригиналния метод MNIST, който оценява предишни и следващи кадри чрез движение нагоре>надолу и след това наляво>надясно. IRC-GAN и GODIVA също вземат предвид рамки чрез преместване на вниманието наляво>надясно, надясно>наляво, нагоре>надолу и надолу>нагоре.
Оценяване на качеството и достоверността на видеозаписа до подкана
За да разберат колко добре е успяло генерирането на изображението, изследователите са използвали два показателя: един, базиран на сходството на CLIP, и нов показател за относително съвпадение (RM).
OpenAI's CLIP Framework е способен на нулево съвпадение на изображения с текст, както и улесняване на синтеза на изображения чрез обръщане на този модел. Изследователите разделиха резултата, получен от CLIP, на изчисленото сходство между текстовата подкана и видеото с основната истина, за да достигнат до RM резултат. В отделен кръг за точкуване резултатът беше оценен от 200 души и резултатите бяха сравнени с програмните резултати.
Накрая GODIVA беше тестван спрямо две предишни рамки, TFGAN и сътрудничеството на Duke/NEC от 2017 г., T2V.
TFGAN може да произведе 128 квадратни пиксела в сравнение с изхода 64 × 64, който ограничава GODIVA и T2V в горните примери, но изследователите отбелязват не само, че GODIVA произвежда по-смели и по-ангажирани движения, но ще генерира промени в сцената без конкретно подсказване, и не се стеснява да генерира снимки в близък план.
В по-късни изпълнения GODIVA също генерира 128x128px изход, с промени в POV:
В собствената RM метрика на проекта GODIVA е в състояние да постигне резултати, приближаващи се до 100% по отношение на автентичност (качество на видео) и вярност (колко точно генерираното съдържание съответства на подканата за въвеждане).
Изследователите обаче признават, че разработването на видео-базирани CLIP показатели би било добре дошло допълнение към тази област на синтез на изображения, тъй като би осигурило равни условия за оценка на качеството на резултатите, без да се прибягва до прекомерно приспособяване и липса на генерализация, която все повече се критикува по отношение на предизвикателствата на „стандартното“ компютърно зрение през последните десет години.
Те също така отбелязват, че генерирането на по-дълги видеоклипове ще бъде логистично съображение при по-нататъшното развитие на системата, тъй като само 10 кадъра от 64x64px изход изискват 2560 визуални токена, раздуване на конвейера, което вероятно ще стане скъпо и неуправляемо доста бързо.