Взгляд Anderson
Microsoft предлагает GODIVA, каркас машинного обучения для текста в видео

Сотрудничество между Microsoft Research Asia и Университетом Дьюка привело к созданию системы машинного обучения, способной генерировать видео исключительно из текстового запроса, без использования генеративных состязательных сетей (GAN).
Проект под названием GODIVA (Генерация открытого домена видео из естественных описаний) основан на некоторых подходах, использованных в системе синтеза изображений DALL-E от OpenAI, представленной ранее в этом году.

Ранние результаты GODIVA, с кадрами из видео, созданных из двух запросов. Два верхних примера были сгенерированы из запроса ‘Играть в гольф на траве’, и нижний третий из запроса ‘Играет в бейсбол’. Источник: https://arxiv.org/pdf/2104.14806.pdf
GODIVA использует модель VQ-VAE (Векторно-квантованный вариационный автоэнкодер) первый раз представленную исследователями из проекта DeepMind от Google в 2018 году, и также является важным компонентом в трансформационных возможностях DALL-E.

Архитектура модели VQ-VAE, с пространством вложения справа и кодировщиком/декодировщиком, разделяющим пространство измерений для снижения потерь при реконструкции. Источник: https://arxiv.org/pdf/1711.00937.pdf
VQ-VAE была использована в нескольких проектах для генерации предсказанного видео, где пользователь предоставляет начальную последовательность кадров и запрашивает систему сгенерировать дополнительные кадры:

Ранее работа: VQ-VAE выводит кадры из очень ограниченного исходного материала. Источник: Дополнительные материалы на https://openreview.net/forum?id=bBDlTR5eDIX
Однако авторы новой статьи утверждают, что GODIVA представляет собой первую реализацию текста в видео (T2V), которая использует VQ-VAE, а не более непредсказуемые результаты, которые предыдущие проекты получили с использованием GAN.
Начальные точки в тексте-в-видео
Хотя в представлении мало деталей о том, по каким критериям создаются исходные кадры, GODIVA, кажется, вызывает начальную картинку из ниоткуда, прежде чем экстраполировать ее в кадры низкого разрешения.

Колонная представление трехмерной системы внимания, которая питает GODIVA для задач текст-изображение. Авторегрессия предсказывается через четыре фактора: входной текст, относительное положение с предыдущим кадром (аналогично NVIDIA’s SPADE и другим методам, которые строятся на или эволюционируют за пределами подходов Optical Flow), те же строки на том же кадре и те же столбцы на том же столбце.
На самом деле, начало исходит из меток в данных, используемых: GODIVA была предварительно обучена на наборе данных Howto100M, состоящем из 136 миллионов видеоклипов с подписями, полученных из YouTube за 15 лет, и включающем 23 000 помеченных действий. Тем не менее, каждое возможное действие присутствует в очень большом количестве клипов, увеличивающемся с обобщением (т.е. ‘Питомцы и животные’ имеют 3,5 миллиона клипов, тогда как ‘собаки’ имеют 762 000 клипов), и поэтому существует еще много возможных начальных точек.
Модель была оценена на наборе данных MSR Video to Text (MSR-VTT) от Microsoft. Как дополнительные тесты архитектуры, GODIVA была обучена с нуля на наборе данных Moving Mnist и двойном Moving Mnist, оба полученных из исходной базы данных MNIST, совместного проекта Microsoft, Google и Института математических наук при NYU.
Оценка кадров в непрерывной синтезе видео
В соответствии с IRC-GAN от Пекинского университета, GODIVA добавляет четыре дополнительных колонных проверки к исходному методу MNIST, который оценивал предыдущие и следующие кадры, перемещаясь вверх>вниз и затем слева>права. IRC-GAN и GODIVA также учитывают кадры, перемещая внимание слева>права, справа>слева, вверх>вниз и вниз>вверх.
Оценка качества видео и верности запросу
Чтобы понять, насколько хорошо удалось сгенерировать изображение, исследователи использовали два метрики: один основанный на сходстве CLIP, и новый метрик относительного соответствия (RM).
Фреймворк CLIP от OpenAI способен выполнять нулевую сходимость совпадения изображений и текста, а также облегчает синтез изображений, обращая этот модель. Исследователи разделили балл CLIP на рассчитанное сходство между текстовым запросом и исходным видео, чтобы получить балл RM. В отдельном раунде оценки вывод был оценен 200 людьми, и результаты сравнены с программными баллами.
Наконец, GODIVA была протестирована против двух предыдущих фреймворков, TFGAN и сотрудничества Duke/NEC 2017 года, T2V.
TFGAN может производить 128 пикселей в сравнении с 64×64 выходом, который ограничивает GODIVA и T2V в вышеуказанных примерах, но исследователи отмечают, что GODIVA производит более смелые и приверженные движения, и будет генерировать изменения сцены без какого-либо конкретного запроса, и не боится генерировать крупные планы.
В более поздних запусках GODIVA также генерирует выход 128x128px, с изменениями точки зрения:
В метрике RM проекта GODIVA способна достичь баллов, приближающихся к 100%, в плане аутентичности (качества видео) и верности (насколько сгенерированный контент соответствует входному запросу).
Исследователи признают, однако, что разработка видео-основанных метрик CLIP будет желательным дополнением в этой области синтеза изображений, поскольку это обеспечит равные условия для оценки качества результатов без обращения к переобучению и отсутствию обобщения, которые все чаще критикуются в отношении ‘стандартных’ задач компьютерного зрения за последние десять лет.
Они также отмечают, что генерация более длинных видео будет логистическим соображением в дальнейшем развитии системы, поскольку всего 10 кадров выхода 64x64px требует 2560 визуальных токенов, что является pipeline-разбуханием, которое, вероятно, станет дорогим и неуправляемым довольно быстро.















