заглушки Microsoft предлагает GODIVA, платформу машинного обучения преобразования текста в видео - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Microsoft предлагает GODIVA, платформу машинного обучения преобразования текста в видео

mm
обновленный on

В результате сотрудничества Microsoft Research Asia и Университета Дьюка была создана система машинного обучения, способная генерировать видео исключительно из текстовой подсказки без использования генеративно-состязательных сетей (GAN).

Ассоциация Проект называется GODIVA (Генерация видео Open-DomaIn из естественных описаний) и основывается на некоторых подходах, используемых системой синтеза изображений DALL-E от OpenAI. показал, в начале этого года.

Первые результаты от GODIVA с кадрами из видео, созданными из двух подсказок. Два верхних примера были сгенерированы из подсказки «Играть в гольф на траве», а нижняя треть из подсказки «Играется игра в бейсбол». Источник: https://arxiv.org/pdf/2104.14806.pdf

Первые результаты от GODIVA с кадрами из видео, созданными из двух подсказок. Два верхних примера были сгенерированы из подсказки «Играть в гольф на траве», а нижняя треть из подсказки «Играется игра в бейсбол». Источник: https://arxiv.org/pdf/2104.14806.pdf

GODIVA использует модель векторного квантованно-вариационного автоэнкодера (VQ-VAE). впервые введен исследователями из проекта Google DeepMind в 2018 году, а также важным компонентом трансформационных возможностей DALL-E.

Архитектура модели VQ-VAE с пространством для встраивания справа и кодером/декодером, разделяющим размерное пространство для снижения потерь во время реконструкции. Источник: https://arxiv.org/pdf/1711.00937.pdf

Архитектура модели VQ-VAE с пространством для встраивания справа и кодером/декодером, разделяющим размерное пространство для снижения потерь во время реконструкции.  Источник: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE использовался в ряде проектов для генерировать предсказанное видео, где пользователь указывает начальное количество кадров и запрашивает систему для создания дополнительных кадров:

Предыдущая работа: VQ-VAE выводит кадры из очень ограниченного исходного материала. Источник: дополнительные материалы на https://openreview.net/forum?id=bBDlTR5eDIX.

Предыдущая работа: VQ-VAE выводит кадры из очень ограниченного исходного материала. Источник: дополнительные материалы на https://openreview.net/forum?id=bBDlTR5eDIX.

Тем не менее, авторы новой статьи утверждают, что GODIVA представляет собой первую чистую реализацию преобразования текста в видео (T2V), в которой используется VQ-VAE, а не более неустойчивый Результаты что предыдущие проекты получили с помощью GAN.

Исходные точки в преобразовании текста в видео

Хотя в заявке мало подробностей о критериях, по которым создаются исходные кадры, GODIVA, похоже, вызывает исходные изображения из ниоткуда, прежде чем экстраполировать их на видеокадры с низким разрешением.

Столбчатое представление трехмерной системы разреженного внимания, которая обеспечивает GODIVA для задач преобразования текста в изображение. Авторегрессия прогнозируется по четырем факторам: вводимый текст, относительное расположение относительно предыдущего кадра (аналогично SPADE от NVIDIA и другим методам, основанным на подходах Optical Flow или развивающимся за их пределами), одинаковые строки в одном кадре и одинаковые столбцы в одном и том же кадре. столбец.

Столбчатое представление трехмерной системы разреженного внимания, которая обеспечивает GODIVA для задач преобразования текста в изображение. Авторегрессия прогнозируется с помощью четырех факторов: входного текста, относительного позиционирования с предыдущим кадром (аналогично алгоритму NVIDIA). ШПАГИ и другие методы, основанные на подходах Optical Flow или развивающиеся за их пределами), одни и те же строки в одном кадре и одни и те же столбцы в одном столбце.

На самом деле происхождение происходит от меток в используемых данных: GODIVA была предварительно обучена на Как100M набор данных, состоящий из 136 миллионов видеоклипов с субтитрами, полученных с YouTube за 15 лет, и включающий 23,000 3.5 помеченных действий. Тем не менее, каждый возможный вид деятельности присутствует в очень большом количестве клипов, увеличиваясь по мере обобщения (например, «Домашние животные» содержат 762,000 миллиона клипов, а «собаки» — XNUMX XNUMX клипов), поэтому остается большой выбор возможных отправных точек. .

Модель была оценена на Microsoft MSR Video to Text (МСР-ВТТ) набор данных. В качестве дальнейших испытаний архитектуры GODIVA была обучена с нуля на Перемещение Мнист набор данных и набор данных Double Moving Mnist, оба получены из исходного База данных MNIST, результат сотрудничества между Microsoft, Google и Институтом математических наук Куранта при Нью-Йоркском университете.

Оценка кадров в непрерывном синтезе видео

По данным Пекинского университета IRC-ГАН, GODIVA добавляет четыре дополнительные столбцовые проверки к исходному методу MNIST, который оценивал предыдущие и последующие кадры, перемещаясь вверх> вниз, а затем влево> вправо. IRC-GAN и GODIVA также рассматривают кадры, перемещая внимание влево>вправо, вправо>влево, вверх>вниз и вниз>вверх.

Дополнительные сгенерированные кадры от GODIVA.

Дополнительные сгенерированные кадры от GODIVA.

Оценка качества и точности видео для подсказки

Чтобы понять, насколько успешно было создано изображение, исследователи использовали две метрики: одну, основанную на сходстве CLIP, и новую метрику относительного соответствия (RM).

OpenAI CLIP Framework способен к нулевому сопоставлению изображений с текстом, а также облегчает синтез изображений путем обращения этой модели. Исследователи разделили оценку, полученную с помощью CLIP, на рассчитанное сходство между текстовой подсказкой и реальным видео, чтобы получить оценку RM. В отдельном раунде подсчета результатов оценивали 200 человек, а результаты сравнивали с программными баллами.

Наконец, GODIVA была протестирована на двух предыдущих фреймворках: ТФГАН и коллаборация Duke/NEC 2017 года, Т2В.

T2V-против-TFGAN-против-GODIVA

TFGAN может создавать 128 квадратных пикселей по сравнению с выводом 64×64, который ограничивает GODIVA и T2V в приведенных выше примерах, но исследователи отмечают, что GODIVA не только производит более смелое и целенаправленное движение, но и генерирует изменения сцены без каких-либо конкретных подсказок, и не уклоняется от создания снимков крупным планом.

В более поздних запусках GODIVA также генерирует вывод 128x128px с изменениями POV:

godiva_baseball_128px

В собственной метрике RM проекта GODIVA может достигать оценок, приближающихся к 100%, с точки зрения подлинности (качество видео) и точности (насколько близко сгенерированный контент соответствует входному запросу).

Однако исследователи признают, что разработка показателей CLIP на основе видео стала бы долгожданным дополнением к этой области синтеза изображений, поскольку она обеспечила бы равные условия для оценки качества результатов, не прибегая к чрезмерной подгонке и недостатку. обобщения, которое за последние десять лет все чаще подвергалось критике в отношении «стандартных» задач компьютерного зрения.

Они также отмечают, что создание более длинных видеороликов будет логистическим соображением при дальнейшем развитии системы, поскольку всего 10 кадров вывода 64x64px требуют 2560 визуальных токенов, а это раздувание конвейера, которое, вероятно, довольно быстро станет дорогим и неуправляемым.