Connect with us

Microsoft Предлагает GODIVA, Фреймворк Машинного Обучения для Текст-Видео

Искусственный интеллект

Microsoft Предлагает GODIVA, Фреймворк Машинного Обучения для Текст-Видео

mm

Сотрудничество между Microsoft Research Asia и Университетом Дьюка привело к созданию системы машинного обучения, способной генерировать видео исключительно из текстового запроса, без использования Генеративных Соперничающих сетей (GAN).

Проект под названием GODIVA (Генерация Открытых Доменов Видео из Естественных Описаний) основан на некоторых подходах, использованных в системе синтеза изображений OpenAI’s DALL-E, представленной ранее в этом году.

Проект называется GODIVA (Генерация Открытых Доменов Видео из Естественных Описаний), и основан на некоторых подходах, использованных в системе синтеза изображений OpenAI’s DALL-E, представленной ранее в этом году.

Ранние результаты GODIVA, с кадрами из видео, созданных из двух запросов. Два верхних примера были сгенерированы из запроса 'Играть в гольф на траве', и нижний третий из запроса 'Играет в бейсбол'.

Ранние результаты GODIVA, с кадрами из видео, созданных из двух запросов. Два верхних примера были сгенерированы из запроса ‘Играть в гольф на траве’, и нижний третий из запроса ‘Играет в бейсбол’. Источник: https://arxiv.org/pdf/2104.14806.pdf

GODIVA использует модель Vector Quantised-Variational AutoEncoder (VQ-VAE) первый раз представленную исследователями из проекта Google’s DeepMind в 2018 году, и также является важным компонентом в трансформационных возможностях DALL-E.

Архитектура модели VQ-VAE, с пространством вложения справа и кодировщиком/декодировщиком, разделяющим пространство измерений для снижения потерь при реконструкции.

Архитектура модели VQ-VAE, с пространством вложения справа и кодировщиком/декодировщиком, разделяющим пространство измерений для снижения потерь при реконструкции. Источник: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE была использована в ряде проектов для генерации предсказанного видео, где пользователь предоставляет начальное количество кадров и запрашивает систему сгенерировать дополнительные кадры:

Ранее работа: VQ-VAE выводит кадры из очень ограниченного исходного материала.

Ранее работа: VQ-VAE выводит кадры из очень ограниченного исходного материала. Источник: Материалы к статье на https://openreview.net/forum?id=bBDlTR5eDIX

Однако авторы новой статьи утверждают, что GODIVA представляет собой первую чистую реализацию текст-в-видео (T2V), использующую VQ-VAE, а не более непредсказуемые результаты, которые предыдущие проекты получили с помощью GAN.

Точки Зеркала В Текст-Видео

Хотя представление коротко на деталях о том, по каким критериям создаются кадры, GODIVA, кажется, вызывает зеркальные изображения из ниоткуда, прежде чем экстраполировать их в кадры низкого разрешения.

Колонная представление трехмерной системы внимания, которая питает GODIVA для задач текст-в-изображение.

Колонная представление трехмерной системы внимания, которая питает GODIVA для задач текст-в-изображение. Авторегрессия предсказывается через четыре фактора: входной текст, относительное положение с предыдущим кадром (аналогично NVIDIA’s SPADE и другим методам, которые строятся на или развивают подходы, выходящие за рамки Optical Flow), одинаковые строки на одном кадре и одинаковые столбцы на одном столбце.

На самом деле, происхождение исходит из меток в использованных данных: GODIVA была предварительно обучена на наборе данных Howto100M, состоящем из 136 миллионов подписанных видеоклипов, полученных из YouTube за 15 лет, и содержащем 23 000 подписанных действий. Тем не менее, каждое возможное действие присутствует в очень большом количестве клипов, увеличиваясь с обобщением (т.е. ‘Питомцы и животные’ имеют 3,5 миллиона клипов, тогда как ‘собаки’ имеют 762 000 клипов), и поэтому существует еще много возможных точек начала.

Модель была оценена на наборе данных Microsoft’s MSR Video to Text (MSR-VTT). Как дальнейшие тесты архитектуры, GODIVA была обучена с нуля на наборе данных Moving Mnist и Double Moving Mnist dataset, оба полученные из исходной базы данных MNIST, сотрудничество между Microsoft, Google и Институтом математических наук при NYU.

Оценка Кадров В Непрерывной Синтезе Видео

В соответствии с IRC-GAN от Пекинского университета, GODIVA добавляет четыре дополнительных колонных проверки к исходному методу MNIST, который оценивал предыдущие и следующие кадры, перемещаясь вверх>вниз и затем слева>справа. IRC-GAN и GODIVA также учитывают кадры, перемещая внимание слева>справа, справа>слева, вверх>вниз и вниз>вверх.

Дополнительные сгенерированные кадры из GODIVA.

Дополнительные сгенерированные кадры из GODIVA.

Оценка Качества Видео И Верности Запросу

Чтобы понять, насколько хорошо удалось генерирование изображений, исследователи использовали два метрики: один основанный на сходстве CLIP, и новый метрик Относительного Сопоставления (RM).

Фреймворк OpenAI’s CLIP способен выполнять нулевую сходимость совпадения изображений и текста, а также облегчает синтез изображений путем обращения этой модели. Исследователи разделили CLIP-выведенный балл на рассчитанное сходство между текстовым запросом и исходным видео, чтобы получить балл RM. В отдельном раунде оценки выходные данные были оценены 200 людьми, и результаты сравнены с программными баллами.

Наконец GODIVA была протестирована против двух предыдущих фреймворков, TFGAN и сотрудничества 2017 года между Duke/NEC, T2V.

T2V-vs-TFGAN-vs-GODIVA

TFGAN может производить 128 квадратных пикселей по сравнению с 64×64 выходом, который ограничивает GODIVA и T2V в вышеперечисленных примерах, но исследователи отмечают, что GODIVA производит более смелое и приверженное движение, и будет генерировать смены сцены без какого-либо конкретного запроса, и не боится генерировать крупные планы.

В более поздних запусках GODIVA также генерирует выход 128x128px, с изменениями в POV:

godiva_baseball_128px

В собственной метрике RM GODIVA способна достичь баллов, приближающихся к 100% в плане аутентичности (качества видео) и верности (насколько сгенерированный контент соответствует входному запросу).

Исследователи признают, однако, что разработка видео-основанных метрик CLIP будет желательным дополнением к этой области синтеза изображений, поскольку это обеспечит равные условия для оценки качества результатов без обращения к переобучению и отсутствию обобщения, которые все чаще критикуются в отношении ‘стандартных’ задач компьютерного зрения за последние десять лет.

Они также отмечают, что генерация более длинных видео будет логистическим соображением в дальнейшем развитии системы, поскольку уже 10 кадров 64x64px выхода требует 2560 визуальных токенов, что, скорее всего, станет дорогим и неуправляемым довольно быстро.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.

Раскрытие информации о рекламе: Unite.AI придерживается строгих редакционных стандартов, чтобы предоставлять читателям точную информацию и новости. Мы можем получать вознаграждение, если вы переходите по ссылкам на продукты, которые мы рассмотрели.