Штучний інтелект

Microsoft пропонує GODIVA, текстово-відео фреймворк машинного навчання

Published May 4, 2021

Updated April 28, 2026

Martin Anderson

Співпраця між Microsoft Research Asia та Дюкським університетом призвела до створення системи машинного навчання, здатної генерувати відео лише з текстового запиту, без використання Генеративних суперницьких мереж (GAN).

Проект назвається GODIVA (Генерування відкритих доменних відео з натуральних описів), і будується на деяких підходах, використаних у системі синтезу зображень OpenAI’s DALL-E, оголошеної на початку цього року.

Ранні результати з GODIVA, з кадрами відео, створених з двох запитів. Два верхніх приклади були згенеровані з запиту ‘Грати в гольф на траві’, а нижній третій з запиту ‘Гра в бейсбол відограється’. Джерело: https://arxiv.org/pdf/2104.14806.pdf

GODIVA використовує модель Vector Quantised-Variational AutoEncoder (VQ-VAE) спочатку представлену дослідниками з проекту Google’s DeepMind у 2018 році, і також важливу складову у трансформаційних можливостях DALL-E.

Архітектура моделі VQ-VAE, з простором вкладення праворуч і кодувачем/декодувачем, що спільно використовують простір для зменшення втрат під час реконструкції. Джерело: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE була використана в ряді проектів для генерації передбачуваного відео, де користувач надає початкову кількість кадрів і просить систему згенерувати додаткові кадри:

Раніша робота: VQ-VAE виводить кадри з дуже обмеженого джерельного матеріалу. Джерело: Доповнення до матеріалів на https://openreview.net/forum?id=bBDlTR5eDIX

Однак автори нової статті стверджують, що GODIVA представляє перший чистий текстово-відео (T2V) варіант реалізації, який використовує VQ-VAE, а не більш непередбачувані результати, яких раніше досягли інші проекти з використанням GAN.

Точка початку у текстово-відео

Хоча подання коротке на деталі щодо критеріїв, за якими створюються початкові кадри, GODIVA, здається, викликає початкові зображення з ніде, а потім продовжує екстраполювати їх у низькорозрядні відеокадри.

Колонкова репрезентація трирівневої системи розрідженої уваги, яка потужить GODIVA для текстово-зображень завдань. Авторегресія передбачається через чотири чинники: вхідний текст, відносне позиціонування з попереднім кадром (podob до NVIDIA’s SPADE і інших методів, які будуються або розвиваються далі Optical Flow підходів), ті ж рядки на тому ж кадрі, і ті ж стовпці на тому ж стовпці.

Насправді походження починається з міток у використовуваних даних: GODIVA була попередньо навчена на Howto100M наборі даних, який складається з 136 мільйонів підписаних відеокліпів, взятих з YouTube за 15 років, і містить 23 000 позначених дій. Тим не менш, кожна можлива дія присутня у дуже великій кількості кліпів, збільшуючись з узагальненням (тобто ‘Тварини та домашні тварини’ мають 3,5 мільйона кліпів, тоді як ‘собаки’ мають 762 000 кліпів), і тому все ще є великий вибір можливих точок початку.

Модель була оцінена на наборі даних Microsoft’s MSR Video to Text (MSR-VTT). Як подальші тести архітектури, GODIVA була навчена з нуля на Moving Mnist наборі даних і Double Moving Mnist наборі даних, обидва похідні від оригінальної MNIST бази даних, співпраці між Microsoft, Google і Courant Інститутом математичних наук у NYU.

Оцінка кадрів у безперервній синтезі відео

У відповідності з Peking University’s IRC-GAN, GODIVA додає чотири додаткові колонкові перевірки до оригінального методу MNIST, який оцінював попередні та наступні кадри, рухаючись вгору>вниз, а потім ліворуч>праворуч. IRC-GAN і GODIVA також розглядають кадри, рухаючись увагою ліворуч>праворуч, праворуч>ліворуч, вгору>вниз і вниз>вгору.

Додаткові згенеровані кадри з GODIVA.

Оцінка якості відео та вірності запиту

Щоб зрозуміти, наскільки добре вдалася генерація зображення, дослідники використали два метрики: один заснований на подібності CLIP, і новий метрик Відносного підтримання (RM).

OpenAI’s CLIP фреймворк здатний виконувати нуль-шотове збігання зображень з текстом, а також забезпечувати синтез зображень шляхом обернення цієї моделі. Дослідники розділили CLIP-похідний бал на розраховану подібність між текстовим запитом і фактичним відео, щоб отримати бал RM. У окремому раунді оцінювання вихід був оцінений 200 людьми, і результати були порівняні з програмними балами.

Нарешті GODIVA була протестована проти двох попередніх фреймворків, TFGAN і співпраці 2017 року між Duke/NEC, T2V.

TFGAN може виробляти 128 квадратних пікселів у порівнянні з 64×64 вихідним, який обмежує GODIVA і T2V у вищезазначених прикладах, але дослідники відзначають, що GODIVA не тільки генерує сміливіші та більш сміливі рухи, але також генерує зміни сцени без будь-якої спеціальної підтримки, і не уникає генерації крупних планів.

У пізніших запусках GODIVA також генерує 128x128px вихід, з змінами в POV:

У власному метриці RM проекту GODIVA能够 досягти балів, наближающихся до 100% щодо автентичності (якості відео) і вірності (наскільки згенерований контент відповідає вхідному запиту).

Дослідники визнають, однак, що розвиток відео-орієнтованих метрик CLIP буде бажаним доповненням до цієї області синтезу зображень, оскільки це забезпечить рівну основу для оцінки якості результатів без звернення до надмірного підгону і відсутності узагальнення, які все частіше критикувалися щодо ‘стандартних’ викликів комп’ютерного зору за останні десять років.

Вони також відзначають, що генерація довших відео буде логістичним урахуванням у подальшому розвитку системи, оскільки вже 10 кадрів 64x64px вихідного вимагає 2560 візуальних токенів, розширення конвеєра, яке, ймовірно, стане дорогим і незручним досить швидко.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]