Connect with us

Microsoft пропонує GODIVA, текстово-відео фреймворк машинного навчання

Штучний інтелект

Microsoft пропонує GODIVA, текстово-відео фреймворк машинного навчання

mm

Співпраця між Microsoft Research Asia та Дюкським університетом призвела до створення системи машинного навчання, здатної генерувати відео лише з текстового запиту, без використання Генеративних суперницьких мереж (GAN).

Проект назвається GODIVA (Генерування відкритих доменних відео з натуральних описів), і будується на деяких підходах, використаних у системі синтезу зображень OpenAI’s DALL-E, оголошеної на початку цього року.

Ранні результати з GODIVA, з кадрами відео, створених з двох запитів. Два верхніх приклади були згенеровані з запиту 'Грати в гольф на траві', а нижній третій з запиту 'Гра в бейсбол відограється'.

Ранні результати з GODIVA, з кадрами відео, створених з двох запитів. Два верхніх приклади були згенеровані з запиту ‘Грати в гольф на траві’, а нижній третій з запиту ‘Гра в бейсбол відограється’. Джерело: https://arxiv.org/pdf/2104.14806.pdf

GODIVA використовує модель Vector Quantised-Variational AutoEncoder (VQ-VAE) спочатку представлену дослідниками з проекту Google’s DeepMind у 2018 році, і також важливу складову у трансформаційних можливостях DALL-E.

Архітектура моделі VQ-VAE, з простором вкладення праворуч і кодувачем/декодувачем, що спільно використовують простір для зменшення втрат під час реконструкції.

Архітектура моделі VQ-VAE, з простором вкладення праворуч і кодувачем/декодувачем, що спільно використовують простір для зменшення втрат під час реконструкції. Джерело: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE була використана в ряді проектів для генерації передбачуваного відео, де користувач надає початкову кількість кадрів і просить систему згенерувати додаткові кадри:

Раніша робота: VQ-VAE виводить кадри з дуже обмеженого джерельного матеріалу.

Раніша робота: VQ-VAE виводить кадри з дуже обмеженого джерельного матеріалу. Джерело: Доповнення до матеріалів на https://openreview.net/forum?id=bBDlTR5eDIX

Однак автори нової статті стверджують, що GODIVA представляє перший чистий текстово-відео (T2V) варіант реалізації, який використовує VQ-VAE, а не більш непередбачувані результати, яких раніше досягли інші проекти з використанням GAN.

Точка початку у текстово-відео

Хоча подання коротке на деталі щодо критеріїв, за якими створюються початкові кадри, GODIVA, здається, викликає початкові зображення з ніде, а потім продовжує екстраполювати їх у низькорозрядні відеокадри.

Колонкова репрезентація трирівневої системи розрідженої уваги, яка потужить GODIVA для текстово-зображень завдань.

Колонкова репрезентація трирівневої системи розрідженої уваги, яка потужить GODIVA для текстово-зображень завдань. Авторегресія передбачається через чотири чинники: вхідний текст, відносне позиціонування з попереднім кадром (podob до NVIDIA’s SPADE і інших методів, які будуються або розвиваються далі Optical Flow підходів), ті ж рядки на тому ж кадрі, і ті ж стовпці на тому ж стовпці.

Насправді походження починається з міток у використовуваних даних: GODIVA була попередньо навчена на Howto100M наборі даних, який складається з 136 мільйонів підписаних відеокліпів, взятих з YouTube за 15 років, і містить 23 000 позначених дій. Тим не менш, кожна можлива дія присутня у дуже великій кількості кліпів, збільшуючись з узагальненням (тобто ‘Тварини та домашні тварини’ мають 3,5 мільйона кліпів, тоді як ‘собаки’ мають 762 000 кліпів), і тому все ще є великий вибір можливих точок початку.

Модель була оцінена на наборі даних Microsoft’s MSR Video to Text (MSR-VTT). Як подальші тести архітектури, GODIVA була навчена з нуля на Moving Mnist наборі даних і Double Moving Mnist наборі даних, обидва похідні від оригінальної MNIST бази даних, співпраці між Microsoft, Google і Courant Інститутом математичних наук у NYU.

Оцінка кадрів у безперервній синтезі відео

У відповідності з Peking University’s IRC-GAN, GODIVA додає чотири додаткові колонкові перевірки до оригінального методу MNIST, який оцінював попередні та наступні кадри, рухаючись вгору>вниз, а потім ліворуч>праворуч. IRC-GAN і GODIVA також розглядають кадри, рухаючись увагою ліворуч>праворуч, праворуч>ліворуч, вгору>вниз і вниз>вгору.

Додаткові згенеровані кадри з GODIVA.

Додаткові згенеровані кадри з GODIVA.

Оцінка якості відео та вірності запиту

Щоб зрозуміти, наскільки добре вдалася генерація зображення, дослідники використали два метрики: один заснований на подібності CLIP, і новий метрик Відносного підтримання (RM).

OpenAI’s CLIP фреймворк здатний виконувати нуль-шотове збігання зображень з текстом, а також забезпечувати синтез зображень шляхом обернення цієї моделі. Дослідники розділили CLIP-похідний бал на розраховану подібність між текстовим запитом і фактичним відео, щоб отримати бал RM. У окремому раунді оцінювання вихід був оцінений 200 людьми, і результати були порівняні з програмними балами.

Нарешті GODIVA була протестована проти двох попередніх фреймворків, TFGAN і співпраці 2017 року між Duke/NEC, T2V.

T2V-vs-TFGAN-vs-GODIVA

TFGAN може виробляти 128 квадратних пікселів у порівнянні з 64×64 вихідним, який обмежує GODIVA і T2V у вищезазначених прикладах, але дослідники відзначають, що GODIVA не тільки генерує сміливіші та більш сміливі рухи, але також генерує зміни сцени без будь-якої спеціальної підтримки, і не уникає генерації крупних планів.

У пізніших запусках GODIVA також генерує 128x128px вихід, з змінами в POV:

godiva_baseball_128px

У власному метриці RM проекту GODIVA能够 досягти балів, наближающихся до 100% щодо автентичності (якості відео) і вірності (наскільки згенерований контент відповідає вхідному запиту).

Дослідники визнають, однак, що розвиток відео-орієнтованих метрик CLIP буде бажаним доповненням до цієї області синтезу зображень, оскільки це забезпечить рівну основу для оцінки якості результатів без звернення до надмірного підгону і відсутності узагальнення, які все частіше критикувалися щодо ‘стандартних’ викликів комп’ютерного зору за останні десять років.

Вони також відзначають, що генерація довших відео буде логістичним урахуванням у подальшому розвитку системи, оскільки вже 10 кадрів 64x64px вихідного вимагає 2560 візуальних токенів, розширення конвеєра, яке, ймовірно, стане дорогим і незручним досить швидко.

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]