Artificial Intelligence
Microsoft предлагает GODIVA, платформу машинного обучения преобразования текста в видео
В результате сотрудничества Microsoft Research Asia и Университета Дьюка была создана система машинного обучения, способная генерировать видео исключительно из текстовой подсказки без использования генеративно-состязательных сетей (GAN).
Ассоциация Проект называется GODIVA (Генерация видео Open-DomaIn из естественных описаний) и основывается на некоторых подходах, используемых системой синтеза изображений DALL-E от OpenAI. показал, в начале этого года.
GODIVA использует модель векторного квантованно-вариационного автоэнкодера (VQ-VAE). впервые введен исследователями из проекта Google DeepMind в 2018 году, а также важным компонентом трансформационных возможностей DALL-E.
VQ-VAE использовался в ряде проектов для генерировать предсказанное видео, где пользователь указывает начальное количество кадров и запрашивает систему для создания дополнительных кадров:
Тем не менее, авторы новой статьи утверждают, что GODIVA представляет собой первую чистую реализацию преобразования текста в видео (T2V), в которой используется VQ-VAE, а не более неустойчивый Результаты что предыдущие проекты получили с помощью GAN.
Исходные точки в преобразовании текста в видео
Хотя в заявке мало подробностей о критериях, по которым создаются исходные кадры, GODIVA, похоже, вызывает исходные изображения из ниоткуда, прежде чем экстраполировать их на видеокадры с низким разрешением.
На самом деле происхождение происходит от меток в используемых данных: GODIVA была предварительно обучена на Как100M набор данных, состоящий из 136 миллионов видеоклипов с субтитрами, полученных с YouTube за 15 лет, и включающий 23,000 3.5 помеченных действий. Тем не менее, каждый возможный вид деятельности присутствует в очень большом количестве клипов, увеличиваясь по мере обобщения (например, «Домашние животные» содержат 762,000 миллиона клипов, а «собаки» — XNUMX XNUMX клипов), поэтому остается большой выбор возможных отправных точек. .
Модель была оценена на Microsoft MSR Video to Text (МСР-ВТТ) набор данных. В качестве дальнейших испытаний архитектуры GODIVA была обучена с нуля на Перемещение Мнист набор данных и набор данных Double Moving Mnist, оба получены из исходного База данных MNIST, результат сотрудничества между Microsoft, Google и Институтом математических наук Куранта при Нью-Йоркском университете.
Оценка кадров в непрерывном синтезе видео
По данным Пекинского университета IRC-ГАН, GODIVA добавляет четыре дополнительные столбцовые проверки к исходному методу MNIST, который оценивал предыдущие и последующие кадры, перемещаясь вверх> вниз, а затем влево> вправо. IRC-GAN и GODIVA также рассматривают кадры, перемещая внимание влево>вправо, вправо>влево, вверх>вниз и вниз>вверх.
Оценка качества и точности видео для подсказки
Чтобы понять, насколько успешно было создано изображение, исследователи использовали две метрики: одну, основанную на сходстве CLIP, и новую метрику относительного соответствия (RM).
OpenAI CLIP Framework способен к нулевому сопоставлению изображений с текстом, а также облегчает синтез изображений путем обращения этой модели. Исследователи разделили оценку, полученную с помощью CLIP, на рассчитанное сходство между текстовой подсказкой и реальным видео, чтобы получить оценку RM. В отдельном раунде подсчета результатов оценивали 200 человек, а результаты сравнивали с программными баллами.
Наконец, GODIVA была протестирована на двух предыдущих фреймворках: ТФГАН и коллаборация Duke/NEC 2017 года, Т2В.
TFGAN может создавать 128 квадратных пикселей по сравнению с выводом 64×64, который ограничивает GODIVA и T2V в приведенных выше примерах, но исследователи отмечают, что GODIVA не только производит более смелое и целенаправленное движение, но и генерирует изменения сцены без каких-либо конкретных подсказок, и не уклоняется от создания снимков крупным планом.
В более поздних запусках GODIVA также генерирует вывод 128x128px с изменениями POV:
В собственной метрике RM проекта GODIVA может достигать оценок, приближающихся к 100%, с точки зрения подлинности (качество видео) и точности (насколько близко сгенерированный контент соответствует входному запросу).
Однако исследователи признают, что разработка показателей CLIP на основе видео стала бы долгожданным дополнением к этой области синтеза изображений, поскольку она обеспечила бы равные условия для оценки качества результатов, не прибегая к чрезмерной подгонке и недостатку. обобщения, которое за последние десять лет все чаще подвергалось критике в отношении «стандартных» задач компьютерного зрения.
Они также отмечают, что создание более длинных видеороликов будет логистическим соображением при дальнейшем развитии системы, поскольку всего 10 кадров вывода 64x64px требуют 2560 визуальных токенов, а это раздувание конвейера, которое, вероятно, довольно быстро станет дорогим и неуправляемым.