Anderson’un Açısı
Microsoft, GODIVA Adlı Metin-Video Makine Öğrenimi Çerçevesini Öneriyor

Microsoft Research Asia ve Duke Üniversitesi arasındaki bir işbirliği, Generative Adversarial Networks (GAN’ler) kullanılmadan yalnızca metin.prompt’tan video oluşturabilen bir makine öğrenimi sistemi üretti.
Proje, GODIVA (Metin Açıklamalarından Açık Alan Videosu Oluşturma) olarak adlandırılmış ve OpenAI’nin DALL-E görüntü sentez sistemi tarafından kullanılan bazı yaklaşımları temel alır. Açıklanan bu sistem, bu yılın başlarında ortaya çıktı.

GODIVA’dan erken sonuçlar, iki promt’tan oluşturulan videolardan kareler. İlk iki örnek ‘Çimdede golf oyna’ promt’ından, üçüncü örnek ‘Bir beyzbol maçı oynanıyor’ promt’ından oluşturuldu. Kaynak: https://arxiv.org/pdf/2104.14806.pdf
GODIVA, 2018 yılında Google’ın DeepMind projesinden araştırmacılar tarafından ilk kez tanıtılan Vektör Quantised-Variational AutoEncoder (VQ-VAE) modelini kullanıyor. Bu model, DALL-E’nin dönüşümsel yeteneklerinin temel bileşenlerinden biridir.

VQ-VAE modelinin mimarisi, gömme uzayına sağda ve kodlayıcı/decodificadorun boyutlu uzayı paylaşarak yeniden yapılandırma sırasında kayıpları azaltmak için. Kaynak: https://arxiv.org/pdf/1711.00937.pdf
VQ-VAE, bir dizi projede tahmin edilen video oluşturmak için kullanıldı. Kullanıcı, ilk birkaç kareyi sağlar ve sistemi ek kareler oluşturmasını ister:

Önceki çalışma: VQ-VAE, sınırlı kaynak materyalden kareler çıkarır. Kaynak: https://openreview.net/forum?id=bBDlTR5eDIX
Ancak, makalenin yazarları, GODIVA’nın VQ-VAE’yi kullanan ilk saf metin-video (T2V) uygulaması olduğunu iddia ediyor. Bu, önceki projelerin GAN’lerle elde ettiği daha değişken sonuçlara kıyasla daha tutarlı sonuçlar üretir.
Metin-Video’da Tohum Noktaları
GODIVA, orijin karelerini oluşturmak için kullanılan kriterlere ilişkin ayrıntılarda kısaysa da, görünüşe göre metin.prompt’tan yola çıkarak düşük çözünürlüklü video karelerine doğru ilerler.

GODIVA’nın metin-görüntü görevleri için üç boyutlu seyrek dikkat sistemi. Otoregresyon, dört faktörle tahmin edilir: girdi metni, önceki kareyle相对位置 (NVIDIA’nın SPADE‘ine benzer ve Optical Flow yaklaşımlarının ötesine geçen diğer yöntemlere benzer), aynı satırdaki aynı kare ve aynı sütundaki aynı sütun.
Aslında, orijin, kullanılan verilerin etiketlerinden gelir: GODIVA, 15 yıl boyunca YouTube’dan alınan 136 milyon etiketli video klipten oluşan Howto100M veri kümesinde önceden eğitilmiştir ve 23.000 etiketli aktivite içerir. Her bir aktivite, çok yüksek sayıda klipte mevcuttur ve genelleme arttıkça (örneğin, ‘Evcil hayvanlar ve hayvanlar’ 3,5 milyon kliptir, ‘köpekler’ 762.000 kliptir) ve bu nedenle hala çok sayıda olası başlangıç noktası vardır.
Model, Microsoft’un MSR Video to Text (MSR-VTT) veri kümesinde değerlendirildi. Mimariyi test etmek için, GODIVA, Moving Mnist veri kümesinde ve Double Moving Mnist veri kümesinde sıfırdan eğitildi. Bu veri kümeleri, Microsoft, Google ve New York Üniversitesi Courant Enstitüsü Matematik Bilimleri arasındaki bir işbirliği olan orijinal MNIST veritabanından türetilmiştir.
Sürekli Video Sentezinde Kare Değerlendirmesi
Peking Üniversitesi’nin IRC-GAN çalışmasıyla uyumlu olarak, GODIVA, orijinal MNIST yönteminin yanı sıra dört ek sütun kontrolü ekler. IRC-GAN ve GODIVA, kareleri soldan sağa, sağdan sola, yukarıdan aşağıya ve aşağıdan yukarıya doğru hareket ettirerek değerlendirir.
Video Kalitesi ve Promt’a Bağlılık Değerlendirmesi
Görüntü oluşturmanın ne kadar başarılı olduğunu anlamak için araştırmacılar, iki metriği kullandı: biri CLIP benzerliğine dayalı, diğeri ise yeni bir Göreceli Eşleme (RM) metriği.
OpenAI’nin CLIP çerçevesi, görüntüleri metne sıfır-shot eşleme yapabilme ve bu modeli tersine çevirerek görüntü sentezi yapma yeteneğine sahiptir. Araştırmacılar, CLIP’ten türetilen puanı, metin.prompt’ıyla ground truth videosu arasındaki benzerlik puanına böldü ve RM puanını elde etti. Bir başka puanlama turunda, çıktı 200 kişi tarafından değerlendirildi ve sonuçlar programatik puanlarla karşılaştırıldı.
Son olarak, GODIVA, iki önceki çerçeveyle karşılaştırıldı: TFGAN ve 2017’de Duke/NEC işbirliğiyle geliştirilen T2V.
TFGAN, GODIVA ve T2V’nin kısıtlandığı 64×64 çıktı yerine 128 kare piksel üretebilir, ancak araştırmacılar, GODIVA’nın daha cesur ve daha kararlı hareketler ürettiğini, ayrıca herhangi bir özel promt olmadan sahne değişiklikleri oluşturabildiğini ve yakın çekim görüntüler oluşturmak konusunda çekinmediğini belirtiyorlar.
Daha sonraki çalışmalarda, GODIVA ayrıca 128x128px çıktı üretir ve POV’de değişiklikler gösterir:
Kendi RM metriğinde, GODIVA, video (kalite) ve promt’a bağlılık (üretildiği içeriğin girdi metnine ne kadar yakın olduğu) açısından %100’e yaklaşan puanlar elde edebiliyor.
Araştırmacılar, video tabanlı CLIP metriklerinin geliştirilmesinin bu görüntü sentezi alanına hoş bir katkı olacağını kabul ediyor. Bu, sonuçların kalitesini değerlendirmek için daha adil bir zemin sunacaktır ve ‘standart’ bilgisayar görme zorluklarında son on yılda artan şekilde eleştirilen aşırı uydurma ve genelleme eksikliği sorunundan kaçınacaktır.
Ayrıca, daha uzun videolar oluşturmanın, sistemin daha fazla geliştirilmesinde lojistik bir consideration olacağını gözlemliyorlar. Çünkü sadece 10 kare 64x64px çıktı, 2560 görsel token gerektirir ve bu, pipeline şişkinliğine neden olarak hızla pahalı ve yönetilemez hale gelebilir.















