Anderson’un Açısı

Microsoft, GODIVA Adlı Metin-Video Makine Öğrenimi Çerçevesini Öneriyor

Yayınlandı 4 Mayıs 2021

Güncellendi 25 Mayıs 2026

Yazan

Martin Anderson

Microsoft Research Asia ve Duke Üniversitesi arasındaki bir işbirliği, Generative Adversarial Networks (GAN’ler) kullanılmadan yalnızca metin.prompt’tan video oluşturabilen bir makine öğrenimi sistemi üretti.

Proje, GODIVA (Metin Açıklamalarından Açık Alan Videosu Oluşturma) olarak adlandırılmış ve OpenAI’nin DALL-E görüntü sentez sistemi tarafından kullanılan bazı yaklaşımları temel alır. Açıklanan bu sistem, bu yılın başlarında ortaya çıktı.

GODIVA’dan erken sonuçlar, iki promt’tan oluşturulan videolardan kareler. İlk iki örnek ‘Çimdede golf oyna’ promt’ından, üçüncü örnek ‘Bir beyzbol maçı oynanıyor’ promt’ından oluşturuldu. Kaynak: https://arxiv.org/pdf/2104.14806.pdf

GODIVA, 2018 yılında Google’ın DeepMind projesinden araştırmacılar tarafından ilk kez tanıtılan Vektör Quantised-Variational AutoEncoder (VQ-VAE) modelini kullanıyor. Bu model, DALL-E’nin dönüşümsel yeteneklerinin temel bileşenlerinden biridir.

VQ-VAE modelinin mimarisi, gömme uzayına sağda ve kodlayıcı/decodificadorun boyutlu uzayı paylaşarak yeniden yapılandırma sırasında kayıpları azaltmak için. Kaynak: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE, bir dizi projede tahmin edilen video oluşturmak için kullanıldı. Kullanıcı, ilk birkaç kareyi sağlar ve sistemi ek kareler oluşturmasını ister:

Önceki çalışma: VQ-VAE, sınırlı kaynak materyalden kareler çıkarır. Kaynak: https://openreview.net/forum?id=bBDlTR5eDIX

Ancak, makalenin yazarları, GODIVA’nın VQ-VAE’yi kullanan ilk saf metin-video (T2V) uygulaması olduğunu iddia ediyor. Bu, önceki projelerin GAN’lerle elde ettiği daha değişken sonuçlara kıyasla daha tutarlı sonuçlar üretir.

Metin-Video’da Tohum Noktaları

GODIVA, orijin karelerini oluşturmak için kullanılan kriterlere ilişkin ayrıntılarda kısaysa da, görünüşe göre metin.prompt’tan yola çıkarak düşük çözünürlüklü video karelerine doğru ilerler.

GODIVA’nın metin-görüntü görevleri için üç boyutlu seyrek dikkat sistemi. Otoregresyon, dört faktörle tahmin edilir: girdi metni, önceki kareyle相对位置 (NVIDIA’nın SPADE‘ine benzer ve Optical Flow yaklaşımlarının ötesine geçen diğer yöntemlere benzer), aynı satırdaki aynı kare ve aynı sütundaki aynı sütun.

Aslında, orijin, kullanılan verilerin etiketlerinden gelir: GODIVA, 15 yıl boyunca YouTube’dan alınan 136 milyon etiketli video klipten oluşan Howto100M veri kümesinde önceden eğitilmiştir ve 23.000 etiketli aktivite içerir. Her bir aktivite, çok yüksek sayıda klipte mevcuttur ve genelleme arttıkça (örneğin, ‘Evcil hayvanlar ve hayvanlar’ 3,5 milyon kliptir, ‘köpekler’ 762.000 kliptir) ve bu nedenle hala çok sayıda olası başlangıç noktası vardır.

Model, Microsoft’un MSR Video to Text (MSR-VTT) veri kümesinde değerlendirildi. Mimariyi test etmek için, GODIVA, Moving Mnist veri kümesinde ve Double Moving Mnist veri kümesinde sıfırdan eğitildi. Bu veri kümeleri, Microsoft, Google ve New York Üniversitesi Courant Enstitüsü Matematik Bilimleri arasındaki bir işbirliği olan orijinal MNIST veritabanından türetilmiştir.

Sürekli Video Sentezinde Kare Değerlendirmesi

Peking Üniversitesi’nin IRC-GAN çalışmasıyla uyumlu olarak, GODIVA, orijinal MNIST yönteminin yanı sıra dört ek sütun kontrolü ekler. IRC-GAN ve GODIVA, kareleri soldan sağa, sağdan sola, yukarıdan aşağıya ve aşağıdan yukarıya doğru hareket ettirerek değerlendirir.

GODIVA’dan oluşturulan ek kareler.

Video Kalitesi ve Promt’a Bağlılık Değerlendirmesi

Görüntü oluşturmanın ne kadar başarılı olduğunu anlamak için araştırmacılar, iki metriği kullandı: biri CLIP benzerliğine dayalı, diğeri ise yeni bir Göreceli Eşleme (RM) metriği.

OpenAI’nin CLIP çerçevesi, görüntüleri metne sıfır-shot eşleme yapabilme ve bu modeli tersine çevirerek görüntü sentezi yapma yeteneğine sahiptir. Araştırmacılar, CLIP’ten türetilen puanı, metin.prompt’ıyla ground truth videosu arasındaki benzerlik puanına böldü ve RM puanını elde etti. Bir başka puanlama turunda, çıktı 200 kişi tarafından değerlendirildi ve sonuçlar programatik puanlarla karşılaştırıldı.

Son olarak, GODIVA, iki önceki çerçeveyle karşılaştırıldı: TFGAN ve 2017’de Duke/NEC işbirliğiyle geliştirilen T2V.

TFGAN, GODIVA ve T2V’nin kısıtlandığı 64×64 çıktı yerine 128 kare piksel üretebilir, ancak araştırmacılar, GODIVA’nın daha cesur ve daha kararlı hareketler ürettiğini, ayrıca herhangi bir özel promt olmadan sahne değişiklikleri oluşturabildiğini ve yakın çekim görüntüler oluşturmak konusunda çekinmediğini belirtiyorlar.

Daha sonraki çalışmalarda, GODIVA ayrıca 128x128px çıktı üretir ve POV’de değişiklikler gösterir:

Kendi RM metriğinde, GODIVA, video (kalite) ve promt’a bağlılık (üretildiği içeriğin girdi metnine ne kadar yakın olduğu) açısından %100’e yaklaşan puanlar elde edebiliyor.

Araştırmacılar, video tabanlı CLIP metriklerinin geliştirilmesinin bu görüntü sentezi alanına hoş bir katkı olacağını kabul ediyor. Bu, sonuçların kalitesini değerlendirmek için daha adil bir zemin sunacaktır ve ‘standart’ bilgisayar görme zorluklarında son on yılda artan şekilde eleştirilen aşırı uydurma ve genelleme eksikliği sorunundan kaçınacaktır.

Ayrıca, daha uzun videolar oluşturmanın, sistemin daha fazla geliştirilmesinde lojistik bir consideration olacağını gözlemliyorlar. Çünkü sadece 10 kare 64x64px çıktı, 2560 görsel token gerektirir ve bu, pipeline şişkinliğine neden olarak hızla pahalı ve yönetilemez hale gelebilir.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

Microsoft, GODIVA Adlı Metin-Video Makine Öğrenimi Çerçevesini Öneriyor

Metin-Video’da Tohum Noktaları

Sürekli Video Sentezinde Kare Değerlendirmesi

Video Kalitesi ve Promt’a Bağlılık Değerlendirmesi

Daha fazlasını keşfedin