Kecerdasan buatan

Microsoft Mengusulkan GODIVA, Kerangka Pembelajaran Mesin Text-To-Video

Published May 4, 2021

Updated April 28, 2026

Martin Anderson

Kolaborasi antara Microsoft Research Asia dan Duke University telah menghasilkan sistem pembelajaran mesin yang dapat menghasilkan video hanya dari prompt teks, tanpa menggunakan Jaringan Adversarial Generatif (GAN).

Proyek ini berjudul GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions), dan membangun beberapa pendekatan yang digunakan oleh sistem sintesis gambar DALL-E dari OpenAI, yang diungkapkan lebih awal tahun ini.

Hasil awal dari GODIVA, dengan bingkai dari video yang dibuat dari dua prompt. Dua contoh atas dihasilkan dari prompt ‘Bermain golf di rumput’, dan contoh ketiga dari prompt ‘Pertandingan bisbol dimainkan’. Sumber: https://arxiv.org/pdf/2104.14806.pdf

GODIVA menggunakan model VQ-VAE (Vector Quantised-Variational AutoEncoder) yang pertama kali diperkenalkan oleh peneliti dari proyek DeepMind Google pada 2018, dan juga komponen penting dalam kemampuan transformasional DALL-E.

Arsitektur model VQ-VAE, dengan ruang penyematan di sebelah kanan dan pengkode/dekoder berbagi ruang dimensi untuk mengurangi kerugian selama rekonstruksi. Sumber: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE telah digunakan dalam beberapa proyek untuk menghasilkan video prediktif, di mana pengguna menyediakan sejumlah bingkai awal dan meminta sistem untuk menghasilkan bingkai tambahan:

Pekerjaan sebelumnya: VQ-VAE menginfer bingkai dari bahan sumber yang sangat terbatas. Sumber: Bahan tambahan di https://openreview.net/forum?id=bBDlTR5eDIX

Namun, penulis makalah baru ini mengklaim bahwa GODIVA merupakan implementasi teks-ke-video (T2V) murni pertama yang menggunakan VQ-VAE daripada hasil yang lebih tidak stabil yang diperoleh proyek sebelumnya dengan GAN.

Titik Benih dalam Text-To-Video

Meskipun pengajuan ini singkat pada detail tentang kriteria oleh mana bingkai awal dibuat, GODIVA tampaknya memanggil citra benih dari tidak ada sebelumnya sebelum melanjutkan untuk mengekstrapolasikan menjadi bingkai video resolusi rendah.

Representasi kolom dari sistem perhatian yang jarang tiga dimensi yang memungkinkan GODIVA untuk tugas teks-ke-gambar. Auto-regresi diprediksi melalui empat faktor: teks input, posisi relatif dengan bingkai sebelumnya (mirip dengan NVIDIA’s SPADE dan metode lain yang membangun atau berkembang di luar pendekatan Aliran Optik), baris yang sama pada bingkai yang sama, dan kolom yang sama pada kolom yang sama.

Pada kenyataannya, asal-usulnya berasal dari label dalam data yang digunakan: GODIVA telah dipratinjau pada dataset Howto100M, yang terdiri dari 136 juta klip video yang memiliki keterangan yang disumber dari YouTube selama 15 tahun, dan menampilkan 23.000 aktivitas yang diberi label. Namun, setiap aktivitas yang mungkin ada dalam jumlah klip yang sangat tinggi, meningkat dengan generalisasi (yaitu ‘Hewan peliharaan dan hewan’ memiliki 3,5 juta klip, sedangkan ‘anjing’ memiliki 762.000 klip), dan sehingga ada pilihan yang sangat besar untuk titik awal yang mungkin.

Model ini dievaluasi pada dataset MSR-VTT dari Microsoft. Sebagai tes lebih lanjut dari arsitektur, GODIVA telah dilatih dari awal pada dataset Moving Mnist dan dataset Double Moving Mnist, keduanya berasal dari database MNIST asli, sebuah kolaborasi antara Microsoft, Google, dan Courant Institute of Mathematical Sciences di NYU.

Evaluasi Bingkai dalam Sintesis Video Kontinu

Sejalan dengan IRC-GAN dari Peking University, GODIVA menambahkan empat pemeriksaan kolom tambahan ke metode MNIST asli, yang mengevaluasi bingkai sebelumnya dan berikutnya dengan bergerak ke atas > ke bawah dan kemudian ke kiri > ke kanan. IRC-GAN dan GODIVA juga mempertimbangkan bingkai dengan bergerak perhatian ke kiri > ke kanan, kanan > kiri, atas > bawah, dan bawah > atas.

Bingkai yang dihasilkan tambahan dari GODIVA.

Mengevaluasi Kualitas Video dan Kesetiaan terhadap Prompt

Untuk memahami seberapa baik sintesis gambar berhasil, peneliti menggunakan dua metrik: satu berdasarkan kesamaan CLIP, dan metrik Pencocokan Relatif (RM) yang baru.

Kerangka kerja CLIP dari OpenAI dapat melakukan pencocokan gambar ke teks dengan zero-shot, serta memfasilitasi sintesis gambar dengan membalik model ini. Peneliti membagi skor CLIP yang diperoleh dengan kesamaan yang dihitung antara prompt teks dan video asli untuk mendapatkan skor RM. Dalam putaran penilaian terpisah, output dievaluasi oleh 200 orang dan hasilnya dibandingkan dengan skor programatis.

Akhirnya, GODIVA diuji melawan dua kerangka kerja sebelumnya, TFGAN dan kolaborasi Duke/NEC pada 2017, T2V.

TFGAN dapat menghasilkan 128 piksel persegi dibandingkan dengan output 64×64 yang membatasi GODIVA dan T2V pada contoh di atas, tetapi peneliti mencatat bahwa GODIVA tidak hanya menghasilkan gerakan yang lebih berani dan lebih berkomitmen, tetapi juga akan menghasilkan perubahan adegan tanpa ada prompt khusus, dan tidak ragu-ragu untuk menghasilkan shot close-up.

Dalam jalur selanjutnya, GODIVA juga menghasilkan output 128x128px, dengan perubahan dalam POV:

Dalam metrik RM proyek ini, GODIVA dapat mencapai skor mendekati 100% dalam hal otentisitas (kualitas video) dan kesetiaan (seberapa dekat konten yang dihasilkan sesuai dengan prompt input).

Peneliti mengakui, bagaimanapun, bahwa pengembangan metrik CLIP berbasis video akan menjadi tambahan yang disambut dalam bidang sintesis gambar ini, karena akan menyediakan lapangan yang sama untuk mengevaluasi kualitas hasil tanpa harus mengandalkan over-fitting dan kurangnya generalisasi yang telah semakin dikritik dalam hal tantangan visi komputer standar selama sepuluh tahun terakhir.

Mereka juga mengamati bahwa menghasilkan video yang lebih panjang akan menjadi pertimbangan logistik dalam pengembangan lebih lanjut dari sistem, karena hanya 10 bingkai output 64x64px memerlukan 2560 token visual, yang kemungkinan besar akan menjadi mahal dan tidak terkendali dengan cepat.