มุมมองของ Anderson
ไมโครซอฟท์เสนอ GODIVA แพลตฟอร์มการเรียนรู้ของเครื่องสำหรับการแปลงข้อความเป็นวิดีโอ

การทำงานร่วมกันระหว่าง Microsoft Research Asia และ Duke University ได้ผลิตระบบการเรียนรู้ของเครื่องสามารถสร้างวิดีโอจากข้อความที่ให้มาโดยไม่ต้องใช้เครือข่ายผู้สร้างที่เป็นปฏิปักษ์ (GANs)
โครงการนี้มีชื่อว่า GODIVA (การสร้างวิดีโอแบบเปิดโดเมนจากคำอธิบายภาษาธรรมชาติ) และสร้างบนแนวทางที่ใช้โดยระบบสังเคราะห์ภาพ DALL-E ของ OpenAI ที่เปิดเผยต่อนักวิจัยเมื่อต้นปีนี้
GODIVA ใช้โมเดล VQ-VAE (Vector Quantised-Variational AutoEncoder) ซึ่งถูกนำเสนอโดยนักวิจัยจาก Google’s DeepMind ในปี 2018 และเป็นส่วนสำคัญของความสามารถในการเปลี่ยนแปลงของ DALL-E
VQ-VAE ถูกใช้ในหลายโครงการเพื่อสร้างวิดีโอที่คาดการณ์ไว้ โดยผู้ใช้ให้เฟรมเริ่มต้นและขอให้ระบบสร้างเฟรมเพิ่มเติม

งานก่อนหน้า: VQ-VAE คาดการณ์เฟรมจากวัสดุแหล่งที่ให้มา
อย่างไรก็ตาม ผู้เขียนของเอกสารใหม่นี้อ้างว่า GODIVA เป็นการนำไปใช้แบบ text-to-video (T2V) ที่ใช้ VQ-VAE เป็นครั้งแรก โดยไม่ใช้ผลลัพธ์ที่ไม่แน่นอนของ GANs
จุดเริ่มต้นใน Text-To-Video
แม้ว่าเอกสารจะไม่ได้ให้รายละเอียดเกี่ยวกับเกณฑ์ที่ใช้ในการสร้างเฟรมเริ่มต้น แต่ GODIVA ดูเหมือนจะเรียกใช้ภาพเริ่มต้นจากที่ไหนสักแห่งก่อนที่จะขยายออกเป็นเฟรมวิดีโอที่มีความละเอียดต่ำ

การแสดงภาพแบบคอลัมน์ของระบบการให้ความสนใจที่ใช้ในการทำงานของ GODIVA
ในความเป็นจริง การเริ่มต้นมาจากป้ายกำกับในข้อมูลที่ใช้: GODIVA ถูกฝึกฝนล่วงหน้าบนชุดข้อมูล Howto100M ซึ่งประกอบด้วยคลิปวิดีโอที่มีคำบรรยาย 136 ล้านคลิปจาก YouTube ในช่วง 15 ปี และมีกิจกรรมที่มีป้ายกำกับ 23,000 รายการ
โมเดลนี้ถูกประเมินบนชุดข้อมูล MSR Video to Text (MSR-VTT) ของ Microsoft
การประเมินเฟรมใน Continuous Video Synthesis
ตามที่มหาวิทยาลัย Peking ได้เสนอ IRC-GAN GODIVA เพิ่มการตรวจสอบคอลัมน์อีกสี่รายการเข้ากับวิธีการ MNIST เดิม ซึ่งประเมินเฟรมก่อนหน้าและถัดไปโดยการเคลื่อนที่ขึ้น-ลงและซ้าย-ขวา

เฟรมที่สร้างเพิ่มเติมจาก GODIVA
การประเมินคุณภาพวิดีโอและความซื่อสัตย์ต่อคำสั่ง
เพื่อทำความเข้าใจว่าการสร้างภาพสำเร็จได้ดีเพียงใด นักวิจัยใช้สองมาตรการ: หนึ่งมาตรฐานที่ใช้ CLIP และมาตรฐาน Relative Matching (RM) ใหม่
เฟรมเวิร์ก CLIP ของ OpenAI สามารถจับคู่ภาพกับข้อความได้โดยไม่ต้องฝึกฝน และยังช่วยให้สามารถสังเคราะห์ภาพโดยการย้อนกลับของโมเดลนี้
สุดท้าย GODIVA ถูกทดสอบกับเฟรมเวิร์กสองตัวก่อนหน้านี้ คือ TFGAN และ T2V ในปี 2017
TFGAN สามารถสร้างวิดีโอขนาด 128 พิกเซลตาราง ในขณะที่ GODIVA และ T2V มีขนาด 64×64 พิกเซลในตัวอย่างด้านบน
นักวิจัยสังเกตเห็นว่าการสร้างวิดีโอที่ยาวขึ้นจะเป็นการพิจารณาเชิงกลยุทธ์ในการพัฒนาระบบต่อไป เนื่องจากการสร้างเฟรม 10 เฟรมที่มีขนาด 64×64 พิกเซลต้องใช้โทเค็นภาพ 2560 โทเค็น ซึ่งอาจทำให้ระบบมีขนาดใหญ่และยุ่งยากได้อย่างรวดเร็ว














