มุมมองของ Anderson

ไมโครซอฟท์เสนอ GODIVA แพลตฟอร์มการเรียนรู้ของเครื่องสำหรับการแปลงข้อความเป็นวิดีโอ

mm

การทำงานร่วมกันระหว่าง Microsoft Research Asia และ Duke University ได้ผลิตระบบการเรียนรู้ของเครื่องสามารถสร้างวิดีโอจากข้อความที่ให้มาโดยไม่ต้องใช้เครือข่ายผู้สร้างที่เป็นปฏิปักษ์ (GANs)

โครงการนี้มีชื่อว่า GODIVA (การสร้างวิดีโอแบบเปิดโดเมนจากคำอธิบายภาษาธรรมชาติ) และสร้างบนแนวทางที่ใช้โดยระบบสังเคราะห์ภาพ DALL-E ของ OpenAI ที่เปิดเผยต่อนักวิจัยเมื่อต้นปีนี้

ผลลัพธ์แรกจาก GODIVA โดยมีเฟรมจากวิดีโอที่สร้างจากสองคำสั่ง

ผลลัพธ์แรกจาก GODIVA โดยมีเฟรมจากวิดีโอที่สร้างจากสองคำสั่ง

GODIVA ใช้โมเดล VQ-VAE (Vector Quantised-Variational AutoEncoder) ซึ่งถูกนำเสนอโดยนักวิจัยจาก Google’s DeepMind ในปี 2018 และเป็นส่วนสำคัญของความสามารถในการเปลี่ยนแปลงของ DALL-E

สถาปัตยกรรมของโมเดล VQ-VAE

สถาปัตยกรรมของโมเดล VQ-VAE

VQ-VAE ถูกใช้ในหลายโครงการเพื่อสร้างวิดีโอที่คาดการณ์ไว้ โดยผู้ใช้ให้เฟรมเริ่มต้นและขอให้ระบบสร้างเฟรมเพิ่มเติม

งานก่อนหน้า: VQ-VAE คาดการณ์เฟรมจากวัสดุแหล่งที่ให้มา

งานก่อนหน้า: VQ-VAE คาดการณ์เฟรมจากวัสดุแหล่งที่ให้มา

อย่างไรก็ตาม ผู้เขียนของเอกสารใหม่นี้อ้างว่า GODIVA เป็นการนำไปใช้แบบ text-to-video (T2V) ที่ใช้ VQ-VAE เป็นครั้งแรก โดยไม่ใช้ผลลัพธ์ที่ไม่แน่นอนของ GANs

จุดเริ่มต้นใน Text-To-Video

แม้ว่าเอกสารจะไม่ได้ให้รายละเอียดเกี่ยวกับเกณฑ์ที่ใช้ในการสร้างเฟรมเริ่มต้น แต่ GODIVA ดูเหมือนจะเรียกใช้ภาพเริ่มต้นจากที่ไหนสักแห่งก่อนที่จะขยายออกเป็นเฟรมวิดีโอที่มีความละเอียดต่ำ

การแสดงภาพแบบคอลัมน์ของระบบการให้ความสนใจที่ใช้ในการทำงานของ GODIVA

การแสดงภาพแบบคอลัมน์ของระบบการให้ความสนใจที่ใช้ในการทำงานของ GODIVA

ในความเป็นจริง การเริ่มต้นมาจากป้ายกำกับในข้อมูลที่ใช้: GODIVA ถูกฝึกฝนล่วงหน้าบนชุดข้อมูล Howto100M ซึ่งประกอบด้วยคลิปวิดีโอที่มีคำบรรยาย 136 ล้านคลิปจาก YouTube ในช่วง 15 ปี และมีกิจกรรมที่มีป้ายกำกับ 23,000 รายการ

โมเดลนี้ถูกประเมินบนชุดข้อมูล MSR Video to Text (MSR-VTT) ของ Microsoft

การประเมินเฟรมใน Continuous Video Synthesis

ตามที่มหาวิทยาลัย Peking ได้เสนอ IRC-GAN GODIVA เพิ่มการตรวจสอบคอลัมน์อีกสี่รายการเข้ากับวิธีการ MNIST เดิม ซึ่งประเมินเฟรมก่อนหน้าและถัดไปโดยการเคลื่อนที่ขึ้น-ลงและซ้าย-ขวา

เฟรมที่สร้างเพิ่มเติมจาก GODIVA

เฟรมที่สร้างเพิ่มเติมจาก GODIVA

การประเมินคุณภาพวิดีโอและความซื่อสัตย์ต่อคำสั่ง

เพื่อทำความเข้าใจว่าการสร้างภาพสำเร็จได้ดีเพียงใด นักวิจัยใช้สองมาตรการ: หนึ่งมาตรฐานที่ใช้ CLIP และมาตรฐาน Relative Matching (RM) ใหม่

เฟรมเวิร์ก CLIP ของ OpenAI สามารถจับคู่ภาพกับข้อความได้โดยไม่ต้องฝึกฝน และยังช่วยให้สามารถสังเคราะห์ภาพโดยการย้อนกลับของโมเดลนี้

สุดท้าย GODIVA ถูกทดสอบกับเฟรมเวิร์กสองตัวก่อนหน้านี้ คือ TFGAN และ T2V ในปี 2017

TFGAN สามารถสร้างวิดีโอขนาด 128 พิกเซลตาราง ในขณะที่ GODIVA และ T2V มีขนาด 64×64 พิกเซลในตัวอย่างด้านบน

นักวิจัยสังเกตเห็นว่าการสร้างวิดีโอที่ยาวขึ้นจะเป็นการพิจารณาเชิงกลยุทธ์ในการพัฒนาระบบต่อไป เนื่องจากการสร้างเฟรม 10 เฟรมที่มีขนาด 64×64 พิกเซลต้องใช้โทเค็นภาพ 2560 โทเค็น ซึ่งอาจทำให้ระบบมีขนาดใหญ่และยุ่งยากได้อย่างรวดเร็ว

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai