ปัญญาประดิษฐ์

Microsoft เสนอ GODIVA กรอบการเรียนรู้ของเครื่องแปลงข้อความเป็นวิดีโอ

วันที่อัพเดท on December 9, 2022

ความร่วมมือระหว่าง Microsoft Research Asia และ Duke University ได้สร้างระบบการเรียนรู้ของเครื่องที่สามารถสร้างวิดีโอได้จากข้อความแจ้งเท่านั้น โดยไม่ต้องใช้ Generative Adversarial Networks (GAN)

พื้นที่ โครงการ มีชื่อว่า GODIVA (การสร้างวิดีโอ Open-DomaIn จากคำอธิบายธรรมชาติ) และสร้างจากแนวทางบางอย่างที่ใช้โดยระบบการสังเคราะห์ภาพ DALL-E ของ OpenAI เปิดเผย ปีก่อนหน้านี้

ผลลัพธ์แรกเริ่มจาก GODIVA พร้อมเฟรมจากวิดีโอที่สร้างจากสองพรอมต์ ตัวอย่างสองอันดับแรกมาจากข้อความแจ้ง 'เล่นกอล์ฟบนพื้นหญ้า' และตัวอย่างที่สามด้านล่างจากข้อความแจ้ง 'เกมเบสบอลกำลังเล่นอยู่' ที่มา: https://arxiv.org/pdf/2104.14806.pdf

GODIVA ใช้โมเดล Vector Quantised-Variational AutoEncoder (VQ-VAE) แนะนำครั้งแรก โดยนักวิจัยจากโครงการ DeepMind ของ Google ในปี 2018 และยังเป็นองค์ประกอบสำคัญในความสามารถในการเปลี่ยนแปลงของ DALL-E

สถาปัตยกรรมของโมเดล VQ-VAE พร้อมการฝังพื้นที่ทางด้านขวาและตัวเข้ารหัส/ตัวถอดรหัสใช้พื้นที่มิติร่วมกันเพื่อลดการสูญเสียระหว่างการสร้างใหม่ ที่มา: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE ถูกนำมาใช้ในหลายโครงการเพื่อ สร้างวิดีโอที่คาดการณ์ไว้โดยที่ผู้ใช้ระบุจำนวนเฟรมเริ่มต้นและขอให้ระบบสร้างเฟรมเพิ่มเติม:

งานก่อนหน้านี้: VQ-VAE อนุมานเฟรมจากแหล่งข้อมูลที่ให้มาอย่างจำกัด ที่มา: เอกสารประกอบที่ https://openreview.net/forum?id=bBDlTR5eDIX

อย่างไรก็ตาม ผู้เขียนเอกสารฉบับใหม่อ้างว่า GODIVA เป็นตัวแทนของการใช้งาน text-to-video (T2V) แบบบริสุทธิ์ครั้งแรกที่ใช้ VQ-VAE มากกว่า เอาแน่เอานอนไม่ได้ ผล ที่โครงการก่อนหน้านี้ได้รับด้วย GAN

คะแนนเมล็ดพันธุ์ในข้อความเป็นวิดีโอ

แม้ว่าการส่งจะมีรายละเอียดสั้น ๆ เกี่ยวกับเกณฑ์ในการสร้างเฟรมเริ่มต้น แต่ GODIVA ดูเหมือนจะเรียกภาพเริ่มต้นจากที่ไหนเลยก่อนที่จะสรุปเป็นเฟรมวิดีโอความละเอียดต่ำ

การแสดงแบบคอลัมน์ของระบบความสนใจแบบกระจัดกระจายสามมิติที่ขับเคลื่อน GODIVA สำหรับงานแปลงข้อความเป็นรูปภาพ การถดถอยอัตโนมัติถูกคาดการณ์ผ่านปัจจัยสี่ประการ: ข้อความอินพุต ตำแหน่งสัมพัทธ์กับเฟรมก่อนหน้า (คล้ายกับ SPADE ของ NVIDIA และวิธีการอื่นๆ ที่สร้างหรือพัฒนานอกเหนือจากวิธี Optical Flow) แถวเดียวกันในเฟรมเดียวกัน และคอลัมน์เดียวกันในเฟรมเดียวกัน คอลัมน์.

การแสดงแบบคอลัมน์ของระบบความสนใจแบบกระจัดกระจายสามมิติที่ขับเคลื่อน GODIVA สำหรับงานแปลงข้อความเป็นรูปภาพ การถดถอยอัตโนมัติคาดการณ์ผ่านปัจจัยสี่ประการ: ข้อความป้อน ตำแหน่งสัมพัทธ์กับเฟรมก่อนหน้า (คล้ายกับของ NVIDIA SWORDS และวิธีการอื่นๆ ที่สร้างหรือพัฒนานอกเหนือจากวิธี Optical Flow) แถวเดียวกันในเฟรมเดียวกัน และคอลัมน์เดียวกันในคอลัมน์เดียวกัน

แท้จริงแล้ว จุดเริ่มต้นมาจากป้ายกำกับในข้อมูลที่ใช้: GODIVA ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับ ฮาวทู100M ชุดข้อมูลประกอบด้วยคลิปวิดีโอคำบรรยาย 136 ล้านรายการที่มาจาก YouTube ในช่วง 15 ปี และกิจกรรมที่มีป้ายกำกับ 23,000 รายการ อย่างไรก็ตาม แต่ละกิจกรรมที่เป็นไปได้มีอยู่ในคลิปจำนวนมาก ซึ่งเพิ่มขึ้นตามลักษณะทั่วไป (เช่น 'สัตว์เลี้ยงและสัตว์' มี 3.5 ล้านคลิป ในขณะที่ 'สุนัข' มี 762,000 คลิป) ดังนั้นจึงยังมีจุดเริ่มต้นที่เป็นไปได้ให้เลือกมากมาย .

แบบจำลองได้รับการประเมินใน MSR Video to Text ของ Microsoft (MSR-VTT) ชุดข้อมูล จากการทดสอบสถาปัตยกรรมเพิ่มเติม GODIVA ได้รับการฝึกฝนตั้งแต่เริ่มต้น ย้าย Mnist ชุดข้อมูลและชุดข้อมูล Double Moving Mnist ซึ่งมาจากต้นฉบับทั้งคู่ ฐานข้อมูล MNISTซึ่งเป็นความร่วมมือระหว่าง Microsoft, Google และ Courant Institute of Mathematical Sciences ที่ NYU

การประเมินเฟรมในการสังเคราะห์วิดีโออย่างต่อเนื่อง

สอดคล้องกับมหาวิทยาลัยปักกิ่ง ไออาร์ซี-แกนGODIVA เพิ่มการตรวจสอบคอลัมน์เพิ่มเติมอีกสี่รายการในวิธี MNIST ดั้งเดิม ซึ่งประเมินเฟรมก่อนหน้าและเฟรมถัดไปโดยเลื่อนขึ้น>ลง จากนั้นซ้าย>ขวา IRC-GAN และ GODIVA ยังพิจารณาเฟรมโดยเลื่อนความสนใจไปทางซ้าย>ขวา, ขวา>ซ้าย, ขึ้น>ลง และลง>ขึ้น

เฟรมที่สร้างเพิ่มเติมจาก GODIVA

การประเมินคุณภาพวิดีโอและความเที่ยงตรงเพื่อแจ้ง

เพื่อทำความเข้าใจว่าการสร้างภาพประสบความสำเร็จเพียงใด นักวิจัยใช้เมตริกสองแบบ: หนึ่งอิงจากความคล้ายคลึงของ CLIP และเมตริกการจับคู่สัมพัทธ์ (RM) ใหม่

OpenAI ของ CLIP เฟรมเวิร์กมีความสามารถในการจับคู่รูปภาพกับข้อความแบบ zero-shot รวมทั้งอำนวยความสะดวกในการสังเคราะห์รูปภาพโดยการย้อนกลับโมเดลนี้ นักวิจัยแบ่งคะแนนที่ได้จาก CLIP ตามความคล้ายคลึงกันที่คำนวณได้ระหว่างข้อความแจ้งและวิดีโอความจริงพื้นฐานเพื่อให้ได้คะแนน RM ในรอบการให้คะแนนที่แยกจากกัน ผลลัพธ์จะถูกประเมินโดยคน 200 คนและผลลัพธ์จะถูกเปรียบเทียบกับคะแนนแบบเป็นโปรแกรม

สุดท้าย GODIVA ได้รับการทดสอบกับสองเฟรมเวิร์กก่อนหน้านี้ ทีเอฟกัน และการทำงานร่วมกันของ Duke/NEC ในปี 2017 ที2วี.

TFGAN สามารถสร้างพิกเซลได้ 128 ตารางพิกเซลเมื่อเปรียบเทียบกับเอาต์พุต 64×64 ที่จำกัด GODIVA และ T2V ในตัวอย่างข้างต้น แต่นักวิจัยสังเกตว่า GODIVA ไม่เพียงสร้างการเคลื่อนไหวที่ชัดเจนยิ่งขึ้นและมุ่งมั่นมากขึ้น แต่จะสร้างการเปลี่ยนแปลงของฉากโดยไม่ต้องแจ้งให้ทราบล่วงหน้า และ ไม่อายที่จะถ่ายภาพโคลสอัพ

ในระยะหลัง GODIVA ยังสร้างเอาต์พุต 128x128px ด้วยการเปลี่ยนแปลงใน POV:

ในตัวชี้วัด RM ของโครงการ GODIVA สามารถบรรลุคะแนนใกล้ 100% ในแง่ของความถูกต้อง (คุณภาพของวิดีโอ) และความเที่ยงตรง (เนื้อหาที่สร้างขึ้นตรงกับข้อความแจ้งอินพุตมากน้อยเพียงใด)

อย่างไรก็ตาม นักวิจัยยอมรับว่าการพัฒนาตัวชี้วัด CLIP ที่ใช้วิดีโอจะเป็นส่วนเสริมที่น่ายินดีสำหรับการสังเคราะห์ภาพ เนื่องจากจะให้พื้นที่แข่งขันที่เท่าเทียมกันสำหรับการประเมินคุณภาพของผลลัพธ์โดยไม่ต้องอาศัยความพอดีและขาดมากเกินไป ของลักษณะทั่วไปที่ได้รับการวิพากษ์วิจารณ์มากขึ้นเกี่ยวกับความท้าทายด้านการมองเห็นคอมพิวเตอร์ 'มาตรฐาน' ในช่วงสิบปีที่ผ่านมา

พวกเขายังสังเกตเห็นว่าการสร้างวิดีโอที่ยาวขึ้นจะเป็นการพิจารณาด้านลอจิสติกส์ในการพัฒนาระบบต่อไป เนื่องจากเอาต์พุต 10x64px เพียง 64 เฟรมต้องใช้โทเค็นวิชวล 2560 รายการ ซึ่งเป็นท่อส่งที่มีแนวโน้มว่าจะมีราคาแพงและไม่สามารถจัดการได้ค่อนข้างเร็ว

หัวข้อที่เกี่ยวข้อง:ตัวเข้ารหัสอัตโนมัติ วิสัยทัศน์คอมพิวเตอร์GAN GAN เครื่องเรียนรู้OpenAI ข้อมูลสังเคราะห์วีดีโอ

ต่อไป

AI ให้ข้อมูลเชิงลึกเกี่ยวกับ Dead Sea Scrolls

อย่าพลาด

AI ที่ฉลาดขึ้นได้รับการตั้งชื่อโดย ABI Research ในรายงานฉบับใหม่

Martin Anderson

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai