มุมมองของ Anderson
ออกจากสายตา ออกจากใจ: การแก้ปัญหาที่ยิ่งใหญ่ที่สุดใน AI วิดีโอ

ปัญหาที่ยิ่งใหญ่ที่สุดของระบบ AI วิดีโอที่ดีที่สุดคือมันลืมได้ง่าย – ปัญหาใหม่ที่การวิจัยจากจีนกำลังแก้ไขอยู่
ปัญหาที่ยิ่งใหญ่ที่สุดของระบบ AI วิดีโอที่ดีที่สุดและทันสมัยที่สุดคือมันทั้งหมดมี ความจำเสื่อม: หากกล้องปันออกจากสิ่งที่มันเน้นและปันกลับ มันจะไม่พบสิ่งที่มีในตอนแรก – ตัวละครจะหายไป เปลี่ยนรูปร่างและ/หรือการเคลื่อนไหว และพื้นหลังอาจเปลี่ยนแปลงไป
เนื่องจากระบบการสร้างแบบกระจายมี หน้าต่างความสนใจแบบเลื่อน ที่จำกัด และเนื่องจากมันกำลังจัดการกับ สิ่งที่มันเห็นในขณะนั้น ในการแสดงออกที่แท้จริงของ การเห็นแก่ตัว สิ่งที่ นอก ของเฟรมไม่มีอยู่สำหรับ AI ที่สร้าง – มันกลายเป็นลบจากหน่วยความจำอย่างแท้จริง
สิ่งนี้ ไม่เคยเป็นปัญหาใน CGI แบบดั้งเดิม ซึ่งสามารถอ้างอิงและสร้างแบบจำลองของวัตถุได้เสมอ รวมถึงการปรากฏและเคลื่อนไหว ที่ใดก็ตามในวิดีโอที่มีการแสดงผล:

Traditional CGI meshes and bitmapped textures can always be drawn back into a render, providing consistent appearance – a trick that is much harder to achieve in AI approaches, because there is no equivalent ‘flat reference’ file, or collection of related files.
เนื่องจากองค์ประกอบของ CGI เช่น เมชและเท็กซ์เจอร์ (ดูภาพด้านบน) รวมถึงไฟล์การเคลื่อนไหวและพฤติกรรมแบบไดนามิกอื่นๆ สามารถอาศัยอยู่ในดิสก์แบบแยกจากกัน และสามารถนำเข้ามาในคอมโพสิชั่นได้ทุกเมื่อ
ไม่มี ‘คลังข้อมูลแบบแบน’ ใน AI วิดีโอที่สร้าง; สิ่งที่ใกล้เคียงที่สุดที่สามารถทำได้คือ LoRAs – ไฟล์เสริมที่ฝึกฝนพิเศษซึ่งสามารถฝึกฝนบนอุปกรณ์ของผู้บริโภคได้ ทำให้ตัวละครใหม่และเสื้อผ้าเฉพาะ สามารถ ‘บังคับ’ เข้ามาในวิดีโอ:
คลิกเพื่อเล่น. ปัญหาการเห็นแก่ตัวของ AI วิดีโอสามารถบรรเทาได้จนถึงระดับหนึ่งโดยใช้ LoRAs – แต่ผลลัพธ์อาจทำให้圧倒ได้
สิ่งนี้ไม่ใช่วิธีแก้ปัญหาที่เหมาะสม อย่างหนึ่ง LoRAs ถูกผูกไว้กับเวอร์ชันเฉพาะของโมเดลพื้นฐาน (เช่น Wan2+ หรือ Hunyuan Video) และ ต้องการสร้างใหม่ ทุกครั้งที่โมเดลพื้นฐานเปลี่ยนแปลง อีกอย่างหนึ่ง LoRAs มีแนวโน้มที่จะบิดเบือนน้ำหนัก ของโมเดลพื้นฐาน เพื่อให้เอกลักษณ์ที่ฝึกฝนของ LoRA ถูกกำหนดให้กับตัวละครทั้งหมดในฉาก นอกจากนี้ วิธีการปรับแต่ง ของชนิดนี้ มีความไวต่อชุดข้อมูลที่ดูแลไม่ดี มาก
การแสดงออกที่แม่นยำ
ตอนนี้ การทำงานร่วมกันระหว่างวิชาการและอุตสาหกรรมจากจีนกำลังเสนอวิธีแก้ปัญหาที่สำคัญครั้งแรกที่ได้รับการแก้ไขในรอบสามปีที่ผ่านมาของการรายงานเกี่ยวกับปัญหานี้ วิธีการนี้ใช้ ความจำแบบผสม เพื่อรักษาตัวละครและบริเวณโดยรอบที่ออกจากจอในพื้นที่ 潜在พื้นที่ ของโมเดล เพื่อให้เมื่อมุมมองของเรากลับมาที่พวกมัน ผลลัพธ์จะเป็นไปอย่างต่อเนื่อง:
คลิกเพื่อเล่น. จากเว็บไซต์โครงการสำหรับเอกสารใหม่ ตัวอย่างสองตัวอย่างของตัวละคร AI ที่สร้าง (WAN) ออกจากรูปและกลับเข้ามาในรูปอย่างแม่นยำ แหล่งที่มา
ควรเน้นย้ำว่าสิ่งนี้ไม่ใช่สิ่งเดียวกับการบรรลุ ความสอดคล้องของตัวละคร ข้ามช็อตต่างๆ – สิ่งที่อ้างว่าได้รับการบรรลุ เมื่อหนึ่งปีที่แล้ว ในการเปิดตัว Gen 4 ของ Runway และยังคงเป็น การแสวงหาที่กำลังดำเนินอยู่ ในเอกสารวิจัย
แต่สิ่งที่แก้ไขได้ที่นี่คือสิ่งที่ไม่มีเฟรมเวิร์กเชิงพาณิชย์หรือทดลองที่ฉันเห็นสามารถบรรลุได้ – การปรากฏตัวอีกครั้งที่สอดคล้องกัน ของตัวละครที่ออกจากรูปในอดีต:
คลิกเพื่อเล่น. ตัวอย่างหลักอีกสองตัวอย่างที่ให้ไว้ที่เว็บไซต์โครงการใหม่
显然หลักการที่ทำงานที่นี่สามารถนำไปใช้กับโดเมนอื่นๆ เช่น การสำรวจเมือง การขับรถมุมมอง หรือการแสดงภาพที่ไม่ใช่ตัวละครอื่นๆ
ควรเน้นย้ำอีกครั้งว่าวิธีการใหม่นี้ไม่ได้แก้ปัญหาหรือจัดการกับปัญหาที่ Runway Gen4 และแพลตฟอร์มที่ปิดใช้งานอื่นๆ อ้างว่าได้แก้ไขแล้ว โดยการสร้างตัวละคร ข้ามช็อตต่างๆ แต่สิ่งที่ไม่มีใครประสบความสำเร็จ – การคงตัวละครและสภาพแวดล้อมในหน่วยความจำ โดยไม่ต้องให้พวกมันอยู่ในสายตาของผู้ชมเสมอ
งานใหม่นี้ประกอบด้วยชุดข้อมูลที่สร้างขึ้นผ่าน Unreal Engine รวมถึงเมตริกแบบกำหนดเองสำหรับปัญหาการเห็นแก่ตัว และเฟรมเวิร์กการสร้างแบบกำหนดเองที่สร้างขึ้นบน WAN ในการทดสอบกับระบบที่คล้ายกันที่มีอยู่ ผู้เขียนอ้างว่ามีผลลัพธ์ที่ดีที่สุดในระดับเดียวกัน และพวกเขากล่าวว่า:
‘[ความจำ] กลไกได้ปรากฏขึ้นเป็นแนวหน้าสำคัญในการพัฒนามอเดลโลก เนื่องจากความจุของความจำกำหนดความสอดคล้องเชิงพื้นที่และเชิงเวลาของเนื้อหาที่สร้างขึ้น
‘โดยเฉพาะอย่างยิ่ง มันเป็น锚จิตที่ทำให้โมเดลสามารถรักษาบริบททางประวัติศาสตร์ระหว่างการเปลี่ยนมุมมองหรือการขยายระยะยาว
‘หากไม่มีความจำที่มั่นคง โลกที่จำลองจะแตกสลายเป็นเฟรมที่ไม่เชื่อมต่อกันและวุ่นวาย’
เอกสารใหม่ ใหม่ มีชื่อเรื่อง ออกจากสายตา แต่ไม่ออกจากใจ: ความจำแบบผสมสำหรับโมเดลโลกวิดีโอแบบไดนามิก และมาจากนักวิจัยเจ็ดคนจาก Huazhong University of Science and Technology และทีม Kling ที่ Kuaishou Technology
วิธีการ
ส่วนสำคัญของงานใหม่นี้คือ ความจำแบบผสม ซึ่งอำนวยความสะดวกในการ การขยายออกนอกมุมมอง – การรักษาตัวละครและบริบทของพวกมันในขณะที่ผู้ชม ‘มองออกไป’ (หรือในขณะที่ตัวละครเองออกจากรูป) ในสถานการณ์นี้ เฟรมเวิร์กจำเป็นต้องดำเนินการ การแยกพื้นที่-เวลา โดยที่มันกำลังเน้นไปที่การสร้างที่มองเห็นได้ของผู้ชมและความดำรงอยู่ของตัวละครที่ออกจากรูปในขณะเดียวกัน

ตัวอย่างการเคลื่อนไหวของกล้องเข้า-ออก ในกรณีเหล่านี้ การเคลื่อนไหวของกล้องทำให้ตัวละครออกจากรูป แต่ในตัวอย่างที่หลากหลาย เราสามารถสังเกตเห็นตัวละครเองเคลื่อนไหวออกจากรูปชั่วคราว Source – https://arxiv.org/pdf/2603.25716
ผู้เขียนระบุว่าใน การฝังตัวแบบกระจาย คุณลักษณะที่ต้องถูกดึงออกและใช้ถูก ผสมผสาน อย่างหนักกับคุณลักษณะและคุณสมบัติอื่นๆ และการพยายามดึงออกจากสิ่งเหล่านี้อาจทำให้วัตถุ ‘แช่แข็ง’ เข้ากับฉากหลัง ดังนั้นพวกเขาจึงสร้างและจัดทำ ชุดข้อมูล HM-World โดยเฉพาะเพื่อฝึกฝนความจำแบบผสม:

ตัวอย่างจากชุดข้อมูล HM-World
ชุดข้อมูลนี้สร้างขึ้นตามมิติสี่มิติ: เส้นทางตัวละคร เส้นทางกล้อง ฉาก และ ตัวละคร
ข้อมูลสังเคราะห์ใน HM-World มี 17 ฉากและ 49 ตัวละคร รวมถึงคนด้วยรูปร่างที่หลากหลาย และสัตว์หลายสายพันธุ์ การรวมกันของสิ่งเหล่านี้ถูกวางไว้ในฉากผ่าน Unreal Engine แต่ละตัวมีการเคลื่อนไหวแอนิเมชั่นที่แตกต่างกัน และวางไว้บนเส้นทางที่เลือกแบบสุ่ม
ผู้เขียนระบุว่าเหตุการณ์ ออก-เข้า ที่หลากหลายถูกแสดงในชุดข้อมูล โดยมีเส้นทางกล้อง 28 เส้นทาง แต่ละเส้นทางมีจุดเริ่มต้นที่หลากหลาย
ชุดข้อมูลสุดท้ายมี 59,225 คลิปวิดีโอ แต่ละคลิปมีแอนโนเทชั่นโดย MiniCPM-V Multimodal Large Language Model (MLLM)
ผู้วิจัยชี้ให้เห็นถึงข้อได้เปรียบทางสถิติของชุดข้อมูลของตนเมื่อเทียบกับชุดข้อมูลก่อนหน้า WorldScore; Context-As-Memory; Multi-Cam Video; และ 360° Motion:

การเปรียบเทียบระหว่างชุดข้อมูลที่มีอยู่และชุดข้อมูล HM-World
เส้นทางที่ไม่ค่อย有人เดิน
เมื่อพิจารณาเฟรมก่อนหน้าและเส้นทางกล้องที่ทราบแล้ว ปัญหาคือการคาดการณ์มุมมองที่จะเกิดขึ้นในขณะที่มุมมองของผู้ชมเปลี่ยนแปลงไป โดยคำนึงถึงตัวละครที่เคลื่อนไหวอิสระและอาจออกจากรูปก่อนที่จะกลับเข้ามา สิ่งนี้ต้องใช้มากกว่าการรักษาพื้นหลังที่เสถียร เนื่องจากโมเดลจะต้องรักษาบันทึกภายในที่สอดคล้องกันเกี่ยวกับว่าตัวละครแต่ละตัวดูและเคลื่อนไหวอย่างไร แม้ในช่วงเวลาที่พวกมันไม่มองเห็น
วิธีการของ HyDRA จัดการกับสิ่งนี้โดยการแนะนำเส้นทางความจำที่อุทิศให้กับการ การดึงคืนแบบไดนามิก ซึ่งแยกตัวละครแบบไดนามิกออกจากการแสดงฉากแบบคงที่ ทำให้พวกมันสามารถคงอยู่ได้ตลอดเวลา และปรากฏตัวอีกครั้งด้วยการปรากฏและเคลื่อนไหวที่สอดคล้องกัน:

โครงร่างแนวคิดสำหรับโมเดล HyDRA
HyDRA ถูกสร้างขึ้นบน Wan2.1-T2V-1.3B โดยที่ท่อการกระจายหลักถูกปล่อยให้ไม่เปลี่ยนแปลง ในขณะที่การแนะนำบล็อกทรานส์ฟอร์เมอร์ที่แก้ไขซึ่งรวมการดึงคืนแบบไดนามิก
สิ่งนี้ใช้ Flow Matching เป็นวัตถุประสงค์ในการฝึกอบรมแทน การขาดทุนการกระจาย ทั่วไป
เพื่อรักษาให้ฉากสอดคล้องกับการเคลื่อนไหวของกล้อง เส้นทางกล้องถูกฉีดเข้ามาเป็นสัญญาณการปรับแต่งที่ชัดเจน โดยมีการหมุนและแปลที่กำหนดให้กับแต่ละเฟรม และจากนั้นแปลงเป็นการแสดงแบบกะทัดรัดที่จับวิวัฒนาการของมุมมองตามเวลา
สอดคล้องกับ ReCamMaster ของ Kling ก่อนหน้านี้ ผลลัพธ์ถูกจัดเรียงโดยตัวเข้ารหัสกล้อง ซึ่งใช้ Multi-Layer Perceptron และจากนั้นกระจายและบวกเข้ากับคุณลักษณะ Diffusion Transformer ทำให้โมเดลสามารถรักษาการวางตัวละครที่สอดคล้องกันในขณะที่กล้องเคลื่อนไหว
การแบ่งคำ
ลาตέντที่ไม่ผ่านการประมวลผลรวมการเคลื่อนไหวของตัวละคร การปรากฏและพื้นหลังเข้าด้วยกันในแบบแสดงออกที่ผสมผสาน และการพยายามดึงออกจากสิ่งเหล่านี้อาจทำให้ตัวละคร ‘ผสม’ เข้ากับฉากหลัง
HyDRA จัดการกับสิ่งนี้ด้วย 3D-convolution ที่ใช้ในการ Memory Tokenizer ซึ่งประมวลผลพื้นที่และเวลาเข้าด้วยกัน – แทนที่จะส่งประวัติลาเทนต์ที่สมบูรณ์ มันบีบอัดพวกมันลงใน ตัวแทนความจำแบบกะทัดรัด ที่รักษาการเคลื่อนไหวและรูปร่างของตัวละคร:

ภาพรวมของ HyDRA Left, Memory Tokenizer แปลงเฟรมก่อนหน้าเป็นตัวแทนความจำแบบกะทัดรัดที่รักษาการเคลื่อนไหวและรูปร่างของตัวละคร; right, Dynamic Retrieval Attention ประเมินคำถามปัจจุบันกับตัวแทนเหล่านี้ ดึงตัวที่เกี่ยวข้องมากที่สุด และใช้พวกมันเพื่อสร้างการปรากฏและเคลื่อนไหวที่สอดคล้องกันในเฟรมที่สร้าง
ตัวแทนเหล่านี้สร้างความจำแบบผสมที่กรองเสียงรบกวนในขณะที่รักษาไดนามิกระยะยาว พวกมันถูกส่งไปยังโมดูล Dynamic Retrieval Attention ซึ่งช่วยให้โมเดลสามารถดึงตัวละครที่ออกจากรูปได้โดยเลือก เพื่อให้พวกมันปรากฏตัวอีกครั้งด้วยการปรากฏและเคลื่อนไหวที่สอดคล้องกัน
การดึงคืนแบบไดนามิก
กลไกความจำแบบผสมของ HyDRA ใช้ การดึงคืนแบบไดนามิก ในบทบาทที่แตกต่างแต่เสริมในเฟรมเวิร์ก
การแบ่งคำความจำบีบอัดการแสดงออกที่ซ่อนอยู่ในอดีตเป็นตัวแทนความจำแบบกะทัดรัดที่แยกตัวละครแบบไดนามิกออกจากเนื้อหาฉากแบบคงที่ ลดการผสมผสานที่ทำให้ตัวละคร ‘ผสม’ เข้ากับฉากหลัง ตัวแทนเหล่านี้สร้างธนาคารความจำที่คงอยู่แทนประวัติเฟรมที่สมบูรณ์
การดึงคืนแบบไดนามิกทำงานบนธนาคารนี้ระหว่างการสร้าง โดยประเมินคำถามปัจจุบันกับตัวแทนความจำเหล่านี้ และดึงตัวที่เกี่ยวข้องมากที่สุด สิ่งนี้ช่วยให้ตัวละครที่ออกจากรูปสามารถดำเนินวิวัฒนาการที่ซ่อนอยู่ต่อไป (เช่น การเดิน การวิ่ง เมื่อคุณไม่สามารถมองเห็นพวกมัน) และปรากฏตัวอีกครั้งด้วยการปรากฏและเคลื่อนไหวที่สอดคล้องกันเมื่อพวกมันกลับเข้ามาในสายตา
ข้อมูลและการทดสอบ
ในการทดสอบ ระบบ HyDRA ที่สร้างบน Wan2.1-T2V-1.3B บีบอัดและลดขนาดเฟรมบริบท 77 เฟรมก่อนที่จะวิเคราะห์ด้วย 3D Variational Autoencoder (VAE) ในขณะที่ตัวแบ่งคำความจำใช้ 3D convolution ที่ขนาด เคอร์เนล 2x4x4
โมเดลถูกฝึกฝนบน HM-World เป็นเวลา 10,000 อิเทอร์เรชั่นบน 32 (ไม่ระบุ) GPU ที่ขนาด แบตช์ 32
จำนวนเมตริกที่ไม่ธรรมดาถูกใช้ในการทดสอบ: นอกเหนือจาก PSNR ที่เป็นปกติ SSIM และ LPIPS ที่เรียนรู้จากข้อมูล ผู้เขียนยังใช้ ความสอดคล้องของตัวละคร และ ความสอดคล้องของพื้นหลัง จากชุด VBench เพื่อประเมินความสอดคล้องของเฟรม
นอกจากนี้พวกเขายังสร้างเมตริกแบบกำหนดเองที่เรียกว่า ความสอดคล้องของวัตถุแบบไดนามิก (DSC) ซึ่งใช้กล่องขอบเขตจาก YOLO V11 เพื่อสร้างภูมิภาคที่ถูกตัดออกมาโดยมีวัตถุเคลื่อนไหว จากนั้นจึงดึงคุณลักษณะทางเซมานติกและคำนวณความคล้ายคลึงกัน
HyDRA ถูกนำมาเปรียบเทียบกับ Diffusion Forcing Transformer (DFoT) และ Context-As-Memory เหนือโมเดลพื้นฐาน Wan2.1-T2V-1.3B ที่ติดตั้งกล้องเข้ารหัส (เพื่อแสดงมุมมองของผู้ชมที่ทุกคลิปมีร่วมกัน) ทุกระบบถูกฝึกฝนบน HM-World และ WorldPlay ถูกใช้เป็นคอลเลกชันการทดสอบแบบซีรีส์:
ในการเปรียบเทียบเชิงปริมาณเบื้องต้น HyDRA มีประสิทธิภาพเหนือกว่าโมเดลพื้นฐานทั้งหมด โดยเพิ่ม PSNR จาก 18.696 เป็น 20.357 และ SSIM จาก 0.517 เป็น 0.606 มันบรรลุคะแนน Dice ที่สูงที่สุดและคะแนน Dice ที่สอดคล้องกับข้อเท็จจริง 0.827 และ 0.849 โดยมีความสอดคล้องของตัวละครและพื้นหลังที่ 0.926 และ 0.932:

ผลลัพธ์ของการเปรียบเทียบเชิงปริมาณเบื้องต้นกับวิธีการก่อนหน้า
DFoT มี PSNR 17.693 และ Context as Memory 18.921 โดยที่ความก้าวหน้าถูกอ้างว่ามาจากการแบ่งคำความจำและการดึงคืนแบบไดนามิก:

การเปรียบเทียบเชิงปริมาณกับวิธีการที่ดีที่สุดในปัจจุบัน
เกี่ยวกับการทดสอบกับ WorldPlay ผู้เขียนระบุ:
‘วิธีการของเราทำให้ WorldPlay มีผลลัพธ์ที่ดีกว่าทุกเมตริก โดยมี PSNR ที่แตกต่าง 5.502 อย่างมีนัยสำคัญ แม้ว่า WorldPlay จะมีประสิทธิภาพที่ต่ำกว่าในเมตริกที่อ้างอิงจากข้อเท็จจริง (เช่น PSNR 14.855, DSCGT 0.832) เนื่องจากช่องว่างการกระจายโดเมนและขาดการปรับแต่งเฉพาะ แต่ก็มีความแข็งแกร่งที่น่าประทับใจในเมตริกที่อ้างอิงจากบริบท โดยบรรลุ DSCctx 0.822
‘การสังเกตนี้ไม่เพียงแต่ยืนยันว่าโมเดลที่ฝึกฝนอย่างกว้างขวางมีความสอดคล้องแบบผสมที่ยุติธรรมเท่านั้น แต่ยังยืนยันความสมเหตุสมผลของเมตริก DSC ที่เราเสนอในการสะท้อนความสอดคล้องของวัตถุแบบไดนามิก
‘สุดท้าย ผลลัพธ์ที่น่าประทับใจเหล่านี้เน้นย้ำถึงความสามารถที่น่าประทับใจของโมเดลของเรา โดยแสดงให้เห็นถึงความเหนือกว่าของมันแม้กระทั่งเหนือโมเดลเชิงพาณิชย์ที่มีชื่อเสียง’
เอกสารนำเสนอการเปรียบเทียบเชิงคุณภาพแบบคงที่ที่ดำเนินการสำหรับการทดสอบ:

การเปรียบเทียบเชิงคุณภาพของการออกและกลับเข้าภายใต้การเคลื่อนไหวของกล้อง ผู้เขียนอ้างว่า HyDRA รักษาตัวตนของตัวละคร ท่าทาง และความต่อเนื่องของการเคลื่อนไหวหลังจากออกจากรูปและกลับเข้ามาในรูป โดยสอดคล้องกับข้อเท็จจริงอย่างใกล้ชิด ในขณะที่วิธีการที่แข่งขันกันแสดงการเปลี่ยนแปลง การเคลื่อนไหวที่ไม่สอดคล้องกัน หรือการเสื่อมสภาพของตัวละคร ซึ่งเน้นด้วยสีแดง (การฟื้นฟูที่สอดคล้องกันถูกทำเครื่องหมายเป็นสีเขียว)
เกี่ยวกับผลลัพธ์เหล่านี้ ผู้เขียนกล่าวว่า:
‘ในกรณีของเหตุการณ์ออก-เข้าที่ซับซ้อน โมเดลพื้นฐานและ Context-as-Memory แสดงการบิดเบือนของตัวละครและความไม่สอดคล้องกันของการเคลื่อนไหว DFoT ไม่สามารถรักษาความสมบูรณ์ของตัวละครได้ ส่งผลให้หายไปทั้งหมด ในขณะที่ WorldPlay สามารถรักษาความสอดคล้องของการปรากฏของตัวละครได้ แต่ประสบปัญหาการเคลื่อนไหวที่ติดและกระตุก
‘ในทางกลับกัน วิธีการของเราประสบความสำเร็จในการรักษาความสอดคล้องแบบผสม โดยรักษาตัวตนและความต่อเนื่องของการเคลื่อนไหวของตัวละครหลังจากที่ตัวละครกลับเข้ามาในเฟรม’
ผลลัพธ์เพิ่มเติมสามารถดูได้ในรูปแบบวิดีโอที่ เว็บไซต์เสริม ซึ่งเรารวมตัวอย่างแรกสี่ตัวอย่างเข้าด้วยกัน:
คลิกเพื่อเล่น. สี่ในหกตัวอย่างผลลัพธ์การทดสอบที่แสดงไว้ที่เว็บไซต์โครงการ แหล่งที่มา
สรุป
ในขณะที่ความพยายามใดๆ ที่จะแก้ไขปัญหาที่ยิ่งใหญ่ที่สุดของ AI วิดีโอนั้นยินดีต้อนรับ มันดูเหมือนว่าจะไม่หลีกเลี่ยงได้ว่าวิธีแก้ปัญหาที่เหมาะสมที่สุดสำหรับปัญหาในการออก-เข้าจะพิสูจน์ว่าเป็นรูปแบบของวัสดุอ้างอิงที่แยกจากกันซึ่งสามารถแก้ไขและนำเข้ามาในพื้นที่คอมโพสิตได้
การพยายามที่จะรักษาการฝังตัวไว้ในลักษณะ แบบผสมผสาน และแบบ แบบเรียกใช้ ดูเหมือนจะเหนื่อยล้า และไม่ให้วิธีแก้ปัญหาไปข้างหน้าสำหรับความสอดคล้องระหว่างช็อตที่มีให้ใช้ที่ประตูเชิงพาณิชย์ที่ปิดใช้งาน เช่น Runway หากต้องการให้เฟรมต่อไปต้องเข้าถึงพื้นที่แบบซ่อนอยู่ของเฟรมก่อนหน้า ทำไมไม่ให้ทั้งสองอินสแตนซ์ใส่ตัวฝังตัวของตัวละครที่แยกจากกัน
* ไม่มีใครตั้งชื่อไว้ และการอภิปรายเป็นเรื่องยากโดยไม่มีคำศัพท์ทั่วไป
** ปัจจุบันรายงานว่า ‘กำลังจะมา’ ที่หน้าโครงการ
เผยแพร่ครั้งแรกวันศุกร์ที่ 27 มีนาคม 2026












