มุมมองของ Anderson

AI วิดีโอให้สมบูรณ์แบบกับเซลฟี่แมว

เผยแพร่ 19 ธันวาคม 2025

อัปเดต 17 พฤษภาคม 2026

Martin Anderson

A still from a demo video for the paper 'Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models', depicting a POV of a 'cat selfie', while a dog skateboards in the background. Source: https://vita-epfl.github.io/FVG/

เครื่องมือสร้างวิดีโอ AI มักให้ผลลัพธ์ที่ใกล้เคียง แต่ไม่ถึงเป้าหมายในแง่ของการนำเสนอข้อความที่ต้องการจากผู้ใช้ แต่การแก้ไขระดับสูงใหม่ทำให้แตกต่างทั้งหมด

ระบบสร้างวิดีโอแบบสร้างสรรค์มักมีปัญหาในการสร้างวิดีโอที่มีความคิดสร้างสรรค์หรือไม่ปกติ และมักไม่สามารถตอบสนองความคาดหวังของผู้ใช้ได้

ส่วนหนึ่งของสาเหตุของปัญหานี้คือ การผสมผสาน – ความจริงที่ว่าโมเดลภาษาและภาพต้องประนีประนอมในการฝึกอบรมข้อมูลต้นกำเนิด หากฝึกอบรมน้อยเกินไป ความคิดจะยืดหยุ่น แต่ไม่สมบูรณ์ – หากฝึกอบรมมากเกินไป ความคิดจะถูกต้อง แต่ไม่ยืดหยุ่นเพียงพอในการรวมเข้ากับการผสมผสานใหม่

คุณสามารถเข้าใจได้จากวิดีโอที่ฝังตัวอยู่ด้านล่าง ในด้านซ้ายคือการประนีประนอมที่หลายระบบ AI ให้ผลลัพธ์ในการตอบสนองคำสั่งซึ่งไม่สมจริง (คำสั่งด้านบนของวิดีโอในตัวอย่างทั้งสี่) ที่ขอให้มีการผสมผสานองค์ประกอบที่ไม่สมจริง ในด้านขวามือ คือการให้ผลลัพธ์ของ AI ที่ยึดมั่นในคำสั่งได้ดีกว่า:

คลิกเพื่อเล่น (ไม่มีเสียง) ในด้านขวามือ เราจะเห็น ‘factorized’ WAN 2.2 ให้ผลลัพธ์ที่ดีกว่าในคำสั่ง เมื่อเทียบกับการตีความที่ไม่ชัดเจนของ ‘vanilla’ Wan 2.2. ในด้านซ้าย โปรดอ้างอิงไฟล์วิดีโอต้นกำเนิดสำหรับการแสดงผลที่ดีกว่าและตัวอย่างอื่นๆ แม้ว่าไฟล์แบบดั้งเดิมที่แสดงในบทความนี้จะไม่มีอยู่ที่เว็บไซต์โครงการ และถูกสร้างขึ้นสำหรับบทความนี้ต้นกำเนิด

แม้ว่าเราต้องให้อภัยมือของคนในการตบไก่ (!) แต่ชัดเจนว่าตัวอย่างในด้านขวามือยึดมั่นในคำสั่งเดิมได้ดีกว่าตัวอย่างในด้านซ้าย

น่าสนใจที่ทั้งสองโครงสร้างที่แสดงเป็นโครงสร้าง เหมือนกัน – โครงสร้าง Wan 2.2 ที่ได้รับความนิยมและสามารถใช้งานได้ดี ซึ่งเป็นการเปิดตัวของจีนได้รับการยอมรับในกลุ่มโอเพ่นซอร์สและกลุ่มงานอดิเรกในปีนี้

ความแตกต่างคือว่าพายพานการสร้างที่สองถูก แยกตัว ซึ่งในกรณีนี้หมายถึงการใช้โมเดลภาษาขนาดใหญ่ (LLM) เพื่อแปลคำสั่งใหม่ของเฟรมแรกของวิดีโอ เพื่อให้ระบบสามารถให้ผลลัพธ์ที่ต้องการของผู้ใช้ได้

การ ‘ยึดภาพ’ นี้เกี่ยวข้องกับการฉีดภาพที่สร้างจาก LLM ที่ได้รับการปรับปรุงใหม่เข้าไปในพายพานการสร้างวิดีโอเป็น ‘เฟรมเริ่มต้น’ และใช้ LoRA เพื่อช่วยรวม ‘เฟรมแปลก’ เข้ากับกระบวนการสร้างวิดีโอ

ผลลัพธ์ในการตอบสนองคำสั่งได้ดีมาก โดยเฉพาะอย่างยิ่งสำหรับวิธีแก้ปัญหาที่ดูเรียบง่าย:

คลิกเพื่อเล่น (ไม่มีเสียง) ตัวอย่างอื่นๆ ของการสร้างวิดีโอที่ ‘แยกตัว’ จริงๆ ที่ยึดมั่นในคำสั่ง โปรดอ้างอิงไฟล์วิดีโอต้นกำเนิดสำหรับการแสดงผลที่ดีกว่าและตัวอย่างอื่นๆ แม้ว่าไฟล์แบบดั้งเดิมที่แสดงในบทความนี้จะไม่มีอยู่ที่เว็บไซต์โครงการ และถูกสร้างขึ้นสำหรับบทความนี้

วิธีนี้มาในรูปแบบของ บทความใหม่ การสร้างวิดีโอที่แยกตัว: การแยกการก่อสร้างฉากและการสังเคราะห์เวลาในโมเดลการแพร่กระจายวิดีโอจากข้อความ และ เว็บไซต์โครงการ ที่มีวิดีโอ

ในขณะที่ระบบหลายระบบในปัจจุบันพยายามเพิ่มความแม่นยำของคำสั่งโดยใช้โมเดลภาษาในการเขียนข้อความที่ไม่ชัดเจนหรือไม่สมบูรณ์ บทความใหม่โต้แย้งว่าวิธีนี้ยังคงนำไปสู่ความล้มเหลวเมื่อการแสดงฉากภายในของโมเดลมีข้อบกพร่อง

แม้ว่าจะมีข้อความที่เขียนใหม่โดยละเอียด แต่โมเดลวิดีโอจากข้อความมักจะผิดพลาดในการสร้างองค์ประกอบหลักหรือสร้างสถานะเริ่มต้นที่ไม่เข้ากันกับตรรกะของการเคลื่อนไหว หากเฟรมแรกไม่สะท้อนถึงสิ่งที่คำสั่งอธิบาย วิดีโอที่ได้จะไม่สามารถฟื้นตัวได้ ไม่ว่าโมเดลการเคลื่อนไหวจะดีเพียงใด

บทความระบุ*:

‘[โมเดลวิดีโอจากข้อความ] มักจะสร้างเฟรมที่มีการกระจายตัว แต่ยังคงได้รับคะแนนการประเมินที่เทียบเท่ากับโมเดล I2V ซึ่งบ่งชี้ว่าการสร้างการเคลื่อนไหวยังคงดีแม้ว่าความจริงของฉากจะไม่ดีนัก

‘[โมเดล I2V] แสดงพฤติกรรมที่ตรงกันข้าม โดยมีคะแนนการประเมินที่ดีจากฉากเริ่มต้นที่แม่นยำและความสอดคล้องของเวลาที่อ่อนลง ในขณะที่ I2V+ข้อความสร้างสมดุลระหว่างทั้งสองด้าน’

‘ความแตกต่างนี้ชี้ให้เห็นถึงความไม่ตรงกันทางโครงสร้างในโมเดล T2V ปัจจุบัน: การยึดภาพและการสังเคราะห์เวลาได้รับประโยชน์จากความลำเอียงเชิงอุปนัยที่แตกต่างกัน แต่โครงสร้างที่มีอยู่พยายามเรียนรู้ทั้งสองอย่างพร้อมกันภายในโมเดลเดียว’

การเปรียบเทียบการวินิจฉัยของโหมดการสร้างพบว่าโมเดลที่ไม่มีการยึดภาพ明確มีคะแนนการเคลื่อนไหวที่ดี แต่ประนีประนอมกับการจัดเรียงฉาก ในขณะที่วิธีการที่มีภาพมักจะแสดงรูปแบบตรงกันข้าม:

การเปรียบเทียบโหมดการสร้างวิดีโอในสองชุดข้อมูล ซึ่งแสดงให้เห็นว่า I2V+ข้อความได้รับคะแนนเฟรมที่ดีที่สุด (FID) และความสอดคล้องของเวลา (FVD) โดยเน้นย้ำถึงประโยชน์ของการแยกการก่อสร้างฉากออกจากการสังเคราะห์เวลา

ผลลัพธ์เหล่านี้ชี้ให้เห็นว่าความไม่ตรงกันทางโครงสร้างที่โมเดลปัจจุบันพยายามเรียนรู้ทั้งการก่อสร้างฉากและการเคลื่อนไหวในครั้งเดียว แม้ว่าทั้งสองงานจะต้องการความลำเอียงเชิงอุปนัยที่แตกต่างกันและดีกว่าที่จะจัดการแยกกัน

อาจเป็นเรื่องที่น่าสนใจที่สุดคือว่าวิธีนี้สามารถนำไปใช้กับการติดตั้งแบบท้องถิ่นของโมเดล เช่น Wan 2.1 และ 2.2 และโมเดลการแพร่กระจายวิดีโออื่นๆ เช่น Hunyuan Video ตามคำบอกเล่า การเปรียบเทียบคุณภาพของผลลัพธ์ของผู้เชี่ยวชาญกับพอร์ทัลการสร้างแบบเชิงพาณิชย์ เช่น Kling และ Runway ส่วนใหญ่ของผู้ให้บริการ API หลักกำลังปรับปรุงการนำเสนอแบบโอเพ่นซอร์ส เช่น WAN ด้วย LoRAs และ – ดูเหมือนว่า – ด้วยวิธีการที่คล้ายกับที่พบในบทความใหม่นี้ ดังนั้นวิธีการนี้อาจเป็นโอกาสให้กลุ่ม FOSS จับตาม

การทดสอบที่ดำเนินการสำหรับวิธีนี้แสดงให้เห็นว่าวิธีการแบบง่ายและแบบโมดูลาร์นี้ให้ผลลัพธ์ที่ดีกว่าใน T2V-CompBench โดยปรับปรุงโมเดลที่ทดสอบทั้งหมดอย่างมีนัยสำคัญ โดยเพิ่มคะแนนได้สูงถึง 53.25%

บทความระบุ*:

‘[ทั้ง] โมเดลที่มีการเพิ่มภาพยึดมั่นสม่ำเสมอปรับปรุงประสิทธิภาพการก่อสร้างฉาก All smaller Factorized models (CogVideo 5B, Wan 5B และ Wan 1B) outperform the larger Wan 14B T2V model.

‘Factorized Wan 5B ของเรายังเอาชนะ PixVerse-V3 ซึ่งเป็นโมเดลที่ดีที่สุดในบンチมาร์ก ซึ่งแสดงให้เห็นว่าการยึดภาพทางภาพช่วยเพิ่มความเข้าใจฉากและความเข้าใจการกระทำแม้ในโมเดลที่มีขนาดเล็กกว่า’

‘ภายในแต่ละตระกูลโมเดล Factorized version outperforms the original model. Notably, our lightweight anchor-grounded LoRA on WAN 14B reaches performance comparable its pretrained I2V 14B variant (0.661 vs. 0.666), despite requiring no full retraining.’

ต่อไปมาคือการทดสอบ VBench2.0:

การปรับปรุงผลลัพธ์ของวิธีการ T2V ที่แยกตัวใน VBench 2.0 ทั่วทั้งการก่อสร้างฉาก การให้เหตุผลแบบสัญจร และการควบคุม โดยมีการเพิ่มขึ้นมากกว่า 60% – แม้ว่าความน่าเชื่อถือของมนุษย์ยังคงต่ำกว่า Veo 3 ที่เป็นของบริษัทอื่น

ทั่วทั้งโครงสร้างที่ทดสอบ วิธีการที่แยกตัวเพิ่มคะแนนในหมวดทั้งหมดของ VBench ยกเว้น ความน่าเชื่อถือของมนุษย์ ซึ่งลดลงเล็กน้อยแม้จะเพิ่มคำสั่ง WAN 5B เอาชนะ WAN 14B ที่ใหญ่กว่า ซึ่งเสริมผลลัพธ์ก่อนหน้าของ T2V-CompBench ที่การยึดภาพมีส่วนช่วยมากกว่าขนาด

ในขณะที่การเพิ่มขึ้นใน VBench มีความสม่ำเสมอ แต่ก็เล็กกว่าที่เห็นใน T2V-CompBench และผู้เขียนระบุว่าสิ่งนี้เนื่องมาจาก VBench มีการให้คะแนนแบบทวินามที่เข้มงวด

สำหรับการทดสอบคุณภาพ บทความให้ภาพนิ่ง แต่เราอ้างอิงผู้อ่านไปยังวิดีโอที่ประกอบเข้าด้วยกันซึ่งฝังตัวอยู่ในบทความนี้ สำหรับการมองเห็นที่ชัดเจนกว่า โดยมีข้อจำกัดว่าไฟล์วิดีโอต้นกำเนิดมีจำนวนและความหลากหลายมากกว่า และมีการแสดงผลที่ดีกว่าและรายละเอียดมากกว่า คุณสามารถหามันได้ที่ ที่นี่ สำหรับผลลัพธ์คุณภาพ บทความระบุ:

‘วิดีโอที่มีการยึดภาพแสดงให้เห็นถึงการก่อสร้างฉากที่แม่นยำยิ่งขึ้น การผูกมัดของวัตถุและคุณลักษณะที่เข้มข้นขึ้น และความก้าวหน้าทางเวลาที่ชัดเจนขึ้น’

วิธีการที่แยกตัวยังคงเสถียรแม้จะลดจำนวนขั้นตอนการแพร่กระจายจาก 50 เป็น 15 โดยไม่สูญเสียประสิทธิภาพใน T2V-CompBench ในทางตรงกันข้าม ทั้งแบบที่มีคำสั่งเดียวและแบบที่เพิ่มคำสั่งลดลงอย่างรวดเร็วภายใต้เงื่อนไขเดียวกัน

แม้ว่าการลดขั้นตอนอาจเพิ่มความเร็วได้สามเท่า แต่พายพานการสร้างที่สมบูรณ์กลายเป็นเร็วขึ้นเพียง 2.1 เท่าในทางปฏิบัติ เนื่องจากมีค่าใช้จ่ายคงที่จากภาพยึดมั่น ผลลัพธ์เหล่านี้แสดงให้เห็นว่าการยึดภาพไม่เพียงแต่ปรับปรุงคุณภาพของตัวอย่างเท่านั้น แต่ยังช่วยให้กระบวนการแพร่กระจายมีเสถียรภาพและช่วยให้สามารถสร้างได้อย่างรวดเร็วและ効ิภาพมากขึ้นโดยไม่สูญเสียความแม่นยำ

เว็บไซต์โครงการให้ตัวอย่างของการสร้างวิดีโอแบบใหม่ซึ่งเรานำเสนอที่นี่:

คลิกเพื่อเล่น (ไม่มีเสียง) การเปรียบเทียบระหว่างวิดีโอที่มีการยึดภาพและแบบใหม่

ผู้เขียนสรุป:

‘ผลลัพธ์ของเราบ่งชี้ว่าการยึดภาพที่ดีขึ้น ไม่ใช่แค่การเพิ่มขนาดโมเดลเท่านั้น อาจมีความสำคัญเท่าๆ กัน การพัฒนาล่าสุดใน T2V การแพร่กระจายขึ้นอยู่กับการเพิ่มขนาดโมเดลและข้อมูลฝึกอบรม แต่แม้แต่โมเดลขนาดใหญ่ๆ ก็มักจะดิ้นรนในการอนุมานฉากเริ่มต้นที่สอดคล้องกันจากข้อความเพียงอย่างเดียว

‘สิ่งนี้ตรงกันข้ามกับการแพร่กระจายภาพ ซึ่งการเพิ่มขนาดค่อนข้างง่าย ในโมเดลวิดีโอ แต่ละการปรับปรุงโครงสร้างต้องทำงานในมิติเวลาเพิ่มเติม ทำให้การเพิ่มขนาดมีค่าใช้จ่ายมากกว่า

‘ผลลัพธ์ของเราบ่งชี้ว่าการยึดภาพที่ดีขึ้นสามารถเสริมการเพิ่มขนาดโดยการแก้ไขอุปสรรคอื่น: การสร้างฉากที่ถูกต้องก่อนที่การสังเคราะห์เวลาเริ่มต้น

‘โดยการแยกวิดีโอการสร้างออกเป็นการก่อสร้างฉากและการสร้างแบบจำลองเวลา เราบรรเทาอุปสรรคทั่วไปหลายประการโดยไม่ต้องใช้โมเดลขนาดใหญ่กว่ามาก เราพิจารณาว่านี่เป็นหลักการออกแบบที่เสริมซึ่งสามารถชี้แนะโครงสร้างอนาคตเพื่อการสร้างวิดีโอที่น่าเชื่อถือและเป็นระบบมากขึ้น’

สรุป

แม้ว่าปัญหาของการผสมผสานจะเป็นเรื่องที่แท้จริง และอาจต้องการวิธีแก้ปัญหาที่เฉพาะเจาะจง (เช่น การปรับปรุงการคัดเลือกและการกระจายตัวก่อนการฝึกอบรม) แต่ก็เป็นการเปิดเผยที่น่าสนใจที่จะเห็นวิธีการ ‘แยกตัว’ ที่สามารถ ‘แก้ไข’ การจัดเรียงแนวคิดที่ยึดติดและยึดมั่นได้ดีขึ้น โดยใช้การปรับแต่ง LoRA ในระดับปานกลาง และการแทรกภาพยึดมั่นที่ดีขึ้น

ช่องว่างของทรัพยากรระหว่างการอนุมานแบบท้องถิ่นและโซลูชันเชิงพาณิชย์อาจไม่ใหญ่เท่าที่คิด เนื่องจากผู้ให้บริการส่วนใหญ่พยายามลดการใช้ทรัพยากร GPU ที่สำคัญให้กับผู้บริโภค

ตามคำบอกเล่า จำนวนผู้ให้บริการวิดีโอสร้างสรรค์หลายรายดูเหมือนจะใช้โมเดล FOSS ของจีนแบบ ‘ปรับปรุง’ และ ‘เพิ่มประสิทธิภาพ’ โดยทั่วไป โมเดลเหล่านี้มี ‘ค่าป้องกัน’ เพียงเล็กน้อยเท่านั้น เนื่องจากพวกเขาได้ทำการฝึกอบรม LoRAs หรือ – โดยมีค่าใช้จ่ายสูงกว่าและผลตอบแทนที่มากกว่า – การปรับแต่งน้ำหนักโมเดลอย่างเต็มรูปแบบ^††

ข้อมูลเช่นนี้สามารถช่วยลดช่องว่างนี้ได้มากขึ้น ในบริบทของการเปิดตัวที่จีนตั้งใจ (ไม่จำเป็นต้องเป็นเพราะเหตุผลที่อัลทรูอิสติกหรืออุดมคตินิยม) ที่จะทำให้ AI เจนเนอรेटีฟเปิดกว้าง ในขณะที่ผลประโยชน์ทางธุรกิจของตะวันตกอาจต้องการให้ขนาดโมเดลที่เพิ่มขึ้นและข้อบังคับในที่สุดจะปิดโมเดลที่ดีที่สุดไว้เบื้องหลัง API และหลายชั้นของตัวกรองเนื้อหา

* เน้นของผู้เขียน ไม่ใช่ของผม

^†บทความไม่ระบุว่าใช้ GPU แบบใด หรือใช้กี่ตัว

^†† แม้ว่าเส้นทาง LoRA จะเป็นไปได้มากกว่า ทั้งในแง่ของความสะดวกในการใช้งานและเพราะว่าน้ำหนักที่เต็มไม่ได้ให้มาเสมอไป

เผยแพร่ครั้งแรกวันศุกร์ที่ 19 ธันวาคม 2025