زاوية Anderson

خارج النظر، خارج الذهن: مواجهة أكبر مشكلة في مقاطع الفيديو الذكية

Published March 27, 2026

Updated April 25, 2026

Martin Anderson

Detail from the first page of the March 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

أ أكبر مشكلة في أنظمة توليد مقاطع الفيديو الذكية، حتى الأفضل من بينها، هي أن لديها فقدان ذاكرة مزمن – تحديًا يتعامل معه بحث جديد من الصين الآن.

أ أكبر مشكلة في أنظمة توليد مقاطع الفيديو الذكية، حتى الأفضل والأكثر تطورًا، هي أن جميعها تعاني من فقدان ذاكرة مزمن: إذا انتقلت الكاميرا بعيدًا عن ما تركز عليه ثم عادت، فلن تجد ما كان هناك في البداية – سيتلاشى الشخصيات وتتغير مظهرها و/أو نوع حركتها، ومن المحتمل أن تتغير الخلفية أيضًا.

هذا لأن نظام التوليد القائم على الانتشار له نافذة انتباه متحركة محدودة، ولأنها تتعامل دائمًا مع ما يمكن رؤيته في تلك اللحظة؛ في تمثيل حقيقي لل solipsism، ما هو خارج الإطار غير موجود للذكاء الاصطناعي – يصبح حرفيًا محذوفًا من الذاكرة.

لم يكن هذا مشكلة في رسومات الكمبيوتر التقليدية، والتي يمكنها دائمًا الرجوع إليها وإعادة إنشاء موضوع بدقة، بما في ذلك المظهر والحركة، في أي نقطة في مقطع فيديو تم 련رها حيث قد تكون هناك حاجة إليها مرة أخرى:

Traditional CGI meshes and bitmapped textures can always be drawn into a render, providing consistent appearance – a trick that is much harder to achieve in AI approaches, because there is no equivalent 'flat reference'.

يمكن دائمًا رسم شبكات ومواد CGI التقليدية في 련ر، مما يوفر مظهرًا متسقًا – خدعة صعبة التنفيذ في نهج الذكاء الاصطناعي، لأن هناك لا يوجد مرجع مسطح مكافئ.

هذا لأن عناصر CGI، مثل الشبكة والقوام (انظر الصورة أعلاه)، بالإضافة إلى ملفات الحركة وسلوكيات ديناميكية أخرى، يمكن أن تعيش بشكل منفصل على القرص، ويمكن رسمها في تكوين في أي وقت.

لا يوجد مثل هذا “مستودع مسطح” في مقاطع فيديو الذكاء الاصطناعي؛ أقرب ما يمكن أن يصل إليه هذا الوظيفة هو LoRAs – ملفات مساعدة مدربة خصيصًا يمكن تدريبها على معدات المستهلك، مما يسمح للشخصيات الجديدة والملابس المحددة بالدخول إلى مقطع الفيديو:

انقر للتشغيل. يمكن تقليل مشكلة السوليبسزم في مقاطع فيديو الذكاء الاصطناعي إلى حد ما باستخدام LoRAs – لكن النتائج يمكن أن تكون مخنقة.

هذا ليس حلاً مثاليًا، مع ذلك. من بين أشياء أخرى، LoRAs مرتبطة بإصدار محدد من نموذج أساسي (مثل Wan2+ أو Hunyuan Video)، و يحتاجون إلى إعادة إنشائهم كل مرة يتغير نموذج القاعدة. بالإضافة إلى ذلك، LoRAs تميل إلى تشويه أوزان نموذج القاعدة، بحيث يتم فرض الهوية المدربة لل LoRA على جميع الشخصيات في المشهد. بالإضافة إلى ذلك، طرق التخصيص من هذا النوع حساسة جدًا للبيانات التي لم يتم تحضيرها جيدًا.

إعادة أداء دقيقة

الآن، تعاون أكاديمي / صناعي جديد من الصين يقدم أول علاج مهم يأتي إلى علمي في أكثر من ثلاث سنوات من التقارير عن هذه القضية. يستخدم هذا الأسلوب ما يسميه الباحثون ذاكرة هجينة للحفاظ على الشخصية خارج الشاشة وبيئتها المباشرة نشطة ودقيقة في فضاء 潜 للنموذج، بحيث عندما تعود نقطتنا إلىها، يكون التأثير متسقًا:

انقر للتشغيل. من موقع المشروع للورقة الجديدة، مثالان لشخصيات تم إنشاؤها بواسطة الذكاء الاصطناعي (WAN) خروج الإطار ودخولها بدقة. المصدر

يجب التأكيد على أن هذا ليس نفس الشيء الذي يصل إلى اتساق الشخصية عبر لقطات مختلفة – شيء تم الادعاء بتحقيقه منذ عام في إصدار Gen 4 من Runway، ويظل مطاردة جارية في الأدبيات البحثية.

بدلاً من ذلك، ما تم حله هنا هو شيء لم يتمكن أي إطار تجاري أو تجريبي من تحقيقه – إعادة الظهور المرئية المتسقة لمظهر الشخصية السابقة وحركتها وبيئتها:

انقر للتشغيل. الأمثلة الأخرى الرئيسية الثلاثة المعروضة في موقع المبادرة الجديد.

من الواضح أن المبادئ العاملة هنا يمكن تطبيقها على مجالات أخرى، مثل استكشاف المدينة، أو قيادة POV، أو أنواع أخرى من العرض غير الشخصي.

يجب التأكيد أيضًا على أن هذا النهج الجديد لا يحل أو يعالج القضية التي تدعي منصات Runway Gen4 وأخرى مغلقة المصدر أنها قد عالجتها، من خلال إعادة إنشاء الشخصيات عبر لقطات مختلفة؛ بدلاً من ذلك، فإنه يفعل ما لم تنجح فيه بعد – الحفاظ على الشخصية وبيئتها في الذاكرة، بدون الحاجة إلى ظهورها للجمهور في جميع الأوقات.

العمل الجديد يتكون من مجموعة بيانات مخصصة تم إنشاؤها من خلال Unreal Engine، بالإضافة إلى معايير مخصصة لمشكلة السوليبسزم *، وإطار توليد مخصص بني على WAN. في الاختبارات ضد الأنظمة القليلة المماثلة المتاحة، يزعم المؤلفون نتائج على مستوى الدولة، وهم يعلقون:

‘آليات الذاكرة ظهرت كحافة حرجة في تقدم نماذج العالم، حيث تحدد سعة الذاكرة الاتساق المكاني والزمني للمحتوى المولَّد.

‘على وجه التحديد، إنها المرساة المعرفية التي تسمح للنموذج بالحفاظ على السياق التاريخي خلال تحولات المنظور أو الاستخراج على المدى الطويل.

‘بدون ذاكرة قوية، ينهار العالم المحاكى بسرعة إلى إطارات منفصلة ومتقلبة.’

الورقة الجديدة بعنوان خارج النظر ولكن ليس خارج الذهن: ذاكرة هجينة لنماذج العالم الديناميكية، وتأتي من سبعة باحثين عبر جامعة هوازونغ للعلوم والتكنولوجيا، وفريق Kling في Kuaishou Technology.

الطريقة

الجزء المركزي من العمل الجديد هو ذاكرة هجينة، والتي تسهل ‘استخراج خارج النطاق’ – الحفاظ على الشخصيات وسياقاتها أثناء نظر المشاهد ‘بعيدًا’ (أو أثناء خروج الشخصية نفسها من المشهد).

أمثلة على حركة الكاميرا عند الدخول والخروج. في هذه الحالات، إنها حركة الكاميرا التي تسبب في خروج الشخصية من الإطار، ولكن في عينات متنوعة يمكننا أيضًا ملاحظة الشخصية نفسها تنتقل مؤقتًا خارج الشاشة. المصدر

يلاحظ المؤلفون أن في التضمين اللاتنتشي، الميزات التي تحتاج إلى استخراج واستخدامها متشابكة بشكل كبير مع ميزات وخصائص أخرى؛ وأن محاولة استخراجها غالبًا ما تسبب في تجميد الموضوع في الخلفية. لذلك قاموا بتصميم وتنظيم مجموعة بيانات HM-World خصيصًا لتدريب الذاكرة الهجينة **:

من الورقة، عينات من الفئات الأربع الموجودة في مجموعة بيانات HM-World.

تتكون المجموعة من أربعة أبعاد: مسارات الموضوع، مسارات الكاميرا، المشاهد، و الموضوعات.

بيانات المجموعة الاصطناعية في HM-World تضم 17 مشهدًا و 49 موضوعًا، بما في ذلك أشخاصًا من مظاهر متنوعة، بالإضافة إلى حيوانات من أنواع متعددة. يتم وضع هذه المجموعات بشكل إجرائي في مشهد عبر Unreal Engine، كل منها مع رسوم متحركة فريدة، ثم وضعها على مسار عشوائي.

يصرح المؤلفون بأن مجموعة متنوعة من أحداث الخروج والدخول يتم عرضها في المجموعة، مع 28 مسارًا للكاميرا مختلفًا، كل منها مع نقط بداية متعددة.

تصل المجموعة النهائية إلى 59,225 مقطع فيديو، كل منها تمت إضافته بواسطة نموذج MiniCPM-V متعدد الوسائط.

يؤكد الباحثون على المزايا الإحصائية لمجموعتهم مقابل مجموعات سابقة WorldScore؛ Context-As-Memory؛ Multi-Cam Video؛ و 360° Motion:

مقارنة بين مجموعات البيانات الحالية ومجموعة بيانات HM-World، حيث يشير ‘الموضوع الديناميكي’ إلى وجود كيانات متحركة، و ‘دخول-خروج الموضوع’ يشير إلى مقاطع تحتوي على موضوعات تخرج وتنضم مرة أخرى إلى الإطار، و ‘موقف الموضوع’ يشير إلى وجود مواقف 3D محددة.

الطريق الأقل سلوكًا

معطى إطارات سابقة ومسار كاميرا معروف، المهمة هي توقع مشاهد مستقبلية أثناء تحرك منظور المشاهد، مع مراعاة موضوعات تتحرك بشكل مستقل وقد تخرج من الإطار قبل العودة. هذا يتطلب أكثر من الحفاظ على خلفية مستقرّة، حيث يجب على النموذج أيضًا الحفاظ على سجل داخلي متسق لشكل كل موضوع متحرك وحركته، حتى أثناء الفترات التي لا تكون فيها مرئية.

يعالج أسلوب Hybrid Dynamic Retrieval Attention (HyDRA) هذا bằng تقديم مسار ذاكرة مخصص يفصل الموضوعات الديناميكية عن تمثيل المشهد الثابت، مما يسمح لهم بالاستمرار مع مرور الوقت، والظهور مرة أخرى بمظهر وحركة متسقة:

مخطط مفاهيمي لنموذج HyDRA.

HyDRA مبني على Wan2.1-T2V-1.3B، مع ترك خط أنابيب الانتشار الأساسي في الغالب سليمًا، مع تقديم كتلة تحويل معدلة تدمج انتباه استرجاع ديناميكي. هذا يسمح للنموذج بالاسترجاع الانتقائي للاشارات والحركات من الإطارات السابقة، بدلاً من الاعتماد على السياق الثابت أو المحلي.

هذا العملية تستخدم هدف تدريب Flow Matching المعدل بدلاً من خسارة الانتشار القياسية.

为了 الحفاظ على المشاهد المترابطة مع حركة الكاميرا، يتم حقن مسارات الكاميرا كإشارة شرطية صريحة، مع تعريف كل إطار بروتا وترجمة، ثم تحويلها إلى تمثيل مضغوط يلتقط كيف يتطور المنظور مع مرور الوقت.

وفقًا لمبادرة ReCamMaster السابقة (Kling)، النتيجة ثم يتم تحليلها بواسطة معالج الكاميرا، الذي يتم تنفيذه كملتي слой 感知، ثم البث والإضافة إلى ميزات Diffusion Transformer، مما يسمح للنموذج بالحفاظ على وضع كائن متسق مع تحرك الكاميرا.

تحويل الرموز

مخلفات الانتشار اللاتنتشي تختلط مع حركة الموضوع ومظهره و الخلفية في تمثيل متشابك؛ ومحاولة الاسترجاع مباشرة من هذا الفضاء يخاطر بإدخال سياق غير ذي صلة، أو تسبب في تجميد الموضوع في الخلفية.

يعالج HyDRA هذا مع tokenizer ذاكرة قائم على 3D-convolution، الذي يعالج الفضاء والزمن معًا – بدلاً من تقديم تاريخ لاتنتشي كامل، يتم ضغطه إلى رموز ذاكرة مضغوطة ومحسنة للحركة، التي تحافظ على كيفية مظهر وحركة الموضوع:

نظرة عامة على HyDRA. 左، tokenizer الذاكرة يتحول الإطارات السابقة إلى رموز ذاكرة مضغوطة ومحسنة للحركة؛ يمين، انتباه الاسترجاع الديناميكي يقيّم الاستفسار الحالي ضد هذه الرموز، ويتابع الأكثر صلة، ويستخدمها لإعادة مظهر وحركة متسقة في الإطار المولَّد.

ت形成 هذه الرموز ذاكرة هجينة منظمة تفلتر الضوضاء مع الحفاظ على الديناميكيات على المدى الطويل. يتم تمريرها إلى وحدة انتباه الاسترجاع الديناميكي، مما يسمح للنموذج بالاسترجاع الانتقائي للموضوعات خارج الشاشة، بحيث تعود بمظهر وحركة متسقة.

انتباه استرجاع ديناميكي

آلية ذاكرة HyDRA الثنائية تستخدم أيضًا انتباه استرجاع ديناميكي في دور متميز ولكن مكمل داخل الإطار.

tokenizer الذاكرة يضغط تمثيلات لاتنتشي السابقة إلى رموز منظمة ومحسنة للحركة، التي تفصل الموضوعات الديناميكية عن محتوى المشهد الثابت، مما يقلل من التشابك الذي غالبًا ما يسبب تجميد الموضوع في الخلفية. هذه الرموز تشكل بنك ذاكرة مستمر بدلاً من تاريخ إطار كامل.

ثم يعمل انتباه الاسترجاع الديناميكي على هذا البنك خلال التوليد، حيث يقيّم الاستفسار الحالي ضد الرموز المخزنة، ويتابع تلك الأكثر صلة. هذا يسمح للموضوعات خارج الشاشة بالاستمرار في تطورها اللاتنتشي (أي الاستمرار في المشي أو الجري، عندما لا يمكن رؤيتهم)، والظهور مرة أخرى بمظهر وحركة متسقة عند عودتهم إلى المشهد، بدلاً من إعادة التشغيل أو التدهور.

البيانات والاختبارات

في الاختبارات، نظام HyDRA المبني على Wan2.1-T2V-1.3B شفرة وضغط 77 إطارًا سياقيًا قبل معالجته بواسطة VAE ثلاثي الأبعاد، بينما استخدم tokenizer الذاكرة 3D convolution بحجم نواة 2x4x4.

تم تدريب النموذج على HW-World لمدة 10,000 تكرار على 32 (غير محدد) GPU، عند حجم.batch من 32.

تم استخدام عدد غير عادي من المقاييس في الاختبارات: بالإضافة إلى النسبة المعيارية للصوت إلى الضوضاء (PSNR) والفهرس المعياري للتشابه (SSIM) ومقاييس التشابه المكتسبة (LPIPS)، استخدم المؤلفون أيضًا اتساق الموضوع و اتساق الخلفية من مجموعة VBench، لتقييم الاتساق على مستوى الإطار.

بالإضافة إلى ذلك، قاموا بتصميم مقياس مخصص بعنوان اتساق الموضوع الديناميكي (DSC)، الذي يستخدم صناديق تحديد من YOLO V11، لإنشاء مناطق محددة تتمحور حول موضوعات متحركة، من التي يتم استخراج الميزات الدلالية، ثم يتم حساب تشابهها.

تم اختبار HyDRA ضد Diffusion Forcing Transformer و Context-As-Memory، على نموذج أساسي Wan2.1-T2V-1.3B تم تثبيته مع معالج كاميرا (لتمثيل المنظور الفردي المشترك لجميع المقاطع). تم تدريب جميع النماذج على HW-World، وتم استخدام WorldPlay أيضًا كollection ثانوية للاختبار:

في المقارنات الكمية الأولية، تفوق HyDRA على جميع النماذج الأساسية، حيث رفع PSNR من 18.696 إلى 20.357، و SSIM من 0.517 إلى 0.606. كما حقق أعلى درجات Dice السياقية والصحيحة، 0.827 و 0.849، مع تحقيق اتساق الموضوع والخلفية 0.926 و 0.932:

نتائج المقارنة الكمية الأولية ضد النهج السابقة.

DFoT حقق 17.693 PSNR و Context as Memory 18.921، مع归 الفوائد إلى tokenization الذاكرة المدمجة مع انتباه الاسترجاع الديناميكي:

مقارنة كمية بين HyDRA ونهج الدولة الحالية.

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai