زاوية أندرسون

بعيد عن العين، بعيد عن القلب: معالجة أكبر مشكلة في فيديو الذكاء الاصطناعي

تم النشر 27 آذار، 2026

مارتن أندرسون

تفاصيل من الصفحة الأولى من ورقة بحثية نُشرت في مارس 2026 بعنوان "بعيد عن الأنظار لكنه ليس بعيدًا عن البال: ذاكرة هجينة لنماذج عالم الفيديو الديناميكي". المصدر: https://arxiv.org/pdf/2603.25716

تكمن أكبر مشكلة حتى في أفضل مولدات الفيديو التي تعمل بالذكاء الاصطناعي في أنها تعاني من فقدان الذاكرة المزمن - وهو تحدٍّ تتصدى له الآن أبحاث جديدة من الصين.

تكمن المشكلة الأكبر حتى في أفضل أنظمة توليد الفيديو بالذكاء الاصطناعي وأكثرها تطوراً في أنها جميعاً... فقدان الذاكرة المزمنإذا تحركت الكاميرا بعيدًا عما تركز عليه ثم عادت إليه، فلن تجد أبدًا ما كان موجودًا في البداية - ستختفي الشخصيات، ويتغير مظهرها و/أو نوع حركتها، ومن المحتمل أن تكون الخلفية قد تغيرت أيضًا.

ويرجع ذلك إلى أن نظام التوليد القائم على الانتشار لديه قدرة محدودة على التدحرج نافذة الانتباهولأنها تتعامل دائماً مع ما يمكن أن يراه في تلك اللحظة؛ في تطبيق حقيقي لـ الأنانة نظرية تؤمن بالأنا فقطما هو في الخارج إن إطار الصورة غير موجود بالنسبة للذكاء الاصطناعي التوليدي - يتم تفريغه حرفيًا من الذاكرة.

هذا له لم تكن مشكلة في تقنية CGI التقليديةوالتي يمكنها دائمًا الإشارة إلى موضوع ما وإعادة إنشائه بدقة، بما في ذلك المظهر والحركة، في أي نقطة في الفيديو المُعالَج حيث قد تكون هناك حاجة إليها مرة أخرى:

يمكن دائمًا رسم شبكات CGI التقليدية والقوام النقطي في عملية العرض، مما يوفر مظهرًا متسقًا - وهي خدعة يصعب تحقيقها في أساليب الذكاء الاصطناعي، لأنه لا يوجد "مرجع مسطح" مكافئ.

يمكن دائمًا إعادة رسم شبكات CGI التقليدية والقوام النقطي في العرض، مما يوفر مظهرًا متسقًا - وهي خدعة يصعب تحقيقها في أساليب الذكاء الاصطناعي، لأنه لا يوجد ملف "مرجع مسطح" مكافئ، أو مجموعة من الملفات ذات الصلة.

ويرجع ذلك إلى أن عناصر CGI المكونة، مثل الشبكة والقوام (انظر الصورة أعلاه)، بالإضافة إلى ملفات الحركة والسلوكيات الديناميكية الأخرى، يمكن أن تعيش بشكل منفصل على القرص، ويتم رسمها في تركيبة في أي وقت.

لا يوجد ما يُسمى بـ "مستودع البيانات المسطح" في الذكاء الاصطناعي لتوليد الفيديو؛ وأقرب ما يمكن أن يصل إليه من هذه الوظيفة هو LoRAs – ملفات مساعدة مدربة تدريباً خاصاً يمكن تدريبها على معدات المستهلك، مما يسمح بشخصيات جديدة وملابس محددة أن يتم "إجباره" على الظهور في الفيديو:

انقر للعب. يمكن التخفيف من مشكلة الانعزالية في فيديوهات الذكاء الاصطناعي إلى حد ما باستخدام شبكات العلاقات بين الشبكات (LoRAs) - ولكن النتائج قد تكون ساحقة.

لكن هذا ليس حلاً مثالياً. فمن ناحية، ترتبط شبكات LoRA بإصدار محدد من نموذج البنية التحتية (مثل Wan2+، أو فيديو هونيوان)، و يحتاج إلى إعادة إنشاء في كل مرة يتغير فيها النموذج الأساسي. ومن ناحية أخرى، LoRas تميل إلى تشويه الأوزان من نموذج المؤسسة، بحيث يتم فرض هوية LoRA المدربة على جميع الشخصيات في المشهد. بالإضافة إلى ذلك، الكون المثالى أساليب من هذا النوع هي حساس جدا إلى مجموعات البيانات سيئة التنسيق.

إعادة تقديم دقيقة

الآن، يقدم تعاون أكاديمي/صناعي جديد من الصين أول حل مهم لفت انتباهي خلال أكثر من ثلاث سنوات من التغطية الصحفية لهذه القضية. تستخدم هذه الطريقة ما يسميه الباحثون ذاكرة هجينة للحفاظ على الشخصية التي لا تظهر على الشاشة وبيئتها المباشرة نشطة ودقيقة في مساحة كامنة من النموذج، بحيث عندما تعود وجهة نظرنا إليهم، يكون التأثير متسقًا:

انقر للعب. من موقع المشروع الخاص بالورقة البحثية الجديدة، مثالان على أحرف تم إنشاؤها بواسطة الذكاء الاصطناعي (WAN) تخرج من الإطار وتعود إليه بدقة. مصدر

ينبغي التأكيد على أن هذا لا يعني تحقيق اتساق الشخصية عبر لقطات مختلفة - وهو أمر زُعم أنه قد تم تحقيقه قبل سنة واحدة في إصدار الجيل الرابع من Runway، والذي لا يزال an جارية مطاردة في الأدبيات البحثية.

بل إن ما تم حله هنا هو أمر لم يتمكن أي إطار عمل تجاري أو تجريبي رأيته من تحقيقه – إعادة الظهور بشكل متناسق بصريًا فيما يتعلق بمظهر الشخصية التي لم تظهر على الشاشة، وحركتها، وبيئتها السابقة:

انقر للعب. المثالان الرئيسيان الآخران المذكوران في موقع مشروع المبادرة الجديدة.

من الواضح أن المبادئ التي يتم العمل بها هنا يمكن تطبيقها بنفس القدر على مجالات أخرى، مثل الاستكشاف الحضري، أو قيادة المركبات من منظور الشخص الأول، أو أنواع أخرى من العروض غير المتعلقة بالشخصيات.

ينبغي التأكيد أيضاً على أن هذا النهج الجديد لا يحل أو يعالج المشكلة التي تدعي منصة Runway Gen4 وغيرها من المنصات المغلقة المصدر أنها عالجتها، من خلال إعادة إنشاء الشخصيات عبر لقطات مختلفةبل إنها تفعل ما لم ينجح أي منهم فيه حتى الآن، ألا وهو الحفاظ على شخصية وبيئة في الذاكرة. دون الحاجة إلى أن تظل مرئية للمشاهد في جميع الأوقات.

يتضمن العمل الجديد مجموعة بيانات مخصصة تم إنشاؤها من خلال غير واقعي المحركبالإضافة إلى مقاييس مخصصة لمشكلة الانعزالية*، وإطار عمل توليدي مصمم خصيصًا تم بناؤه عبر شبكة واسعة النطاق. وفي اختبارات أجريت على الأنظمة القليلة المماثلة المتاحة، يدّعي المؤلفون تحقيق نتائج متطورة، ويعلقون قائلين:

لقد برزت آليات [الذاكرة] كحدود حاسمة في تطوير نماذج العالم، حيث تحدد سعة الذاكرة الاتساق المكاني والزماني للمحتوى المُنشأ.

"على وجه التحديد، إنها الركيزة المعرفية التي تسمح للنموذج بالاحتفاظ بالسياق التاريخي أثناء تحولات وجهة النظر أو الاستقراء طويل المدى."

"بدون ذاكرة قوية، سرعان ما يتفكك العالم المحاكي إلى إطارات منفصلة وفوضوية."

استخدم ورقة جديدة بعنوان بعيد عن الأنظار لكنه ليس بعيد عن البال: ذاكرة هجينة لنماذج عالم الفيديو الديناميكيةويأتي هذا البحث من سبعة باحثين من جامعة هوا تشونغ للعلوم والتكنولوجيا، وفريق كلينغ في شركة كوايشو للتكنولوجيا.

الأسلوب

الركيزة الأساسية للعمل الجديد هي ذاكرة هجينةوهذا ما يُسهّل "الاستقراء خارج نطاق الرؤية" - أي الاحتفاظ بالشخصيات وسياقاتها بينما "يُشيح" المشاهد بنظره (أو بينما تختفي الشخصية نفسها من مجال الرؤية). في هذا السيناريو، يُطلب من الإطار أن يؤدي الفصل المكاني الزمني، حيث يركز في الوقت نفسه على الجيل المرئي للمشاهد، وعلى وجود الشخصية التي أصبحت الآن خارج نطاق الرؤية خارج الشاشة.

أمثلة على حركة دخول/خروج الكاميرا. في هذه الحالات، تتسبب حركة الكاميرا في خروج الشخصية من الإطار، ولكن في نماذج أخرى، يمكننا أيضًا ملاحظة الشخصية نفسها وهي تدفع نفسها مؤقتًا خارج الشاشة. المصدر - https://arxiv.org/pdf/2603.25716

أمثلة على حركة دخول/خروج الكاميرا. في هذه الحالات، تكون حركة الكاميرا هي التي تتسبب في خروج الشخصية من الإطار، ولكن في عينات متنوعة يمكننا أيضًا ملاحظة الشخصية نفسها وهي تدفع نفسها مؤقتًا خارج الشاشة. مصدر

يشير المؤلفون إلى أن الانتشار الكامن التضمين، فإن الميزات التي يجب استخراجها واستخدامها تعتمد بشكل كبير متشابكا مع سمات وخصائص أخرى؛ ومحاولة استخلاصها غالباً ما تتسبب في "تجميد" الموضوع في الخلفية. لذلك قاموا بتصميم وتنسيق إتش إم وورلد مجموعة البيانات**، المصممة خصيصًا لتدريب الذاكرة الهجينة:

من الورقة البحثية، عينات من الفئات الأربع الموجودة في مجموعة بيانات HM-World.

تم بناء المجموعة وفقًا لأربعة أبعاد: مسارات الموضوع, مسارات الكاميرا, مشاهدو المواضيع.

استخدم البيانات الاصطناعية يضم عالم HM-World سبعة عشر مشهدًا وتسعة وأربعين عنصرًا، بما في ذلك أشخاص ذوو مظاهر متنوعة، بالإضافة إلى حيوانات من أنواع متعددة. يتم وضع مجموعات من هذه العناصر في مشهد واحد بشكل إجرائي باستخدام محرك Unreal Engine، ولكل منها حركة مميزة، ثم يتم توجيهها على مسار يتم اختياره عشوائيًا.

يذكر المؤلفون أن مجموعة متنوعة من مخرج-مدخل تم تصوير الأحداث في مجموعة البيانات، مع تضمين 28 مسارًا مختلفًا للكاميرا، كل منها بنقاط بداية متعددة.

تضم المجموعة النهائية 59,225 مقطع فيديو، كل منها مُعلّق عليه بواسطة MiniCPM-V نموذج اللغة الكبير متعدد الوسائط (MLLM).

يشير الباحثون إلى المزايا الإحصائية لمجموعتهم مقارنة بمجموعات البيانات السابقة وورلد سكور; السياق كذاكرة; فيديو متعدد الكاميرات، و حركة 360 درجة:

مقارنة بين مجموعات البيانات الحالية ومجموعة بيانات HM-World، حيث يشير "Dynamic Subject" إلى وجود كيانات متحركة، ويشير "Subject Exit-Enter" إلى المقاطع التي تحتوي على أشخاص يغادرون الإطار ويعودون إليه، ويشير "Subject Pose" إلى تضمين أوضاع ثلاثية الأبعاد مشروحة.

الطريق الأقل سفرًا

بافتراض وجود عدة لقطات سابقة ومسار كاميرا معروف، تتمثل المهمة في التنبؤ بالمشاهد المستقبلية مع تغير منظور المشاهد، مع مراعاة العناصر التي تتحرك بشكل مستقل وقد تغادر الإطار قبل عودتها. يتطلب هذا أكثر من مجرد الحفاظ على خلفية ثابتة، إذ يجب على النموذج أيضًا الاحتفاظ بسجل داخلي متماسك لكيفية ظهور كل عنصر متحرك وسلوكه، حتى خلال الفترات التي يكون فيها غير مرئي.

المؤلفون الانتباه الديناميكي للاسترجاع الهجين تعالج طريقة (HyDRA) هذا الأمر من خلال تقديم مسار ذاكرة مخصص يفصل بين العناصر الديناميكية وتمثيل المشهد الثابت، مما يسمح لها بالبقاء مع مرور الوقت، والظهور مرة أخرى بمظهر وحركة متسقين:

مخطط مفاهيمي لنموذج HyDRA.

تم بناء HyDRA على وان 2.1-T2V-1.3B، مع الإبقاء على خط أنابيب الانتشار الأساسي سليماً إلى حد كبير، مع إدخال تعديل محول وحدة تتضمن آلية استرجاع الانتباه الديناميكي. وهذا يسمح للنموذج باستدعاء إشارات الحركة والمظهر بشكل انتقائي من الإطارات السابقة، بدلاً من الاعتماد على سياق ثابت أو محلي.

تستخدم هذه العملية نسخة معدلة مطابقة التدفق هدف التدريب بدلاً من المعيار فقدان الانتشار.

للحفاظ على محاذاة المشاهد مع حركة الكاميرا، يتم إدخال مسارات الكاميرا كإشارة تهيئة صريحة، حيث يتم تحديد وضع كل إطار عن طريق الدوران والانتقال، ثم يتم تحويلها إلى تمثيل مضغوط يلتقط كيفية تطور وجهة النظر بمرور الوقت.

تماشياً مع السابق (كلينج) ReCamMaster ثم يقوم مُشفّر الكاميرا بتحليل النتيجة، وذلك من خلال تنفيذ المبادرة. متعدد الطبقات المستقبلاتثم تم بثها وإضافتها إلى محول الانتشار ميزات تسمح للنموذج بالحفاظ على وضع ثابت للكائنات أثناء تحرك الكاميرا.

Tokenization

تقوم الكمونات الكامنة للانتشار الخام بمزج حركة الموضوع ومظهره وخلفيته في تمثيل واحد متشابك، ومحاولة الاسترجاع مباشرة من هذه المساحة تنطوي على مخاطر إدخال سياق غير ذي صلة، أو التسبب في اندماج المواضيع المتحركة في المشهد.

يعالج نظام HyDRA هذا الأمر باستخدام مُجزئ الذاكرة القائم على الالتفاف ثلاثي الأبعاد والذي يعالج المكان والزمان معًا - بدلاً من إعادة توجيه التواريخ الكامنة الكاملة، فإنه يضغطها في رموز ذاكرة مضغوطة ومدركة للحركة تحافظ على كيفية ظهور الأشخاص وتحركهم:

نظرة عامة على HyDRA. على اليسار، يقوم مُجزئ الذاكرة بتحويل الإطارات السابقة إلى رموز ذاكرة مضغوطة ومدركة للحركة؛ على اليمين، يقوم الانتباه للاسترجاع الديناميكي بتقييم الاستعلام الحالي مقابل هذه الرموز، ويسترجع الرموز الأكثر صلة، ويستخدمها لاستعادة المظهر والحركة المتسقين في الإطار المُنشأ.

تُشكّل هذه الرموز ذاكرة هجينة مُهيكلة تُصفّي التشويش مع الحفاظ على الديناميكيات بعيدة المدى. وعند تمريرها إلى وحدة الانتباه للاسترجاع الديناميكي، تُمكّن هذه الرموز النموذج من استدعاء العناصر غير الظاهرة على الشاشة بشكل انتقائي، بحيث تظهر مجدداً بمظهر وحركة وسياق متسقين.

الانتباه الديناميكي للاسترجاع

تستخدم آلية الذاكرة المزدوجة في HyDRA أيضًا انتباه الاسترجاع الديناميكي في دور متميز ولكنه مكمل ضمن الإطار.

تعمل تقنية تجزئة الذاكرة على ضغط التمثيلات الكامنة السابقة إلى رموز منظمة ومدركة للحركة، تفصل العناصر المتحركة عن محتوى المشهد الثابت، مما يقلل من التشابك الذي غالباً ما يتسبب في اندماج العناصر مع الخلفية. تشكل هذه الرموز بنك ذاكرة دائم بدلاً من سجل كامل للإطار.

ثم يعمل نظام الانتباه الديناميكي للاسترجاع على هذه المجموعة من البيانات أثناء عملية التوليد، حيث يُقيّم الاستعلام الحالي مقابل الرموز المخزنة ويسترجع بشكل انتقائي تلك الأكثر صلة بالإطار المتطور. وهذا يسمح للأجسام غير الظاهرة على الشاشة بمواصلة تطورها الكامن (أي الاستمرار في المشي أو الجري عندما لا يمكنك رؤيتها)، والظهور مجددًا بمظهر وحركة متسقين عند عودتها إلى مجال الرؤية، بدلًا من إعادة ضبطها أو تدهورها.

البيانات والاختبارات

في الاختبارات، قام نظام HyDRA القائم على شبكة WAN بتشفير وتقليل حجم 77 إطارًا سياقيًا قبل تحليلها باستخدام مشفر تلقائي تبايني ثلاثي الأبعاد (VAE)، بينما استخدم مُجزئ الذاكرة المذكور آنفًا الالتفاف ثلاثي الأبعاد في حجم النواة من 2x4x4.

تم تدريب النموذج على مجموعة بيانات HW-World لعشرة آلاف تكرار على 32 وحدة معالجة رسومية (غير محددة)، بمعدل حجم الدفعة من 32.

استُخدم عدد كبير بشكل غير معتاد من المقاييس في الاختبارات: بالإضافة إلى نسبة ذروة الإشارة إلى الضوضاء المعتادة (PSNRمؤشر التشابه الهيكلي (حركة استقلال جنوب السودانومقاييس التشابه الإدراكي المتعلمة (LPIPS)، كما استخدم المؤلفون اتساق الموضوع و تناسق الخلفية من في بينش مجموعة أدوات لتقييم التماسك على مستوى الإطار.

بالإضافة إلى ذلك، قاموا بوضع مقياس مخصص بعنوان اتساق الموضوع الديناميكي (DSC)، الذي يستخدم مربعات إحاطة من YOLO V11، لإنشاء مناطق مقتطعة تتميز بمواضيع متحركة، والتي تم استخراج السمات الدلالية منها ثم حساب أوجه التشابه بينها.

تم وضع HyDRA في مواجهة محول إجبار الانتشار (وزارة النقل والغابات)، و السياق كذاكرة، وذلك على نموذج Wan2.1-T2V-1.3B الأساسي المزود بمشفّر كاميرا (لتمثيل وجهة النظر الذاتية المشتركة بين جميع المقاطع). تم تدريب جميع النماذج على مجموعة بيانات HW-World، و وورلد بلاي كما تم استخدامها كمجموعة اختبار ثانوية بدون لقطات:

في المقارنات الكمية الأولية، تفوقت تقنية HyDRA على جميع النماذج الأساسية، حيث رفعت نسبة الإشارة إلى الضوضاء (PSNR) من 18.696 إلى 20.357، ومؤشر تشابه الصور الهيكلي (SSIM) من 0.517 إلى 0.606. كما حققت أعلى درجات دايس السياقية والحقيقية، 0.827 و0.849، مع وصول اتساق الموضوع والخلفية إلى 0.926 و0.932 على التوالي.

نتائج المقارنة الكمية الأولية مع المناهج السابقة.

بلغت قيمة PSNR لـ DFOT 17.693 وقيمة Context as Memory 18.921، ويعزى هذا التحسن إلى تجزئة الذاكرة المقترنة بانتباه الاسترجاع الديناميكي:

مقارنة كمية تقارن تقنية HyDRA بأحدث التقنيات المتاحة.

وفيما يتعلق بالاختبارات التي أجريت على برنامج WorldPlay، ذكر المؤلفون ما يلي:

تتفوق طريقتنا على WorldPlay في جميع المقاييس، مع فارق ملحوظ في نسبة الإشارة إلى الضوضاء (PSNR) يبلغ 5.502. على الرغم من أن WorldPlay يُظهر أداءً أقل في المقاييس المرجعية للإطار الزمني (مثل PSNR 14.855، وDSCGT 0.832) بسبب فجوة توزيع المجال وعدم وجود ضبط دقيق محدد، إلا أنه يُظهر متانة ملحوظة في المقاييس المرجعية للسياق من خلال تحقيق DSCctx بقيمة 0.822.

لا تؤكد هذه الملاحظة فقط أن النماذج المدربة بشكل مكثف تمتلك اتساقًا هجينًا عادلًا، ولكنها تؤكد أيضًا بشكل غير مباشر منطقية مقاييس DSC المقترحة لدينا في عكس اتساق الموضوع الديناميكي.

"في نهاية المطاف، تسلط هذه النتائج المبهرة الضوء على القدرات الاستثنائية لنموذجنا، مما يدل على تفوقه حتى على النماذج التجارية الراسخة."

تقدم الورقة تمثيلاً ثابتاً للمقارنات النوعية التي أجريت للاختبارات:

مقارنة نوعية للخروج والدخول مرة أخرى في ظل حركة الكاميرا. يؤكد المؤلفون أن تقنية HyDRA تحافظ على هوية الشخص ووضعيته واستمرارية حركته بعد مغادرة الإطار والعودة إليه، مما يتطابق بشكل كبير مع الحقيقة الأساسية، بينما تُظهر الطرق المنافسة انحرافًا أو حركة غير متماسكة أو تدهورًا في حالة الشخص، كما هو موضح باللون الأحمر (الاستعادة المتسقة مُشار إليها باللون الأخضر).

ومن هذه النتائج علق المؤلفون:

في حالة أحداث الدخول والخروج المعقدة، يُظهر كل من خط الأساس وسياق الذاكرة تشوهًا شديدًا في الكائن وعدم اتساق في الحركة. يفشل نظام DFoT في الحفاظ على سلامة الكائن، مما يؤدي إلى اختفائه تمامًا. بينما ينجح نظام WorldPlay في الحفاظ على اتساق مظهر الكائن، إلا أنه يعاني من حركات متقطعة وأفعال غير طبيعية.

"في المقابل، تحافظ طريقتنا بنجاح على الاتساق الهجين، حيث تحافظ على هوية الموضوع وتماسك الحركة بعد عودة الموضوع إلى الإطار."

يمكن الاطلاع على المزيد من النتائج في شكل فيديو على الرابط التالي: الموقع التكميليوقد قمنا بتجميع الأمثلة الأربعة الأولى منها (بواسطتنا) في الفيديو أدناه:

انقر للعب. تم عرض أربع من نتائج الاختبارات الستة في موقع المشروع. مصدر

خاتمة

في حين أن أي محاولة لمعالجة إحدى أكبر المشكلات في توليد الفيديو بالذكاء الاصطناعي موضع ترحيب، يبدو لي حتمياً أن الحل الأمثل لمشاكل الخروج/إعادة الدخول من هذا النوع سيثبت، كما كان الحال مع الصور المولدة بالحاسوب، أنه في شكل مواد مرجعية مميزة يمكن تحريرها بشكل منفصل وإدخالها في مساحة الملحن.

إن محاولة الحفاظ على تضمين حي في مخصص ويبدو أن أسلوب المعالجة الفورية مرهق، كما أنه لا يوفر سبيلاً واضحاً لتحقيق التناسق داخل اللقطة الواحدة المتوفر حالياً في العديد من منصات معالجة الصور مثل Runway. إذا تبيّن أن اللقطة اللاحقة تتطلب الوصول إلى المساحة الكامنة للقطة السابقة، فلماذا لا يتم وضع تضمين منفصل ومستقل للحرف في كلتا الحالتين؟

* لم يطلق عليه أحد غيره هذا الاسم، والنقاش صعب بدون مصطلحات مشتركة.

** يُذكر حاليًا أنه "قريبًا"، على صفحة المشروع.

نُشرت لأول مرة يوم الجمعة 27 مارس 2026

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai