زاوية Anderson

لماذا لا يمكن أن تنتج أنظمة الفيديو التوليدية أفلامًا كاملة؟

mm
'a gorgeous illustration of a robot operating a professional movie camera' - ChatGPT Plus, Sept 2024

أدى ظهور تقنية الذكاء الاصطناعي التوليدي وتقدمها إلى توقع العديد من المراقبين العاديين أن تثبت أن الذكاء الاصطناعي سيكون نهاية الصناعة السينمائية كما نعرفها – بدلاً من ذلك ، سيكون من الممكن للمبدعين الفرديين إنشاء أفلام هوليوودية في المنزل ، إما على أنظمة GPU المحلية أو السحابية.

هل هذا ممكن؟ حتى لو كان هذا ممكنًا ، هل هو قريب ، كما يعتقد العديد من الناس؟

من الممكن أن يتمكن الأفراد في النهاية من إنشاء أفلام ، على الشكل الذي نعرفه ، مع شخصيات متسقة وترابط سيناريو وتحقيق фотوغرافي كامل ، ومن المحتمل أن يكون هذا أمرًا لا مفر منه.

然而 ، هناك عدة أسباب أساسية حقيقية لماذا هذا لا يحدث مع أنظمة الفيديو التوليدية القائمة على نماذج الانحلال الكامن.

هذا الحقائق الأخير مهم لأن ، في الوقت الحالي ، يتضمن هذا الفئة كل نظام نص-فيديو (T2) و صورة-فيديو (I2V) شائع المتاح ، بما في ذلك Minimax و Kling و Sora و Imagen و Luma و Amazon Video Generator و Runway ML و Kaiber (و ، إلى حد ما يمكننا التمييز ، وظيفة الفيديو القادمة من Adobe Firefly) ؛ من بين عديد آخر.

هنا ، نحن ننظر في احتمال وجود إنتاجات كاملة الحجم من الذكاء الاصطناعي ، تم إنشاؤها بواسطة أفراد ، مع شخصيات متسقة وتصوير سينمائي وتأثيرات بصرية على الأقل على مستوى الحالة الحالية في هوليوود.

لنلق نظرة على بعض أكبر الحواجز العملية أمام التحديات المشار إليها.

1: لا يمكنك الحصول على لقطة متابعة دقيقة

التناقض السردي هو أكبر هذه الحواجز. الحقيقة هي أن لا نظام توليدي فيديو حالي يمكنه制作 لقطة متابعة دقيقة.

هذا لأن نموذج الانحلال الكامن في قلب هذه الأنظمة يعتمد على الضوضاء العشوائية ، وهذا المبدأ الأساسي لا يتيح إعادة تفسير نفس المحتوى بشكل دقيق.

عندما يتم استخدام نصوص التحفيز ، بمفردها أو معًا مع صور “بذور” المرفوعة (مدخلات متعددة) ، فإن العناصر المشتقة من التحفيز ستثير محتوى مناسب семantically من الفضاء الكامن للمodel.

然而 ، بسبب عامل “الضوضاء العشوائية” ، لن يفعل ذلك بنفس الطريقة مرتين.

هذا يعني أن هوية الأشخاص في الفيديو سوف تميل إلى التغيير ، والأشياء والبيئات لن تتطابق مع اللقطة الأولية.

هذا هو السبب في أن مقاطع الفيديو الشهيرة التي تصور مشاهد استثنائية ومخرجات على مستوى هوليوود تميل إلى أن تكون إما لقطات فردية أو “مونتاج إظهار” لقدرات النظام ، حيث يظهر كل لقطة شخصيات وبيئات مختلفة.

مقتطفات من مونتاج توليدي للذكاء الاصطناعي من ماركو فان هيلكاما فليج – مصدر: https://www.linkedin.com/posts/marcovhv_thanks-to-generative-ai-we-are-all-filmmakers-activity-7240024800906076160-nEXZ/

الاستنتاج في هذه المجموعات من توليدات الفيديو اد هوك (التي قد تكون غير صادقة في حالة الأنظمة التجارية) هو أن النظام الأساسي يمكن إنشاء روايات متسقة ومتصلة.

الاستعارة التي يتم استغلالها هنا هي مقطع فيديو للفيلم ، الذي يظهر دقيقة أو دقيقتين فقط من الفيلم ، ولكنه يعطي الجمهور سببًا لل相信 أن الفيلم الكامل موجود.

النظام الوحيد الذي يُقدم استمرارية سينارية في نموذج انحلال هو تلك التي تنتج صورًا ثابتة. وتشمل هذه ConsiStory من نيفيديا ، ومشاريع متنوعة في الأدب العلمي ، مثل TheaterGen و DreamStory و StoryDiffusion.

أمثلة على استمرارية سينارية “ثابتة” ، من نماذج حديثة: مصادر: https://research.nvidia.com/labs/par/consistory/ و https://arxiv.org/pdf/2405.01434

في النظرية ، يمكن استخدام نسخة أفضل من هذه الأنظمة (لا واحدة من هذه الأنظمة حقًا متسقة) لإنشاء سلسلة من لقطات صورة-فيديو ، والتي يمكن ربطها معًا في تسلسل.

في حالة الحالة الحالية ، لا ينتج هذا النهج لقطات متابعة معقولة ؛ وبأي حال ، لقد انحرفنا بالفعل عن الحلم المخرج بإضافة طبقة من التعقيد.

نحن يمكن أن نستخدم أيضًا Low Rank Adaptation (LoRA) ، مدربة بشكل خاص على الشخصيات أو الأشياء أو البيئات ، للحفاظ على أفضل استمرارية عبر اللقطات.

然而 ، إذا أراد الشخص الظهور في زي جديد ، فغالبًا ما يلزم إنشاء LoRA جديد تمامًا يضم الشخصية متزوجة بهذا الأسلوب (على الرغم من أن المفاهيم الفرعية مثل “فستان أحمر” يمكن تدريبها في LoRAs فردية ، معًا مع الصور المناسبة ، فهي ليست دائمًا سهلة العمل معها).

هذا يضيف تعقيدًا كبيرًا ، حتى في مشهد الافتتاح في فيلم ، حيث يخرج شخص من السرير ، يرتدي رداء ، يتثاءب ، ينظر من نافذة الغرفة ، ويذهب إلى الحمام لغسل أسنانه.

مثل هذا المشهد ، الذي يحتوي على حوالي 4-8 لقطات ، يمكن تصويره في صباح واحد بواسطة إجراءات التصوير التقليدية ؛ في حالة الحالة الحالية في الذكاء الاصطناعي التوليدي ، إنه يمثل أسابيع من العمل ، و LoRAs مدربة متعددة (أو أنظمة مساعدة أخرى) ، وكمية كبيرة من المعالجة بعد الإنتاج.

بديلًا ، يمكن استخدام فيديو-فيديو ، حيث يتم تحويل لقطات أو مقاطع فيديو عادية أو رسومات حاسوبية من خلال تحفيزات نصية إلى تفاسير بديلة. يقدم Runway مثل هذا النظام ، على سبيل المثال.

CGI (左) من Blender ، تم تفسيره في تجربة فيديو-فيديو مدعومة بنص من Mathieu Visnjevec – مصدر: https://www.linkedin.com/feed/update/urn:li:activity:7240525965309726721/

هناك مشكلتان هنا: أنت بالفعل بحاجة إلى إنشاء الفootage الأساسي ، لذلك أنت بالفعل تقوم بصنع الفيلم مرتين ، حتى لو كنت تستخدم نظامًا اصطناعيًا مثل MetaHuman من UnReal.

إذا قمت بإنشاء نماذج CGI (كما هو موضح في الشريط أعلاه) واستخدمتها في تحويل فيديو-صورة ، لا يمكن الاعتماد على استمرارية هذه النماذج عبر اللقطات.

هذا لأن نماذج الانحلال لا ترى “الصورة الكبيرة” – بل إنها تخلق إطارًا جديدًا بناءً على الإطار السابق ، وفي بعض الحالات ، يتم النظر في إطار مستقبلي قريب ؛ لكن ، لمقارنة هذه العملية بلعبة الشطرنج ، لا يمكنها “التفكير في عشر خطوات إلى الأمام” ، ولا يمكنها تذكر عشر خطوات إلى الوراء.

ثانيًا ، سوف يواجه نموذج الانحلال صعوبة في الحفاظ على مظهر متسق عبر اللقطات ، حتى لو تم تضمين LoRAs متعددة للشخصية والبيئة وأسلوب الإضاءة ، لأسباب ذكرنا في بداية هذا القسم.

2: لا يمكنك تحرير اللقطة بسهولة

إذا قمت بتصوير شخصية تمشي في الشارع باستخدام أساليب CGI التقليدية ، وتريد تغيير جانب معين من اللقطة ، يمكنك تعديل النموذج وإعادة التصوير.

إذا كان هذا فيلم حقيقي ، فببساطة تعيد ضبطه وتصويره مرة أخرى ، مع التغييرات المناسبة.

然而 ، إذا قمت بإنشاء لقطة فيديو توليدية بالذكاء الاصطناعي تحبها ، ولكنك تريد تغيير جانب واحد منها ، يمكنك فقط تحقيق ذلك من خلال طرق ما بعد الإنتاج المرهقة التي تم تطويرها خلال السنوات 30-40 الماضية: CGI و rotoscoping و modeling و matting – جميعها إجراءات شاقة ومكلفة ، مستهلكة للوقت.

طريقة عمل نماذج الانحلال هي أن تغيير جانب واحد من التحفيز النصي (حتى في تحفيز متعدد ، حيث توفر صورة “بذور” مصدر كاملة) سوف يغير جوانب متعددة من الإخراج التوليدي ، مما يؤدي إلى لعبة “ضربة ومكافحة”.

3: لا يمكنك الاعتماد على قوانين الفيزياء

الأساليب التقليدية لCGI توفر مجموعة متنوعة من النماذج القائمة على الفيزياء الخوارزمية التي يمكن محاكاة ظواهر مثل الديناميكا السوائل والحركة الغازية والحركة العكسية (نمذجة دقيقة للحركة البشرية) وديناميكا الأقمشة والانفجارات والظواهر الحقيقية الأخرى المتنوعة.

然而 ، الأساليب القائمة على الانحلال ، كما رأينا ، لها ذاكرة قصيرة ، ولديها أيضًا نطاقًا محدودًا من الحركة السابقة (أمثلة على هذه الإجراءات ، المضمنة في مجموعة التدريب) للاستفادة منها.

في إصدار سابق من صفحة هبوط OpenAI للنظام التوليدي Sora ، أقر الشركة بأن Sora لديها قيود في هذا الصدد (على الرغم من أن هذا النص تم حذفه):

‘[Sora] قد يجد صعوبة في محاكاة فيزياء المشهد المعقد ، وقد لا يفهم حالات محددة من السبب والنتيجة (على سبيل المثال: قد لا يظهر البسكويت علامة بعد أن يعض الشخص عليه). ‘

‘النموذج قد ي 混ون أيضًا التفاصيل المكانية المضمنة في التحفيز ، مثل التمييز بين اليسار واليمين ، أو النضال مع وصف دقيق للأحداث التي تتكشف مع مرور الوقت ، مثل مسارات الكاميرا المحددة.’

الاستخدام العملي لأنظمة الفيديو التوليدية القائمة على واجهات برمجة التطبيقات تكشف عن قيود مماثلة في تصوير الفيزياء الدقيقة. ومع ذلك ، فإن الظواهر الفيزيائية الشائعة ، مثل الانفجارات ، تظهر أنها تمثل بشكل أفضل في مجموعات بيانات التدريب.

بعض تضمينات الحركة السابقة ، إما مدربة في النموذج التوليدي أو تغذيتها من فيديو مصدر ، تستغرق بعض الوقت للاستكمال (مثل شخص يؤدي رقصة معقدة وغیر متكررة في زي متكلف) ، ومرة أخرى ، من المحتمل أن يتحول نموذج الانحلال المحتوى (هوية الوجه ، تفاصيل الزي ، إلخ) بحلول الوقت الذي تنتهي فيه الحركة.

然而 ، يمكن أن تقلل LoRAs من هذا ، إلى حد ما.

إصلاحها في ما بعد

هناك عيوب أخرى للفيديو التوليدي النقي “لمستخدم واحد” ، مثل صعوبة في تصوير الحركات السريعة ، ومشكلة أكبر بكثير في الحصول على الاستمرارية الزمنية في الفيديو الناتج.

إضافة إلى ذلك ، فإن إنشاء أداء وجهي محدد يعد أمرًا يعتمد على الحظ في الفيديو التوليدي ، وكذلك التزام الlip-sync للحوار.

في كلتا الحالتين ، يصبح استخدام أنظمة مساعدة مثل LivePortrait و AnimateDiff شائعًا جدًا في مجتمع التأثيرات البصرية ، منذ أن يسمح هذا بتحويل التعبير الوجهي على الأقل وlip-sync إلى الإخراج التوليدي الحالي.

مثال على نقل التعبير (فيديو التحفيز في الزاوية اليسرى) يتم فرضه على فيديو الهدف مع LivePortrait. الفيديو من Generative Z TunisiaGenerative. انظر الإصدار الكامل في جودة أفضل في https://www.linkedin.com/posts/genz-tunisia_digitalcreation-liveportrait-aianimation-activity-7240776811737972736-uxiB/

مزيد من الحلول المعقدة ، التي تدمج أدوات مثل واجهة المستخدم الرسومية Stable Diffusion ComfyUI وتطبيق التأليف والتعديل المحترف Nuke ، بالإضافة إلى تعديل الفضاء الكامن ، تسمح لممارسين التأثيرات البصرية بالحصول على سيطرة أكبر على التعبير الوجهي والاتجاه.

على الرغم من أنه يصف عملية التحرير الوجهي في ComfyUI بأنها “عذاب” ، إلا أن chuyên家 التأثيرات البصرية Francisco Contreras قد طور إجراءً يسمح بفرض لفظيات الشفاه وغيرها من جوانب التمثيل الوجهي / الرأس.

Stable Diffusion ، بمساعدة من ComfyUI مدعومة من Nuke ، سمحت لممارس التأثيرات البصرية Francisco Contreras بالحصول على سيطرة غير عادية على جوانب الوجه. للفيديو الكامل ، في حل أفضل ، انتقل إلى https://www.linkedin.com/feed/update/urn:li:activity:7243056650012495872/

الختام

لا يبدو أي من هذا واعدًا لفرصة توليد أفلام كاملة الحجم والمتسقة والفوتوغرافية من قبل مستخدم واحد ، مع حوار واقعي وlip-sync وأداء وبيئات و استمرارية.

علاوة على ذلك ، العوائق الموصوفة هنا ، على الأقل فيما يتعلق بنماذج الفيديو التوليدية القائمة على الانحلال ، لا يتم حلها “دقيقة” ، على الرغم من تعليقات المنتدى والاهتمام الإعلامي الذي يطرح هذه الحالة. يبدو أن القيود المذكورة تعتبر داخلية للبنية.

في أبحاث التوليد / الت合成 ، كما هو الحال في جميع الأبحاث العلمية ، أفكار رائعة تلهمنا أحيانًا بإمكانياتها ، فقط لتكشف الأبحاث اللاحقة عن قيودها الأساسية.

في مساحة التوليد / الت合ين ، حدث هذا بالفعل مع Generative Adversarial Networks و Neural Radiance Fields ، وكلاهما أثبت في النهاية أنه صعب التطبيق في أنظمة تجارية قادرة ، على الرغم من سنوات من البحث الأكاديمي نحو هذا الهدف. هذه التقنيات تظهر الآن بشكل شائع كمركبات في هياكل بديلة.

كما قد يتمنى استوديوهات الأفلام أن يؤدي التدريب على كتالوجات الأفلام المرخصة بشكل شرعي إلى القضاء على فنانين التأثيرات البصرية ، إلا أن الذكاء الاصطناعي يضيف في الواقع أدوارًا إلى القوى العاملة في الوقت الحالي.

سوف يصبح واضحًا خلال الشهرين القادمين ما إذا كان يمكن تحويل أنظمة الفيديو التوليدية القائمة على الانحلال إلى مولدات أفلام متسقة و فوتوغرافية ، أو ما إذا كان كل هذا مجرد سعي خيالي.

قد يكون من الضروري أن نتبنى نهجًا جديدًا تمامًا ؛ أو قد يكون Gaussian Splatting (GSplat) ، الذي تم تطويره في أوائل التسعينيات وتراجع مؤخرًا في مساحة التوليد التصويري ، يمثل بديلاً محتملاً للفيديو التوليدي القائم على الانحلال.

منذ أن استغرق GSplat 34 عامًا للظهور ، فمن الممكن أيضًا أن يكون للمتنافسين القدامى مثل NeRF و GANs – و حتى نماذج الانحلال الكامن – يومهم في المستقبل.

* على الرغم من أن ميزة لوحة القصة من Kaiber توفر هذا النوع من الوظائف ، فإن النتائج التي رأيتها ليست من الجودة الإنتاجية.

مارتين أندرسون هو رئيس سابق لمحتوى البحث العلمي في metaphysic.ai

نشر لأول مرة يوم الإثنين ، 23 سبتمبر 2024

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai