زاوية Anderson
تحرير محتوى فيديو متسق باستخدام إدخال مقترن بالنص

في حين أن مجتمع التأثيرات البصرية المحترف متشوق – وأحيانًا يشعر بالتهديد – من الابتكارات الجديدة في 합성 الصور والفيديو، فإن عدم وجود استمرارية زمنية في معظم مشاريع تحرير الفيديو القائمة على الذكاء الاصطناعي يؤدي إلى حصر العديد من هذه الجهود في مجال “الPsychedelic”، مع TEXTURES و هيكلات سريعة التغيير، وتأثيرات غير متسقة وتكنولوجيا متقنة تذكر العصر الكيميائي للصور البصرية.
إذا كنت تريد تغيير شيء ما في فيديو لا يدخل في نطاق Deepfakes (أي فرض هوية جديدة على لقطات موجودة لشخص)، فإن معظم الحلول الحالية تعمل تحت قيود شديدة، من حيث الدقة المطلوبة لأffects الإنتاج.
استثناء واحد هو العمل الجاري لجماعة من الأكاديميين في معهد وايزمان للعلوم. في عام 2021، أعلن ثلاثة من الباحثين، بالاشتراك مع Adobe، عن طريقة جديدة لتحليل الفيديو وفرض خريطة داخلية متسقة – خريطة عصبية متعددة الطبقات – في مخرجات مجمعة، مع قنوات ألفا ومخرجات زمنية متسقة.

من الورقة البحثية لعام 2021: تقدير لعبور الطريق الكامل في اللقطة الأصلية يتم تحريره بواسطة شبكة عصبية بطريقة تقليدية كانت تتطلب روتوسكوبينغ و match-moving مكثفة. منذ أن يتم التعامل مع عناصر الخلفية والforeground بواسطة شبكات منفصلة، فإن الأقنعة هي في الواقع “أوتوماتيكية”. مصدر: https://layered-neural-atlases.github.io/
على الرغم من أن هذا يقع في مجال التدفق البصري في خطوط أنابيب VFX، إلا أن الخريطة العصبية المتعددة الطبقات لا تملك مكافئ مباشر في خطوط أنابيب CGI التقليدية، لأنها تشكل في الأساس “خريطة نصية زمنية” يمكن إنتاجها وتحريرها من خلال طرق برمجية تقليدية. في الصورة الثانية في الصورة أعلاه، يتم تمثيل سطح الطريق (بصورة مجازية) على مدار زمني الفيديو بالكامل. التغيير في الصورة الأساسية (الصورة الثالثة من اليسار في الصورة أعلاه) ينتج تغييرًا متسقًا في الخلفية.
تُظهر الصور لخريطة العصبية المطوية أعلاه فقط إطارات فردية تم تفسيرها؛ التغييرات المتسقة في أي إطار فيديو يتم نقشه إلى الإطار الأصلي، مع الحفاظ على أي إخفاء ضروري وأffects أخرى مطلوبة، مثل الظلال أو الانعكاسات.
تستخدم الهندسة الأساسية معالجًا متعدد الطبقات (MLP) لتمثيل الخريطة العصبية المطوية، قنوات ألفا والخرائط، جميعها يتم تحسينها معًا، وبالكامل في مساحة ثنائية الأبعاد، مما يلغي الحاجة إلى معرفة مسبقة بنقاط الهندسة ثلاثية الأبعاد، وخرائط العمق، والمصاحب التقليدية لCGI.
يمكن أيضًا تعديل الخريطة المرجعية للأجسام الفردية بطرق موثوقة:

تغيير متسق في كائن متحرك تحت إطار العمل لعام 2021. مصدر: https://www.youtube.com/watch?v=aQhakPFC4oQ
بشكل أساسي، يجمع نظام عام 2021 بين محاذاة الهندسة، و match-moving، و mapping، و إعادة التمثيل و روتوسكوبينغ في عملية عصبية منفصلة.
Text2Live
الباحثون الثلاثة الأصليون للورقة البحثية لعام 2021، بالاشتراك مع NVIDIA Research، من بين المساهمين في ابتكار جديد في التقنية التي تجمع بين قوة الخريطة العصبية المتعددة الطبقات وتكنولوجيا CLIP الموجهة بالنص التي عادت إلى الأضواء هذا الأسبوع مع إطلاق OpenAI لإطار DALL-E 2.
سميت الهندسة الجديدة باسم Text2Live، و تتيح للمستخدم النهائي إنشاء تعديلات محلية على محتوى فيديو حقيقي بناءً على نصوص محفزة:


أمثلة على تحرير الخلفية. للحصول على دقة ووضوح أفضل، راجع الفيديوهات الأصلية على https://text2live.github.io/sm/pages/video_results_atlases.html
يقدم Text2Live تحريرًا دقيقًا ومتسقًا بدون استخدام مولد مسبق، من خلال استخدام قاعدة بيانات داخلية خاصة بالقطعة الفيديوية المتأثرة.

تحويلات الخلفية والكائن (الأمامي) تحت Text2Live. مصدر: https://text2live.github.io/sm/pages/video_results_atlases.html
لا يتطلب التقنية أقنعة مقدمة من المستخدم، مثل روتوسكوبينغ أو 워크فロー الخضراء، ولكنها تقدر خرائط الأهمية من خلال تقنية التمهيد القائم على بحث عام 2021 من مدرسة علوم الحاسوب في جامعة تل أبيب و Facebook AI Research (FAIR).

خرائط الإخراج التي تم إنشاؤها بواسطة نموذج انتباه عام قائم على Transformer.
الورقة البحثية الجديدة بعنوان Text2LIVE: Text-Driven Layered Image and Video Editing. يشارك الفريق الأصلي مع Omer Bar-Tal من Weizmann و Yoni Kasten من NVIDIA Research.
الهندسة
يتكون Text2Live من مولد مدرب على صورة مدخلة واحدة ونصوص محفزة. يوفر نموذج CLIP المسبق التدريب على 400 مليون زوج نص/صورة مواد بصرية متعلقة التي يمكن من خلالها تفسير التحويلات التي يتم إدخالها من قبل المستخدم.

يقبل المولد صورة مدخلة (إطار) وينتج طبقة RGBA الهدف التي تحتوي على معلومات اللون والopacity. ثم يتم تكوين هذه الطبقة في اللقطة الأصلية مع تعديلات إضافية.

قناة الألفا في طبقة RGBA المولدة توفر وظيفة تكوين داخلية بدون اللجوء إلى خطوط أنابيب تقليدية مثل After Effects.
من خلال التدريب على الصور الداخلية ذات الصلة بالفيديو أو الصورة المستهدفة، يتجنب Text2Live الحاجة إلى عكس الصورة المدخلة إلى الفضاء الكمومي لشبكة GAN، وهي ممارسة لا تزال بعيدة عن الدقة الكافية لمتطلبات تحرير الفيديو الإنتاجي، أو استخدام نموذج انتشار أكثر دقة وقابل للتكوين، ولكنه لا يستطيع الحفاظ على الإيمان بالفيديو المستهدف.

تعديلات تحويلية مختلفة بناءً على نصوص محفزة من Text2Live.
المناهج السابقة اعتمدت أساليب قائمة على التأشير أو أساليب قائمة على التدفق البصري. منذ أن تكون هذه التقنيات في بعض الشكل قائمًا على الإطارات، فإن أي منها غير قادر على إنشاء مظهر زمني متسق للتغييرات في الفيديو الإخراجي. توفر الخريطة العصبية المتعددة الطبقات، بدلاً من ذلك، مساحة واحدة للتعامل مع التغييرات، والتي يمكن أن تظل وفية للتغيير الملتزم مع تقدم الفيديو.

لا توجد “سίζلينغ” أو هلوسات عشوائية: Text2Live يحصل على تفسير للنص المحفز ‘جيب صدئ’، ويطبقه مرة واحدة على الخريطة العصبية المتعددة الطبقات للسيارة في الفيديو، بدلاً من إعادة تشغيل التحويل لكل إطار مفسر.
Text2Live أقرب إلى اختراق في التركيب القائم على الذكاء الاصطناعي، بدلاً من مجال الصورة إلى النص الذي لفت الانتباه هذا الأسبوع مع إطلاق الجيل الثاني من إطار DALL-E من OpenAI (الذي يمكن أن يدمج الصور المستهدفة كجزء من العملية التحويلية، ولكنه لا يزال محدودًا في khảيته للتأثير المباشر في صورة، بالإضافة إلى رقابة بيانات التدريب وتطبيق المرشحات، المصممة لمنع إساءة استخدام المستخدم).
بدلاً من ذلك، يسمح Text2Live للمستخدم النهائي باستخراج خريطة وتنقيحها في عملية واحدة في بيئات وظيفية عالية التحكم مثل Photoshop (ويمكن القول إنها إطارات合成 الصور أكثر مجردة مثل NeRF)، قبل إعادة إدخالها في بيئة موجهة بشكل صحيح لا تعتمد على تقدير 3D أو نهج CGI ذي اتجاه خلفي.
علاوة على ذلك، يزعم مؤلفو Text2Live أنه الإطار المقابل الأول الذي يحقق التخفي والتكوين بطريقة أوتوماتيكية كاملة.
نُشر لأول مرة في 7 أبريل 2022.













