الذكاء الاصطناعي

تحرير محتوى فيديو AI متسق مع إدخال موجه بالنص

تم النشر 7 نيسان 2022

تحديث 9 كانون الأول، 2022

مارتن أندرسون

في حين أن مجتمع المؤثرات البصرية الاحترافي مفتون - ويشعر أحيانًا بقليل من التهديد - بالابتكارات الجديدة في تركيب الصور والفيديو، فإن الافتقار إلى الاستمرارية الزمنية في معظم مشاريع تحرير الفيديو القائمة على الذكاء الاصطناعي يحيل العديد من هذه الجهود إلى المجال "المخدر"، مع يتلألأ ويتغير بسرعة القوام والتركيبات ، والتأثيرات غير المتسقة ونوع المشاحنات التكنولوجية الخام التي تستدعي عصر الكيمياء الضوئية من المؤثرات البصرية.

إذا كنت تريد تغيير شيء محدد للغاية في مقطع فيديو لا يقع ضمن نطاق التزييف العميق (أي فرض هوية جديدة على لقطات موجودة لشخص ما)، فإن معظم الحلول الحالية تعمل تحت قيود شديدة للغاية، من حيث الدقة المطلوبة للتأثيرات المرئية ذات جودة الإنتاج.

أحد الاستثناءات هو العمل الجاري لرابطة فضفاضة من الأكاديميين من معهد وايزمان للعلوم. في عام 2021 ، قام ثلاثة من باحثيها بالاشتراك مع Adobe ، أعلن طريقة جديدة لتحليل الفيديو وتركيب خرائط داخلية متسقة - أ أطلس عصبي متعدد الطبقات - في إخراج مركب ، كامل مع قنوات ألفا وإخراج متماسك مؤقتًا.

من ورقة 2021: يتم تحرير تقدير لاجتياز الطريق بالكامل في مقطع المصدر عبر شبكة عصبية بطريقة تتطلب تقليديًا إجراء مسح ضوئي واسع النطاق وتحريك المطابقة. نظرًا لأنه يتم التعامل مع عناصر الخلفية والمقدمة من خلال شبكات مختلفة ، فإن الأقنعة "تلقائية" حقًا. المصدر: https://layered-neural-atlases.github.io/

من ورقة بحثية نُشرت عام ٢٠٢١: يتم تعديل تقدير المسافة الإجمالية للطريق في المقطع المصدر عبر شبكة عصبية بطريقة تتطلب عادةً تقنية روتوسكوبينغ واسعة النطاق وحركة مطابقة. ونظرًا لأن عناصر الخلفية والأمامية تُدار بواسطة شبكات مختلفة، فإن الأقنعة تعمل تلقائيًا. المصدر: https://layered-neural-atlases.github.io/

على الرغم من أنه يقع في مكان ما في المملكة التي يغطيها تدفق البصر في خطوط أنابيب المؤثرات البصرية، لا يوجد للأطلس الطبقي معادل مباشر في سير عمل CGI التقليدية، لأنه يُشكل أساسًا "خريطة نسيج زمنية" يمكن إنتاجها وتحريرها باستخدام أساليب البرامج التقليدية. في الصورة الثانية في الرسم التوضيحي أعلاه، تُمثل خلفية سطح الطريق (مجازيًا) طوال مدة تشغيل الفيديو. يؤدي تعديل تلك الصورة الأساسية (الصورة الثالثة من اليسار في الرسم التوضيحي أعلاه) إلى تغيير ثابت في الخلفية.

تمثل صور الأطلس "المكشوف" أعلاه إطارات تم تفسيرها بشكل فردي فقط؛ ويتم تعيين التغييرات المتسقة في أي إطار فيديو مستهدف إلى الإطار الأصلي، مع الاحتفاظ بأي انسدادات ضرورية وتأثيرات المشهد الأخرى المطلوبة، مثل الظلال أو الانعكاسات.

تستخدم البنية الأساسية مدرك متعدد الطبقات (MLP) لتمثيل الأطالس غير المطوية وقنوات ألفا والتعيينات ، وكلها مُحسَّنة بالتنسيق ، وفي مساحة ثنائية الأبعاد بالكامل ، مما يؤدي إلى تفادي المعرفة المسبقة بأسلوب NeRF بنقاط الهندسة ثلاثية الأبعاد ، وخرائط العمق ، وزخارف مماثلة على غرار CGI.

يمكن أيضًا تغيير الأطلس المرجعي للأشياء الفردية بشكل موثوق:

تغيير متسق لجسم متحرك ضمن إطار عمل 2021. المصدر: https://www.youtube.com/watch؟

يجمع نظام 2021 بشكل أساسي بين المحاذاة الهندسية ، وتحريك المطابقة ، ورسم الخرائط ، وإعادة التركيب ، و rotoscoping في عملية عصبية منفصلة.

Text2Live

الباحثون الثلاثة الأصليون للورقة البحثية لعام 2021، إلى جانب أبحاث NVIDIA، هم من بين المساهمين في ابتكار جديد في التقنية التي تجمع بين قوة الأطالس الطبقية ونوع تقنية CLIP الموجهة بالنص والتي عادت إلى الصدارة هذا الأسبوع مع OpenAI الافراج عن من إطار DALL-E 2.

العمارة الجديدة بعنوان Text2Live، يسمح للمستخدم النهائي بإنشاء تعديلات مترجمة لمحتوى الفيديو الفعلي بناءً على المطالبات النصية:

مثالان على تحرير المقدمة. للحصول على دقة وتعريف أفضل ، تحقق من مقاطع الفيديو الأصلية على https://text2live.github.io/sm/pages/video_results_atlases.html

يقدم Text2Live تحريرًا دلاليًا ومحليًا للغاية دون استخدام مولد مدرب مسبقًا، وذلك من خلال الاستفادة من قاعدة بيانات داخلية خاصة بمقطع الفيديو المتأثر.

تحولات الخلفية والمقدمة (الكائن) ضمن Text2Live. المصدر: https://text2live.github.io/sm/pages/video_results_atlases.html

لا تتطلب هذه التقنية أقنعة يوفرها المستخدم ، مثل سير عمل روتوسكوبي نموذجي أو سير عمل الشاشة الخضراء ، بل تتطلب تقديرات خرائط الصلة من خلال تقنية bootstrapping على أساس بحث 2021 من كلية علوم الكمبيوتر في جامعة تل أبيب و Facebook AI Research (FAIR).

تم إنشاء خرائط الإخراج عبر نموذج الانتباه العام القائم على المحولات.

الجديد ورقة بعنوان Text2LIVE: تحرير الصور والفيديو متعدد الطبقات المستند إلى النصينضم إلى الفريق الأصلي لعام 2021 كل من عمر بار تال من وايزمان، ويوني كاستن من NVIDIA Research.

معمار

يتألف Text2Live من مولد تم تدريبه على صورة إدخال فردية ومطالبات نصية مستهدفة. يوفر نموذج التدريب المسبق للصور واللغة المتباينة (CLIP) الذي تم تدريبه مسبقًا على 400 مليون زوج من النصوص / الصور مواد مرئية مرتبطة يمكن من خلالها تفسير تحويلات إدخال المستخدم.

يقبل المولد صورة إدخال (إطار) ويخرج طبقة RGBA مستهدفة تحتوي على معلومات اللون والتعتيم. يتم بعد ذلك تكوين هذه الطبقة في اللقطة الأصلية مع التعزيزات الإضافية.

توفر قناة ألفا في طبقة RGBA التي تم إنشاؤها وظيفة تكوين داخلية دون اللجوء إلى خطوط الأنابيب التقليدية التي تتضمن برامج تعتمد على البكسل مثل After Effects.

من خلال التدريب على الصور الداخلية ذات الصلة بالفيديو أو الصورة المستهدفة ، يتجنب Text2Live المطلب إما عكس الصورة المدخلة في المساحة الكامنة لشبكة الخصومة التوليدية (GAN) ، وهي ممارسة حاليًا أبعد ما يكون عن الدقة الكافية لمتطلبات تحرير الفيديو الإنتاجي، أو استخدم نموذج الانتشار الذي يكون أكثر دقة وقابل للتكوين، ولكن لا يمكن أن تحافظ على الإخلاص على الفيديو الهدف.

تعديلات التحويل الفوري القائمة على النثرية من Text2Live.

الأساليب السابقة إما استخدمت الأساليب القائمة على التكاثر or يعتمد على التدفق البصري اقتراب. نظرًا لأن هذه التقنيات تعتمد إلى حد ما أو آخر على الإطار ، فلا يمكن لأي منهما إنشاء مظهر زمني متسق للتغييرات في إخراج الفيديو. بدلاً من ذلك ، يوفر الأطلس ذو الطبقات العصبية مساحة واحدة لمعالجة التغييرات ، والتي يمكن أن تظل وفية للتغيير الملتزم مع تقدم الفيديو.

لا "أزيز" أو هلوسات عشوائية: يحصل Text2Live على تفسير لموجه النص "rusty jeep" ، ويطبقه مرة واحدة على الأطلس العصبي للسيارة في الفيديو ، بدلاً من إعادة تشغيل التحويل لكل إطار مفسر.

لا توجد هلوسات "هسهسة" أو عشوائية: يحصل Text2Live على تفسير للنص الموجه "جيب صدئ"، ويطبقه مرة واحدة على الأطلس الطبقي العصبي للسيارة في الفيديو، بدلاً من إعادة تشغيل التحويل لكل إطار يتم تفسيره.

سير عمل التحول المتسق لـ Text2Live لسيارة جيب إلى بقايا صدئة.

سير عمل تحويل Text2Live المستمر لسيارة جيب إلى قطعة أثرية صدئة.

يعد Text2Live أقرب إلى اختراق في التركيب المستند إلى الذكاء الاصطناعي ، وليس في المساحة الخصبة لتحويل النص إلى صورة والتي جذبت الكثير من الاهتمام هذا الأسبوع بإصدار الجيل الثاني إطار عمل DALL-E الخاص بـ OpenAI (الذي يمكنه دمج الصور المستهدفة كجزء من العملية التحويلية، ولكنه يظل محدودًا في قدرته على التدخل المباشر في الصورة، بالإضافة إلى الرقابة على بيانات التدريب المصدر وفرض المرشحات، مصممة لمنع إساءة استخدام المستخدم).

بدلاً من ذلك ، يسمح Text2Live للمستخدم النهائي باستخراج أطلس ثم تحريره في مسار واحد في بيئات عالية التحكم قائمة على البكسل مثل Photoshop (ويمكن القول إنه حتى المزيد من أطر تركيب الصور المجردة مثل نيرف) ، قبل إعادته إلى بيئة موجهة بشكل صحيح لا تعتمد على الرغم من ذلك على التقدير ثلاثي الأبعاد أو النهج القائمة على CGI ذات المظهر الخلفي.

علاوة على ذلك ، يزعم المؤلفون أن Text2Live هو أول إطار عمل مشابه لتحقيق الإخفاء والتركيب بطريقة تلقائية تمامًا.

نُشر لأول مرة في 7 أبريل 2022.

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

تحرير محتوى فيديو AI متسق مع إدخال موجه بالنص

Text2Live

معمار

قد يعجبك