Connect with us

تحرير المحتوى المرئي لبرامج الذكاء الاصطناعي بشكل متسق مع إدخال النص الموجه

الذكاء الاصطناعي

تحرير المحتوى المرئي لبرامج الذكاء الاصطناعي بشكل متسق مع إدخال النص الموجه

mm

في حين أن مجتمع التأثيرات البصرية المحترف يعتبر متأثرًا – وأحيانًا يشعر بالتهديد قليلاً – من الابتكارات الجديدة في 합成 الصور والفيديو، فإن عدم وجود استمرارية زمنية في معظم مشاريع تحرير الفيديو القائمة على الذكاء الاصطناعي يحدد الكثير من هذه الجهود إلى مجال “الPsychedelic” ، مع اللمعان والتغيير السريع للنصوص والهياكل، والآثار غير المتسقة وتكنولوجيا التلاعب الخشنة التي تذكرنا بالعصر ال фотоكيميائية للتأثيرات البصرية.

إذا كنت تريد تغيير شيء ما في فيديو لا يدخل في نطاق ال face swap (أي وضع هوية جديدة على لقطات موجودة لشخص ما)، فإن معظم الحلول الحالية تعمل تحت قيود شديدة، من حيث الدقة المطلوبة لأffects المرئية من الإنتاج.

استثناء واحد هو العمل الجاري لمجموعة من الأكاديميين من معهد وايزمان للعلوم. في عام 2021، أعلن ثلاثة من الباحثين، بالاشتراك مع Adobe، طريقة جديدة لتحليل الفيديو ووضع خريطة داخلية متسقة – أطلس عصبي متدرج – في مخرجات مركبة، كاملة مع قنوات ألفا ومخرجات زمنية متسقة.

من الورقة البحثية لعام 2021: تقدير لعبور الطريق الكامل في اللقطة المصدر يتم تحريره عن طريق شبكة عصبية بطريقة تقليدية كانت تتطلب روتوسكوبينغ ومطابقة متقدمة. منذ أن يتم التعامل مع عناصر الخلفية والforeground بواسطة شبكات منفصلة، فإن Masks هي في الواقع “آلية”. مصدر: https://layered-neural-atlases.github.io/

على الرغم من أن هذا يقع في نطاق ما يغطيه الflux البصري في أنابيب VFX، فإن الأطلس المتدرج لا يملك مكافئ مباشر في أنابيب CGI التقليدية، منذ أن يشكل في الأساس “خريطة نصية زمنية” يمكن إنتاجها وتحريرها من خلال أساليب برمجية تقليدية. في الصورة الثانية في الرسم التوضيحي أعلاه، يتم تمثيل خلفية سطح الطريق (بصورة مجازية) على مدار وقت تشغيل الفيديو الكامل. تغيير الصورة الأساسية (الصورة الثالثة من اليسار في الرسم التوضيحي أعلاه) ينتج تغييرًا متسقًا في الخلفية.

الصور من الأطلس المطوي أعلاه تمثل فقط إطارات فردية تم تفسيرها؛ التغييرات المتسقة في أي إطار فيديو مستهدف يتم تعيينها مرة أخرى إلى الإطار الأصلي، مع الحفاظ على أي حجب ضرورية وأffects أخرى مطلوبة، مثل الظلال أو الانعكاسات.

الهيكل الأساسي يستخدم Multilayer Perceptron (MLP) لتمثيل الأطلس المطوي، قنوات ألفا والتعيينات، جميعها يتم تحسينها في نفس الوقت، وبالكامل في مساحة ثنائية الأبعاد، مما يلغي الحاجة إلى معرفة مسبقة لنقاط الهندسة ثلاثية الأبعاد، وخرائط العمق، والمزايا الأخرى للcgi.

يمكن أيضًا تعديل الأطلس المرجعي للأجسام الفردية بطريقة موثوقة:

تغيير متسق في كائن متحرك في إطار العمل لعام 2021.

تغيير متسق في كائن متحرك في إطار العمل لعام 2021.

باختصار، نظام عام 2021 يجمع بين محاذاة الهندسة، ومطابقة الحركة، والتعيين، وإعادة التمثيل، وروتوسكوبينغ في عملية عصبية منفصلة.

Text2Live

الباحثون الثلاثة الأصليون للورقة البحثية لعام 2021، بالاشتراك مع NVIDIA Research، من بين المساهمين في ابتكار جديد في التقنية التي تجمع بين قوة الأطلس المتدرج وتكنولوجيا CLIP الموجهة بالنص التي عادت إلى الأضواء هذه الأسبوع مع إطلاق OpenAI لإطار DALL-E 2.

الهيكل الجديد، بعنوان Text2Live، يسمح للمستخدم النهائي بإنشاء تحريرات محلية لملفات فيديو حقيقية بناءً على نصوص موجهة:

أمثلة على تحرير الخلفية. لمشاهدة الدقة والأحجام الأفضل، يرجى زيارة الفيديوهات الأصلية على https://text2live.github.io/sm/pages/video_results_atlases.html

أمثلة على تحرير الخلفية. لمشاهدة الدقة والأحجام الأفضل، يرجى زيارة الفيديوهات الأصلية على https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live يقدم تحريرًا семантиًا ومتحديدًا بدون استخدام مولد مسبق التدريب، من خلال استخدام قاعدة بيانات داخلية محددة للفيديو أو الصورة التي يتم التأثير عليها.

تحويلات الخلفية والخلفية (الكائن) في Text2Live.

تحويلات الخلفية والخلفية (الكائن) في Text2Live.

الтехنية لا تتطلب masks موفرة من قبل المستخدم، مثل سير عمل روتوسكوبينغ أو خضراء الشاشة، ولكنها تقدر خريطة الأهمية من خلال تقنية تمهيد تعتمد على أبحاث عام 2021 من مدرسة علوم الحاسوب في جامعة تل أبيب وFacebook AI Research (FAIR).

خرائط الناتجة عن نموذج انتباه عام قائم على Transformer.

خرائط الناتجة عن نموذج انتباه عام قائم على Transformer.

الورقة البحثية الجديدة بعنوان Text2LIVE: Text-Driven Layered Image and Video Editing. يشارك الفريق الأصلي لعام 2021 مع Omer Bar-Tal من Weizmann وYoni Kasten من NVIDIA Research.

الهيكل

Text2Live يتكون من مولد مدرب على صورة إدخال واحدة ونصوص موجهة. نموذج CLIP المسبق التدريب على 400 مليون زوج من النص والصورة يوفر مواد بصرية مرتبطة يمكن من خلالها تفسير التحويلات التي قدمها المستخدم.

المولد يقبل صورة إدخال (إطار) وينتج طبقة RGBA مستهدفة تحتوي على معلومات اللون والشفافية. يتم تكوين هذه الطبقة في Footage الأصلي مع تعديلات إضافية.

قناة ألفا في الطبقة RGBA الناتجة توفر وظيفة تكوين داخلية بدون اللجوء إلى أنابيب تقليدية تتضمن برامج مثل After Effects.

قناة ألفا في الطبقة RGBA الناتجة توفر وظيفة تكوين داخلية بدون اللجوء إلى أنابيب تقليدية تتضمن برامج مثل After Effects.

من خلال التدريب على صور داخلية ذات صلة بالفيديو أو الصورة المستهدفة، Text2Live يتجنب الحاجة إلى عكس الصورة الإدخال إلى فضاء 潜 في شبكة GAN، وهي ممارسة لا تزال بعيدة عن الدقة الكافية لاحتياجات تحرير الفيديو الإنتاجية، أو استخدام نموذج Diffusion أكثر دقة وقابل للتكوين، لكنه لا يستطيع الحفاظ على الإيمان بالفيديو المستهدف.

تحريرات تحويلية مختلفة من Text2Live.

تحريرات تحويلية مختلفة من Text2Live.

المناهج السابقة اعتمدت على طرق التلاشي أو مناهج Flux البصري. منذ أن تكون هذه التقنيات إلى حد ما قائمًا على الإطارات، لا تتمكن أي منها من إنشاء مظهر زمني متسق للتغييرات في الفيديو الناتج. الأطلس العصبي المتدرج، بدلاً من ذلك، يوفر مساحة واحدة للتعامل مع التغييرات، والتي يمكن أن تبقى وفية للتغيير الملتزم مع تقدم الفيديو.

لا 'سخونة' أو هلوسات عشوائية: Text2Live يحصل على تفسير للنص 'جيب متصدع'، ويطبقه مرة واحدة على الأطلس العصبي المتدرج للسيارة في الفيديو، بدلاً من إعادة تشغيل التحويل لكل إطار تم تفسيره.

لا ‘سخونة’ أو هلوسات عشوائية: Text2Live يحصل على تفسير للنص ‘جيب متصدع’، ويطبقه مرة واحدة على الأطلس العصبي المتدرج للسيارة في الفيديو، بدلاً من إعادة تشغيل التحويل لكل إطار تم تفسيره.

سير عمل Text2Live لتحويل متسق للجيب إلى حطام متصدع.

سير عمل Text2Live لتحويل متسق للجيب إلى حطام متصدع.

Text2Live أقرب إلى اختراق في التركيب القائم على الذكاء الاصطناعي، بدلاً من في مجال الصورة إلى النص الذي جذب الكثير من الاهتمام هذه الأسبوع مع إطلاق الجيل الثاني من إطار DALL-E (الذي يمكن أن يدمج الصور المستهدفة كجزء من عملية التحويل، لكنه لا يزال محدودًا في قدرته على التدخل مباشرة في صورة، بالإضافة إلى رقابة بيانات التدريب وفرض المرشحات، مصممة لمنع إساءة استخدام المستخدم).

بدلاً من ذلك، يسمح Text2Live للمستخدم النهائي باستخراج أطلس ثم تحريره في عملية واحدة في بيئات مرئية عالية التحكم مثل Photoshop (ويمكن القول إنها أكثر مجردة في إطارات合成 الصور مثل NeRF)، قبل إعادة إدخاله إلى بيئة موجهة بشكل صحيح لا تعتمد على تقدير 3D أو مناهج CGI التقليدية.

علاوة على ذلك، يزعم المؤلفون أن Text2Live هو الإطار الأول القابل للمقارنة الذي يحقق التخفيض والتكوين بطريقة полностью آليّة.

 

نشر لأول مرة في 7 أبريل 2022.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai