الذكاء الاصطناعي
إعادة هيكلة الوجوه في مقاطع الفيديو باستخدام التعلم الآلي

ابتكر تعاون بحثي بين الصين والمملكة المتحدة طريقة جديدة لإعادة تشكيل الوجوه بالفيديو. تسمح هذه التقنية بإقناع بتوسيع وتضييق بنية الوجه ، مع تناسق عالٍ وغياب المصنوعات اليدوية.

من مقطع فيديو على يوتيوب استخدمه الباحثون كمصدر ، تظهر الممثلة جينيفر لورانس كشخصية أكثر هزالًا (على اليمين). شاهد الفيديو المصاحب المضمن في الجزء السفلي من المقالة للحصول على العديد من الأمثلة بدقة أفضل. المصدر: https://www.youtube.com/watch؟
عادة ما يكون هذا النوع من التحول ممكنًا فقط من خلال طرق CGI التقليدية التي قد تحتاج إلى إعادة إنشاء الوجه بالكامل من خلال إجراءات مفصلة ومكلفة لتقييد الحركة والتزوير والتركيب.
بدلاً من ذلك، يتم دمج ما هو موجود من CGI في هذه التقنية في خط أنابيب عصبي كمعلومات وجه ثلاثية الأبعاد يتم استخدامها لاحقًا كأساس لسير عمل التعلم الآلي.

يتم استخدام الوجوه البارامترية التقليدية بشكل متزايد كإرشادات للعمليات التحويلية التي تستخدم الذكاء الاصطناعي بدلاً من CGI. المصدر: https://arxiv.org/pdf/2205.02538.pdf
يذكر المؤلفون:
هدفنا هو إنتاج فيديوهات عالية الجودة لإعادة تشكيل الوجوه، وذلك بتعديل الشكل العام للوجوه وفقًا لتشوهات الوجه الطبيعية في الواقع. يمكن استخدام هذا في تطبيقات مثل إنشاء وجوه متناسقة الشكل لتجميلها، ومبالغة في حجم الوجه للمؤثرات البصرية.
على الرغم من أن تشويه الوجه وتشويهه ثنائي الأبعاد أصبح متاحًا للمستهلكين منذ ظهور برنامج Photoshop (وقد أدى ذلك إلى ظهور أشياء غريبة وغير مقبولة في كثير من الأحيان ثقافات فرعية (حول تشويه الوجه وتشوهات الجسم)، إنها خدعة صعبة التنفيذ في الفيديو دون استخدام CGI.

تم توسيع وتضييق أبعاد وجه مارك زوكربيرج بواسطة التقنية الصينية/البريطانية الجديدة.
إعادة تشكيل الجسم حاليا مجال اهتمام شديد في قطاع رؤية الكمبيوتر، ويرجع ذلك أساسًا إلى إمكاناته في التجارة الإلكترونية للأزياء، على الرغم من أن جعل شخص ما يبدو أطول أو متنوعًا من الناحية الهيكلية يعد حاليًا تحدي ملحوظ.
وبالمثل ، كان موضوع تغيير شكل الرأس في لقطات الفيديو بطريقة متسقة ومقنعة عمل مسبق من باحثي البحث الجديد، على الرغم من أن هذا التنفيذ عانى من بعض العيوب والقيود. يُوسّع العرض الجديد نطاق إمكانيات البحث السابق من الثبات إلى إخراج الفيديو.
تم تدريب النظام الجديد على جهاز كمبيوتر مكتبي مزود بمعالج AMD Ryzen 9 3950X بذاكرة 32 جيجابايت ، ويستخدم خوارزمية التدفق الضوئي من مكتبة برمجية مفتوحة للرؤية الحاسوبية لخرائط الحركة ، تم تنعيمها بواسطة هيكل التدفق نطاق؛ شبكة محاذاة الوجه (مروحة ) مكون لتقدير المعالم، والذي يُستخدم أيضًا في حزم التزييف العميق الشهيرة؛ و ال سيريس سولفر لحل تحديات التحسين.

مثال صارخ لتوسيع الوجه مع النظام الجديد.
أكثر من ورقة بعنوان إعادة تشكيل حدودي للصور في مقاطع الفيديو، ويأتي من ثلاثة باحثين في جامعة Zhejiang ، وواحد من جامعة باث.
حول الوجه
في ظل النظام الجديد ، يتم استخراج الفيديو في تسلسل صور ، ويتم تقدير الوضع الصلب أولاً لكل وجه. ثم يتم تقدير عدد تمثيلي من الإطارات اللاحقة بشكل مشترك لإنشاء معلمات هوية متسقة على طول المدى الكامل للصور (أي إطارات الفيديو).

التدفق المعماري لنظام تزييف الوجه.
بعد ذلك، يُقيّم التعبير، مما يُنتج مُعامل إعادة تشكيل يُطبّق بالانحدار الخطي. بعد ذلك، تُوجد دالة مسافة مُوقّعة جديدة (SDF) يُنشئ رسم خرائط ثنائي الأبعاد كثيف لخطوط الوجه قبل إعادة التشكيل وبعده.
أخيرًا ، يتم إجراء تحسين التواء مع مراعاة المحتوى على الفيديو الناتج.
وجوه حدودي
تستخدم هذه العملية نموذج الوجه القابل للتحويل ثلاثي الأبعاد (3DMM)، وهو أسلوب متزايد ملحق شعبيإلى أنظمة توليف الوجه العصبية والقائمة على GAN ، وكذلك الوجود ذو صلة لأنظمة الكشف عن التزييف العميق.

ليس من الورقة الجديدة ، ولكن مثال على نموذج وجه قابل للتحويل ثلاثي الأبعاد (3DMM) - وجه نموذج أولي حدودي مستخدم في المشروع الجديد. أعلى اليسار ، تطبيق تاريخي على وجه ثلاثي الأبعاد. أعلى اليمين ، الرؤوس الشبكية ثلاثية الأبعاد لخريطة متساوية. يظهر أسفل اليسار تركيبًا مميزًا ؛ أسفل الوسط ، شكل متماثل لنسيج الوجه المستخرج ؛ وأسفل اليمين ، نتيجة تركيب وشكل. المصدر: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf
يجب أن يأخذ سير عمل النظام الجديد في الاعتبار حالات الانسداد ، مثل حالة ينظر فيها الموضوع بعيدًا. يعد هذا أحد أكبر التحديات في برامج التزييف العميق ، نظرًا لأن معالم FAN لديها القليل من القدرة على حساب هذه الحالات ، وتميل إلى تآكل الجودة مع تجنب الوجه أو انسداده.
النظام الجديد قادر على تجنب هذا المصيدة من خلال تعريف طاقة كفاف القادرة على مطابقة الحدود بين الوجه ثلاثي الأبعاد (3DMM) والوجه ثنائي الأبعاد (كما هو محدد بواسطة معالم FAN).
التحسين
من المفيد استخدام مثل هذا النظام لتطبيق تشوه فوري، على سبيل المثال في مرشحات دردشة الفيديو. لا يتيح الإطار الحالي ذلك، وموارد الحوسبة اللازمة ستجعل التشوه الفوري تحديًا كبيرًا.
وفقًا للورقة ، وبافتراض هدف فيديو 24 إطارًا في الثانية ، فإن العمليات لكل إطار في خط الأنابيب تمثل زمن انتقال قدره 16.344 ثانية لكل ثانية من اللقطات ، مع زيارات إضافية لمرة واحدة لتقدير الهوية وتشوه الوجه ثلاثي الأبعاد (3 مللي ثانية و 321 مللي ثانية ، على التوالي) .
لذلك فإن التحسين هو المفتاح لإحراز تقدم نحو تقليل زمن الوصول. نظرًا لأن التحسين المشترك عبر جميع الإطارات سيضيف عبئًا شديدًا إلى العملية ، وقد يؤدي تحسين أسلوب init (بافتراض الهوية اللاحقة المتسقة للمتحدث من الإطار الأول) إلى حالات شاذة ، فقد اعتمد المؤلفون مخططًا متناثرًا لحساب المعاملات من الإطارات التي تم أخذ عينات منها على فترات عملية.
ثم يتم إجراء التحسين المشترك على هذه المجموعة الفرعية من الإطارات ، مما يؤدي إلى عملية إعادة بناء أصغر حجمًا.
تشويه الوجه
تقنية التشويه المستخدمة في المشروع هي اقتباس من عمل المؤلفين لعام 2020 صور عميقة رشيق (دي إس بي).

Deep Shapely Portraits ، تقديم عام 2020 إلى ACM Multimedia. يقود الورقة باحثون من ZJU-Tencent Game و Intelligent Graphics Innovation Technology Joint Lab. المصدر: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4
لاحظ المؤلفون "نقوم بتوسيع هذه الطريقة من إعادة تشكيل صورة أحادية العين إلى إعادة تشكيل تسلسل الصورة بالكامل."
اختبارات
تلاحظ الورقة أنه لا توجد مادة سابقة قابلة للمقارنة يمكن على أساسها تقييم الطريقة الجديدة. لذلك قارن المؤلفون إطارات إخراج الفيديو المشوه الخاص بهم مقابل إخراج DSP الثابت.

اختبار النظام الجديد ضد الصور الثابتة من Deep Shapely Portraits.
لاحظ المؤلفون أن القطع الأثرية ناتجة عن طريقة DSP ، نظرًا لاستخدامها لرسم الخرائط المتفرقة - وهي مشكلة يحلها إطار العمل الجديد من خلال التعيين الكثيف. بالإضافة إلى ذلك ، تؤكد الصحيفة أن الفيديو الذي أنتجه DSP ، يوضح نقص النعومة والتماسك البصري.
يذكر المؤلفون:
'تظهر النتائج أن نهجنا يمكنه إنتاج مقاطع فيديو متماسكة للصور الشخصية المعاد تشكيلها بشكل قوي في حين أن الطريقة القائمة على الصور يمكن أن تؤدي بسهولة إلى ظهور آثار وميض ملحوظة.'
تحقق من الفيديو المصاحب أدناه ، لمزيد من الأمثلة:
نُشر لأول مرة في 9 مايو 2022. تم تعديله الساعة 6 مساءً بتوقيت شرق أوروبا، وتم استبدال "الحقل" بـ "الوظيفة" لـ SDF.










