الذكاء الاصطناعي

إعادة هيكلة الوجوه في مقاطع الفيديو باستخدام التعلم الآلي

تم النشر 9 أيار 2022

تحديث 9 كانون الأول، 2022

مارتن أندرسون

ابتكر تعاون بحثي بين الصين والمملكة المتحدة طريقة جديدة لإعادة تشكيل الوجوه بالفيديو. تسمح هذه التقنية بإقناع بتوسيع وتضييق بنية الوجه ، مع تناسق عالٍ وغياب المصنوعات اليدوية.

من مقطع فيديو على موقع يوتيوب استخدمه الباحثون كمصدر ، تظهر الممثلة جينيفر لورانس كشخصية مبتذلة (يمين). شاهد الفيديو المصاحب المضمن في الجزء السفلي من المقالة للحصول على العديد من الأمثلة بدقة أفضل. المصدر: https://www.youtube.com/watch؟

من مقطع فيديو على يوتيوب استخدمه الباحثون كمصدر ، تظهر الممثلة جينيفر لورانس كشخصية أكثر هزالًا (على اليمين). شاهد الفيديو المصاحب المضمن في الجزء السفلي من المقالة للحصول على العديد من الأمثلة بدقة أفضل. المصدر: https://www.youtube.com/watch؟

عادة ما يكون هذا النوع من التحول ممكنًا فقط من خلال طرق CGI التقليدية التي قد تحتاج إلى إعادة إنشاء الوجه بالكامل من خلال إجراءات مفصلة ومكلفة لتقييد الحركة والتزوير والتركيب.

بدلاً من ذلك، يتم دمج ما هو CGI الموجود في هذه التقنية في خط أنابيب عصبي كمعلومات وجه حدودية ثلاثية الأبعاد يتم استخدامها لاحقًا كأساس لسير عمل التعلم الآلي.

يتم استخدام الوجوه البارامترية التقليدية بشكل متزايد كإرشادات للعمليات التحويلية التي تستخدم الذكاء الاصطناعي بدلاً من CGI. المصدر: https://arxiv.org/pdf/2205.02538.pdf

يذكر المؤلفون:

هدفنا هو إنشاء فيديو عالي الجودة لإعادة تشكيل [النتائج] عن طريق تعديل الشكل العام للوجوه وفقًا لتشوه الوجه الطبيعي في العالم الحقيقي. يمكن استخدام هذا لتطبيقات مثل تكوين الوجه الرشيق للتطويب ، ومبالغة الوجه للتأثيرات المرئية.

على الرغم من أن تشويه الوجه وتشويهه ثنائي الأبعاد أصبح متاحًا للمستهلكين منذ ظهور برنامج Photoshop (وقد أدى ذلك إلى ظهور أشياء غريبة وغير مقبولة في كثير من الأحيان ثقافات فرعية حول تشوه الوجه وتشوه الجسم) ، إنها خدعة صعبة للتسجيل في الفيديو دون استخدام CGI.

توسعت أبعاد مارك زوكربيرج وضيقت بواسطة التقنية الصينية / البريطانية.

توسعت أبعاد وجه مارك زوكربيرج وضيقت بواسطة التقنية الصينية / البريطانية الجديدة.

إعادة تشكيل الجسم حاليا مجال اهتمام شديد في قطاع رؤية الكمبيوتر، ويرجع ذلك أساسًا إلى إمكاناته في التجارة الإلكترونية للأزياء، على الرغم من أن جعل شخص ما يبدو أطول أو متنوعًا من الناحية الهيكلية يعد حاليًا تحدي ملحوظ.

وبالمثل ، كان موضوع تغيير شكل الرأس في لقطات الفيديو بطريقة متسقة ومقنعة عمل مسبق من الباحثين في الورقة الجديدة ، على الرغم من أن هذا التنفيذ عانى من المصنوعات اليدوية والقيود الأخرى. يوسع العرض الجديد من قدرة هذا البحث السابق من إخراج ثابت إلى إخراج الفيديو.

تم تدريب النظام الجديد على جهاز كمبيوتر مكتبي مزود بمعالج AMD Ryzen 9 3950X بذاكرة 32 جيجابايت ، ويستخدم خوارزمية التدفق الضوئي من مكتبة برمجية مفتوحة للرؤية الحاسوبية لخرائط الحركة ، تم تنعيمها بواسطة هيكل التدفق نطاق؛ شبكة محاذاة الوجه (مروحة ) مكون لتقدير المعالم، والذي يُستخدم أيضًا في حزم التزييف العميق الشهيرة؛ و ال سيريس سولفر لحل تحديات التحسين.

مثال صارخ لتوسيع الوجه مع النظام الجديد.

ال ورقة بعنوان إعادة تشكيل حدودي للصور في مقاطع الفيديو، ويأتي من ثلاثة باحثين في جامعة Zhejiang ، وواحد من جامعة باث.

حول الوجه

في ظل النظام الجديد ، يتم استخراج الفيديو في تسلسل صور ، ويتم تقدير الوضع الصلب أولاً لكل وجه. ثم يتم تقدير عدد تمثيلي من الإطارات اللاحقة بشكل مشترك لإنشاء معلمات هوية متسقة على طول المدى الكامل للصور (أي إطارات الفيديو).

التدفق المعماري لنظام تزييف الوجه.

بعد ذلك، يتم تقييم التعبير، مما ينتج عنه معلمة إعادة تشكيل يتم تنفيذها عن طريق الانحدار الخطي. التالي وظيفة المسافة الموقعة الجديدة (SDF) يُنشئ رسم خرائط ثنائي الأبعاد كثيف لخطوط الوجه قبل إعادة التشكيل وبعده.

أخيرًا ، يتم إجراء تحسين التواء مع مراعاة المحتوى على الفيديو الناتج.

وجوه حدودي

تستخدم هذه العملية نموذج الوجه القابل للتحويل ثلاثي الأبعاد (3DMM)، وهو أسلوب متزايد ملحق شعبيإلى أنظمة توليف الوجه العصبية والقائمة على GAN ، وكذلك الوجود ذو صلة لأنظمة الكشف عن التزييف العميق.

ليس من الورق ، ولكن مثال على نموذج وجه قابل للتحويل ثلاثي الأبعاد (3DMM) - وجه نموذج أولي حدودي مستخدم في المشروع الجديد. أعلى اليسار ، تطبيق تاريخي على وجه ثلاثي الأبعاد. أعلى اليمين ، الرؤوس الشبكية ثلاثية الأبعاد لخريطة متساوية. يظهر أسفل اليسار تركيبًا مميزًا ؛ أسفل الوسط ، شكل متماثل لنسيج الوجه المستخرج ؛ وأسفل اليمين ، نتيجة تركيب وشكل. المصدر: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-3.pdf

ليس من الورقة الجديدة ، ولكن مثال على نموذج وجه قابل للتحويل ثلاثي الأبعاد (3DMM) - وجه نموذج أولي حدودي مستخدم في المشروع الجديد. أعلى اليسار ، تطبيق تاريخي على وجه ثلاثي الأبعاد. أعلى اليمين ، الرؤوس الشبكية ثلاثية الأبعاد لخريطة متساوية. يظهر أسفل اليسار تركيبًا مميزًا ؛ أسفل الوسط ، شكل متماثل لنسيج الوجه المستخرج ؛ وأسفل اليمين ، نتيجة تركيب وشكل. المصدر: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

يجب أن يأخذ سير عمل النظام الجديد في الاعتبار حالات الانسداد ، مثل حالة ينظر فيها الموضوع بعيدًا. يعد هذا أحد أكبر التحديات في برامج التزييف العميق ، نظرًا لأن معالم FAN لديها القليل من القدرة على حساب هذه الحالات ، وتميل إلى تآكل الجودة مع تجنب الوجه أو انسداده.

النظام الجديد قادر على تجنب هذا المصيدة من خلال تعريف طاقة كفاف هذا قادر على مطابقة الحدود بين الوجه ثلاثي الأبعاد (3DMM) والوجه ثنائي الأبعاد (كما هو محدد بواسطة معالم FAN).

التحسين

قد يكون النشر المفيد لمثل هذا النظام هو تنفيذ التشوه في الوقت الفعلي ، على سبيل المثال في مرشحات الدردشة المرئية. الإطار الحالي لا يسمح بذلك ، والموارد الحاسوبية اللازمة ستجعل التشوه "المباشر" تحديًا ملحوظًا.

وفقًا للورقة ، وبافتراض هدف فيديو 24 إطارًا في الثانية ، فإن العمليات لكل إطار في خط الأنابيب تمثل زمن انتقال قدره 16.344 ثانية لكل ثانية من اللقطات ، مع زيارات إضافية لمرة واحدة لتقدير الهوية وتشوه الوجه ثلاثي الأبعاد (3 مللي ثانية و 321 مللي ثانية ، على التوالي) .

لذلك فإن التحسين هو المفتاح لإحراز تقدم نحو تقليل زمن الوصول. نظرًا لأن التحسين المشترك عبر جميع الإطارات سيضيف عبئًا شديدًا إلى العملية ، وقد يؤدي تحسين أسلوب init (بافتراض الهوية اللاحقة المتسقة للمتحدث من الإطار الأول) إلى حالات شاذة ، فقد اعتمد المؤلفون مخططًا متناثرًا لحساب المعاملات من الإطارات التي تم أخذ عينات منها على فترات عملية.

ثم يتم إجراء التحسين المشترك على هذه المجموعة الفرعية من الإطارات ، مما يؤدي إلى عملية إعادة بناء أصغر حجمًا.

تشويه الوجه

تقنية الالتواء المستخدمة في المشروع هي تعديل لعمل المؤلفين لعام 2020 صور عميقة رشيق (دي إس بي).

Deep Shapely Portraits ، تقديم عام 2020 إلى ACM Multimedia. يقود الورقة باحثون من ZJU-Tencent Game و Intelligent Graphics Innovation Technology Joint Lab. المصدر: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

لاحظ المؤلفون "نوسع هذه الطريقة من إعادة تشكيل صورة أحادية العين إلى إعادة تشكيل تسلسل الصورة بالكامل."

اختبارات

تلاحظ الورقة أنه لا توجد مادة سابقة قابلة للمقارنة يمكن على أساسها تقييم الطريقة الجديدة. لذلك قارن المؤلفون إطارات إخراج الفيديو المشوه الخاص بهم مقابل إخراج DSP الثابت.

اختبار النظام الجديد ضد الصور الثابتة من Deep Shapely Portraits.

لاحظ المؤلفون أن القطع الأثرية ناتجة عن طريقة DSP ، نظرًا لاستخدامها لرسم الخرائط المتفرقة - وهي مشكلة يحلها إطار العمل الجديد من خلال التعيين الكثيف. بالإضافة إلى ذلك ، تؤكد الصحيفة أن الفيديو الذي أنتجه DSP ، يوضح نقص النعومة والتماسك البصري.

يذكر المؤلفون:

"تظهر النتائج أن نهجنا يمكن أن ينتج بقوة مقاطع فيديو صورة متماسكة معاد تشكيلها بينما الطريقة القائمة على الصورة يمكن أن تؤدي بسهولة إلى آثار وميض ملحوظة."

تحقق من الفيديو المصاحب أدناه ، لمزيد من الأمثلة:

إعادة تشكيل حدودي للصور في مقاطع الفيديو - ACM MM 2021

Parametric Reshaping of Portraits in Videos - ACM MM 2021

Watch this video on YouTube

نُشر لأول مرة في 9 مايو 2022. تم تعديل الساعة 6 مساءً بتوقيت شرق أوروبا ، واستبدل "الحقل" بـ "الوظيفة" لقوات الدفاع الذاتي.

مواضيع ذات صلة:deepfake DeepFakes تركيب الصورة بحث

توترات مكافحة تغير المناخ بالذكاء الاصطناعي

لا تفوت

تحرير مساحة GAN الكامنة باستخدام "النقط"

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai