زيادة واقع

مطورو TikTok يمحوون الوجوه لتطبيقات الواقع المعزز

تم النشر 27 سبتمبر 2021

مارتن أندرسون

طورت ByteDance ، شركة الإنترنت الصينية متعددة الجنسيات التي تقف وراء TikTok ، طريقة جديدة لمحو الوجوه في الفيديو بحيث يمكن فرض تشويه الهوية والتأثيرات الغريبة الأخرى على الأشخاص في تطبيقات الواقع المعزز. تدعي الشركة أن هذه التقنية قد تم دمجها بالفعل في منتجات الهواتف المحمولة التجارية ، على الرغم من أنها لا تذكر أي المنتجات.

بمجرد "تصفير" الوجوه في الفيديو، يتبقى مساحة كافية من "لوحة الوجوه" لإنتاج تشوهات مذهلة، بالإضافة إلى إمكانية تراكب هويات أخرى. توضح الأمثلة الواردة في ورقة بحثية جديدة من باحثي بايت دانس الإمكانيات، بما في ذلك استعادة السمات "الممحاة" بأشكال مضحكة (وبعضها غريب بالتأكيد).

تتضمن ورقة ByteDance بعض إمكانيات إعادة تكوين الوجه. المصدر: https://arxiv.org/pdf/2109.10760.pdf

قرب نهاية أغسطس ، فإنه جاء الى النور هذا TikTok ، أول تطبيق غير تابع لـ Facebook تصل إلى ثلاثة مليارات عملية تثبيت، أطلقت TikTok Effect Studio (حاليًا في بيتا مغلق) ، منصة لمطوري الواقع المعزز (AR) لإنشاء تأثيرات AR لتدفقات محتوى TikTok.

على نحو فعال ، تقوم الشركة باللحاق بمجتمعات المطورين المماثلة في استوديو الواقع المعزز من فيسبوك و التقط AR، مع شركة Apple الموقرة مجتمع البحث والتطوير AR تم تعيينه أيضًا ليصبح مجلفنًا قريبًا بواسطة أجهزة جديدة خلال العام المقبل.

تعبيرات فارغة

استخدم ورقة، بعنوان FaceEraser: إزالة أجزاء الوجه للواقع المعزز، يلاحظ أن الخوارزميات الموجودة في الرسم / ملء ، مثل سبايد من إنفيديا، أكثر توجهاً نحو استكمال الصور المقطوعة أو شبه المعتمة بدلاً من تنفيذ إجراء "التعتيم" غير المعتاد هذا، ومن المتوقع أن تكون مواد مجموعة البيانات الموجودة نادرة بالتالي.

نظرًا لعدم وجود مجموعات بيانات حقيقة أرضية متاحة للأشخاص الذين لديهم مساحة صلبة من اللحم حيث يجب أن تكون وجوههم ، فقد أنشأ الباحثون بنية شبكة جديدة تسمى استنساخ بكسل، يمكن أن يتم تركيبه في نماذج الطلاء العصبية الموجودة ، والذي يحل المشكلات المتعلقة بعدم تناسق الملمس واللون المعروض (الشهادات الورقية) بالطرق القديمة مثل هيكل التدفق و إيدج كونيكت.

سير العمل العام لاستنساخ البكسل في خط الأنابيب الجديد.

من أجل تدريب النموذج على الوجوه "الفارغة"، استبعد الباحثون الصور التي تحتوي على نظارات، أو حيث يحجب الشعر الجبهة، لأن المنطقة بين خط الشعر والحاجبين عادة ما تكون أكبر مجموعة من وحدات البكسل التي يمكن أن تزود مادة "لصق" للملامح المركزية للوجه.

تجهيز صور التدريب. يتم اقتصاص منطقة الجبهة ، بناءً على النقاط الرئيسية في التعرف على محاذاة الوجه ، ويتم قلبها وتخييطها عموديًا.

يتم الحصول على صورة بحجم 256 × 256 بكسل، وهو حجم صغير بما يكفي لتغذية المساحة الكامنة للشبكة العصبية على دفعات كبيرة بما يكفي لتحقيق التعميم. ستعمل ترقية الخوارزمية لاحقًا على استعادة الدقة اللازمة للعمل في مساحة الواقع المعزز.

معمار

تتكون الشبكة من ثلاث شبكات داخلية ، تشتمل على Edge Completion و Pixel-Clone وشبكة تحسين. تستخدم شبكة إكمال الحواف نفس النوع من بنية وحدة فك التشفير المستخدمة في EdgeConnect (انظر أعلاه) ، وكذلك في أكثر تطبيقات التزييف العميق شيوعًا. تقوم أجهزة التشفير باختزال محتوى الصورة مرتين ، وتقوم وحدات فك التشفير باستعادة أبعاد الصورة الأصلية.

يستخدم Pixel-Clone منهجية معدلة لفك التشفير ، بينما تستخدم طبقة الصقل بنية U-Net ، وهي تقنية تم تطويرها في الأصل لتصوير الطب الحيوي، والتي غالبًا ما تظهر في مشاريع بحث تركيب الصور.

أثناء سير عمل التدريب، من الضروري تقييم دقة التحويلات، وتكرار المحاولات بشكل متكرر حسب الضرورة حتى الالتقاء. تحقيقا لهذه الغاية ، اثنين من المميزات على أساس باتش تُستخدم ، كل منها يقيِّم الواقعية المترجمة لبقع 70 × 70 بكسل ، مع استبعاد القيمة الواقعية للصورة بأكملها.

التدريب والبيانات

يتم تدريب شبكة إكمال الحواف بشكل مستقل في البداية ، بينما يتم تدريب الشبكتين الأخريين معًا ، بناءً على الأوزان الناتجة عن تدريب إكمال الحافة ، والتي يتم إصلاحها وتجميدها أثناء هذا الإجراء.

على الرغم من أن الورقة البحثية لا تنص صراحة على أن أمثلة تشويه الميزة النهائية هي الهدف المركزي للنموذج، إلا أنها تنفذ تأثيرات كوميدية مختلفة لاختبار مرونة النظام، بما في ذلك إزالة الحاجبين، والأفواه المكبرة، والوجوه الفرعية المنكمشة والتأثيرات "المرسومة بالرسوم المتحركة" (كما هو موضح في الصورة السابقة أعلاه).

وتؤكد الورقة البحثية أن "الوجوه الممحاة تمكن تطبيقات الواقع المعزز المختلفة التي تتطلب وضع أي عناصر مخصصة للمستخدم"، مما يشير إلى إمكانية تخصيص الوجوه باستخدام عناصر مساهمة من جهات خارجية من المستخدم.

يتم تدريب النموذج على أقنعة من NVIDIA التي تم إنشاؤها مجموعة بيانات FFHQ، والذي يحتوي على مجموعة متنوعة مناسبة من الأعمار والأعراق والإضاءة وأنماط الوجه وأنماطه لتحقيق تعميم مفيد. تحتوي مجموعة البيانات على 35,000 صورة و 10,000 قناع تدريب لتحديد مجالات التحول ، مع 4000 صورة و 1000 قناع جانبا لأغراض التحقق من الصحة.

عينات بيانات التدريب.

يمكن للنموذج المدرب إجراء استدلال على البيانات من عام 2017 CelebA- المقر الرئيسي و VoxCelebوجوه غير مرئية من FFHQ، وأي وجوه أخرى غير مقيدة وغير مرئية تُعرض عليه. تم تدريب الصور ذات 256×256 على الشبكة في دفعات من 8 صور باستخدام مُحسِّن Adam، المُطبَّق في PyTorch، ويعمل على وحدة معالجة الرسومات Tesla V100 لمدة "2000,000 عصر".

يتم الحصول على نتائج الاستدلال على وجه حقيقي.

كما هو شائع في أبحاث تركيب الصور المعتمدة على الوجه ، يتعين على النظام أن يتعامل مع حالات الفشل العرضية التي تسببها العوائق أو الانسدادات مثل الشعر والأجهزة الطرفية والنظارات وشعر الوجه.

ويخلص التقرير إلى:

"لقد تم تسويق نهجنا تجاريًا وهو يعمل جيدًا في المنتجات المخصصة لمدخلات المستخدم غير المقيدة."

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

مطورو TikTok يمحوون الوجوه لتطبيقات الواقع المعزز

تعبيرات فارغة

معمار

التدريب والبيانات

قد يعجبك