اتصل بنا للحصول على مزيد من المعلومات

تزييف الأجسام "الأفضل" باستخدام الذكاء الاصطناعي

الذكاء الاصطناعي

تزييف الأجسام "الأفضل" باستخدام الذكاء الاصطناعي

mm

يقدم بحث جديد من أكاديمية Alibaba DAMO سير عمل يعتمد على الذكاء الاصطناعي لأتمتة إعادة تشكيل صور الأجسام - وهو جهد نادر في قطاع الرؤية الحاسوبية المنشغل حاليًا التلاعب القائم على الوجه مثل التزييف العميق والاعتماد على GAN تحرير الوجه.

يتم تضمين خرائط الانتباه التي تم إنشاؤها في أعمدة "النتائج" التي تحدد المناطق المراد تعديلها. المصدر: https://arxiv.org/pdf/2203.04670.pdf

يتم تضمين أعمدة "النتيجة" في خرائط الاهتمام المولدة والتي تحدد المجالات التي يجب تعديلها. المصدر: https://arxiv.org/pdf/2203.04670.pdf

يستخدم الباحثون في تصميمهم تقدير وضع الهيكل العظمي لمعالجة التعقيد الأكبر الذي تواجهه أنظمة تركيب الصور وتحريرها في تصور ومعلمة صور الجسم الموجودة، على الأقل إلى مستوى من التفصيل يسمح بالفعل بالتحرير المفيد والانتقائي.

تساعد خرائط الهيكل العظمي المقدرة على التفرد وتركيز الانتباه على مناطق الجسم التي من المحتمل أن يتم تنقيحها ، مثل منطقة الجزء العلوي من الذراع.

يمكّن النظام المستخدم في النهاية من تعيين المعلمات التي يمكن أن تغير مظهر الوزن أو كتلة العضلات أو توزيع الوزن في صور كاملة الطول أو متوسطة الطول للأشخاص ، وهو قادر على إنشاء تحولات عشوائية على أقسام الجسم الملبس أو غير الملبس.

اليسار ، صورة الإدخال ؛ الوسط ، خريطة حرارية لمناطق الانتباه المشتقة ؛ الحق ، الصورة المحولة.

اليسار ، صورة الإدخال ؛ الوسط ، خريطة حرارية لمناطق الانتباه المشتقة ؛ الحق ، الصورة المحولة.

الدافع وراء العمل هو تطوير تدفقات العمل الآلية التي يمكن أن تحل محل التلاعب الرقمي الشاق الذي يقوم به المصورون وفناني رسومات الإنتاج في مختلف فروع الوسائط ، من الأزياء إلى الإخراج على غرار المجلات و المواد الدعائية.

بشكل عام، يُقرّ المؤلفون بأن هذه التحويلات تُطبّق عادةً باستخدام تقنيات "التشويه" في برنامج فوتوشوب وغيره من برامج تحرير الصور النقطية التقليدية، وتُستخدم حصريًا تقريبًا على صور النساء. وبالتالي، فإن مجموعة البيانات المُخصصة المُطوّرة لتسهيل العملية الجديدة تتكون في الغالب من صور لنساء.

'نظرًا لأن تعديل الجسم مرغوب فيه بشكل أساسي من قبل الإناث، فإن غالبية مجموعتنا هي صور نسائية، مع الأخذ في الاعتبار تنوع الأعمار والأعراق (أفريقي: آسيوي: قوقازي = 0.33: 0.35: 0.32)، والوضعيات، والملابس.'

استخدم ورقة بعنوان توليد التدفق المدرك للبنية لإعادة تشكيل جسم الإنسانويأتي هذا الكتاب من خمسة مؤلفين مرتبطين بأكاديمية DAMO العالمية التابعة لشركة علي بابا.

تطوير مجموعة البيانات

كما هو الحال عادةً مع أنظمة تركيب الصور وتحريرها ، تطلبت بنية المشروع مجموعة بيانات تدريب مخصصة. كلف المؤلفون ثلاثة مصورين لإنتاج معالجات فوتوشوب قياسية للصور المناسبة من موقع التصوير الفوتوغرافي Unsplash ، مما أدى إلى مجموعة بيانات - بعنوان BR-5K * - من 5,000 صورة عالية الجودة بدقة 2K.

ويؤكد الباحثون أن هدف التدريب على هذه المجموعة من البيانات ليس إنتاج سمات "مثالية" وتعميمية تتعلق بمؤشر الجاذبية أو المظهر المرغوب، بل استخراج تعيينات السمات المركزية المرتبطة بالتلاعب المهني بصور الجسم.

ومع ذلك، فإنهم يعترفون بأن هذه التلاعبات تعكس في نهاية المطاف عمليات تحويلية ترسم مسار التقدم من "الواقع" إلى فكرة محددة مسبقًا عن "المثالي":

"ندعو ثلاثة فنانين محترفين لتعديل الأجسام باستخدام برنامج فوتوشوب بشكل مستقل، بهدف تحقيق أشكال نحيفة تتوافق مع الجماليات الشعبية، واختيار الأفضل كحقيقة أساسية."

نظرًا لأن إطار العمل لا يتعامل مع الوجوه على الإطلاق ، فقد تم تعتيمها قبل تضمينها في مجموعة البيانات.

العمارة والمفاهيم الأساسية

يتضمن سير عمل النظام إدخال صورة عالية الدقة، وتخفيض حجمها إلى دقة أقل تتناسب مع موارد الحوسبة المتاحة، واستخراج وضع خريطة الهيكل العظمي المقدر (الشكل الثاني من اليسار في الصورة أدناه)، بالإضافة إلى حقول تقارب الأجزاء (PAFs)، والتي كانت ابتكر في عام 2016 من قبل معهد الروبوتات في جامعة كارنيجي ميلون (انظر الفيديو المضمن أدناه مباشرة).

تساعد حقول التقارب الجزء على تحديد اتجاه الأطراف والارتباط العام بإطار الهيكل العظمي الأوسع ، مما يوفر للمشروع الجديد أداة اهتمام / توطين إضافية.

من ورقة مجالات التقارب الجزئية لعام 2016 ، تقوم PAFs المتوقعة بتشفير اتجاه الأطراف كجزء من متجه ثنائي الأبعاد يتضمن أيضًا الموضع العام للطرف. المصدر: https://arxiv.org/pdf/2.pdf

من ورقة حقول التقارب لعام 2016 ، تقوم PAFs المتوقعة بترميز اتجاه الأطراف كجزء من متجه ثنائي الأبعاد يتضمن أيضًا الموضع العام للطرف. المصدر: https://arxiv.org/pdf/1611.08050.pdf

على الرغم من عدم ملاءمتها الواضح لمظهر الوزن ، فإن الخرائط الهيكلية مفيدة في توجيه العمليات التحويلية النهائية إلى أجزاء من الجسم يتم تعديلها ، مثل الذراعين والمؤخرة والفخذين.

بعد ذلك ، يتم تغذية النتائج إلى هيكل الاهتمام الذاتي لتقارب البنية (SASA) في عنق الزجاجة المركزي للعملية (انظر الصورة أدناه).

تنظم SASA اتساق مولد التدفق الذي يغذي العملية ، ثم يتم تمرير نتائجها إلى وحدة الالتواء (الثانية من اليمين في الصورة أعلاه) ، والتي تطبق التحولات المستفادة من التدريب على المراجعات اليدوية المضمنة في مجموعة البيانات .

تخصص وحدة الاهتمام الذاتي بتقارب الهيكل (SASA) الانتباه إلى أجزاء الجسم ذات الصلة ، مما يساعد على تجنب التحولات الدخيلة أو غير ذات الصلة.

تخصص وحدة الاهتمام الذاتي بتقارب الهيكل (SASA) الانتباه إلى أجزاء الجسم ذات الصلة ، مما يساعد على تجنب التحولات الدخيلة أو غير ذات الصلة.

يتم لاحقًا إعادة أخذ عينات الصورة الناتجة إلى دقة 2K الأصلية ، باستخدام عمليات لا تختلف عن بنية التزييف العميق القياسية على غرار 2017 والتي تم اشتقاق الحزم الشائعة مثل DeepFaceLab منها ؛ عملية الاختزال شائعة أيضًا في أطر تحرير GAN.

تم تصميم شبكة الانتباه للمخطط بعد ذلك شبكات نزع الانتباه التركيبية (CODA) ، وهو تعاون أكاديمي 2019 بين الولايات المتحدة وسنغافورة مع Amazon AI و Microsoft.

اختبارات

تم اختبار الإطار القائم على التدفق مقابل الأساليب السابقة القائمة على التدفق FAL والتحريك من خلال الاعوجاج (ATW) ، وكذلك بنيات ترجمة الصور Pix2PixHD و GFLA، مع SSIM و PSNR و LPIPS كمقاييس للتقييم.

نتائج الاختبارات الأولية (يشير اتجاه السهم في الرؤوس إلى ما إذا كانت الأرقام المنخفضة أو الأعلى هي الأفضل).

نتائج الاختبارات الأولية (يشير اتجاه السهم في الرؤوس إلى ما إذا كانت الأرقام المنخفضة أو الأعلى هي الأفضل).

وبناءً على هذه المقاييس المعتمدة، يتفوق نظام المؤلفين على الأنظمة المعمارية السابقة.

النتائج المختارة. يرجى الرجوع إلى ملف PDF الأصلي المرتبط في هذه المقالة للحصول على مقارنات ذات دقة أعلى.

النتائج المختارة. يرجى الرجوع إلى ملف PDF الأصلي المرتبط في هذه المقالة للحصول على مقارنات ذات دقة أعلى.

بالإضافة إلى المقاييس الآلية، أجرى الباحثون دراسة للمستخدمين (العمود الأخير من جدول النتائج الموضح سابقًا)، حيث عُرض على 40 مشاركًا 30 سؤالًا تم اختيارها عشوائيًا من مجموعة مكونة من 100 سؤال تتعلق بالصور المنتجة عبر الطرق المختلفة. فضل 70٪ من المشاركين التقنية الجديدة باعتبارها أكثر "جاذبية بصريًا".

التحديات

تمثل الورقة الجديدة رحلة نادرة في التلاعب بالجسم المستند إلى الذكاء الاصطناعي. يهتم قطاع تخليق الصور حاليًا إما بتوليد أجسام قابلة للتحرير عبر طرق مثل Neural Radiance Fields (NeRF) ، أو يركز على استكشاف المساحة الكامنة لشبكات GAN وإمكانيات أجهزة التشفير التلقائية للتلاعب بالوجه.

تقتصر مبادرة المؤلفين حاليًا على إحداث تغييرات في الوزن المتصور، ولم ينفذوا أي نوع من تقنيات الرسم التي من شأنها استعادة الخلفية التي يتم الكشف عنها حتمًا عند تقليص حجم صورة شخص ما.

ومع ذلك، فإنهم يقترحون أن دمج الصور الشخصية مع الخلفية من خلال الاستدلال على الملمس قد يحل بسهولة مشكلة استعادة أجزاء العالم التي كانت مخفية سابقًا في الصورة بسبب "النقص" البشري.

حل مقترح لاستعادة الخلفية التي تم الكشف عنها من خلال تقليل الدهون المدفوع بالذكاء الاصطناعي.

حل مقترح لاستعادة الخلفية تم الكشف عنه من خلال تقليل الدهون بواسطة الذكاء الاصطناعي.

 

* على الرغم من أن النسخة الأولية تشير إلى مادة تكميلية تقدم مزيدًا من التفاصيل حول مجموعة البيانات ، بالإضافة إلى أمثلة أخرى من المشروع ، إلا أن موقع هذه المادة لم يتم توفيره في الورقة ، ولم يستجب المؤلف المقابل بعد لطلبنا للوصول .

نُشر لأول مرة في 10 مارس 2022.

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai