الذكاء الاصطناعي

تزييف الأجسام "الأفضل" باستخدام الذكاء الاصطناعي

تحديث on 9 كانون الأول، 2022

يقدم بحث جديد من أكاديمية Alibaba DAMO سير عمل يعتمد على الذكاء الاصطناعي لأتمتة إعادة تشكيل صور الأجسام - وهو جهد نادر في قطاع الرؤية الحاسوبية المنشغل حاليًا التلاعب القائم على الوجه مثل التزييف العميق والاعتماد على GAN تحرير الوجه.

يتم تضمين خرائط الانتباه التي تم إنشاؤها في أعمدة "النتائج" التي تحدد المناطق المراد تعديلها. المصدر: https://arxiv.org/pdf/2203.04670.pdf

تستخدم بنية الباحثين تقدير وضع الهيكل العظمي لمعالجة التعقيد الأكبر الذي تواجهه أنظمة تركيب الصور وتحريرها في وضع المفاهيم وتحديد معالم صور الجسم الموجودة ، على الأقل إلى مستوى من التفصيل الذي يسمح في الواقع بتحرير هادف وانتقائي.

تساعد خرائط الهيكل العظمي المقدرة على التفرد وتركيز الانتباه على مناطق الجسم التي من المحتمل أن يتم تنقيحها ، مثل منطقة الجزء العلوي من الذراع.

يمكّن النظام المستخدم في النهاية من تعيين المعلمات التي يمكن أن تغير مظهر الوزن أو كتلة العضلات أو توزيع الوزن في صور كاملة الطول أو متوسطة الطول للأشخاص ، وهو قادر على إنشاء تحولات عشوائية على أقسام الجسم الملبس أو غير الملبس.

اليسار ، صورة الإدخال ؛ الوسط ، خريطة حرارية لمناطق الانتباه المشتقة ؛ الحق ، الصورة المحولة.

الدافع وراء العمل هو تطوير تدفقات العمل الآلية التي يمكن أن تحل محل التلاعب الرقمي الشاق الذي يقوم به المصورون وفناني رسومات الإنتاج في مختلف فروع الوسائط ، من الأزياء إلى الإخراج على غرار المجلات و المواد الدعائية.

بشكل عام ، يقر المؤلفون ، يتم تطبيق هذه التحولات عادةً باستخدام تقنيات "الالتواء" في Photoshop وغيره من برامج تحرير الصور النقطية التقليدية ، ويتم استخدامها بشكل حصري تقريبًا في صور النساء. وبالتالي ، فإن مجموعة البيانات المخصصة التي تم تطويرها لتسهيل العملية الجديدة تتكون في الغالب من صور لمواضيع إناث:

"نظرًا لأن تنميق الجسم أمر مرغوب فيه بشكل أساسي من قبل الإناث ، فإن غالبية مجموعتنا عبارة عن صور نسائية ، مع الأخذ في الاعتبار تنوع الأعمار والأجناس (الأفريقية: الآسيوية: القوقاز = 0.33: 0.35: 0.32) والوضعيات والملابس."

• ورقة بعنوان توليد التدفق المدرك للبنية لإعادة تشكيل جسم الإنسان، ويأتي من خمسة مؤلفين مرتبطين بأكاديمية DAMO العالمية التابعة لشركة علي بابا.

تطوير مجموعة البيانات

كما هو الحال عادةً مع أنظمة تركيب الصور وتحريرها ، تطلبت بنية المشروع مجموعة بيانات تدريب مخصصة. كلف المؤلفون ثلاثة مصورين لإنتاج معالجات فوتوشوب قياسية للصور المناسبة من موقع التصوير الفوتوغرافي Unsplash ، مما أدى إلى مجموعة بيانات - بعنوان BR-5K * - من 5,000 صورة عالية الجودة بدقة 2K.

يؤكد الباحثون أن الهدف من التدريب على مجموعة البيانات هذه ليس إنتاج ميزات "مثالية" ومعممة تتعلق بمؤشر الجاذبية أو المظهر المرغوب ، بل لاستخراج تعيينات السمات المركزية المرتبطة بالتلاعب المهني لصور الجسم.

ومع ذلك ، فقد أقروا بأن عمليات التلاعب تعكس في النهاية عمليات تحويلية ترسم تطورًا من مفهوم "حقيقي" إلى مفهوم "مثالي" محدد مسبقًا:

"ندعو ثلاثة فنانين محترفين لتنقيح الأجسام باستخدام Photoshop بشكل مستقل ، بهدف تحقيق شخصيات نحيلة تلبي الجماليات الشعبية ، واختيار أفضلها كحقيقة أساسية."

نظرًا لأن إطار العمل لا يتعامل مع الوجوه على الإطلاق ، فقد تم تعتيمها قبل تضمينها في مجموعة البيانات.

العمارة والمفاهيم الأساسية

يتضمن سير عمل النظام التغذية في صورة عالية الدقة ، واختزالها إلى دقة أقل يمكن أن تتناسب مع موارد الحوسبة المتاحة ، واستخراج وضع خريطة الهيكل العظمي المقدرة (الشكل الثاني من اليسار في الصورة أدناه) ، بالإضافة إلى حقول التقارب الجزئية (PAFs) ، والتي كانت ابتكر في عام 2016 من قبل معهد الروبوتات في جامعة كارنيجي ميلون (انظر الفيديو المضمن أدناه مباشرة).

تقدير الوضع البشري ثنائي الأبعاد متعدد الأشخاص في الوقت الفعلي باستخدام حقول التقارب الجزئي ، CVPR 2 Oral

Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017 Oral

Watch this video on YouTube

تساعد حقول التقارب الجزء على تحديد اتجاه الأطراف والارتباط العام بإطار الهيكل العظمي الأوسع ، مما يوفر للمشروع الجديد أداة اهتمام / توطين إضافية.

من ورقة مجالات التقارب الجزئية لعام 2016 ، تقوم PAFs المتوقعة بتشفير اتجاه الأطراف كجزء من متجه ثنائي الأبعاد يتضمن أيضًا الموضع العام للطرف. المصدر: https://arxiv.org/pdf/2.pdf

من ورقة حقول التقارب لعام 2016 ، تقوم PAFs المتوقعة بترميز اتجاه الأطراف كجزء من متجه ثنائي الأبعاد يتضمن أيضًا الموضع العام للطرف. المصدر: https://arxiv.org/pdf/1611.08050.pdf

على الرغم من عدم ملاءمتها الواضح لمظهر الوزن ، فإن الخرائط الهيكلية مفيدة في توجيه العمليات التحويلية النهائية إلى أجزاء من الجسم يتم تعديلها ، مثل الذراعين والمؤخرة والفخذين.

بعد ذلك ، يتم تغذية النتائج إلى هيكل الاهتمام الذاتي لتقارب البنية (SASA) في عنق الزجاجة المركزي للعملية (انظر الصورة أدناه).

تنظم SASA اتساق مولد التدفق الذي يغذي العملية ، ثم يتم تمرير نتائجها إلى وحدة الالتواء (الثانية من اليمين في الصورة أعلاه) ، والتي تطبق التحولات المستفادة من التدريب على المراجعات اليدوية المضمنة في مجموعة البيانات .

تخصص وحدة الاهتمام الذاتي بتقارب الهيكل (SASA) الانتباه إلى أجزاء الجسم ذات الصلة ، مما يساعد على تجنب التحولات الدخيلة أو غير ذات الصلة.

يتم لاحقًا إعادة أخذ عينات الصورة الناتجة إلى دقة 2K الأصلية ، باستخدام عمليات لا تختلف عن بنية التزييف العميق القياسية على غرار 2017 والتي تم اشتقاق الحزم الشائعة مثل DeepFaceLab منها ؛ عملية الاختزال شائعة أيضًا في أطر تحرير GAN.

تم تصميم شبكة الانتباه للمخطط بعد ذلك شبكات نزع الانتباه التركيبية (CODA) ، وهو تعاون أكاديمي 2019 بين الولايات المتحدة وسنغافورة مع Amazon AI و Microsoft.

اختبارات

تم اختبار الإطار القائم على التدفق مقابل الأساليب السابقة القائمة على التدفق FAL والتحريك من خلال الاعوجاج (ATW) ، وكذلك بنيات ترجمة الصور Pix2PixHD و GFLA، مع SSIM و PSNR و LPIPS كمقاييس للتقييم.

نتائج الاختبارات الأولية (يشير اتجاه السهم في الرؤوس إلى ما إذا كانت الأرقام المنخفضة أو الأعلى هي الأفضل).

بناءً على هذه المقاييس المعتمدة ، يتفوق نظام المؤلفين على البنى السابقة.

النتائج المختارة. يرجى الرجوع إلى ملف PDF الأصلي المرتبط في هذه المقالة للحصول على مقارنات ذات دقة أعلى.

بالإضافة إلى المقاييس الآلية ، أجرى الباحثون دراسة للمستخدم (العمود الأخير من جدول النتائج المصور سابقًا) ، حيث تم عرض 40 سؤالًا لكل مشارك تم اختياره عشوائيًا من مجموعة مكونة من 30 سؤال تتعلق بالصور التي تم إنتاجها عبر الطرق المختلفة. فضل 100٪ من المشاركين التقنية الجديدة باعتبارها أكثر "جاذبية بصريًا".

التحديات

تمثل الورقة الجديدة رحلة نادرة في التلاعب بالجسم المستند إلى الذكاء الاصطناعي. يهتم قطاع تخليق الصور حاليًا إما بتوليد أجسام قابلة للتحرير عبر طرق مثل Neural Radiance Fields (NeRF) ، أو يركز على استكشاف المساحة الكامنة لشبكات GAN وإمكانيات أجهزة التشفير التلقائية للتلاعب بالوجه.

تقتصر مبادرة المؤلفين حاليًا على إحداث تغييرات في الوزن المدرك ، ولم يطبقوا أي نوع من تقنيات الرسم التي من شأنها استعادة الخلفية التي تم الكشف عنها حتمًا عندما تقوم بتقليص صورة شخص ما.

ومع ذلك ، فقد اقترحوا أن حصيرة الصورة وخلفية المزج من خلال الاستدلال النسيجي يمكن أن يحل مشكلة استعادة أجزاء العالم التي كانت مخبأة سابقًا في الصورة من خلال `` النقص '' البشري.

حل مقترح لاستعادة الخلفية التي تم الكشف عنها من خلال تقليل الدهون المدفوع بالذكاء الاصطناعي.

* على الرغم من أن النسخة الأولية تشير إلى مادة تكميلية تقدم مزيدًا من التفاصيل حول مجموعة البيانات ، بالإضافة إلى أمثلة أخرى من المشروع ، إلا أن موقع هذه المادة لم يتم توفيره في الورقة ، ولم يستجب المؤلف المقابل بعد لطلبنا للوصول .

نُشر لأول مرة في 10 مارس 2022.

مواضيع ذات صلة:deepfake DeepFakes تركيب الصورة بحث

إنشاء الدعاية وتحديدها باستخدام التعلم الآلي

لا تفوت

يقترح البحث العلاقة بين رقائق الكمبيوتر والتوليف الجيني

مارتن أندرسون

كاتب في التعلم الآلي والذكاء الاصطناعي والبيانات الضخمة.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

تزييف الأجسام "الأفضل" باستخدام الذكاء الاصطناعي

الذكاء الاصطناعي