الذكاء الاصطناعي
التمايز هو الثورة التالية في عمق التزوير

يتم استخدام تعزيز البيانات生成ية الحاسوبية في مشروع جديد لتحقيق سيطرة أكبر على الصور المزيفة. على الرغم من أنك لا تزال لا تستطيع استخدام رؤوس CGI لتملأ الفجوات الناقصة في مجموعات بيانات الوجه المزيف، فإن موجة جديدة من البحث في فك الارتباط بين الهوية والسياق تعني أنك قد لا تحتاج إلى ذلك قريبا.
يختار مصممو بعض مقاطع الفيديو المزيفة الشهيرة في السنوات القليلة الماضية مقاطع الفيديو المصدر بدقة، وتجنب اللقطات الطويلة للPROFILE (أي النوع من لقطات الوجه التي شاع استخدامها في إجراءات الاعتقال الشرطة)، والزوايا الحادة والتعابير الغير عادية أو المبالغ فيها. يتزايد عدد مقاطع الفيديو الترويجية التي ينتجها مصنعو مقاطع الفيديو المزيفة الشهيرة، والتي تعرض مقاطع محررة تختار الزوايا والتعبيرات “الأسهل” للتزوير.
في الواقع، فإن الفيديو المستهدف الأكثر ملاءمة لإدخال مشهور مزيف هو فيديو حيث ينظر الشخص الأصلي (الذي ستتم محو هويته بواسطة التزوير) مباشرة إلى الكاميرا، مع مجموعة محدودة من التعبيرات.

معظم مقاطع الفيديو المزيفة الشهيرة في السنوات القليلة الماضية أظهرت مواضيعها واجهة مباشرة للكاميرا، وeither تحمل تعابير شائعة فقط (مثل الابتسامة)، والتي يمكن استخراجها بسهولة من مخرجات التصوير الفوتوغرافي للطوافات الحمراء، أو (كما هو الحال مع التزوير المزيف لسيلفستر ستالون في دور التيرمينيتور، الموضح في اليسار)، في الواقع، بدون تعبير على الإطلاق، منذ أن تكون التعبيرات المحايدة شائعة جدا، مما يجعلها سهلة التنفيذ في نماذج التزوير.
نظرًا لأن تقنيات التزوير المزيف مثل DeepFaceLab و FaceSwap تؤدي هذه التبديلات البسيطة جيدًا، فإننا نبهت بما يحققونه إلى حد أننا لا نلاحظ ما لا يستطيعون القيام به، ولا نحاول حتى:

اللقطات من مقطع فيديو مزيف مشهور حيث تم تحويل أرنولد شوارزنجر إلى سيلفستر ستالون – إلا إذا كانت الزوايا معقدة جدا. لا تزال الملفات الشخصية مشكلة دائمة في نهج التزوير المزيف الحالي، جزئيًا لأن البرامج المفتوحة المصدر المستخدمة لتحديد أوضاع الوجه في إطارات التزوير المزيف ليست مُحسَّنة للمناظير الجانبية، ولكن بشكل رئيسي بسبب نقص المواد المصدرية المناسبة في كلا المجموعتين من مجموعات البيانات. مصدر: https://www.youtube.com/watch?v=AQvCmQFScMA
أبحاث جديدة من إسرائيل تقترح طريقة جديدة لاستخدام البيانات الاصطناعية، مثل رؤوس CGI، لجعل التزوير المزيف يدخل القرن الحادي والعشرين، من خلال فصل الهوية عن السياق بشكل حقيقي (أي Characteristics الوجهية الأساسية لـ “توم كروز” من جميع الزوايا) من سياقها (أي النظر إلى الأعلى، النظر إلى الجانب، العبوس، العبوس في الظلام، الجبهة الم皱، العيون المغلقة، إلخ.).

ينفصل النظام الجديد بين وضع وسياق (أي إغماض العين) من ترميز الهوية للأفراد، باستخدام بيانات الوجه الاصطناعية غير المرتبطة (الموضحة في اليسار). في الصف العلوي، نرى “إغماض العين” يتم نقله إلى هوية باراك أوباما، بموجب المسار غير الخطي للمساحة الكامنة لGAN، والممثلة بالصورة CGI في اليسار. في الصف التالي، نرى زاوية الفم الممتدة يتم نقلها إلى الرئيس السابق. في الزاوية اليمنى السفلى، نرى كلا الخصائص يتم تطبيقهما في نفس الوقت. مصدر: https://arxiv.org/pdf/2111.08419.pdf
هذا ليس مجرد عرض دمى الرأس المزيف، وهو تقنية أكثر ملاءمة للأفاتار والتركيب الشفوي الجزئي، والتي لها إمكانيات محدودة للتحويلات الكاملة لمقاطع الفيديو المزيفة.
بل إنها تمثل طريقة للتقدم من أجل فصل أساسي من الأداة (مثل تغيير زاوية الرأس، إنشاء عبوس) من الهوية، مما يوفر طريقًا إلى إطار مزيف قائم على التركيب بدلاً من الصورة.
المقال الجديد بعنوان Delta-GAN-Encoder: Encoding Semantic Changes for Explicit Image Editing, using Few Synthetic Samples، ويأتي من باحثين في Technion – Israel Institute of Technology.
للفهم ما يعنيه هذا العمل، دعونا نلقي نظرة على كيفية إنتاج مقاطع الفيديو المزيفة حاليًا في كل مكان من مواقع الفيديو المزيفة إلى Industrial Light and Magic (منذ أن يكون مستودع DeepFaceLab المفتوح المصدر حاليًا مهيمنًا في كل من التزوير المزيف “الهواة” والمحترف).
ما الذي يمنع تقنية التزوير المزيف الحالية؟
تتمثل تقنية التزوير المزيف حاليًا في تدريب نموذج تعلم الآلة من نوع encoder/decoder على مجلدين من صور الوجه – الشخص الذي تريد “تلوين” فوقه (في المثال السابق، هذا أرني) والشخص الذي تريد وضعها في الفيديو (سلي).

أمثلة على أوضاع وضوء متغير عبر مجموعتين من مجموعات الوجه. لاحظ التعبير المميز في نهاية الصف الثالث في العمود أ، الذي من غير المحتمل أن يكون له مكافئ قريب في مجموعة الوجه الأخرى.
ثم يقارن نظام encoder/decoder كل صورة في كل مجلد بكل صورة أخرى، ويحافظ على هذا التشغيل ويحسنه ويكرره لمئات الآلاف من التكرارات (أحيانًا لمدة تصل إلى أسبوع)، حتى يفهم السمات الأساسية لكلا الهويتين جيدًا بما فيه الكفاية لتبديلها حسب الرغبة.
对于 كل من الشخصين الذين يتم تبديلهما في العملية، ما يتعلمه النظام المزيف حول الهوية هو مترابط مع السياق. لا يمكنه تعلم وتطبيق المبادئ حول وضع عام “للدائم”، بل يحتاج إلى أمثلة وافرة في مجموعة البيانات التدريبية، لكل هوية على حدة التي ستشارك في تبادل الوجه.
لذلك إذا كنت تريد تبادل هويتين تفعлан شيئًا أكثر غموضًا من مجرد الابتسامة أو النظر مباشرة إلى الكاميرا، ستحتاج إلى عديد من مثيلات ذلك الوضع/الهوية عبر مجموعتي الوجه:

بسبب ارتباط سمات الهوية والوضع الحالي، يتم الحاجة إلى تناسق واسع النطاق في التعبير ووضع الرأس (وإلى حد أقل) الإضاءة عبر مجموعتي الوجه في تدريب نموذج التزوير المزيف الفعال على أنظمة مثل DeepFaceLab. كلما كانت تكوين معين (مثل “منظر جانبي / مبتسم / مشمس”) أقل ظهورًا في كلا المجموعتين، كلما كان أقل دقة في تمثيله في مقطع فيديو مزيف، إذا لزم الأمر.
إذا كانت المجموعة أ تحتوي على الوضع الغير عادي، ولكن المجموعة ب تفتقر إليه، فأنك خارج الحظ؛ بغض النظر عن مدة تدريب النموذج، لن يتعلم أبدًا إعادة إنتاج ذلك الوضع جيدًا بين الهويات، لأن لديه نصف المعلومات اللازمة فقط عند تدريبه.
حتى لو كان لديك صورًا متطابقة، قد لا يكون ذلك كافياً: إذا كانت المجموعة أ تحتوي على الوضع المتطابق، ولكن مع إضاءة جانبية قاسية، مقارنة بالوضع المماثل المضاء بشكل مسطح في مجموعة الوجه الأخرى، لن يكون جودة التبادل جيدة كما لو كانت تشترك في سمات الإضاءة المشتركة.
لماذا ندرة البيانات
ما لم تكن تتكرر الاعتقالات بانتظام، فمن المحتمل أنك لا تمتلك الكثير من لقطات الوجه الشخصية. أي لقطات ظهرت، من المحتمل أنك قمت بإلغاءها. منذ أن تفعل وكالات الصور الشيء نفسه، فإن لقطات الوجه الشخصية من الصعب الحصول عليها.
يضيف مصنعو مقاطع الفيديو المزيفة أحيانًا عدة نسخ من البيانات الشخصية المحدودة التي لديهم للهوية في مجموعة الوجه، فقط حتى يحصل هذا الوضع على بعض الاهتمام والوقت أثناء التدريب، بدلاً من أن يتم تجاهله كأحد النقاط الشاذة.

ولكن هناك العديد من الأنواع الممكنة من لقطات الوجه الشخصية أكثر من تلك التي من المحتمل أن تكون متاحة للادراج في مجموعة بيانات – مبتسم, عبوس, صرخ, بكاء, مضاء بشكل داكن, ازدراء, ملل, فرح, مضاء بشكل ساطع, النظر إلى الأعلى, النظر إلى الأسفل, العيون مفتوحة, العيون مغلقة… وغيرها. أي من هذه الوضعيات، في مجموعات متعددة، يمكن أن تكون ضرورية في فيديو التزوير المزيف المستهدف.
وهذا فقط من أجل الملفات الشخصية. كم عدد الصور التي لديك لنفسك ونظرًا إلى الأعلى؟ هل لديك ما يكفي لتمثيل التعبيرات السبعة الأساسية التي قد ترتديها أثناء النظر إلى هذا الوضع بالضبط من هذا الزاوية الكاميرا، تغطي على الأقل بعض البيئات الإضاءة الممكنة البالغ عددها مليونًا؟
من المحتمل أنك لا تمتلك صورة واحدة لنفسك ونظرًا إلى الأعلى. وهذا فقط زاويتان من بين المئات التي تحتاجها لتغطية كاملة.
حتى لو كان من الممكن توليد تغطية كاملة لوجه من جميع الزوايا في ظل ظروف إضاءة متعددة، فإن مجموعة البيانات الناتجة ستكون كبيرة جدًا بحيث لا يمكن تدريبها، من حيث حجم مئات الآلاف من الصور؛ وحتى لو كان من الممكن تدريبها، فإن طبيعة عملية التدريب لأنظمة التزوير المزيف الحالية ستتخلص من معظم هذه البيانات الإضافية لصالح عدد محدود من الميزات المشتقة، لأن الإطارات الحالية هي إطارات خفيفة ولا تتناسب جيدًا مع التوسع.
الاستبدال الاصطناعي
منذ ظهور التزوير المزيف، جرب مصنعو مقاطع الفيديو المزيفة استخدام صور CGI، رؤوس تم إنشاؤها في تطبيقات ثلاثية الأبعاد مثل Cinema4D وMaya، لتوليد تلك “الوضعات الناقصة”.

لا يوجد أي تحليل ضروري؛ تم إعادة إنشاء ممثلة في برنامج تقليدي CGI، Cinema 4D، باستخدام شبكات وصور bitmap – تقنية تعود إلى الستينيات، على الرغم من أن استخدامها على نطاق واسع فقط من التسعينيات فصاعدًا. في النظرية، يمكن استخدام هذا نموذج الوجه لتوليد بيانات مصدر التزوير المزيف للوضعات الغير عادية والإضاءة والتعابير. في الواقع، لم يكن له أي فائدة في التزوير المزيف، لأن “الوهم” في العروض ينتقل إلى مقاطع الفيديو المزيفة. مصدر: صورة هذا المؤلف في https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/
تُترك هذه الطريقة عادة في وقت مبكر من قبل ممارسي التزوير المزيف الجدد، لأنها على الرغم من أنها يمكن أن توفر أوضاع وتعابير غير متاحة، فإن المظهر الاصطناعي لأوجه CGI ينتقل عادة إلى التبديلات بسبب الارتباط بين الهوية والمعلومات السياقية.
هذا يمكن أن يؤدي إلى ظهور وجوه “وادي الغريب” فجأة في مقطع فيديو مزيف مقنع، حيث يبدأ الخوارزمية في الاستفادة من البيانات الوحيدة التي قد تكون متاحة لوضع أو تعبير غير عادي – وجوه واضحة الزيف.

من بين المواضيع الأكثر شعبية لمصنعي مقاطع الفيديو المزيفة، يتم تضمين خوارزمية 3D لتمثيل ممثلة أسترالية، مارغو روبي، في التثبيت الافتراضي لـ DeepFaceLive، وهو إصدار من DeepFaceLab يمكنه أداء التزوير المزيف في بث مباشر، مثل جلسة الويب كام. يمكن استخدام نسخة CGI، كما هو موضح أعلاه، للحصول على زوايا “ناقصة” غير عادية في مجموعات بيانات التزوير المزيف. مصدر: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace
وجوه CGI كدليل مفاهيمي منفصل
بدلاً من ذلك، فإن طريقة Delta-GAN Encoder (DGE) الجديدة من الباحثين الإسرائيليين أكثر فعالية، لأن المعلومات السياقية من الصور CGI قد تم فصلها完全ًا عن معلومات “الهوية” لل目标.
يمكننا رؤية هذا المبدأ في العمل في الصورة أدناه، حيث تم الحصول على اتجاهات رأس متعددة باستخدام الصور CGI كدليل. منذ أن تكون سمات الهوية غير مرتبطة بسمات السياق، لا يحدث أي تسرب من المظهر الاصطناعي لوجه CGI أو الهوية الموضحة فيه:

مع الطريقة الجديدة، لا تحتاج إلى العثور على ثلاث صور مصدر منفصلة لتنفيذ التزوير المزيف من زوايا متعددة – يمكنك ببساطة دوران رأس CGI، الذي يتم وضع سماته الموجزة على الهوية بدون تسرب أي معلومات هوية.

Delta-GAN-Encoder. المجموعة العلوية اليسرى: يمكن تغيير زاوية صورة المصدر في ثانية لتقديم صورة مصدر جديدة، والتي تعكس في الإخراج؛ المجموعة العلوية اليمنى: يتم أيضًا فصل الإضاءة عن الهوية، مما يسمح بوضع أنماط الإضاءة؛ المجموعة السفلية اليسرى: يتم تغيير تفاصيل الوجه المتعددة لإنشاء تعبير “حزين”؛ المجموعة السفلية اليمنى: يتم تغيير تفاصيل التعبير الواحدة، بحيث تصبح العيون متقززة.
يتم تحقيق هذا الفصل بين الهوية والسياق في مرحلة التدريب. تسعى أنابيب خط أنابيب النظام الجديد إلى العثور على المتجه الكامن في GAN المُدرَّب مسبقًا الذي يطابق الصورة التي سيتم تحويلها – منهجية Sim2Real التي تعتمد على مشروع 2018 من قسم البحث في شركة IBM.
يلاحظ الباحثون:
‘مع عينة قليلة، التي تختلف بسمات معينة، يمكن تعلم سلوك نموذج التوليد المتشابك المُدرَّب مسبقًا. لا يوجد حاجة إلى عينات حقيقية دقيقة لتحقيق ذلك، وهو ليس بالضرورة ممكنًا. ‘
‘باستخدام عينات بيانات غير حقيقية، يمكن تحقيق نفس الهدف بفضل الاستفادة من معاني المتجهات الكامنة المشفرة. يمكن إجراء التغييرات المطلوبة على عينات البيانات الحالية دون استكشاف سلوك الفضاء الكامن بشكل صريح.’
يتوقع الباحثون أن يمكن نقل المبادئ الأساسية للفصل التي تم استكشافها في المشروع إلى مجالات أخرى، مثل محاكاة الهندسة المعمارية الداخلية، وأن طريقة Sim2Real التي تم تبنيها لـ Delta-GAN-Encoder قد تمكن في النهاية من أدوات التزوير المزيف القائمة على المخططات بدلاً من الإدخال النمطي CGI.
يمكن القول إن مدى القدرة التي قد تتمتع بها النظام الإسرائيلي الجديد على 합성 مقاطع فيديو مزيفة أقل أهمية من التقدم الذي أحرزته الأبحاث في فصل السياق عن الهوية، وبالتالي الحصول على سيطرة أكبر على الفضاء الكامن لGAN.
الفصل هو مجال نشط من البحث في 합성 الصور؛ في يناير 2021، أظهرت ورقة بحثية بقيادة 亚马逊 تحكمًا في الوضع ومزجًا مشابهًا، وفي 2018، قدمت ورقة بحثية من معهد شينزين للتكنولوجيا المتقدمة في الأكاديمية الصينية للعلوم تقدمًا في توليد مناظير تعسفية في GAN.











