رطم فك التشابك هو ثورة التزييف العميق القادمة - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

فك التشابك هو ثورة التزييف العميق التالية

mm
تحديث on

يتم استخدام زيادة بيانات CGI في مشروع جديد للحصول على تحكم أكبر في صور التزييف العميق. على الرغم من أنك لا تزال غير قادر على استخدام رؤوس CGI بشكل فعال لملء الفجوات المفقودة في مجموعات بيانات الوجه Deepfake ، فإن موجة جديدة من البحث في فك تشابك الهوية من السياق تعني أنه قد لا تضطر إلى ذلك قريبًا.

يختار منشئو بعض مقاطع الفيديو الفيروسية الأكثر نجاحًا في السنوات القليلة الماضية مقاطع الفيديو المصدر الخاصة بهم بعناية شديدة ، وتجنب لقطات الملف الشخصي المستمرة (أي نوع الصور الجانبية التي اشتهرت بإجراءات اعتقال الشرطة) ، والزوايا الحادة والتعبيرات غير العادية أو المبالغ فيها . على نحو متزايد ، يتم تحرير مقاطع الفيديو التوضيحية التي أنتجها صانعو الديب فيروسات التي تحدد الزوايا والتعبيرات "الأسهل" للتزييف العميق.

في الواقع ، فإن الفيديو المستهدف الأكثر ملاءمة لإدراج شخص مشهور هو الفيديو الذي ينظر فيه الشخص الأصلي (الذي سيتم محو هويته بواسطة التزييف العميق) مباشرة إلى الكاميرا ، مع الحد الأدنى من التعبيرات.

أظهرت غالبية صور التزييف العميق الشائعة في السنوات الأخيرة موضوعات تواجه الكاميرا مباشرةً ، وإما أنها تحمل تعبيرات شائعة فقط (مثل الابتسام) ، والتي يمكن استخلاصها بسهولة من إخراج المصورين المصورين على السجادة الحمراء ، أو (كما هو الحال مع مزيف 2019 لـ Sylvester Stallone مثل Terminator ، في الصورة على اليسار) ، من الناحية المثالية بدون أي تعبير على الإطلاق ، لأن التعبيرات المحايدة شائعة للغاية ، مما يسهل دمجها في نماذج deepfake.

أظهرت غالبية صور التزييف العميق الشائعة في السنوات الأخيرة موضوعات تواجه الكاميرا مباشرةً ، وإما أنها تحمل تعبيرات شائعة فقط (مثل الابتسام) ، والتي يمكن استخلاصها بسهولة من إخراج المصورين المصورين على السجادة الحمراء ، أو (كما هو الحال مع مزيف 2019 لـ Sylvester Stallone مثل Terminator ، في الصورة على اليسار) ، من الناحية المثالية بدون أي تعبير على الإطلاق ، لأن التعبيرات المحايدة شائعة للغاية ، مما يسهل دمجها في نماذج deepfake.

لأن تقنيات deepfake مثل ديب فيس لاب و تبديل الوجه أداء هذه المقايضات الأبسط بشكل جيد للغاية ، فنحن مبهورون بما فيه الكفاية بما أنجزوه حتى لا نلاحظ ما هم غير قادرين عليه ، و- في كثير من الأحيان- لا نحاول:

صور مأخوذة من فيديو مشهور بعمق عميق حيث يتحول أرنولد شوارزنيجر إلى سيلفستر ستالون - ما لم تكن الزوايا صعبة للغاية. تظل الملفات الشخصية مشكلة دائمة مع مناهج التزييف العميق الحالية ، ويرجع ذلك جزئيًا إلى أن برنامج المصدر المفتوح المستخدم لتحديد أوضاع الوجه في أطر التزييف العميق لم يتم تحسينه لوجهات النظر الجانبية ، ولكن بشكل أساسي بسبب ندرة مادة المصدر المناسبة في أحدهما أو كليهما. مجموعات البيانات. المصدر: https://www.youtube.com/watch؟

صور مأخوذة من فيديو مزيف عميق حيث يتم تحويل Arnold Schwarzenegger إلى Sylvester Stallone - ما لم تكن الزوايا صعبة للغاية. تظل الملفات الشخصية مشكلة دائمة مع مناهج التزييف العميق الحالية ، ويرجع ذلك جزئيًا إلى أن برنامج المصدر المفتوح المستخدم لتحديد أوضاع الوجه في أطر التزييف العميق لم يتم تحسينه لوجهات النظر الجانبية ، ولكن بشكل أساسي بسبب ندرة مادة المصدر المناسبة في أحدهما أو كليهما. مجموعات البيانات. المصدر: https://www.youtube.com/watch؟

أبحاث جديدة من إسرائيل يقترح طريقة جديدة لاستخدام البيانات الاصطناعية، مثل رؤوس CGI، لجلب التزييف العميق إلى عشرينيات القرن الحالي، من خلال فصل هويات الوجه (أي خصائص الوجه الأساسية لـ "توم كروز"، من جميع الزوايا) عن سياقها (أي يبحث, يبحث بشكل جانبي, مقطب, عابس في الظلام, تجعد الحواجب, عيون مغلقة، وما إلى ذلك).

يفصل النظام الجديد بشكل منفصل الوضع والسياق (أي غمزة العين) عن ترميز هوية الفرد ، باستخدام بيانات الوجه الاصطناعية غير ذات الصلة (في الصورة على اليسار). في الصف العلوي ، نرى "غمزة" تنتقل إلى هوية باراك أوباما ، مدفوعة بالمسار غير الخطي المكتسب لمساحة GAN الكامنة ، ممثلة بصورة CGI على اليسار. في الصف أدناه ، نرى جانب زاوية الفم الممتد منقولة إلى الرئيس السابق. أسفل اليمين ، نرى كلا الخاصيتين مطبقتين في وقت واحد. المصدر: https://arxiv.org/pdf/2111.08419.pdf

يفصل النظام الجديد بشكل منفصل الوضع والسياق (أي غمزة العين) عن ترميز هوية الفرد ، باستخدام بيانات الوجه الاصطناعية غير ذات الصلة (في الصورة على اليسار). في الصف العلوي ، نرى "غمزة" تنتقل إلى هوية باراك أوباما ، مدفوعة بالمسار غير الخطي المكتسب لمساحة GAN الكامنة ، ممثلة بصورة CGI على اليسار. في الصف أدناه ، نرى جانب زاوية الفم الممتد منقولة إلى الرئيس السابق. أسفل اليمين ، نرى كلا الخاصيتين مطبقتين في وقت واحد. المصدر: https://arxiv.org/pdf/2111.08419.pdf

هذا ليس مجرد التزييف العميق للعرائس، وهي تقنية أكثر ملاءمة للصور الرمزية والتزامن الجزئي للشفاه ، ولها إمكانات محدودة لإجراء تحويلات فيديو كاملة التزييف العميق.

بدلاً من ذلك ، يمثل هذا طريقة للمضي قدمًا في فصل أساسي للأداة (مثل "تغيير زاوية الرأس", "خلق عبوس") من الهوية ، مما يوفر طريقًا إلى إطار عمل التزييف العميق المستند إلى تركيب الصورة عالي المستوى بدلاً من `` المشتق ''.

الورقة الجديدة بعنوان Delta-GAN-Encoder: ترميز التغييرات الدلالية لتحرير الصور الصريح ، باستخدام عدد قليل من العينات الاصطناعية، ويأتي من باحثين في التخنيون - المعهد الإسرائيلي للتكنولوجيا.

لفهم ما يعنيه العمل ، دعنا نلقي نظرة على كيفية إنتاج التزييف العميق حاليًا في كل مكان بدءًا من المواقع الإباحية المزيفة إلى الضوء الصناعي والسحر (نظرًا لأن مستودع DeepFaceLab مفتوح المصدر مهيمن حاليًا في كل من التزييف العميق "للهواة" والمحترفين).

ما الذي يعوق تقنية Deepfake الحالية؟

يتم حاليًا إنشاء Deepfakes عن طريق تدريب التشفير / فك التشفير نموذج التعلم الآلي في مجلدين من صور الوجه - الشخص الذي تريد "التلوين فوقه" (في المثال السابق، هذا هو Arnie) والشخص الذي تريد تركيبه في اللقطات (Sly).

أمثلة على أوضاع مختلفة وظروف الإضاءة عبر مجموعتين مختلفتين من الوجوه. لاحظ التعبير المميز في نهاية الصف الثالث في العمود A ، والذي من غير المحتمل أن يكون له ما يعادله في مجموعة البيانات الأخرى.

أمثلة على أوضاع مختلفة وظروف الإضاءة عبر مجموعتين مختلفتين من الوجوه. لاحظ التعبير المميز في نهاية الصف الثالث في العمود A ، والذي من غير المحتمل أن يكون له ما يعادله في مجموعة البيانات الأخرى.

ثم نظام التشفير / فك التشفير يقارن كل صورة في كل مجلد لبعضهم البعض ، مما يحافظ على هذه العملية ويحسنها ويكررها لمئات الآلاف من التكرارات (غالبًا لمدة تصل إلى أسبوع) ، حتى يفهم الخصائص الأساسية لكلا الهويتين جيدًا بما يكفي لتبديلها حسب الرغبة.

لكل من الشخصين اللذين يتم تبادلهما في العملية ، ما تتعلمه هندسة التزييف العميق عن الهوية متشابكا مع السياق. لا يمكنه تعلم وتطبيق مبادئ حول الوضع العام "للخير والجميع" ، ولكنه يحتاج إلى أمثلة وفيرة في مجموعة بيانات التدريب ، لكل هوية سيتم تضمينها في تبادل الوجه.

لذلك ، إذا كنت تريد تبديل هويتين تقومان بشيء غير عادي أكثر من مجرد الابتسام أو النظر مباشرة إلى الكاميرا ، فستحتاج إلى كثير أمثلة على ذلك الوضع / الهوية الخاصة عبر مجموعتي الوجوه:

نظرًا لأن معرف الوجه وخصائص الوضعية متشابكتان جدًا حاليًا ، هناك حاجة إلى تكافؤ واسع النطاق في التعبير ووضعية الرأس والإضاءة (إلى حد أقل) عبر مجموعتي بيانات للوجه من أجل تدريب نموذج التزييف العميق الفعال على أنظمة مثل DeepFaceLab. كلما كان التكوين أقل تحديدًا (مثل "منظر جانبي / مبتسم / مضاء بنور الشمس") في كلتا مجموعتي الوجوه ، قلت دقة عرضه في فيديو التزييف العميق ، إذا لزم الأمر.

نظرًا لأن معرف الوجه وخصائص الوضعية متشابكتان جدًا حاليًا ، هناك حاجة إلى تكافؤ واسع النطاق في التعبير ووضعية الرأس والإضاءة (إلى حد أقل) عبر مجموعتي بيانات للوجه من أجل تدريب نموذج التزييف العميق الفعال على أنظمة مثل DeepFaceLab. كلما كان التكوين أقل تحديدًا (مثل "منظر جانبي / مبتسم / مضاء بنور الشمس") في كلتا مجموعتي الوجوه ، قلت دقة عرضه في فيديو التزييف العميق ، إذا لزم الأمر.

إذا احتوت المجموعة A على الوضع غير المعتاد ، لكن المجموعة B تفتقر إليه ، فأنت محظوظ إلى حد كبير ؛ بغض النظر عن المدة التي تقوم فيها بتدريب النموذج ، فلن يتعلم أبدًا إعادة إنتاج هذا الوضع جيدًا بين الهويات ، لأنه كان يحتوي فقط على نصف المعلومات الضرورية عندما تم تدريبه.

حتى إذا كانت لديك صور متطابقة ، فقد لا يكون ذلك كافيًا: إذا كانت المجموعة A تحتوي على الوضعية المطابقة ، ولكن مع إضاءة جانبية قاسية ، مقارنة بالوضع المكافئ ذي الإضاءة المسطحة في مجموعة الوجوه الأخرى ، فإن جودة المبادلة تفوز ستكون جيدة كما لو أن كل واحدة منها تشترك في خصائص الإضاءة المشتركة.

لماذا ندرة البيانات

ما لم يتم القبض عليك بانتظام ، فمن المحتمل ألا يكون لديك كل هذا العدد من اللقطات الجانبية لنفسك. أي شيء جاء ، من المحتمل أنك تخلصت منه. نظرًا لأن وكالات الصور تفعل الشيء نفسه ، فمن الصعب الحصول على لقطات وجه للملف الشخصي.

غالبًا ما يتضمن Deepfakers نسخًا متعددة من بيانات الملف الشخصي المحدودة للعرض الجانبي التي لديهم للهوية في مجموعة الوجوه ، فقط بحيث تحصل هذه الوضعية على الأقل على القليل الاهتمام والوقت أثناء التدريب ، بدلاً من أن يتم خصمه على أنه شاذ.

ولكن هناك العديد من الأنواع الممكنة لصور وجه العرض الجانبي أكثر من المحتمل أن تكون متاحة للتضمين في مجموعة البيانات - باسم, عابس, صراخ, بكاء, مضاءة بشكل غامق, الازدراء, بالملل, مرح, فلاش مضاء, يبحث, انظر اسفل, عيون مفتوحة, أغمض عينك…وما إلى ذلك وهلم جرا. قد تكون هناك حاجة إلى أي من هذه الأوضاع ، في مجموعات متعددة ، في فيديو هدف التزييف العميق المستهدف.

وهذه مجرد ملفات شخصية. كم عدد الصور التي لديك لنفسك تبحث مباشرة حتى؟ هل لديك ما يكفي لتمثيل نطاق واسع 10,000 تعبير ممكن قد ترتديها أثناء حمل هذا الوضع الدقيق من زاوية الكاميرا بالضبط ، وتغطي على الأقل بعضًا من مليون بيئة إضاءة ممكنة?

هناك احتمالات ، ليس لديك حتى صورة واحدة؟ صورة لنفسك تبحث. وهذه مجرد زاويتين من بين مائة أو أكثر اللازمة للتغطية الكاملة.

حتى لو كان من الممكن إنشاء تغطية كاملة للوجه من جميع الزوايا في ظل مجموعة من ظروف الإضاءة ، فإن مجموعة البيانات الناتجة ستكون كبيرة جدًا بحيث لا يمكن تدريبها ، بترتيب مئات الآلاف من الصور ؛ وحتى لو كان كذلك استطاع أن يتم تدريبهم ، فإن طبيعة عملية التدريب لأطر عمل التزييف العميق الحالية من شأنها التخلص من الغالبية العظمى من تلك البيانات الإضافية لصالح عدد محدود من الميزات المشتقة ، لأن الأطر الحالية مختزلة وليست قابلة للتطوير بشكل كبير.

استبدال اصطناعي

منذ فجر تقنية deepfakes ، جرب صانعو deepfakers استخدام صور بأسلوب CGI ، ورؤوس مصنوعة في تطبيقات ثلاثية الأبعاد مثل Cinema3D و Maya ، لإنشاء تلك "الأوضاع المفقودة".

لا حاجة للذكاء الاصطناعي ؛ تم إعادة إنشاء ممثلة في برنامج CGI تقليدي ، Cinema 4D ، باستخدام شبكات وأنسجة نقطية - تقنية تعود إلى الستينيات ، على الرغم من تحقيق استخدام واسع النطاق فقط من التسعينيات فصاعدًا. من الناحية النظرية ، يمكن استخدام نموذج الوجه هذا لتوليد بيانات مصدر التزييف العميق للوضعيات غير العادية وأنماط الإضاءة وتعبيرات الوجه. في الواقع ، كانت ذات فائدة محدودة أو لا فائدة منها في التزييف العميق ، نظرًا لأن "التزييف" في عمليات التزييف يميل إلى التلاشي في مقاطع الفيديو التي يتم تبديلها. المصدر: صورة كاتب المقال هذا على https://rossdawson.com/futurist/implications-of-ai/compuate-guide-ai-artustry-intelligence-visual-effects-vfx/

لا حاجة للذكاء الاصطناعي ؛ تم إعادة إنشاء ممثلة في برنامج CGI تقليدي ، Cinema 4D ، باستخدام شبكات وأنسجة نقطية - تقنية تعود إلى الستينيات ، على الرغم من تحقيق استخدام واسع النطاق فقط من التسعينيات فصاعدًا. من الناحية النظرية ، يمكن استخدام نموذج الوجه هذا لتوليد بيانات مصدر التزييف العميق للوضعيات غير العادية وأنماط الإضاءة وتعبيرات الوجه. في الواقع ، كانت ذات فائدة محدودة أو لا فائدة منها في التزييف العميق ، نظرًا لأن "التزييف" في عمليات التزييف يميل إلى التلاشي في مقاطع الفيديو التي يتم تبديلها. المصدر: صورة كاتب المقال هذا على https://rossdawson.com/futurist/implications-of-ai/compuate-guide-ai-artustry-intelligence-visual-effects-vfx/

يتم التخلي عن هذه الطريقة بشكل عام مبكرًا من قبل ممارسي التزييف العميق الجديد ، لأنه على الرغم من أنها يمكن أن توفر أوضاعًا وتعبيرات غير متوفرة بخلاف ذلك ، إلا أن المظهر التركيبي لوجوه CGI يتدفق عادةً إلى المقايضات بسبب تشابك المعرف والمعلومات السياقية / الدلالية.

يمكن أن يؤدي هذا إلى وميض مفاجئ لوجوه `` الوادي الخارق '' في فيديو مزيف عميق مقنع ، حيث تبدأ الخوارزمية في الاعتماد على البيانات الوحيدة التي قد تكون لديها لوضع أو تعبير غير عادي - وجوه مزيفة بشكل واضح.

من بين الموضوعات الأكثر شيوعًا لصانعي deepfakers ، تم تضمين خوارزمية التزييف العميق ثلاثية الأبعاد للممثلة الأسترالية مارجوت روبي في التثبيت الافتراضي لـ DeepFaceLive ، وهو إصدار من DeepFaceLab يمكنه إجراء التزييف العميق في بث مباشر ، مثل جلسة كاميرا الويب. يمكن استخدام نسخة CGI ، كما هو موضح أعلاه ، للحصول على زوايا غير عادية "مفقودة" في مجموعات البيانات deepfake. المصدر: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-3d98fe15b0403e4be64902332cfb9ace

من بين الموضوعات الأكثر شيوعًا لصانعي التزييف العميق ، خوارزمية التزييف العميق ثلاثية الأبعاد للممثلة الأسترالية مارجوت روبي هي شامل في التثبيت الافتراضي لـ DeepFaceLive ، وهو إصدار من DeepFaceLab يمكنه إجراء التزييف العميق في بث مباشر ، مثل جلسة كاميرا الويب. يمكن استخدام نسخة CGI ، كما هو موضح أعلاه ، للحصول على زوايا غير عادية "مفقودة" في مجموعات البيانات deepfake. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

وجوه CGI كمبادئ توجيهية مفاهيمية منفصلة

بدلاً من ذلك ، تعد طريقة Delta-GAN Encoder (DGE) الجديدة من الباحثين الإسرائيليين أكثر فاعلية ، لأن معلومات الوضع والسياق من صور CGI تم فصلها تمامًا عن معلومات "هوية" الهدف.

يمكننا أن نرى هذا المبدأ عمليًا في الصورة أدناه ، حيث تم الحصول على اتجاهات رأس مختلفة باستخدام صور CGI كمبدأ توجيهي. نظرًا لأن ميزات الهوية غير مرتبطة بالسمات السياقية ، فلا يوجد أي تجاوز في المظهر الاصطناعي المزيف لوجه CGI ، ولا الهوية الموضحة فيه:

باستخدام الطريقة الجديدة ، لن تحتاج إلى العثور على ثلاث صور منفصلة من مصادر الحياة الواقعية لتفعيل التزييف العميق من زوايا متعددة - يمكنك فقط تدوير رأس CGI ، الذي يتم فرض ميزاته المجردة عالية المستوى على الهوية دون تسريب أي معرف معلومة.

باستخدام الطريقة الجديدة ، لن تحتاج إلى العثور على ثلاث صور منفصلة من مصادر الحياة الواقعية لتفعيل التزييف العميق من زوايا متعددة - يمكنك فقط تدوير رأس CGI ، الذي يتم فرض ميزاته المجردة عالية المستوى على الهوية دون تسريب أي معرف معلومة.

دلتا- جان- التشفير. المجموعة اليسرى العلوية: يمكن تغيير زاوية الصورة المصدر في ثانية لتقديم صورة مصدر جديدة ، والتي تنعكس في الإخراج ؛ المجموعة العلوية اليمنى: يتم فصل الإضاءة أيضًا عن الهوية ، مما يسمح بتراكب أنماط الإضاءة ؛ المجموعة السفلية اليسرى: يتم تغيير تفاصيل الوجه المتعددة لإنشاء تعبير "حزين" ؛ المجموعة السفلية اليمنى: يتم تغيير أحد تفاصيل تعبيرات الوجه ، بحيث تغرق العينان.

دلتا- جان- التشفير. المجموعة اليسرى العلوية: يمكن تغيير زاوية الصورة المصدر في ثانية لتقديم صورة مصدر جديدة ، والتي تنعكس في الإخراج ؛ المجموعة العلوية اليمنى: يتم فصل الإضاءة أيضًا عن الهوية ، مما يسمح بتراكب أنماط الإضاءة ؛ المجموعة السفلية اليسرى: يتم تغيير تفاصيل الوجه المتعددة لإنشاء تعبير "حزين" ؛ المجموعة السفلية اليمنى: يتم تغيير أحد تفاصيل تعبيرات الوجه ، بحيث تغرق العينان.

يتحقق هذا الفصل بين الهوية والسياق في مرحلة التدريب. يبحث خط الأنابيب الخاص بهندسة التزييف العميق الجديد عن المتجه الكامن في شبكة خصومة توليدية (GAN) مُدرَّبة مسبقًا تتطابق مع الصورة المراد تحويلها - وهي منهجية Sim2Real مبنية على 2018 تنفيذ المشاريع من قسم أبحاث الذكاء الاصطناعي في IBM.

لاحظ الباحثون:

مع عدد قليل فقط من العينات ، والتي تختلف حسب سمة معينة ، يمكن للمرء أن يتعلم السلوك غير المتشابك لنموذج توليدي متشابك تم تدريبه مسبقًا. ليست هناك حاجة لعينات دقيقة من العالم الحقيقي للوصول إلى هذا الهدف ، وهو أمر غير ممكن بالضرورة.

باستخدام عينات بيانات غير واقعية ، يمكن تحقيق نفس الهدف بفضل الاستفادة من دلالات المتجهات الكامنة المشفرة. يمكن تطبيق التغييرات المطلوبة على عينات البيانات الحالية بدون استكشاف سلوك فضائي كامن صريح.

يتوقع الباحثون أن المبادئ الأساسية لفك التشابك التي تم استكشافها في المشروع يمكن نقلها إلى مجالات أخرى ، مثل محاكاة العمارة الداخلية ، وأن طريقة Sim2Real المعتمدة لـ Delta-GAN-Encoder يمكن في النهاية تمكين أداة التزييف العميق على أساس الرسومات فقط ، بدلاً من مدخلات على غرار CGI.

يمكن القول إن المدى الذي قد يكون أو لا يكون فيه النظام الإسرائيلي الجديد قادرًا على توليف مقاطع فيديو التزييف العميق أقل أهمية بكثير من التقدم الذي أحرزه البحث في فصل السياق عن الهوية ، في عملية اكتساب المزيد من السيطرة على الفضاء الكامن من GAN.

فك التشابك هو مجال بحث نشط في تركيب الصور ؛ في يناير 2021 ، بحث بقيادة أمازون ورقة أظهر نفس التحكم في الوضع وفك التشابك ، وفي عام 2018 أ ورقة من معاهد Shenzhen للتكنولوجيا المتقدمة في الأكاديمية الصينية للعلوم أحرزت تقدمًا في توليد وجهات نظر عشوائية في GAN.