الذكاء الاصطناعي
فك التشابك هو ثورة التزييف العميق التالية
يتم استخدام زيادة بيانات CGI في مشروع جديد للحصول على تحكم أكبر في صور التزييف العميق. على الرغم من أنك لا تزال غير قادر على استخدام رؤوس CGI بشكل فعال لملء الفجوات المفقودة في مجموعات بيانات الوجه Deepfake ، فإن موجة جديدة من البحث في فك تشابك الهوية من السياق تعني أنه قد لا تضطر إلى ذلك قريبًا.
يختار منشئو بعض مقاطع الفيديو الفيروسية الأكثر نجاحًا في السنوات القليلة الماضية مقاطع الفيديو المصدر الخاصة بهم بعناية شديدة ، وتجنب لقطات الملف الشخصي المستمرة (أي نوع الصور الجانبية التي اشتهرت بإجراءات اعتقال الشرطة) ، والزوايا الحادة والتعبيرات غير العادية أو المبالغ فيها . على نحو متزايد ، يتم تحرير مقاطع الفيديو التوضيحية التي أنتجها صانعو الديب فيروسات التي تحدد الزوايا والتعبيرات "الأسهل" للتزييف العميق.
في الواقع ، فإن الفيديو المستهدف الأكثر ملاءمة لإدراج شخص مشهور هو الفيديو الذي ينظر فيه الشخص الأصلي (الذي سيتم محو هويته بواسطة التزييف العميق) مباشرة إلى الكاميرا ، مع الحد الأدنى من التعبيرات.
لأن تقنيات deepfake مثل ديب فيس لاب و تبديل الوجه أداء هذه المقايضات الأبسط بشكل جيد للغاية ، فنحن مبهورون بما فيه الكفاية بما أنجزوه حتى لا نلاحظ ما هم غير قادرين عليه ، و- في كثير من الأحيان- لا نحاول:
أبحاث جديدة من إسرائيل يقترح طريقة جديدة لاستخدام البيانات الاصطناعية، مثل رؤوس CGI، لجلب التزييف العميق إلى عشرينيات القرن الحالي، من خلال فصل هويات الوجه (أي خصائص الوجه الأساسية لـ "توم كروز"، من جميع الزوايا) عن سياقها (أي يبحث, يبحث بشكل جانبي, مقطب, عابس في الظلام, تجعد الحواجب, عيون مغلقة، وما إلى ذلك).
هذا ليس مجرد التزييف العميق للعرائس، وهي تقنية أكثر ملاءمة للصور الرمزية والتزامن الجزئي للشفاه ، ولها إمكانات محدودة لإجراء تحويلات فيديو كاملة التزييف العميق.
بدلاً من ذلك ، يمثل هذا طريقة للمضي قدمًا في فصل أساسي للأداة (مثل "تغيير زاوية الرأس", "خلق عبوس") من الهوية ، مما يوفر طريقًا إلى إطار عمل التزييف العميق المستند إلى تركيب الصورة عالي المستوى بدلاً من `` المشتق ''.
الورقة الجديدة بعنوان Delta-GAN-Encoder: ترميز التغييرات الدلالية لتحرير الصور الصريح ، باستخدام عدد قليل من العينات الاصطناعية، ويأتي من باحثين في التخنيون - المعهد الإسرائيلي للتكنولوجيا.
لفهم ما يعنيه العمل ، دعنا نلقي نظرة على كيفية إنتاج التزييف العميق حاليًا في كل مكان بدءًا من المواقع الإباحية المزيفة إلى الضوء الصناعي والسحر (نظرًا لأن مستودع DeepFaceLab مفتوح المصدر مهيمن حاليًا في كل من التزييف العميق "للهواة" والمحترفين).
ما الذي يعوق تقنية Deepfake الحالية؟
يتم حاليًا إنشاء Deepfakes عن طريق تدريب التشفير / فك التشفير نموذج التعلم الآلي في مجلدين من صور الوجه - الشخص الذي تريد "التلوين فوقه" (في المثال السابق، هذا هو Arnie) والشخص الذي تريد تركيبه في اللقطات (Sly).
ثم نظام التشفير / فك التشفير يقارن كل صورة في كل مجلد لبعضهم البعض ، مما يحافظ على هذه العملية ويحسنها ويكررها لمئات الآلاف من التكرارات (غالبًا لمدة تصل إلى أسبوع) ، حتى يفهم الخصائص الأساسية لكلا الهويتين جيدًا بما يكفي لتبديلها حسب الرغبة.
لكل من الشخصين اللذين يتم تبادلهما في العملية ، ما تتعلمه هندسة التزييف العميق عن الهوية متشابكا مع السياق. لا يمكنه تعلم وتطبيق مبادئ حول الوضع العام "للخير والجميع" ، ولكنه يحتاج إلى أمثلة وفيرة في مجموعة بيانات التدريب ، لكل هوية سيتم تضمينها في تبادل الوجه.
لذلك ، إذا كنت تريد تبديل هويتين تقومان بشيء غير عادي أكثر من مجرد الابتسام أو النظر مباشرة إلى الكاميرا ، فستحتاج إلى كثير أمثلة على ذلك الوضع / الهوية الخاصة عبر مجموعتي الوجوه:
إذا احتوت المجموعة A على الوضع غير المعتاد ، لكن المجموعة B تفتقر إليه ، فأنت محظوظ إلى حد كبير ؛ بغض النظر عن المدة التي تقوم فيها بتدريب النموذج ، فلن يتعلم أبدًا إعادة إنتاج هذا الوضع جيدًا بين الهويات ، لأنه كان يحتوي فقط على نصف المعلومات الضرورية عندما تم تدريبه.
حتى إذا كانت لديك صور متطابقة ، فقد لا يكون ذلك كافيًا: إذا كانت المجموعة A تحتوي على الوضعية المطابقة ، ولكن مع إضاءة جانبية قاسية ، مقارنة بالوضع المكافئ ذي الإضاءة المسطحة في مجموعة الوجوه الأخرى ، فإن جودة المبادلة تفوز ستكون جيدة كما لو أن كل واحدة منها تشترك في خصائص الإضاءة المشتركة.
لماذا ندرة البيانات
ما لم يتم القبض عليك بانتظام ، فمن المحتمل ألا يكون لديك كل هذا العدد من اللقطات الجانبية لنفسك. أي شيء جاء ، من المحتمل أنك تخلصت منه. نظرًا لأن وكالات الصور تفعل الشيء نفسه ، فمن الصعب الحصول على لقطات وجه للملف الشخصي.
غالبًا ما يتضمن Deepfakers نسخًا متعددة من بيانات الملف الشخصي المحدودة للعرض الجانبي التي لديهم للهوية في مجموعة الوجوه ، فقط بحيث تحصل هذه الوضعية على الأقل على القليل الاهتمام والوقت أثناء التدريب ، بدلاً من أن يتم خصمه على أنه شاذ.
ولكن هناك العديد من الأنواع الممكنة لصور وجه العرض الجانبي أكثر من المحتمل أن تكون متاحة للتضمين في مجموعة البيانات - باسم, عابس, صراخ, بكاء, مضاءة بشكل غامق, الازدراء, بالملل, مرح, فلاش مضاء, يبحث, انظر اسفل, عيون مفتوحة, أغمض عينك…وما إلى ذلك وهلم جرا. قد تكون هناك حاجة إلى أي من هذه الأوضاع ، في مجموعات متعددة ، في فيديو هدف التزييف العميق المستهدف.
وهذه مجرد ملفات شخصية. كم عدد الصور التي لديك لنفسك تبحث مباشرة حتى؟ هل لديك ما يكفي لتمثيل نطاق واسع 10,000 تعبير ممكن قد ترتديها أثناء حمل هذا الوضع الدقيق من زاوية الكاميرا بالضبط ، وتغطي على الأقل بعضًا من مليون بيئة إضاءة ممكنة?
هناك احتمالات ، ليس لديك حتى صورة واحدة؟ صورة لنفسك تبحث. وهذه مجرد زاويتين من بين مائة أو أكثر اللازمة للتغطية الكاملة.
حتى لو كان من الممكن إنشاء تغطية كاملة للوجه من جميع الزوايا في ظل مجموعة من ظروف الإضاءة ، فإن مجموعة البيانات الناتجة ستكون كبيرة جدًا بحيث لا يمكن تدريبها ، بترتيب مئات الآلاف من الصور ؛ وحتى لو كان كذلك استطاع أن يتم تدريبهم ، فإن طبيعة عملية التدريب لأطر عمل التزييف العميق الحالية من شأنها التخلص من الغالبية العظمى من تلك البيانات الإضافية لصالح عدد محدود من الميزات المشتقة ، لأن الأطر الحالية مختزلة وليست قابلة للتطوير بشكل كبير.
استبدال اصطناعي
منذ فجر تقنية deepfakes ، جرب صانعو deepfakers استخدام صور بأسلوب CGI ، ورؤوس مصنوعة في تطبيقات ثلاثية الأبعاد مثل Cinema3D و Maya ، لإنشاء تلك "الأوضاع المفقودة".
يتم التخلي عن هذه الطريقة بشكل عام مبكرًا من قبل ممارسي التزييف العميق الجديد ، لأنه على الرغم من أنها يمكن أن توفر أوضاعًا وتعبيرات غير متوفرة بخلاف ذلك ، إلا أن المظهر التركيبي لوجوه CGI يتدفق عادةً إلى المقايضات بسبب تشابك المعرف والمعلومات السياقية / الدلالية.
يمكن أن يؤدي هذا إلى وميض مفاجئ لوجوه `` الوادي الخارق '' في فيديو مزيف عميق مقنع ، حيث تبدأ الخوارزمية في الاعتماد على البيانات الوحيدة التي قد تكون لديها لوضع أو تعبير غير عادي - وجوه مزيفة بشكل واضح.
وجوه CGI كمبادئ توجيهية مفاهيمية منفصلة
بدلاً من ذلك ، تعد طريقة Delta-GAN Encoder (DGE) الجديدة من الباحثين الإسرائيليين أكثر فاعلية ، لأن معلومات الوضع والسياق من صور CGI تم فصلها تمامًا عن معلومات "هوية" الهدف.
يمكننا أن نرى هذا المبدأ عمليًا في الصورة أدناه ، حيث تم الحصول على اتجاهات رأس مختلفة باستخدام صور CGI كمبدأ توجيهي. نظرًا لأن ميزات الهوية غير مرتبطة بالسمات السياقية ، فلا يوجد أي تجاوز في المظهر الاصطناعي المزيف لوجه CGI ، ولا الهوية الموضحة فيه:
يتحقق هذا الفصل بين الهوية والسياق في مرحلة التدريب. يبحث خط الأنابيب الخاص بهندسة التزييف العميق الجديد عن المتجه الكامن في شبكة خصومة توليدية (GAN) مُدرَّبة مسبقًا تتطابق مع الصورة المراد تحويلها - وهي منهجية Sim2Real مبنية على 2018 تنفيذ المشاريع من قسم أبحاث الذكاء الاصطناعي في IBM.
لاحظ الباحثون:
مع عدد قليل فقط من العينات ، والتي تختلف حسب سمة معينة ، يمكن للمرء أن يتعلم السلوك غير المتشابك لنموذج توليدي متشابك تم تدريبه مسبقًا. ليست هناك حاجة لعينات دقيقة من العالم الحقيقي للوصول إلى هذا الهدف ، وهو أمر غير ممكن بالضرورة.
باستخدام عينات بيانات غير واقعية ، يمكن تحقيق نفس الهدف بفضل الاستفادة من دلالات المتجهات الكامنة المشفرة. يمكن تطبيق التغييرات المطلوبة على عينات البيانات الحالية بدون استكشاف سلوك فضائي كامن صريح.
يتوقع الباحثون أن المبادئ الأساسية لفك التشابك التي تم استكشافها في المشروع يمكن نقلها إلى مجالات أخرى ، مثل محاكاة العمارة الداخلية ، وأن طريقة Sim2Real المعتمدة لـ Delta-GAN-Encoder يمكن في النهاية تمكين أداة التزييف العميق على أساس الرسومات فقط ، بدلاً من مدخلات على غرار CGI.
يمكن القول إن المدى الذي قد يكون أو لا يكون فيه النظام الإسرائيلي الجديد قادرًا على توليف مقاطع فيديو التزييف العميق أقل أهمية بكثير من التقدم الذي أحرزه البحث في فصل السياق عن الهوية ، في عملية اكتساب المزيد من السيطرة على الفضاء الكامن من GAN.
فك التشابك هو مجال بحث نشط في تركيب الصور ؛ في يناير 2021 ، بحث بقيادة أمازون ورقة أظهر نفس التحكم في الوضع وفك التشابك ، وفي عام 2018 أ ورقة من معاهد Shenzhen للتكنولوجيا المتقدمة في الأكاديمية الصينية للعلوم أحرزت تقدمًا في توليد وجهات نظر عشوائية في GAN.