الذكاء الاصطناعي
تشفير الصور ضد الاستخدام في أنظمة التزييف العميق وتركيب الصور

يتضمن أكثر خطوط الاستقصاء شهرة في قطاع الأبحاث المتنامي لمكافحة التزييف العميق أنظمة يمكنها التعرف على القطع الأثرية أو غيرها من الخصائص المميزة المفترضة للوجوه المزيفة أو المركبة أو المزيفة أو `` المحررة '' في محتوى الفيديو والصورة.
تستخدم هذه الأساليب مجموعة متنوعة من التكتيكات ، بما في ذلك كشف العمق, تعطيل انتظام الفيديو, الاختلافات في إضاءة الشاشة (في مكالمات الفيديو المباشرة التي يُحتمل أن تكون مزيفة) ، السمات البيومترية, مناطق الوجه الخارجي، وحتى قوى خفية من نظام اللاوعي البشري.
ما تشترك فيه هذه الطرق وما شابهها هو أنه بحلول وقت نشرها ، تكون الآليات المركزية التي يقاتلونها قد تم بالفعل تدريبها بنجاح على الآلاف أو مئات الآلاف من الصور التي تم إزالتها من الويب - وهي صور يمكن لأنظمة التشفير التلقائي من خلالها اشتقاق الميزات الرئيسية بسهولة وإنشاء نماذج يمكنها فرض هوية مزيفة بدقة في لقطات الفيديو أو الصور المركبة - حتى في الوقت الحقيقي.
باختصار ، بحلول الوقت الذي تكون فيه هذه الأنظمة نشطة ، يكون الحصان قد انطلق بالفعل.
الصور المعادية لبنى التزييف العميق / التوليف
عن طريق المزيد وقائي فيما يتعلق بتهديد التزييف العميق وتركيب الصور، فإن سلسلة من الأبحاث الأقل شهرة في هذا القطاع تتضمن الإمكانيات الكامنة في إنشاء كل تلك الصور المصدرية غير ودي نحو أنظمة تركيب الصور بالذكاء الاصطناعي ، عادةً بطرق غير محسوسة أو بالكاد محسوسة.
ومن الأمثلة على ذلك FakeTagger، مقترح عام 2021 من مؤسسات مختلفة في الولايات المتحدة وآسيا ، يقوم بترميز الرسائل إلى صور ؛ هذه الترميزات تقاوم عملية التعميم ، ويمكن استعادتها لاحقًا حتى بعد إزالة الصور من الويب وتدريبها في شبكة خصومة توليدية (GAN) من النوع الأكثر شهرة الذي تجسده thispersondoesnotexist.com ، و مشتقات عديدة.

يقوم FakeTagger بترميز المعلومات التي يمكن أن تنجو من عملية التعميم عند تدريب GAN ، مما يجعل من الممكن معرفة ما إذا كانت صورة معينة قد ساهمت في القدرات التوليدية للنظام. المصدر: https://arxiv.org/pdf/2009.09869.pdf
بالنسبة إلى ICCV 2021 ، تم بذل جهد دولي آخر بالمثل البصمات الاصطناعية للنماذج التوليدية، (انظر الصورة أدناه) والتي تنتج مرة أخرى "بصمات أصابع" قابلة للاسترداد من إخراج تجميع الصور GAN مثل StyleGAN2.

حتى في ظل مجموعة متنوعة من عمليات التلاعب الشديدة والقص وتبادل الوجه ، تظل بصمات الأصابع التي تمر عبر ProGAN قابلة للاسترداد. المصدر: https://arxiv.org/pdf/2007.08457.pdf
التكرارات الأخرى لهذا المفهوم تشمل أ مشروع 2018 من IBM و a مخطط العلامات المائية الرقمية في نفس العام من اليابان.
بشكل أكثر ابتكارًا ، عام 2021 . من جامعة نانجينغ للملاحة الجوية والملاحة الفضائية سعى إلى "تشفير" صور التدريب بطريقة تجعلهم يتدربون بشكل فعال فقط على الأنظمة المصرح بها ، لكنهم سيفشلون بشكل كارثي إذا تم استخدامها كبيانات مصدر في خط أنابيب التدريب على تركيب الصور العامة.
تندرج جميع هذه الأساليب بشكل فعال ضمن فئة إخفاء المعلومات ، ولكن في جميع الحالات ، يجب ترميز معلومات التعريف الفريدة في الصور على أنها "ميزة" أساسية للصورة بحيث لا توجد فرصة في أن تتجاهل بنية التشفير التلقائي أو بنية GAN مثل هذه بصمات الأصابع على أنها "ضوضاء" أو بيانات خارجية وغير أساسية ، ولكنها بدلاً من ذلك ستشفرها جنبًا إلى جنب مع ميزات الوجه الأخرى.
في الوقت نفسه ، لا يمكن السماح للعملية بتشويه الصورة أو التأثير عليها بصريًا بدرجة كبيرة بحيث يرى المشاهدون العاديون أنها بها عيوب أو أنها ذات جودة منخفضة.
تفيم
الآن ، اقترحت جهود بحثية ألمانية جديدة (من جامعة ميونيخ التقنية و Sony Europe RDC Stuttgart) تقنية ترميز الصور حيث ستنتج نماذج التزييف العميق أو إطارات من نوع StyleGAN التي يتم تدريبها على الصور المعالجة ناتجًا أزرق أو أبيض غير قابل للاستخدام ، على التوالي .

تعالج اضطرابات الصورة منخفضة المستوى في TAFIM عدة أنواع محتملة من تشويه / استبدال الوجه ، مما يجبر النماذج المدربة على الصور على إنتاج مخرجات مشوهة ، وذكر المؤلفون أنها قابلة للتطبيق حتى في سيناريوهات الوقت الفعلي مثل DeepFaceLive . المصدر: https://arxiv.org/pdf/2112.09151.pdf
ال ورقة، بعنوان TAFIM: هجمات عدائية مستهدفة ضد التلاعب بصور الوجه، يستخدم شبكة عصبية لتشفير اضطرابات بالكاد محسوسة في الصور. بعد أن يتم تدريب الصور وتعميمها في بنية تركيبية ، سينتج النموذج الناتج مخرجات متغيرة اللون لهوية الإدخال إذا تم استخدامها في خلط النمط أو تبديل الوجه المباشر.
إعادة ترميز الويب ..؟
ومع ذلك ، في هذه الحالة ، لسنا هنا لفحص التفاصيل والهندسة المعمارية لأحدث إصدار من هذا المفهوم الشائع ، ولكن بدلاً من ذلك للنظر في التطبيق العملي للفكرة بأكملها - لا سيما في ضوء الجدل المتزايد حول الاستخدام العام- كشط الصور لتشغيل أطر تركيب الصور مثل انتشار مستقر، والآثار القانونية اللاحقة لـ اشتقاق البرمجيات التجارية من المحتوى الذي قد (على الأقل في بعض الولايات القضائية) يثبت في النهاية أنه يتمتع بالحماية القانونية ضد الاستيعاب في البنى التوليفية للذكاء الاصطناعي.
المناهج الاستباقية القائمة على الترميز من النوع الموصوف أعلاه تأتي بدون تكلفة بسيطة. على أقل تقدير ، سيشملون إنشاء إجراءات ضغط جديدة وممتدة في مكتبات معالجة قياسية قائمة على الويب مثل يماغيماغيك، والتي تشغل عددًا كبيرًا من عمليات التحميل ، بما في ذلك العديد من واجهات تحميل الوسائط الاجتماعية ، والمكلفة بتحويل صور المستخدم الأصلية كبيرة الحجم إلى إصدارات محسّنة أكثر ملاءمة للمشاركة خفيفة الوزن وتوزيع الشبكة ، وأيضًا لإحداث تحويلات مثل المحاصيل ، و الزيادات الأخرى.
والسؤال الأساسي الذي يطرحه هذا هو: هل سيتم تنفيذ مثل هذا المخطط "للمضي قدمًا" ، أو هل سيكون هناك نية لنشر أوسع وأثر رجعي ، بحيث يعالج الإعلام التاريخي الذي ربما كان متاحًا ، "غير فاسد" ، لعقود؟
المنصات مثل Netflix هي لا كره على حساب إعادة ترميز كتالوج رجوع باستخدام برامج ترميز جديدة قد تكون أكثر كفاءة ، أو يمكن أن توفر مزايا المستخدم أو المزود ؛ وبالمثل ، فإن تحويل YouTube لمحتواه التاريخي إلى برنامج ترميز H.264 ، على ما يبدو لاستيعاب Apple TV، مهمة ضخمة من الناحية اللوجستية ، لم تكن تعتبر صعبة للغاية ، على الرغم من الحجم.
ومن المفارقات ، أنه حتى لو تعرضت أجزاء كبيرة من محتوى الوسائط على الإنترنت لإعادة الترميز إلى تنسيق يقاوم التدريب ، فإن كادر محدود من مجموعات بيانات الرؤية الحاسوبية المؤثرة سيبقى غير متأثر. ومع ذلك ، من المفترض أن الأنظمة التي تستخدمها كبيانات أولية ستبدأ في التقلص من حيث جودة المخرجات ، حيث سيتداخل المحتوى ذو العلامة المائية مع العمليات التحويلية للبنى التحتية.
الصراع السياسي
من الناحية السياسية ، هناك توتر واضح بين تصميم الحكومات على عدم التخلف عن الركب في تطوير الذكاء الاصطناعي ، وتقديم تنازلات للقلق العام بشأن الاستخدام المخصص لمحتوى الصوت والفيديو والصورة المتاح علنًا على الإنترنت كمورد وفير. لأنظمة الذكاء الاصطناعي التحويلية.
من الناحية الرسمية، تميل الحكومات الغربية إلى التساهل فيما يتعلق بقدرة قطاع أبحاث الرؤية الحاسوبية على الاستفادة من وسائل الإعلام المتاحة للجمهور، لأسباب ليس أقلها أن بعض الدول الآسيوية الأكثر استبدادية لديها مجال أكبر بكثير لتشكيل سير العمل التنموي الخاص بها بطريقة يفيد جهودهم البحثية - مجرد واحد من العوامل التي يشير إلى أن الصين أصبحت رائدة عالميًا في مجال الذكاء الاصطناعي.
في أبريل من عام 2022 ، محكمة الاستئناف الأمريكية وأكد أن بيانات الويب التي تواجه الجمهور هي لعبة عادلة للأغراض البحثية ، على الرغم من الاحتجاجات المستمرة من LinkedIn ، والتي رغبات يجب حماية ملفات تعريف المستخدمين الخاصة به من مثل هذه العمليات.
إذا لم تصبح الصور المقاومة للذكاء الاصطناعي معيارًا على مستوى النظام ، فلا يوجد ما يمنع بعض المصادر الرئيسية لبيانات التدريب من تنفيذ مثل هذه الأنظمة ، بحيث تصبح مخرجاتها غير منتجة في المساحة الكامنة.
العامل الأساسي في عمليات النشر الخاصة بالشركة هو أن الصور يجب أن تكون كذلك مقاومة بالفطرة للتدريب. تقنيات وحركات المصدر القائمة على blockchain مثل مبادرة أصالة المحتوى، يهتمون أكثر بإثبات أن الصورة قد تم تزويرها أو "تم منحها نمطًا" ، بدلاً من منع الآليات التي تجعل مثل هذه التحولات ممكنة.
التفتيش العرضي
بينما تم تقديم مقترحات لاستخدام أساليب blockchain للمصادقة على الأصل الحقيقي ومظهر صورة المصدر التي ربما تم استيعابها لاحقًا في مجموعة بيانات التدريب ، فإن هذا في حد ذاته لا يمنع تدريب الصور ، أو يوفر أي طريقة لإثبات ، من إخراج هذه الأنظمة ، تم تضمين الصور في مجموعة بيانات التدريب.
في نهج العلامة المائية لاستبعاد الصور من التدريب ، سيكون من المهم عدم الاعتماد على صور المصدر لمجموعة بيانات مؤثرة متاحة للجمهور للتفتيش. للإستجابة ل صيحات الفنانين حول الابتلاع الليبرالي لـ Stable Diffusion لعملهم ، الموقع الإلكتروني hasibeentrained.com يسمح للمستخدمين بتحميل الصور والتحقق مما إذا كان من المحتمل تضمينها في ملف لايون 5 ب مجموعة البيانات التي تدعم الانتشار المستقر:

"لينا" ، التي كانت حرفياً فتاة الملصقات لأبحاث الرؤية الحاسوبية حتى وقت قريب ، هي بالتأكيد مساهم في الانتشار المستقر. المصدر: https://haveibeentrained.com/
ومع ذلك ، فإن جميع مجموعات بيانات التزييف العميق تقريبًا ، على سبيل المثال ، يتم رسمها عرضًا من مقاطع الفيديو والصور المستخرجة على الإنترنت ، إلى قواعد البيانات غير العامة حيث يمكن فقط لنوع من العلامات المائية المقاومة للأعصاب أن تعرض استخدام صور معينة لإنشاء الصور المشتقة والفيديو.
علاوة على ذلك ، بدأ مستخدمو Stable Diffusion في إضافة محتوى - إما من خلال الضبط الدقيق (مواصلة تدريب نقطة التفتيش الرسمية مع أزواج إضافية من الصور / النص) أو Textual Inversion ، والذي يضيف عنصرًا أو شخصًا واحدًا محددًا - لن يظهر في أي البحث في مليارات الصور من LAION.
تضمين العلامات المائية في المصدر
التطبيق المحتمل الأكثر تطرفًا للعلامة المائية للصورة المصدر هو تضمين معلومات محجوبة وغير واضحة في مخرجات الالتقاط الأولية أو الفيديو أو الصور للكاميرات التجارية. على الرغم من تجربة هذا المفهوم وحتى تنفيذه ببعض القوة في أوائل العقد الأول من القرن الحادي والعشرين، كرد فعل على "التهديد" الناشئ لقرصنة الوسائط المتعددة، إلا أن المبدأ قابل للتطبيق تقنيًا أيضًا لغرض جعل محتوى الوسائط مقاومًا أو طاردًا للتدريب على التعلم الآلي. أنظمة.
إحدى عمليات التنفيذ ، التي تمت مناقشتها في طلب براءة اختراع من أواخر التسعينيات ، اقترحت استخدام تحويلات جيب التمام المنفصلة لتضمين "الصور الفرعية" المخفية في الفيديو والصور الثابتة ، مما يشير إلى أنه يمكن "دمج الروتين كميزة مضمنة لأجهزة التسجيل الرقمية ، مثل الكاميرات الثابتة وكاميرات الفيديو".

في طلب براءة اختراع من أواخر التسعينيات ، فإن Lenna مشبعة بعلامات مائية غامضة يمكن استعادتها عند الضرورة. المصدر: https://www.freepatentsonline.com/6983057.pdf
تتمثل الطريقة الأقل تعقيدًا في فرض علامات مائية مرئية بوضوح على الصور على مستوى الجهاز - وهي ميزة غير جذابة لمعظم المستخدمين ، ومتكررة في حالة الفنانين والعاملين في مجال الإعلام المحترفين ، القادرين على حماية بيانات المصدر وإضافة مثل هذه العلامات التجارية أو المحظورات التي يرونها مناسبة (ليس أقلها شركات الصور المالية).
وإن كان على الأقل كاميرا واحدة يسمح حاليًا بفرض علامة مائية اختيارية قائمة على الشعار يمكن ذلك إشارة استخدام غير مصرح به في نموذج AI مشتق ، أصبحت إزالة الشعار عبر AI تافه جدا، وحتى عرضًا تجاريًا.
نُشر لأول مرة في 25 سبتمبر 2022.