الذكاء الاصطناعي
إعادة تحديد بيانات المصدر لمولدات GAN

اقترح بحث جديد من فرنسا تقنية "لإعادة تحديد" هويات المصدر التي ساهمت في البيانات المولدة صناعياً، مثل "الأشخاص غير الموجودين" المولدين بواسطة شبكة GAN في مشاريع توليد الوجوه مثل هذا الشخص غير موجود.
الطريقة الموضحة في الورقة، مخول هذا الشخص (على الأرجح) موجود. هجمات عضوية الهوية ضد الوجوه التي تم إنشاؤها في GAN، لا يتطلب (غير مرجح) الوصول إلى بنية التدريب أو بيانات النموذج ، ويمكن تطبيقه على مجموعة متنوعة من التطبيقات التي يتم استخدام شبكات الخصومة التوليدية يتم حاليًا استكشاف (GANs) كطرق إما لإخفاء هوية معلومات التعريف الشخصية (PII)، أو كوسيلة لإنشاء بيانات تركيبية مع حماية المواد المصدر.
صاغ الباحثون طريقة تسمى هجوم عضوية الهوية، الذي يقيم احتمالية ظهور هوية واحدة كثيرا في مجموعة بيانات مساهمة ، بدلاً من محاولة إدخال خصائص معينة للهوية (أي على مجموعات البكسل للصورة الأصلية التي تم استخدامها لتدريب النموذج التوليدي).
في الصورة أعلاه ، من البحث ، يبدأ كل صف بصورة تم إنشاؤها بواسطة GAN بواسطة StyleGAN. تم إنشاء الكتلة اليسرى للصور من قاعدة بيانات تضم 40,000 صورة ، والجزء الأوسط من 80,000 صورة والكتلة اليمنى من 46,000 صورة. تأتي جميع الصور من مجموعة البيانات VGG2Face2.
بعض العينات لها تشابه عابر ، في حين أن البعض الآخر يرتبط بقوة ببيانات التدريب. تم التعرف على الوجوه بنجاح من قبل الباحثين باستخدام شبكة التعرف على الوجوه.
أكثر من القيمة الاسمية
مناهج إعادة تحديد الهوية من هذا النوع لها آثار متعددة في العديد من مجالات البحث ؛ يؤكد الباحثون ، ومقرهم في جامعة كاين في نورماندي ، أن أسلوبهم لا يقتصر على مجموعات الوجوه وأطر GAN المولدة للوجه ، ولكنه ينطبق أيضًا على مجموعات بيانات التصوير الطبي وبيانات القياسات الحيوية ، من بين أسطح هجوم محتملة أخرى في تركيب الصور إطار أعمال.
نعتقد أنه في حال نجاح هذا الهجوم، فإنه سيُشكل عائقًا كبيرًا أمام التبادل الآمن لشبكات GAN في السياقات الحساسة. على سبيل المثال، في سياق اللوحات أو غيرها من الأعمال الفنية، قد يُستبعد توزيع مُولّد غير خاص لأسباب واضحة تتعلق بحقوق النشر. والأهم من ذلك، لنفترض أن شركة بيومترية (أ) تُصدر مُولّدًا يكشف هوية مُستهلكيها. قد تتمكن شركة أخرى (ب) من اكتشاف أيٍّ من مُستهلكيها هم أيضًا عملاء للشركة (أ). قد تُشكل مواقف مماثلة مشاكل خطيرة للبيانات الطبية، حيث قد يُؤدي الكشف عن شبكة GAN إلى خرق المعلومات الشخصية المتعلقة بمرض أحد المرضى.
إعادة تحديد البيانات الخاصة أو التي تم نسخها من الويب بطريقة غير مشروعة
على الرغم من أن الورقة لا تلمس الموضوع إلا بشكل طفيف ، فإن القدرة على تحديد بيانات المصدر الأصلية من الإخراج الملخص (مثل الوجوه المولدة من GAN ، على الرغم من أن هذا ينطبق بشكل متساوٍ على أنظمة التشفير / فك التشفير وغيرها من البنى) آثار ملحوظة لتطبيقات حماية حقوق التأليف والنشر على مدى السنوات الخمس إلى العشر القادمة.
حاليا معظم البلدان تعمل عدم التدخل مبدأ في الإقتصاد نهجٌ مُتَّبعٌ لجمع بيانات الويب المُتاحة للعامة، وذلك لتجنب التخلف عن الركب في مرحلة تطوير اقتصادات التعلم الآلي القادمة. ومع تزايد اعتماد هذا المناخ على التجارة الإلكترونية وترسيخه، ثمة إمكانية كبيرة لظهور جيل جديد من "متصيدي البيانات" لتقديم مطالبات بحقوق الطبع والنشر على صورٍ ثبت استخدامها تاريخيًا في مجموعات بيانات ساهمت في خوارزميات التعلم الآلي.
نظرًا لأن الخوارزميات المطورة تنضج وتصبح أكثر قيمة بمرور الوقت ، فإن أي صور غير مسموح بها تم استخدامها في تطورها المبكر ، والتي يمكن الاستدلال عليها من مخرجاتها بطرق مماثلة لتلك المقترحة في الورقة الفرنسية الجديدة ، هي مسؤولية قانونية محتملة على مقياس SCO Vs IBM (دعوى قضائية أسطورية طويلة الأمد للتكنولوجيا يواصل التهديد نظام التشغيل Linux).
استغلال المواجهة المكسيكية للتنوع مقابل التردد
تستغل التقنية الأساسية التي استخدمها الباحثون الفرنسيون تكرار صور مجموعة البيانات الأصلية كمفتاح لإعادة تحديد الهوية. كلما تم العثور على هوية معينة في مجموعة البيانات بشكل متكرر ، زادت احتمالية إمكانية تحديد الهوية الأصلية ، من خلال ربط نتائج الهجوم بمجموعات البيانات المتاحة للجمهور أو الخاص.
لاحظ الباحثون أنه يمكن التخفيف من ذلك من خلال تضمين تنوع أكبر بكثير من البيانات (على سبيل المثال ، الوجوه) في مجموعة بيانات المصدر ، ومن خلال عدم تدريب مجموعة البيانات لفترة طويلة المفرط يحدث. تكمن المشكلة في ذلك في أن النموذج يجب أن يحقق بعد ذلك تجريدًا جيدًا في مساحة أبعاد أعلى بكثير ، وبكمية بيانات أكبر بكثير مما هو ضروري للغاية للحصول على نتائج تركيبية معقولة.
لتحقيق التعميم الأمثل من هذا النوع ، يعد أمرًا مكلفًا ويستغرق وقتًا طويلاً: ستحتاج المساحة الكامنة (جزء التحليل المعتمد من نموذج التعلم الآلي الذي يتم إدخال البيانات فيه) إلى مزيد من الموارد ؛ ستحتاج مجموعة البيانات إلى مزيد من التنظيم ؛ ونظرًا لأن كمية البيانات يجب أن تكون كبيرة ، يجب تحسين أحجام الدُفعات وجدولة الأسعار من أجل الجودة والمستويات العالية من التعميم ، بدلاً من سرعة التدريب والاقتصاد ، مما يؤدي إلى ارتفاع تكاليف التطوير وأوقات تطوير أطول.
علاوة على ذلك، يمكن للخوارزميات التوليدية المُفرطة في التجهيز أن تُنتج بيانات تركيبية واقعية للغاية، حتى لو لم تكن بيانات المخرجات (مثل الوجوه والخرائط والصور الطبية الحيوية، إلخ) مُجردة تمامًا، بل تتميز بخصائص مُميزة أكبر من بيانات المصدر مما هو مُتوقع - وهو اختصار مُغري. في ظل المناخ الحالي المُتقلب لقطاع التعلم الآلي، حيث تُحاول المبادرات الأصغر تحدي ريادة FAANG بموارد أقل (أو جذب الانتباه لشراء الشركة)، يُثير التساؤل حول ما إذا كانت المعايير سترتفع دائمًا إلى هذا الحد.
تلاحظ الورقة أيضًا أن تنوع نقاط بيانات المصدر (مثل الوجوه) لا يكفي في حد ذاته لمنع إعادة تحديد الهوية من خلال هذه الأساليب وما شابهها ، لأن التوقف المبكر عن التدريب يمكن أن يترك هويات المصدر غير مجردة بشكل كافٍ.













