الذكاء الاصطناعي

يمكن استعادة الهويات الحقيقية من مجموعات البيانات الاصطناعية

تم النشر 6 تشرين الثاني، 2024

مارتن أندرسون

صور مقارنة نموذجية من ورقة بحثية بعنوان "كشف الوجوه الاصطناعية: كيف يمكن لمجموعات البيانات الاصطناعية الكشف عن الهويات الحقيقية"، بما في ذلك الصور الأصلية (أعلى)، والصور المستنتجة (أسفل).

إذا كان عام 2022 يمثل اللحظة التي جذبت فيها الإمكانات التخريبية للذكاء الاصطناعي لأول مرة اهتمامًا عامًا واسع النطاق، فإن عام 2024 سيكون العام الذي أصبحت فيه الأسئلة حول شرعية البيانات الأساسية الخاصة به محور الاهتمام بالنسبة للشركات الحريصة على تسخير قوتها.

الولايات المتحدة الأمريكية مبدأ الاستخدام العادل، جنبًا إلى جنب مع الترخيص العلمي الضمني الذي سمح لفترة طويلة للقطاعات البحثية الأكاديمية والتجارية باستكشاف الذكاء الاصطناعي التوليدي، أصبح غير قابل للاستمرار بشكل متزايد مع تزايد دليل على الانتحال ظهرت على السطح. وفي وقت لاحق، قامت الولايات المتحدة، في الوقت الحالي، غير مسموح بها المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي من حقوق الطبع والنشر.

هذه الأمور بعيدة كل البعد عن التسوية، وبعيدة كل البعد عن الحل الوشيك؛ ففي عام 2023، ويرجع ذلك جزئيًا إلى تزايد الاهتمام الإعلامي والعامة فيما يتعلق بالوضع القانوني للناتج الناتج عن الذكاء الاصطناعي، أطلق مكتب حقوق النشر الأمريكي تحقيقًا استمر لسنوات في هذا الجانب من الذكاء الاصطناعي التوليدي والنشر الجزء الأول (بخصوص النسخ الرقمية) في يوليو 2024.

وفي الوقت نفسه، لا تزال المصالح التجارية تشعر بالإحباط إزاء احتمال أن تؤدي النماذج الباهظة الثمن التي ترغب في استغلالها إلى تعريضها لعواقب قانونية عندما تظهر التشريعات والتعريفات النهائية في نهاية المطاف.

كان الحل قصير الأجل، وهو حل باهظ التكلفة، هو إضفاء الشرعية على النماذج التوليدية من خلال تدريبها على بيانات يحق للشركات استغلالها. وقد سمح برنامج Adobe لتحويل النص إلى صورة (والآن نص إلى فيديو) تعتمد هندسة Firefly بشكل أساسي على شراء من مجموعة صور فوتوليا المخزنة في عام 2014، مكمل من خلال استخدام بيانات المجال العام التي انتهت حقوق الطبع والنشر الخاصة بها*. وفي الوقت نفسه، قام موردو الصور الفوتوغرافية الحاليون مثل Getty وShutterstock رسملة وتتزايد أهمية القيمة الجديدة لبياناتها المرخصة، مع وجود عدد متزايد من الصفقات لترخيص المحتوى أو تطوير أنظمة GenAI الخاصة بها المتوافقة مع الملكية الفكرية.

الحلول الاصطناعية

منذ إزالة البيانات المحمية بحقوق الطبع والنشر من المدربين مساحة كامنة من نموذج الذكاء الاصطناعي هو مليئة بالمشاكلإن الأخطاء في هذا المجال قد تكون مكلفة للغاية بالنسبة للشركات التي تجرب حلولاً للمستهلكين والشركات تستخدم التعلم الآلي.

حل بديل وأرخص بكثير لأنظمة الرؤية الحاسوبية (و أيضا نماذج اللغة الكبيرة، أو ماجستير)، هو استخدام البيانات الاصطناعيةحيث تتكون مجموعة البيانات من أمثلة تم إنشاؤها عشوائيًا للمجال المستهدف (مثل الوجوه أو القطط أو الكنائس أو حتى مجموعة بيانات أكثر عمومية).

لقد عملت مواقع مثل thispersondoesnotexist.com منذ فترة طويلة على ترويج فكرة مفادها أنه من الممكن توليف صور تبدو حقيقية لأشخاص "غير حقيقيين" (في هذه الحالة الخاصة، من خلال الشبكات التنافسية التوليدية، أو شبكات GAN) دون أن تكون لها أي علاقة بالأشخاص الموجودين فعليًا في العالم الحقيقي.

لذلك، إذا قمت بتدريب نظام التعرف على الوجه أو نظام توليدي على مثل هذه الأمثلة المجردة وغير الحقيقية، فيمكنك من الناحية النظرية الحصول على معيار واقعي للإنتاجية لنموذج الذكاء الاصطناعي دون الحاجة إلى التفكير فيما إذا كانت البيانات قابلة للاستخدام قانونيًا.

تحقيق التوازن بين قانون

المشكلة هنا هي أن الأنظمة التي تنتج بيانات مصطنعة يتم تدريبها على بيانات حقيقية. وإذا تسربت آثار تلك البيانات إلى البيانات المصطنعة، فإن هذا من شأنه أن يوفر دليلاً على أن مواد محظورة أو غير مصرح بها قد تم استغلالها لتحقيق مكاسب مالية.

لتجنب هذا، ومن أجل إنتاج صور "عشوائية" حقيقية، تحتاج مثل هذه النماذج إلى التأكد من أنها جيدةالمعممة. تعميم هو مقياس قدرة نموذج الذكاء الاصطناعي المدرب على فهم المفاهيم عالية المستوى بشكل جوهري (مثل 'وجه', 'رجل'، أو 'امرأة') دون اللجوء إلى تكرار بيانات التدريب الفعلية.

لسوء الحظ، قد يكون من الصعب على الأنظمة المدربة إنتاج (أو التعرف) تفاصيل حبيبية ما لم يتم تدريبه بشكل مكثف على مجموعة بيانات. وهذا يعرض النظام لمخاطر حفظ:الميل إلى إعادة إنتاج أمثلة من بيانات التدريب الفعلية، إلى حد ما.

يمكن التخفيف من ذلك من خلال ضبط الوضع بشكل أكثر استرخاءً معدل التعليم، أو عن طريق إنهاء التدريب في مرحلة حيث تكون المفاهيم الأساسية لا تزال مرنة وغير مرتبطة بأي نقطة بيانات محددة (مثل صورة محددة لشخص ما، في حالة مجموعة بيانات الوجه).

ومع ذلك، من المرجح أن تؤدي كلا من هذه العلاجات إلى نماذج ذات تفاصيل أقل دقة، لأن النظام لم يحصل على فرصة للتقدم إلى ما هو أبعد من "أساسيات" المجال المستهدف، وصولاً إلى التفاصيل.

لذلك، تُطبّق في الأدبيات العلمية عادةً معدلات تعلم عالية جدًا وجداول تدريب شاملة. وبينما يحاول الباحثون عادةً التوفيق بين قابلية التطبيق الواسعة والدقة في النموذج النهائي، فإن حتى الأنظمة التي تُحفظ قليلًا قد تُسيء تمثيل نفسها على أنها عامة بشكل جيد - حتى في الاختبارات الأولية.

كشف الوجه

وهذا يقودنا إلى ورقة بحثية جديدة مثيرة للاهتمام من سويسرا، والتي تدعي أنها الأولى التي تثبت أن الصور الأصلية الحقيقية التي تغذي البيانات الاصطناعية يمكن استعادتها من الصور المولدة التي ينبغي، من الناحية النظرية، أن تكون عشوائية تمامًا:

أمثلة على صور الوجوه المسربة من بيانات التدريب. في الصف أعلاه، نرى الصور الأصلية (الحقيقية)؛ وفي الصف أدناه، نرى صورًا تم إنشاؤها عشوائيًا، والتي تتفق بشكل كبير مع الصور الحقيقية. المصدر: https://arxiv.org/pdf/2410.24015

تشير النتائج، كما يجادل المؤلفون، إلى أن المولدات "التركيبية" قد حفظت بالفعل عددًا كبيرًا من نقاط بيانات التدريب، سعيًا منها لتحقيق دقة أكبر. كما تشير إلى أن الأنظمة التي تعتمد على البيانات التركيبية لحماية مُنتجي الذكاء الاصطناعي من العواقب القانونية قد تكون غير موثوقة في هذا الصدد.

أجرى الباحثون دراسة موسعة على ست مجموعات بيانات اصطناعية متطورة، وأثبتوا أنه في جميع الحالات، يمكن استعادة البيانات الأصلية (التي قد تكون محمية بحقوق الطبع والنشر أو محمية). وعلقوا على ذلك:

"تثبت تجاربنا أن مجموعات بيانات التعرف على الوجوه الاصطناعية الحديثة تحتوي على عينات قريبة جدًا من العينات الموجودة في بيانات التدريب الخاصة بنماذج المولدات الخاصة بها. في بعض الحالات، تحتوي العينات الاصطناعية على تغييرات صغيرة في الصورة الأصلية، ومع ذلك، يمكننا أيضًا ملاحظة أن العينة المولدة تحتوي في بعض الحالات على المزيد من التنوع (على سبيل المثال، وضع مختلف، حالة إضاءة، إلخ) مع الحفاظ على الهوية.

يشير هذا إلى أن نماذج المولدات تتعلم وتحفظ معلومات الهوية من بيانات التدريب، وقد تُولّد هويات متشابهة. وهذا يثير مخاوف بالغة بشأن استخدام البيانات الاصطناعية في المهام الحساسة للخصوصية، مثل القياسات الحيوية والتعرف على الوجوه.

استخدم ورقة بعنوان كشف الوجوه الاصطناعية: كيف يمكن لمجموعات البيانات الاصطناعية أن تكشف عن الهويات الحقيقية، ويأتي من باحثين من معهد أبحاث إيدياب في مارتيني، ومدرسة البوليتكنيك الفيدرالية في لوزان (EPFL)، وجامعة لوزان (UNIL) في لوزان.

الطريقة والبيانات والنتائج

تم الكشف عن الوجوه المحفوظة في الدراسة من خلال هجوم استدلال العضويةعلى الرغم من أن المفهوم يبدو معقدًا، إلا أنه واضح بذاته إلى حد ما: يشير استنتاج العضوية، في هذه الحالة، إلى عملية التشكيك في النظام حتى يكشف عن بيانات تتطابق مع البيانات التي تبحث عنها، أو تشبهها بشكل كبير.

أمثلة أخرى على مصادر البيانات المستنتجة من الدراسة. في هذه الحالة، الصور الاصطناعية المصدرية مأخوذة من مجموعة بيانات DCFace.

قام الباحثون بدراسة ست مجموعات بيانات مصطنعة كان مصدرها (الحقيقي) معروفًا. ونظرًا لأن كلًا من مجموعات البيانات الحقيقية والمزيفة المعنية تحتوي على حجم كبير جدًا من الصور، فإن هذا يشبه البحث عن إبرة في كومة قش.

لذلك استخدم المؤلفون نموذج التعرف على الوجه الجاهز للاستخدام^† مع ريسنت 100 العمود الفقري المدرب على أدافيس فقدان وظيفة (على ال ويب فيس 12 م مجموعة البيانات).

تم استخدام ست مجموعات بيانات اصطناعية وهي: دي سي فيس (نموذج الانتشار الكامن)؛ IDiff-Face (موحد - نموذج انتشار يعتمد على FFHQ)؛ IDiff-Face (ثنائي المرحلة - متغير يستخدم طريقة أخذ عينات مختلفة)؛ غاندي فيس (بناءً على شبكات التنافس التوليدية ونماذج الانتشار، باستخدام النمط لتوليد الهويات الأولية، ومن ثم دريم بوث لإنشاء أمثلة متنوعة)؛ معرف نت (طريقة GAN، استنادًا إلى ستايلGAN-ADA)؛ و الوجه (إطار لحماية الهوية).

نظرًا لأن GANDiffFace يستخدم كلًا من طرق GAN والانتشار، فقد تمت مقارنته بمجموعة بيانات التدريب الخاصة بـ StyleGAN - الأقرب إلى الأصل "الحقيقي" الذي توفره هذه الشبكة.

استبعد المؤلفون مجموعات البيانات الاصطناعية التي تستخدم CGI بدلاً من أساليب الذكاء الاصطناعي، وفي تقييم النتائج المتطابقة المخفضة للأطفال، بسبب الشذوذ التوزيعي في هذا الصدد، بالإضافة إلى الصور غير المتعلقة بالوجه (والتي يمكن أن تحدث بشكل متكرر في مجموعات بيانات الوجه، حيث تنتج أنظمة كشط الويب نتائج إيجابية كاذبة للأشياء أو القطع الأثرية التي لها صفات تشبه الوجه).

تشابه جيب التمام تم حساب جميع الأزواج المسترجعة، وتم تجميعها في مخططات بيانية، كما هو موضح أدناه:

تمثيل الهيستوغرام لدرجات تشابه جيب التمام المحسوبة عبر مجموعات البيانات المتنوعة، إلى جانب قيم التشابه ذات الصلة لأزواج k العلوية (خطوط عمودية متقطعة).

تم تمثيل عدد أوجه التشابه في الارتفاعات في الرسم البياني أعلاه. كما تتضمن الورقة البحثية مقارنات عينة من مجموعات البيانات الست، والصور المقدرة المقابلة لها في مجموعات البيانات الأصلية (الحقيقية)، والتي تم عرض بعض الاختيارات منها أدناه:

عينات من العديد من الأمثلة التي تم إعادة إنتاجها في الورقة المصدرية، والتي ننصح القارئ بالاطلاع عليها لاختيار أكثر شمولاً.

تعلق الورقة:

'تحتوي مجموعات البيانات الاصطناعية المُولَّدة على صور متشابهة للغاية من مجموعة التدريب الخاصة بنموذج المولد الخاص بها، وهو ما يثير المخاوف بشأن إنشاء مثل هذه الهويات.'

ويشير المؤلفون إلى أنه بالنسبة لهذا النهج المحدد، من المرجح أن يكون التوسع إلى مجموعات بيانات ذات حجم أكبر غير فعال، حيث أن الحساب اللازم سيكون مرهقًا للغاية. كما يلاحظون أن المقارنة البصرية كانت ضرورية لاستنتاج المطابقات، وأن التعرف الآلي على الوجه وحده لن يكون كافياً على الأرجح لمهمة أكبر.

وفيما يتعلق بتداعيات البحث، ومن أجل المضي قدمًا، ينص العمل على ما يلي:

نود أن نسلط الضوء على أن الدافع الرئيسي لإنشاء مجموعات البيانات الاصطناعية هو معالجة مخاوف الخصوصية عند استخدام مجموعات بيانات الوجوه واسعة النطاق التي يتم فحصها عبر الويب.

لذلك، فإن تسرب أي معلومات حساسة (مثل هويات الصور الحقيقية في بيانات التدريب) في مجموعة البيانات الاصطناعية يُثير مخاوف بالغة بشأن استخدام البيانات الاصطناعية في المهام الحساسة للخصوصية، مثل القياسات الحيوية. تُلقي دراستنا الضوء على مخاطر الخصوصية في توليد مجموعات بيانات التعرف الاصطناعي على الوجوه، وتمهد الطريق لدراسات مستقبلية تهدف إلى توليد مجموعات بيانات وجوه اصطناعية مسؤولة.

على الرغم من أن المؤلفين وعدوا بإصدار كود لهذا العمل في صفحة المشروعلا يوجد رابط مستودع حالي.

خاتمة

في الآونة الأخيرة، سلطت وسائل الإعلام الضوء على تناقص العوائد تم الحصول عليها من خلال تدريب نماذج الذكاء الاصطناعي على البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

مع ذلك، يُسلّط البحث السويسري الجديد الضوء على مسألة قد تكون أكثر إلحاحًا بالنسبة للعدد المتزايد من الشركات التي ترغب في الاستفادة من الذكاء الاصطناعي المُولّد والاستفادة منه، ألا وهي استمرار أنماط البيانات المحمية بالملكية الفكرية أو غير المُصرّح بها، حتى في مجموعات البيانات المُصمّمة لمكافحة هذه الممارسة. لو أردنا تعريفًا لها، لربما أطلقنا عليها في هذه الحالة "التلاعب بالألفاظ".

* ومع ذلك، فإن قرار Adobe بالسماح بنشر الصور التي يحمّلها المستخدمون، والتي تم إنشاؤها بواسطة الذكاء الاصطناعي، على Adobe Stock قد قوض فعليًا "النقاء" القانوني لهذه البيانات. بلومبرج ادعت في أبريل 2024، تم دمج الصور التي يوفرها المستخدمون من نظام الذكاء الاصطناعي التوليدي MidJourney في قدرات Firefly.

^† لم يتم تحديد هذا النموذج في الورقة.

نُشرت لأول مرة يوم الأربعاء 6 نوفمبر 2024