الذكاء الاصطناعي

يمكن استعادة الهويات الحقيقية من مجموعات البيانات الاصطناعية

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

إذا كان عام 2022 يشير إلى اللحظة التي أصبحت فيها القدرة الإضطربة للذكاء الاصطناعي تلقى انتباها واسعا من الجمهور، فإن عام 2024 كان العام الذي أصبحت فيه أسئلة حول قانونية البيانات الأساسية لهذا الذكاء في صدارة الأعمال التي تتطلع إلى استخدام قوته.

doctrine الاستخدام العادل في الولايات المتحدة، إلى جانب رخصة الأكاديمية الضمنية التي سمحت لفترة طويلة للقطاعات البحثية الأكاديمية والتجارية بالاستكشاف الذكاء الاصطناعي التوليدي، أصبحت غير قابلة للتطبيق بشكل متزايد مع ظهور أدلة متزايدة عن الانتحال. فيما بعد، منعت الولايات المتحدة، لمدة مؤقتة، المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي من الحصول على حقوق النشر.

هذه الأمور بعيدة عن الحل، وبعيدة عن الحل في الوقت القريب؛ في عام 2023، بسبب القلق المتزايد من قبل وسائل الإعلام والجمهور حول الوضع القانوني لخرج الذكاء الاصطناعي، أطلق مكتب حقوق النشر في الولايات المتحدة تحقيقا يستمر لعدة سنوات في هذا الجانب من الذكاء الاصطناعي التوليدي، ونشر الجزء الأول ( المتعلق بالنسخ الرقمية ) في يوليو 2024.

في غضون ذلك، لا تزال المصالح التجارية محبطة بإمكانية أن تكشف النماذج المكلفة التي تريد استغلالها عن عواقب قانونية عندما تظهر التشريعات والتعريفات النهائية في النهاية.

الحل قصير الأمد المكلف هو تهيئة نماذج توليدية عن طريق تدريبها على بيانات التي تمتلك الشركات الحق في استغلالها. يتم تشغيل архитектура Firefly لشركة Adobe، التي تنتج النص إلى الصورة (والفيديو الآن)، في الغالب من خلال شراءها لمجموعة بيانات الصور الفوتوغرافية Fotolia في عام 2014، مع補 بواسطة استخدام بيانات المجال العام المنتهية حقوق النشر*. في الوقت نفسه، استفادت شركات توفير الصور الفوتوغرافية الحالية مثل Getty وShutterstock من القيمة الجديدة لبياناتها المرخصة، مع عدد متزايد من الصفقات لترخيص المحتوى أو تطوير أنظمة الذكاء الاصطناعي التوليدي المتوافقة مع حقوق النشر.

حلول اصطناعية

منذ إزالة البيانات المحمية بحقوق النشر من الفضاء الكامن لنموذج الذكاء الاصطناعي مشكلة محمومة، قد تؤدي الأخطاء في هذا المجال إلى تكاليف باهظة للشركات التي تجرب حلول الاستهلاك والشركات التي تستخدم التعلم الآلي.

بديل وأرخص حل للأنظمة الرؤية الحاسوبية (وأيضا نماذج اللغة الكبيرة، أو LLMs)، هو استخدام البيانات الاصطناعية، حيث تتكون المجموعة من أمثلة عشوائية من المجال المستهدف (مثل الوجوه أو القطط أو الكنائس أو حتى مجموعة أكثر عمومية).

المواقع مثل thispersondoesnotexist.com شجعت منذ فترة طويلة على فكرة أن الصور الواقعية للناس “الوهميين” يمكن إنشاؤها (في حالة معينة، من خلال الشبكات التوليدية المعادية، أو GANs) دون أي علاقة بال أشخاص الذين يوجدون في العالم الحقيقي.

لذلك، إذا قمت بتدريب نظام تحديد الوجه أو نظام توليدي على أمثلة مجردة ووهمية، يمكنك نظريا الحصول على معيار واقعي لإنتاجية نموذج الذكاء الاصطناعي دون الحاجة إلى النظر فيما إذا كانت البيانات قانونية الاستخدام.

توازن

المشكلة هي أن الأنظمة التي تنتج البيانات الاصطناعية يتم تدريبها بنفسها على البيانات الحقيقية. إذا انسكبت آثار هذه البيانات إلى البيانات الاصطناعية، قد توفر هذه الأدلة أن المواد المحظورة أو غير المصرح بها قد استخدمت من أجل الربح المادي.

لتجنب ذلك، ومن أجل إنتاج صور واقعية حقا، تحتاج هذه النماذج إلى ضمان أنها متعمقة جيدا. التعمق هو مقياس لقدرة نموذج الذكاء الاصطناعي المدرب على فهم المفاهيم عالية المستوى (مثل “الوجه” أو “الرجل” أو “المرأة”) دون اللجوء إلى تكرار البيانات الفعلية للتدريب.

لسوء الحظ، قد يكون من الصعب على الأنظمة المدربة إنتاج (أو التعرف على) التفاصيل الدقيقة إلا إذا تم تدريبها بشكل مكثف على مجموعة بيانات. هذا يعرّض النظام لمخاطر التكرار: ميل إلى إعادة إنتاج، إلى حد ما، أمثلة البيانات الفعلية للتدريب.

يمكن التغلب على هذا عن طريق تحديد معدل تعلم أكثر استرخاء، أو عن طريق إنهاء التدريب في مرحلة حيث لا تزال المفاهيم الأساسية مرنة ولا ترتبط بأي نقطة بيانات محددة (مثل صورة محددة لشخص، في حالة مجموعة بيانات الوجه).

ومع ذلك، من المرجح أن تؤدي كلا الإجراءين إلى نماذج أقل دقة، لأن النظام لم يكن لديه فرصة للتقدم إلى ما وراء “الأساسيات” للمجال المستهدف، وصولا إلى التفاصيل.

لذلك، في الأدب العلمي، يتم تطبيق معدلات تعلم عالية وجداول تدريب شاملة بشكل عام. بينما يحاول الباحثون عادة التوفيق بين التطبيق الواسع والتفاصيل الدقيقة في النموذج النهائي، يمكن أن تظهر حتى الأنظمة قليلا “مكررة” نفسها على أنها متعمقة جيدا – حتى في الاختبارات الأولية.

كشف الوجه

هذا يأتي إلينا إلى ورقة جديدة ومثيرة للاهتمام من سويسرا، التي تدعي أنها الأولى التي تثبت أن الصور الحقيقية الأصلية التي تعمل على البيانات الاصطناعية يمكن استردادها من الصور المولدة التي يجب أن تكون، في النظرية، عشوائية تماما:

أمثلة على صور الوجه المخزنة من بيانات التدريب. في الصف العلوي، نرى الصور الأصلية (الحقيقية)؛ في الصف السفلي، نرى الصور المولدة عشوائيا، والتي تتوافق بشكل كبير مع الصور الحقيقية. مصدر: https://arxiv.org/pdf/2410.24015

تُظهر النتائج، بحسب المؤلفين، أن المولدين الاصطناعيين قد تذكر بالفعل الكثير من نقاط بيانات التدريب، في بحثهم عن دقة أكبر. كما تشير إلى أن الأنظمة التي تعتمد على البيانات الاصطناعية لحماية منتجي الذكاء الاصطناعي من العواقب القانونية قد تكون غير موثوقة في هذا الصدد.

أجرى الباحثون دراسة شاملة على ست مجموعات بيانات اصطناعية، وأثبتوا أن البيانات الأصلية (المحمية بحقوق النشر أو المحمية) يمكن استردادها في جميع الحالات. يقولون:

‘تظهر تجاربنا أن مجموعات البيانات الاصطناعية التوليدية من الدرجة الأولى تحتوي على عينات قريبة جدا من عينات في بيانات التدريب لنموذج المولد.

‘في بعض الحالات، تحتوي العينات الاصطناعية على تغييرات صغيرة في الصورة الأصلية، ومع ذلك، يمكننا أيضا ملاحظة في بعض الحالات أن العينة المولدة تحتوي على تغييرات أكبر (مثل وضع مختلف، أو ظروف إضاءة، إلخ) بينما يتم الحفاظ على الهوية.

الطريقة والبيانات والنتائج

تم الكشف عن الوجوه المتذكرها في الدراسة بواسطة هجوم على العضوية. على الرغم من أن المفهوم يبدو معقدا، إلا أنه واضح إلى حد ما: الاستدلال عن العضوية، في هذه الحالة، يشير إلى عملية التساؤل عن النظام حتى يكشف عن بيانات تتوافق مع البيانات التي تبحث عنها، أو تشبهها بشكل كبير.

أمثلة إضافية على مصادر البيانات المستدلة، من الدراسة. في هذه الحالة، تكون الصور الاصطناعية المصدر من مجموعة بيانات DCFace.

درَس الباحثون ست مجموعات بيانات اصطناعية التي كانت مصدر البيانات (الحقيقي) معروفا. منذ أن تحتوي كل من المجموعات الحقيقية والبيانات الاصطناعية على حجم كبير من الصور، هذا يشبه البحث عن إبرة في كومة قش.

لذلك، استخدم المؤلفون نموذج التعرف على الوجه جاهز مع هيكل ResNet100 مدرب على وظيفة الخسارة AdaFace (على مجموعة بيانات WebFace12M).

كانت المجموعات الست الاصطناعية المستخدمة هي: DCFace (نموذج انتشار كامن)؛ IDiff-Face (التوزيع الموحد – نموذج انتشار 기반 على FFHQ)؛ IDiff-Face (مرحلة مزدوجة – نسخة تستخدم طريقة عينة مختلفة)؛ GANDiffFace (مبني على الشبكات التوليدية المعادية والاندماج، باستخدام StyleGAN3 لإنشاء هويات أولية، ثم DreamBooth لإنشاء أمثلة متنوعة)؛ IDNet (طريقة الشبكات التوليدية المعادية، مبنية على StyleGAN-ADA)؛ و SFace (إطار حماية الهوية).

由于 GANDiffFace يستخدم كلا الشبكات التوليدية المعادية والاندماج، تمت مقارنته مع مجموعة بيانات التدريب لنموذج StyleGAN – أقرب إلى “مصدر الوجه الحقيقي” الذي يوفر هذا الشبكة.

استثنى المؤلفون مجموعات البيانات الاصطناعية التي تستخدم الرسومات الحاسوبية بدلا من الأساليب الاصطناعية، وفي تقييم النتائج، استثنوا المطابقات للأطفال، بسبب شذوذات التوزيع في هذا الصدد، بالإضافة إلى الصور غير الوجه (التي يمكن أن تحدث بشكل متكرر في مجموعات بيانات الوجه، حيث تنتج أنظمة الحصاد من الويب إيجابيات خاطئة للأجسام أو المخلفات التي تملك سمات وجهية).

تم حساب تشابه الكوزين لجميع الأزواج المستعادة، وتم دمجها في مخططات التوزيع، كما هو موضح أدناه:

مخطط التوزيع لمقاييس تشابه الكوزين المحسوبة عبر المجموعات المتنوعة، مع قيم التشابه المرتبطة بالأزواج الأعلى (الخطوط الرأسية المتقطعة).

تمثل عدد المطابقات في النقاط على الرسم البياني أعلاه. يتضمن الورقة أيضا مقارنات عينة من المجموعات الست، ومقابلاتها المقدرة في المجموعات الحقيقية (الأصلية)، والتي تظهر بعض الانتقالات أدناه:

عينات من العديد من الحالات المُستنسخة في الورقة الأصلية، والتي يشير القارئ إليها من أجل اختيار أكثر شمولا.

تُشير الورقة إلى:

‘تُظهر تجاربنا أن مجموعات البيانات الاصطناعية المولدة تحتوي على صور شبيهة جدا بالصور في مجموعة بيانات التدريب لنموذج المولد، مما يثير مخاوف بشأن توليد هذه الهويات.’

يُلاحظ المؤلفون أن هذا النهج، من حيث التوسع إلى مجموعات بيانات أكبر، سيكون غير فعال، لأن الحسابات اللازمة ستكون مرهقة بشكل كبير. يُشيرون أيضا إلى أن المقارنة البصرية كانت ضرورية لاستدلال المطابقات، وأن التعرف التلقائي على الوجه وحده لن يكون كافيا ل任务 أكبر.

بخصوص الآثار البحثية، ومع نظر إلى الطرق الأمامية، تُشير الأعمال إلى:

‘نود أن نشير إلى أن الدافع الرئيسي لإنشاء مجموعات بيانات اصطناعية هو معالجة مخاوف الخصوصية عند استخدام مجموعات بيانات الوجه الكبيرة المجمعة من الويب.

‘لذلك، تسرب أي معلومات حساسة (مثل هويات الصور الحقيقية في بيانات التدريب) في مجموعة البيانات الاصطناعية يثير مخاوف حرجة بشأن تطبيق البيانات الاصطناعية لمهام حساسة للخصوصية، مثل البصمات البيولوجية. دراستنا تسلط الضوء على مخاطر الخصوصية في إنشاء مجموعات بيانات الوجه الاصطناعية وتفتح الطريق لدراسات مستقبلية لإنشاء مجموعات بيانات اصطناعية مسؤولة.’

على الرغم من أن المؤلفين يpromisون إصدار رمز لهذا العمل على صفحة المشروع، لا يوجد حاليا رابط لمستودع.

الاستنتاج

في الآونة الأخيرة، أكدت الانتباه الإعلامي على العائدات المتضائلة التي يتم الحصول عليها من خلال تدريب نماذج الذكاء الاصطناعي على بيانات مولدة بواسطة الذكاء الاصطناعي.

然而، يأتي البحث السويسري الجديد إلى محور اهتمام يعتبر أكثر إلحاحا للعدد المتزايد من الشركات التي تريد استغلال وتحقيق أرباح من الذكاء الاصطناعي التوليدي – استمرار أنماط البيانات المحمية بحقوق النشر أو غير المصرح بها، حتى في المجموعات التي تم تصميمها لمكافحة هذه الممارسة. إذا كان علينا أن نعرفه بتعريف، في هذه الحالة قد يُطلق عليه “غسيل الوجه”.

* 然而، قرر Adobe السماح بالصور المولدة بواسطة الذكاء الاصطناعي التي تم تحميلها بواسطة المستخدمين إلى Adobe Stock، مما أضعف فعالية بياناته “النقية” من الناحية القانونية. زعم بلومبرغ في أبريل 2024 أن الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي من نظام MidJourney التوليدي تم دمجها في قدرات Firefly.هذه الحقائق تثير تساؤلات حول قانونية استخدام هذه البيانات.

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai