Connect with us

الأخلاقيات

ممارسات الذكاء الاصطناعي الحالية قد تمكن جيلًا جديدًا من صيادي حقوق النشر

mm

يُشير بحث جديد مشترك بين هواوي والجامعات إلى أن الكثير من الأبحاث الهامة الحالية في الذكاء الاصطناعي وتعلم الآلة قد تكون عرضة للتحديات القانونية بمجرد أن تصبح بارزة تجاريًا، لأن مجموعات البيانات التي تجعل الإنجازات ممكنة يتم توزيعها مع تراخيص غير صالحة لا تحترم الشروط الأصلية للنطاقات العامة التي تم الحصول على البيانات منها.

في الواقع، هذا له两个 نتيجتين محتملتين تقريبًا: أن الخوارزميات الذكية التجارية الناجحة التي تعرف أنها استخدمت مجموعات البيانات هذه ستصبح أهدافًا لمحامي حقوق النشر المتعطشين للثروة الذين لم يتم احترام حقوقهم عندما تم جمع بياناتهم؛ وأن المنظمات والأفراد سيكونون قادرين على استخدام نفس الثغرات القانونية للتنديد بنشر تقنيات تعلم الآلة التي يجدونها معارضة.

يُسمى البحث الورقة “هل يمكنني استخدام هذه المجموعة العامة من البيانات لإنشاء برنامج ذكاء اصطناعي تجاري؟ من المحتمل أن لا أستطيع”، وهو تعاون بين هواوي كندا وهواوي الصين، مع جامعة يورك في المملكة المتحدة وجامعة فيكتوريا في كندا.

خمس من ست مجموعات بيانات مفتوحة المصدر لا يمكن استخدامها قانونيًا

لأجراء البحث، طُلب من الإدارات في هواوي اختيار مجموعات البيانات مفتوحة المصدر الأكثر رغبة في استغلالها في المشاريع التجارية، وتم اختيار ست مجموعات بيانات الأكثر طلبًا من الاستجابات: CIFAR-10 (فرع من مجموعة 80 مليون صورة صغيرة، منذ سحب بسبب “المصطلحات التحقيرية” و “الصور المسيئة”، على الرغم من أن مشتقاتها تنتشر); ImageNet؛ Cityscapes (التي تحتوي حصريًا على مواد أصلية); FFHQ؛ VGGFace2، و MSCOCO.

لتحليل ما إذا كانت مجموعات البيانات المختارة مناسبة للاستخدام القانوني في المشاريع التجارية، طوّر المؤلفون трубة جديدة لتتبع سلسلة التراخيص إلى أبعد حد ممكن لكل مجموعة، على الرغم من أنهم كانوا يضطرون في كثير من الأحيان إلى اللجوء إلى لقطات أرشيف الويب للعثور على تراخيص من المجالات المنتهية الصلاحية، وفي بعض الحالات كان عليهم “التنبؤ” بمركز الترخيص من المعلومات المتاحة الأقرب.

هندسة نظام تتبع الأصل الذي طوّره المؤلفون. مصدر: https://arxiv.org/pdf/2111.02374.pdf

هندسة نظام تتبع الأصل الذي طوّره المؤلفون. مصدر: https://arxiv.org/pdf/2111.02374.pdf

وجد المؤلفون أن تراخيص خمس من ست مجموعات بيانات “تحتوي على مخاطر مرتبطة على الأقل بمسياق استخدام تجاري واحد”:

‘نلاحظ أن، باستثناء MS COCO، لا يسمح أي من التراخيص المدروسة للعاملين بالحصول على الحق في تجارية نموذج ذكاء اصطناعي مدرب على البيانات أو حتى الإخراج من نموذج الذكاء الاصطناعي المدرب. مثل هذا النتيجة يمنع أيضًا بشكل فعال العاملين من استخدام نماذج مسبقة التدريب التي تم تدريبها على هذه المجموعات من البيانات. مجموعات البيانات و نماذج الذكاء الاصطناعي التي تم تدريبها مسبقًا عليها يتم استخدامها على نطاق واسع بشكل تجاري.’ *

يشير المؤلفون أيضًا إلى أن ثلاثة من ست مجموعات بيانات المدروسة يمكن أن تؤدي أيضًا إلى انتهاك الترخيص في المنتجات التجارية إذا تم تعديل المجموعة من البيانات، حيث يسمح فقط MS-COCO بذلك. ومع ذلك، فإن تعزيز البيانات وفرعي مجموعات البيانات وفرعيها هي ممارسة شائعة.

في حالة CIFAR-10، لم يكن للمجمّعين الأصليين إنشاء أي شكل تقليدي من الترخيص، بل فقط يتطلب أن تتضمن المشاريع التي تستخدم المجموعة من البيانات إشارة إلى الورقة الأصلية التي رافقت إصدار المجموعة من البيانات، مما يقدم عائقًا آخر لتحديد الوضع القانوني للبيانات.

علاوة على ذلك، تحتوي فقط مجموعة CityScapes على مواد تم إنشاؤها حصريًا بواسطة منشئي المجموعة من البيانات، بدلاً من كونها “مجمعة” (ممسوحة) من مصادر الشبكة، مع استخدام CIFAR-10 و ImageNet مصادر متعددة، والتي من شأنها أن تحتاج إلى التحقيق والتعقب من أجل إنشاء أي آلية لحقوق النشر (أو حتى إعفاء معنوي).

لا مخرج

هناك ثلاثة عوامل يعتمد عليها الشركات التجارية للذكاء الاصطناعي للحماية من التحديات القانونية حول المنتجات التي استخدمت محتوى محمي بحقوق النشر من مجموعات البيانات بحرية ودون إذن، لتدريب خوارزميات الذكاء الاصطناعي. لا يوفر أي من هذه العوامل حماية موثوقة على المدى الطويل:

1: القوانين الوطنية اللايسيز فاير
على الرغم من أن الحكومات في جميع أنحاء العالم مجبرة على تعديل القوانين المتعلقة بجمع البيانات لمنع التراجع في سباق الذكاء الاصطناعي (الذي يعتمد على كميات كبيرة من البيانات في العالم الحقيقي التي من شأنها أن تكون مطابقة حقوق النشر والترخيص غير واقعية)، إلا أن الولايات المتحدة فقط توفر حصانة كاملة في هذا الصدد، بموجب مبدأ الاستخدام العادل – سياسة تم التصديق عليها في عام 2015 مع إنهاء قضية Authors Guild v. Google, Inc.، والتي أكدت أن عملاق البحث يمكنه استيعاب المواد المحمية بحقوق النشر بحرية لمشروع Google Books دون اتهامه بالانتهاك.

إذا تغيرت سياسة مبدأ الاستخدام العادل (على سبيل المثال، استجابة لحالة أخرى بارزة تتضمن منظمات أو شركات قوية)، فمن المحتمل أن يُعتبر ذلك حالة سابقة فيما يتعلق بتسخير قواعد البيانات التي تنتهك حقوق النشر الحالية؛ لحماية الاستخدام السابق؛ وليس الاستخدام المستمر وتطوير الأنظمة التي تم تمكينها من خلال مواد محمية بحقوق النشر دون موافقة.

هذا يضع الحماية الحالية لمبدأ الاستخدام العادل على أساس مؤقت للغاية، ويمكن أن يتطلب، في ذلك السيناريو، من الخوارزميات التجارية للذكاء الاصطناعي التي تم تخصيصها أن تتوقف عن العمل في الحالات التي تم تمكين أصولها من خلال مواد محمية بحقوق النشر دون موافقة – حتى في الحالات التي تتعامل أوزان النموذج الآن حصريًا مع المحتوى المسموح به، ولكن تم تدريبه على (وجعله مفيدًا بواسطة) محتوى مسروق بشكل غير قانوني.

خارج الولايات المتحدة، كما يشير المؤلفون في الورقة الجديدة، تكون السياسات عمومًا أقل تساهلًا. المملكة المتحدة وكندا فقط تبرئ استخدام البيانات المحمية بحقوق النشر لأغراض غير تجارية، بينما قانون الاتحاد الأوروبي للتعدين النصي والبيانات (الذي لم يتم إلغاؤه تمامًا بواسطة ال提議ات الأخيرة لتنظيم الذكاء الاصطناعي بشكل أكثر رسمية) يستثني أيضًا الاستغلال التجاري لأنظمة الذكاء الاصطناعي التي لا تتوافق مع متطلبات حقوق النشر للأصل البيانات.

ت意味ي هذه الترتيبات الأخيرة أن المنظمة يمكن أن تحقق أشياء كبيرة باستخدام بيانات الآخرين، حتى، ولكن ليس بما في ذلك، نقطة كسب المال منها. في تلك المرحلة، سيتم الكشف عن المنتج قانونيًا، أو سيتعين إبرام ترتيبات مع ملايين من أصحاب حقوق النشر، الذين لا يمكن تتبعهم بسبب طبيعة الإنترنت المتغيرة – وهو أمر غير ممكن ومكلف.

2: Caveat Emptor
في الحالات التي يأمل فيها المنظمات المخالفة لتأجيل اللوم، يشير البحث الجديد أيضًا إلى أن العديد من تراخيص مجموعات البيانات مفتوحة المصدر تبرئ نفسها تلقائيًا من أي مطالبات بانتهاك حقوق النشر:

‘على سبيل المثال، تتطلب ترخيص ImageNet من العاملين أن يبرئوا فريق ImageNet من أي مطالبات ناشئة عن استخدام المجموعة من البيانات. تتطلب مجموعات البيانات FFHQ و VGGFace2 و MS COCO، إذا تم توزيعها أو تعديلها، أن يتم تقديمها تحت نفس الترخيص.’

بصورة فعالة، هذا يضطر أولئك الذين يستخدمون مجموعات البيانات مفتوحة المصدر إلى امتصاص المسؤولية عن استخدام مواد محمية بحقوق النشر، في مواجهة التحديات القانونية النهائية (على الرغم من أنه لا يحمي بالضرورة المجمّعين الأصليين في حالة تغيير المناخ الحالي من “الميناء الآمن”).

3: الإعفاء من خلال الغموض
تجعل الطبيعة التعاونية لمجتمع تعلم الآلة من الصعب استخدام السرية الشركية لإخفاء وجود الخوارزميات التي استفادت من مجموعات البيانات التي تنتهك حقوق النشر. غالبًا ما تبدأ المشاريع التجارية طويلة الأمد في بيئات مفتوحة المصدر حيث يكون استخدام مجموعات البيانات مسألة سجل، في GitHub ومنتديات عامة أخرى، أو حيث تم نشر أصول المشروع في ورقات مسبقة أو مراجعة الأقران.

حتى في casos حيث لا يكون هذا هو الحال، فإن عكس النموذج يصبح متزايدًا قويًا في كشف السمات النموذجية لمجموعات البيانات (أو حتى إخراج بعض المواد الأصلية)، مما يوفر دليلًا في حد ذاته، أو شكوكًا كافية عن انتهاك حقوق النشر لتمكين الوصول المأمر به إلى تاريخ تطوير الخوارزمية، و تفاصيل مجموعات البيانات المستخدمة في ذلك التطوير.

الخلاصة

يصور البحث استخدامًا عشوائيًا ومؤقتًا للمواد المحمية بحقوق النشر التي تم الحصول عليها بدون إذن، وسلسلة من سلاسل التراخيص التي، إذا اتبعت منطقيًا إلى أبعد حد ممكن من مصدر البيانات الأصلي، فإنها ستتطلب مفاوضات مع آلاف من أصحاب حقوق النشر الذين قدموا عملهم تحت راية مواقع ذات شروط ترخيص متنوعة، والتي تمنع العديد منها الأعمال التجارية المشتقة.

يخلص المؤلفون إلى:

‘يتم استخدام مجموعات البيانات المتاحة للجمهور على نطاق واسع لإنشاء برامج ذكاء اصطناعي تجارية. يمكن فعل ذلك إذا، و فقط إذا، كانت الترخيص المرتبط بالمجموعة من البيانات المتاحة للجمهور يمنح الحق في ذلك. ومع ذلك، لا يسهل التحقق من الحقوق والالتزامات المحددة في الترخيص المرتبط بالمجموعة من البيانات المتاحة للجمهور. لأن الترخيص في بعض الأحيان غير واضح أو قد يكون باطلا.’

كما يُشدد عمل جديد، بعنوان بناء مجموعات البيانات القانونية، الصادر في 2 نوفمبر من مركز القانون الحاسوبي بجامعة إدارة سنغافورة، على ضرورة أن يدرك علماء البيانات أن عصر “الغرب المتوحش” من جمع البيانات بشكل عشوائي يوشك على الانتهاء، ويتطابق مع توصيات ورقة هواوي لاعتماد عادات وأساليب أكثر صرامة لضمان أن استخدام مجموعة البيانات لا يعرّض المشروع للتحديات القانونية مع تغير الثقافة بمرور الوقت، ومع أن النشاط الأكاديمي العالمي الحالي في قطاع تعلم الآلة يسعى إلى عائد تجاري على سنوات الاستثمار. يلاحظ المؤلف:

‘[الجسم] من التشريعات التي تؤثر على مجموعات بيانات تعلم الآلة من المرجح أن ينمو، وسط مخاوف من أن القوانين الحالية توفر حماية غير كافية ضد. مشروع قانون الذكاء الاصطناعي المنقح، إذا تم تمريره، سوف يغير بشكل كبير منظر الذكاء الاصطناعي وحوكمة البيانات؛ قد تتبع السلطات القضائية الأخرى ذلك بمشاريع قوانينها الخاصة.’

 

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai