رطم يمكن أن تساعد ممارسات الذكاء الاصطناعي الحالية على تمكين جيل جديد من المتصيدين على حق المؤلف - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الأخلاقيات

يمكن أن تساعد ممارسات الذكاء الاصطناعي الحالية على تمكين جيل جديد من المتصيدون في حقوق الطبع والنشر

mm
تحديث on

يشير تعاون بحثي جديد بين هواوي والأوساط الأكاديمية إلى أن قدرًا كبيرًا من أهم الأبحاث الحالية في مجال الذكاء الاصطناعي والتعلم الآلي يمكن أن تتعرض للتقاضي بمجرد أن تصبح بارزة تجاريًا، لأن مجموعات البيانات التي تجعل الاختراقات ممكنة يتم توزيعها مع بيانات غير صالحة. التراخيص التي لا تحترم الشروط الأصلية للنطاقات العامة التي تم الحصول على البيانات منها.

في الواقع ، هذا له نتيجتان محتملتان تقريبًا: أن خوارزميات الذكاء الاصطناعي الناجحة جدًا والمُسوَّقة والتي يُعرف أنها استخدمت مجموعات البيانات هذه ستصبح أهدافًا مستقبلية للمتصيدين الانتهازيين لبراءات الاختراع الذين لم تُحترم حقوق النشر الخاصة بهم عندما تم كشط بياناتهم ؛ وأن المنظمات والأفراد سيكونون قادرين على استخدام نفس نقاط الضعف القانونية هذه للاحتجاج على نشر أو نشر تقنيات التعلم الآلي التي يرون أنها مرفوضة.

ورقة بعنوان هل يمكنني استخدام مجموعة البيانات المتاحة للجمهور هذه لإنشاء برنامج ذكاء اصطناعي تجاري؟ على الأرجح لا، وهو نتاج تعاون بين Huawei Canada و Huawei China ، جنبًا إلى جنب مع جامعة York في المملكة المتحدة وجامعة Victoria في كندا.

خمسة من أصل ستة (شائعة) مجموعات بيانات مفتوحة المصدر غير قابلة للاستخدام قانونيًا

بالنسبة للبحث ، طلب المؤلفون من الإدارات في Huawei اختيار مجموعات البيانات مفتوحة المصدر الأكثر رواجًا والتي يرغبون في استغلالها في المشاريع التجارية ، واختاروا مجموعات البيانات الست الأكثر طلبًا من الردود: سيفار 10 (مجموعة فرعية من 80 مليون صورة صغيرة مجموعة البيانات ، منذ ذلك الحين سحب عن "المصطلحات المهينة" و "الصور المسيئة" ، على الرغم من انتشار مشتقاتها) ؛ IMAGEnet; مناظر المدينة (التي تحتوي على مواد أصلية حصريًا) ؛ FFHQ; VGGFace2و موسكوكو.

لتحليل ما إذا كانت مجموعات البيانات المختارة مناسبة للاستخدام القانوني في المشاريع التجارية ، طور المؤلفون خط أنابيب جديد لتتبع سلسلة التراخيص بقدر الإمكان لكل مجموعة ، على الرغم من أنهم اضطروا غالبًا إلى اللجوء إلى سجلات أرشيف الويب من أجل تحديد موقع التراخيص من المجالات التي انتهت صلاحيتها الآن ، وفي بعض الحالات كان عليك "تخمين" حالة الترخيص من أقرب المعلومات المتاحة.

تصميم معماري لنظام تتبع المصدر طوره المؤلفون. المصدر: https://arxiv.org/pdf/2111.02374.pdf

تصميم معماري لنظام تتبع المصدر طوره المؤلفون. المصدر: https://arxiv.org/pdf/2111.02374.pdf

وجد المؤلفون أن التراخيص لخمسة من مجموعات البيانات الست "تحتوي على مخاطر مرتبطة بسياق استخدام تجاري واحد على الأقل":

[نحن] نلاحظ أنه ، باستثناء MS COCO ، لا تسمح أي من التراخيص المدروسة للممارسين بالحق في تسويق نموذج ذكاء اصطناعي مدرب على البيانات أو حتى مخرجات نموذج الذكاء الاصطناعي المدربين. هذه النتيجة تمنع الممارسين بشكل فعال حتى من استخدام النماذج المدربة مسبقًا على مجموعات البيانات هذه. مجموعات البيانات المتاحة للجمهور ونماذج الذكاء الاصطناعي التي تم تدريبها مسبقًا عليها تستخدم على نطاق واسع تجاريًا". *

لاحظ المؤلفون أيضًا أن ثلاثًا من مجموعات البيانات الست المدروسة يمكن أن تؤدي بالإضافة إلى ذلك إلى انتهاك الترخيص في المنتجات التجارية إذا تم تعديل مجموعة البيانات ، نظرًا لأن MS-COCO هو الوحيد الذي يسمح بذلك. ومع ذلك ، فإن زيادة البيانات والمجموعات الفرعية والمجموعات الفائقة من مجموعات البيانات المؤثرة هي ممارسة شائعة.

في حالة CIFAR-10 ، لم يقم المترجمون الأصليون بإنشاء أي شكل تقليدي للترخيص على الإطلاق ، واشترطوا فقط أن تتضمن المشروعات التي تستخدم مجموعة البيانات اقتباسًا من الورقة الأصلية التي صاحبت إصدار مجموعة البيانات ، مما يمثل عائقًا إضافيًا أمام إنشاء الوضع القانوني للبيانات.

علاوة على ذلك ، تحتوي مجموعة بيانات CityScapes فقط على مواد تم إنشاؤها حصريًا بواسطة منشئي مجموعة البيانات ، بدلاً من كونها "منسقة" (مستخرجة) من مصادر الشبكة ، باستخدام CIFAR-10 و ImageNet باستخدام مصادر متعددة ، كل منها يحتاج إلى التحقيق وتعقبها من أجل إنشاء أي نوع من آلية حقوق النشر (أو حتى إخلاء ذات مغزى).

لا مخرج

هناك ثلاثة عوامل يبدو أن شركات الذكاء الاصطناعي التجارية تعتمد عليها لحمايتها من التقاضي بشأن المنتجات التي استخدمت المحتوى المحمي بحقوق الطبع والنشر من مجموعات البيانات بحرية ودون إذن ، لتدريب خوارزميات الذكاء الاصطناعي. لا يوفر أي من هؤلاء حماية كبيرة (أو أي) موثوقة طويلة الأجل:

1: قوانين Laissez Faire الوطنية
على الرغم من أن الحكومات في جميع أنحاء العالم مجبرة على تخفيف القوانين حول تجريف البيانات في محاولة لعدم التراجع في السباق نحو الذكاء الاصطناعي عالي الأداء (الذي يعتمد على كميات كبيرة من بيانات العالم الحقيقي التي يكون الامتثال والترخيص المنتظم لحقوق الطبع والنشر غير واقعي لها) ، فقط تقدم الولايات المتحدة حصانة كاملة في هذا الصدد ، بموجب مبدأ الاستخدام العادل - السياسة التي تم التصديق عليها في عام 2015 مع اختتام من شركة Authors Guild ضد Google، Inc. ، والتي أكدت أن شركة البحث العملاقة يمكنها بحرية استيعاب المواد المحمية بحقوق الطبع والنشر لمشروع كتب Google الخاص بها دون اتهامها بالانتهاك.

إذا تغيرت سياسة مبدأ الاستخدام العادل (أي استجابةً لحالة تاريخية أخرى تتضمن مؤسسات أو شركات ذات نفوذ عالٍ بما فيه الكفاية) ، فمن المحتمل أن يتم اعتبارها على الأرجح بيان من حيث استغلال قواعد البيانات الحالية التي تنتهك حق المؤلف ، وحماية الاستخدام السابق ؛ لكن لا جارية استخدام وتطوير الأنظمة التي تم تمكينها من خلال المواد المحمية بحقوق الطبع والنشر دون اتفاق.

يضع هذا الحماية الحالية لمبدأ الاستخدام العادل على أساس مؤقت للغاية ، ومن المحتمل ، في هذا السيناريو ، أن يتطلب خوارزميات التعلم الآلي الراسخة والمتاجرة بالتجارة لوقف العمل في الحالات التي تم فيها تمكين أصولها من خلال المواد المحمية بحقوق الطبع والنشر - حتى في الحالات التي يكون فيها عارضات ازياء الأوزان يتعامل الآن حصريًا مع المحتوى المسموح به ، ولكن تم تدريبه (وجعله مفيدًا من خلال) المحتوى المنسوخ بشكل غير قانوني.

خارج الولايات المتحدة ، كما لاحظ المؤلفون في الورقة الجديدة ، فإن السياسات عمومًا أقل تساهلاً. تعوض المملكة المتحدة وكندا فقط استخدام البيانات المحمية بحقوق الطبع والنشر للأغراض غير التجارية ، في حين أن قانون التنقيب عن النصوص والبيانات في الاتحاد الأوروبي (الذي لم يتم إلغاؤه بالكامل من قبل المقترحات الأخيرة لمزيد من التنظيم الرسمي للذكاء الاصطناعي) يستبعد أيضًا الاستغلال التجاري لأنظمة الذكاء الاصطناعي التي لا تمتثل لمتطلبات حقوق النشر الخاصة بالبيانات الأصلية.

تعني هذه الترتيبات الأخيرة أنه يمكن للمؤسسة تحقيق أشياء عظيمة باستخدام بيانات الأشخاص الآخرين ، بما يصل إلى - ولكن لا يشمل - الهدف من جني أي أموال منها. في تلك المرحلة ، سيصبح المنتج إما مكشوفًا قانونيًا ، أو سيتعين وضع ترتيبات مع الملايين من مالكي حقوق الطبع والنشر ، وكثير منهم لا يمكن تعقبه الآن بسبب الطبيعة المتغيرة للإنترنت - وهو احتمال مستحيل ولا يمكن تحمله.

2: تحذير Emptor
في الحالات التي تأمل فيها المنظمات المخالفة في إرجاء اللوم ، تلاحظ الورقة الجديدة أيضًا أن العديد من التراخيص الخاصة بمجموعات البيانات مفتوحة المصدر الأكثر شيوعًا تعوض نفسها تلقائيًا ضد أي ادعاءات تتعلق بانتهاك حقوق الطبع والنشر:

على سبيل المثال ، يتطلب ترخيص ImageNet صراحةً من الممارسين تعويض فريق ImageNet ضد أي مطالبات تنشأ عن استخدام مجموعة البيانات. تتطلب مجموعات البيانات FFHQ و VGGFace2 و MS COCO تقديم مجموعة البيانات ، إذا تم توزيعها أو تعديلها ، بموجب نفس الترخيص.

بشكل فعال ، يجبر هذا أولئك الذين يستخدمون مجموعات بيانات البرمجيات الحرة والمفتوحة المصدر على استيعاب المسؤولية عن استخدام المواد المحمية بحقوق الطبع والنشر ، في مواجهة التقاضي النهائي (على الرغم من أنه لا يحمي بالضرورة المجمعين الأصليين في حالة يتألف فيها المناخ الحالي لـ "الملاذ الآمن").

3: التعويض من خلال الغموض
تجعل الطبيعة التعاونية لمجتمع التعلم الآلي من الصعب إلى حد ما استخدام السحر والتنجيم المؤسسي لإخفاء وجود الخوارزميات التي استفادت من مجموعات البيانات التي تنتهك حقوق الطبع والنشر. غالبًا ما تبدأ المشاريع التجارية طويلة الأجل في بيئات البرمجيات الحرة والمفتوحة المصدر المفتوحة حيث يكون استخدام مجموعات البيانات مسألة تسجيل ، في GitHub والمنتديات الأخرى المتاحة للجمهور ، أو حيث تم نشر أصول المشروع في أوراق ما قبل الطباعة أو أوراق خضعت لمراجعة الأقران.

حتى عندما لا يكون الأمر كذلك ، انعكاس النموذج is بشكل متزايد للكشف عن الخصائص النموذجية لمجموعات البيانات (أو حتى صراحة الإخراج بعض المواد المصدر) ، إما تقديم دليل في حد ذاته ، أو اشتباه كافٍ في الانتهاك لتمكين الوصول بأمر من المحكمة إلى تاريخ تطوير الخوارزمية ، وتفاصيل مجموعات البيانات المستخدمة في هذا التطوير.

وفي الختام

تصور الورقة استخدامًا فوضويًا ومخصصًا للمواد المحمية بحقوق الطبع والنشر التي تم الحصول عليها دون إذن ، وسلسلة من سلاسل التراخيص التي ، متبوعة منطقيًا منذ المصدر الأصلي للبيانات ، تتطلب مفاوضات مع الآلاف من أصحاب حقوق الطبع والنشر الذين تم تقديم عملهم تحت رعاية المواقع مع مجموعة متنوعة من شروط الترخيص ، والعديد منها يحول دون الأعمال التجارية المشتقة.

وخلص المؤلفون إلى:

تُستخدم مجموعات البيانات المتاحة للجمهور على نطاق واسع لبناء برامج الذكاء الاصطناعي التجارية. يمكن للمرء القيام بذلك إذا [و] فقط إذا كان الترخيص المرتبط بمجموعة البيانات المتاحة للجمهور يوفر الحق في القيام بذلك. ومع ذلك ، ليس من السهل التحقق من الحقوق والالتزامات المنصوص عليها في الترخيص المرتبط بمجموعات البيانات المتاحة للجمهور. لأنه في بعض الأحيان يكون الترخيص إما غير واضح أو يحتمل أن يكون غير صالح.

عمل جديد آخر بعنوان بناء مجموعات البيانات القانونية، الذي صدر في الثاني من نوفمبر من مركز القانون الحسابي في جامعة سنغافورة للإدارة ، يؤكد أيضًا على حاجة علماء البيانات إلى إدراك أن عصر `` الغرب المتوحش '' لجمع البيانات المخصصة يقترب من نهايته ، ويعكس توصيات Huawei ورقة لاعتماد عادات ومنهجيات أكثر صرامة من أجل ضمان أن استخدام مجموعة البيانات لا يعرض مشروعًا لتداعيات قانونية مع تغير الثقافة بمرور الوقت ، وبما أن النشاط الأكاديمي العالمي الحالي في قطاع التعلم الآلي يسعى إلى تحقيق عائد تجاري على سنوات من الاستثمار . يلاحظ المؤلف *:

من المقرر أن تنمو مجموعة التشريعات التي تؤثر على مجموعات بيانات غسل الأموال ، وسط مخاوف من أن القوانين الحالية توفرها غير كاف الضمانات. مشروع AIA [قانون الاتحاد الأوروبي للذكاء الاصطناعي]إذا تم تمريره ، فسيغير بشكل كبير مشهد إدارة البيانات والذكاء الاصطناعي ؛ قد تحذو السلطات القضائية الأخرى حذوها مع قوانينها الخاصة. "

 

* تحويل الاقتباسات المضمنة إلى ارتباطات تشعبية