الذكاء الاصطناعي

مشكلة الانتحال: كيف تعيد نماذج الذكاء الاصطناعي الإبداعية محتوى حقوق النشر

mm
plagiarism-in-AI

تسارع التقدم في الذكاء الاصطناعي الإبداعي أثار حماسًا حول إمكانيات التكنولوجيا الإبداعية. ومع ذلك ، فإن هذه النماذج القوية تشكل أيضًا مخاطر قلق حول إعادة إنتاج المحتوى المُحمي بحقوق النشر أو المُنتحل بدون إسناد مناسب.

كيف تمتص الشبكات العصبية بيانات التدريب

النظم الحديثة مثل GPT-3 يتم تدريبها من خلال عملية تسمى التعلم النقلي. они تبتلع مجموعات بيانات ضخمة مُحوسبة من مصادر عامة مثل المواقع الإلكترونية والكتب والأوراق الأكاديمية وغيرها. على سبيل المثال ، شملت بيانات التدريب لـ GPT-3 570 غيغابايت من النص. خلال التدريب ، يبحث الذكاء الاصطناعي عن الأنماط والعلاقات الإحصائية في هذه المجموعة الضخمة من البيانات. يتعلم العلاقات بين الكلمات والجمل والفقرات وهيكل اللغة والميزات الأخرى.

هذا يسمح للذكاء الاصطناعي بإنشاء نص أو صور جديدة متسقة من خلال التنبؤ بالتسلسلات المحتملة التي تلي إدخالًا معينًا أو تحفيزًا. ومع ذلك ، فهذا يعني أيضًا أن هذه النماذج تمتص المحتوى دون اعتبار لحقوق النشر أو الإسناد أو مخاطر الانتحال. ونتيجة لذلك ، يمكن للنماذج الإبداعية أن تعيد إنتاج مقاطع حرفية أو تعبيرات مُحميّة بحقوق النشر من مجموعات بيانات التدريب.

أمثلة رئيسية على الانتحال الاصطناعي

برزت مخاوف حول الانتحال الاصطناعي بشكل بارز منذ عام 2020 بعد إصدار GPT.

أظهرت الأبحاث الحديثة أن النماذج اللغوية الكبيرة (LLM) مثل GPT-3 يمكن أن تعيد إنتاج مقاطع حرفية كبيرة من بيانات التدريب بدون إسناد (Nasr et al.، 2023؛ Carlini et al.، 2022). على سبيل المثال ، كشفت دعوى قضائية من صحيفة نيويورك تايمز عن برمجيات OpenAI التي تُنشئ مقالات نيويورك تايمز تقريبًا حرفيًا (نيويورك تايمز، 2023).

تشير هذه النتائج إلى أن بعض أنظمة الذكاء الاصطناعي الإبداعي قد تنتج مخرجات مُنتحلة دون طلب ، مما يخاطر بانتهاك حقوق النشر. ومع ذلك ، فإن انتشار هذه الظاهرة لا يزال غير مؤكد بسبب طبيعة “الsandbox” للنماذج اللغوية الكبيرة. تدعي دعوى نيويورك تايمز أن هذه المخرجات تشكل انتهاكًا ، مما قد يكون له آثار كبيرة على تطوير الذكاء الاصطناعي الإبداعي. بشكل عام ، تشير الأدلة إلى أن الانتحال هو مشكلة متأصلة في النماذج الشبكية الكبيرة التي تتطلب اليقظة والضمانات.

تظهر هذه الحالات عاملين رئيسيين يؤثران على مخاطر الانتحال الاصطناعي:

  1. حجم النموذج – النماذج الأكبر مثل GPT-3.5 أكثر عرضة لإعادة إنتاج مقاطع نصية حرفية مقارنة بالنماذج الأصغر. تزيد مجموعات بيانات التدريب الأكبر من التعرض للمواد الأصلية المُحميّة بحقوق النشر.
  2. بيانات التدريب – النماذج المُدرجة على بيانات مُحوسبة من الإنترنت أو الأعمال المُحميّة بحقوق النشر (حتى لو كانت مرخصة) أكثر عرضة للانتحال مقارنة بالنماذج المُدرجة على مجموعات بيانات مُحضرة بعناية.

ومع ذلك ، فإن قياس انتشار المخرجات المُنتحلة مباشرةً يُعدّ تحديًا. تعتبر طبيعة “الsandbox” للنماذج الشبكية تجعل من الصعب تتبع هذه العلاقة بين بيانات التدريب ومخرجات النموذج. قد تعتمد النسب بشكل كبير على هيكل النموذج وجودة المجموعة وجملة التحفيز. ومع ذلك ، تؤكد هذه الحالات أن الانتحال الاصطناعي يحدث بشكل قاطع ، مما له آثار قانونية وأخلاقية حرجة.

نظم كشف الانتحال الناشئة

استجابةً لذلك ، بدأ الباحثون في استكشاف أنظمة الذكاء الاصطناعي لاكتشاف النصوص والصور التي تم إنشاؤها بواسطة النماذج مقابل تلك التي تم إنشاؤها بواسطة البشر. على سبيل المثال ،提出了 باحثون في Mila نظام GenFace الذي يتحليل الأنماط اللغوية التي تشير إلى نص مُكتب بواسطة الذكاء الاصطناعي. كما طوّر شركة Anthropic قدرات كشف الانتحال الداخلية لنظام الذكاء الاصطناعي الحواري Claude.

ومع ذلك ، توجد قيود لهذه الأدوات. يُعدّ تحديد مصادر الأصل للمحتوى المُنتحل صعبًا ، إن لم يكن مستحيلًا ، بالنظر إلى مجموعة بيانات التدريب الضخمة للنماذج مثل GPT-3. سيتطلب تطوير تقنيات أكثر متانة مع استمرار تطور النماذج الإبداعية بسرعة. حتى ذلك الحين ، يبقى المراجعة اليدوية ضرورية لفحص المخرجات المحتملة المُنتحلة أو المُخالفة قبل الاستخدام العام.

أفضل الممارسات لتقليل الانتحال الاصطناعي

هنا بعض أفضل الممارسات التي يمكن للمطورين ومستخدمي الذكاء الاصطناعي اتباعها لتقليل مخاطر الانتحال:

للمطورين:

  • التحقق بعناية من مصادر بيانات التدريب لاستبعاد المواد المُحميّة بحقوق النشر أو المرخصة بدون إذن مناسب.
  • تطوير إجراءات توثيق بيانات قوية وتسجيل الأصول. تسجيل البيانات الوصفية مثل التراخيص والوسوم والمنشئين وغيرها.
  • تنفيذ أدوات كشف الانتحال لتحديد المحتوى ذي المخاطر العالية قبل الإصدار.
  • تقديم تقارير شفافة تفصّل مصادر بيانات التدريب والتراخيص وأصول مخرجات الذكاء الاصطناعي عند ظهور المخاوف.
  • تمكين المبدعين من الخروج بسهولة من مجموعات بيانات التدريب. الامتثال السريع لطلبات الإزالة أو الاستبعاد.

لمستخدمي الذكاء الاصطناعي:

  • فحص المخرجات بدقة لتحديد أي مقاطع أو عبارات مُنتحلة أو غير مُسندة قبل نشرها على نطاق واسع.
  • الابتعاد عن معاملة الذكاء الاصطناعي كأنظمة إبداعية بالكامل. وجود مراجع بشريين لمراجعة المحتوى النهائي.
  • الاعتماد على الإبداع البشري المساعد بدلاً من إنشاء محتوى جديد بالكامل من الصفر. استخدام النماذج للتعبير أو التوليد الفكري بدلاً من ذلك.
  • الاستعلام عن شروط الخدمة وسياسات المحتوى وضمانات الانتحال لمقدمي الذكاء الاصطناعي قبل الاستخدام. تجنب النماذج الغامضة.
  • إسناد المصادر بوضوح إذا ظهر أي محتوى مُحمي بحقوق النشر في المخرجات النهائية尽管 الجهود المبذولة. لا تقدم عمل الذكاء الاصطناعي على أنه عمل أصلي بالكامل.
  • الحد من مشاركة المخرجات بشكل خاص أو سرّي حتى يمكن تقييم مخاطر الانتحال وتحديد الإجراءات.

قد تكون لوائح بيانات التدريب الأكثر صرامة مبررة مع استمرار انتشار النماذج الإبداعية. قد يتضمن ذلك تطلب موافقة المبدعين قبل إضافة أعمالهم إلى مجموعات البيانات. ومع ذلك ، يقع العبء على كل من المطورين والمستخدمين لاعتماد ممارسات الذكاء الاصطناعي الأخلاقية التي تحترم حقوق المبدعين.

الانتحال في Midjourney’s V6 Alpha

بعد التحفيز المحدود ، تمكنت بعض الباحثين من إنشاء صور متطابقة تقريبًا مع أفلام وبرامج تلفزيونية وألعاب فيديو مُحميّة بحقوق النشر ، ربما كانت جزءًا من بيانات التدريب.

Images Created by Midjourney Resembling Scenes from Famous Movies and Video Games

Images Created by Midjourney Resembling Scenes from Famous Movies and Video Games

تؤكد هذه التجارب على أن حتى أنظمة الذكاء الاصطناعي البصرية المتقدمة يمكن أن تُنتحل محتوى مُحمي دون قصد إذا ظلت مصادر بيانات التدريب دون رقابة. يُشدد على الحاجة إلى اليقظة والضمانات والرقابة البشرية عند نشر النماذج الإبداعية تجارياً لتقليل مخاطر الانتهاك.

استجابة شركات الذكاء الاصطناعي للمحتوى المُحمي بحقوق النشر

تتلاشى الحدود بين الإبداع البشري والذكاء الاصطناعي ، مما يخلق أسئلة معقدة حول حقوق النشر. قد تكون الأعمال التي تجمع بين الإبداع البشري والذكاء الاصطناعي قابلة للحماية بحقوق النشر فقط في الجوانب التي يتم تنفيذها بواسطة الإنسان فقط.

رفض مكتب حقوق النشر الأمريكي حقوق النشر لمعظم جوانب رواية رسومية إبداعية بشريّة-ذكاء اصطناعي ، معتبرًا الفن الذكاء الاصطناعي غير بشري. كما أصدر توجيهات تستثني أنظمة الذكاء الاصطناعي من “التصنيف”. أكدت المحاكم الفيدرالية هذا الموقف في قضية حقوق النشر للفن الذكاء الاصطناعي.

في غضون ذلك ، تُتهم دعاوى قضائية بالانتهاك ، مثل Getty v. Stability AI وفنانون ضد Midjourney/Stability AI. ومع ذلك ، بدون “مؤلفين” للذكاء الاصطناعي ، يُطرح سؤال حول ما إذا كانت دعاوى الانتهاك تنطبق.

استجابةً لذلك ، ادعت شركات الذكاء الاصطناعي الكبيرة مثل Meta و Google و Microsoft و Apple أنها لا يجب أن تحتاج إلى تراخيص أو دفع حقوق لتدريب نماذج الذكاء الاصطناعي على بيانات مُحميّة بحقوق النشر.

هنا ملخص للحجج الرئيسية من شركات الذكاء الاصطناعي الكبيرة استجابةً لقواعد حقوق النشر الجديدة حول الذكاء الاصطناعي ، مع المراجع:

Meta تدعي فرض التراخيص الآن سوف يسبب فوضى وسيوفر قليلاً من الفوائد لمالكي حقوق النشر.

Google تعتقد تدريب الذكاء الاصطناعي مشابه لأفعال غير مخالفة مثل قراءة كتاب (Google، 2022).

Microsoft تحذر تغيير قانون حقوق النشر يمكن أن يضر بمطوري الذكاء الاصطناعي الصغيرة.

Apple تريد حماية حقوق النشر للكود الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي تحت السيطرة البشرية.

بشكل عام ، تعارض معظم الشركات متطلبات الترخيص الجديدة وتقلل من مخاوف حول إعادة إنتاج النماذج الإبداعية للأعمال المُحميّة بدون إسناد. ومع ذلك ، يُعدّ هذا الموقف مثيرًا للجدل بالنظر إلى دعاوى حقوق النشر الأخيرة والمناقشات حول الذكاء الاصطناعي.

مسارات للابتكار المسؤول للذكاء الاصطناعي الإبداعي

مع استمرار تقدم النماذج الإبداعية ، من المهم معالجة مخاطر الانتحال لتقليل القبول العام. يتطلب ذلك نهجًا متعدّدي الأوجه:

  • إصلاحات سياسية حول شفافية بيانات التدريب والترخيص وموافقة المبدعين.
  • تقنيات كشف الانتحال أكثر قوة وحوكمة داخلية من قبل المطورين.
  • زيادة الوعي المستخدم وموافقة المبادئ الأخلاقية للذكاء الاصطناعي.
  • سابقات قانونية واضحة وقانونية حول قضايا حقوق النشر للذكاء الاصطناعي.

مع الضمانات الصحيحة ، يمكن أن تُثمر الإبداع المساعد بالذكاء الاصطناعي بشكل أخلاقي. ومع ذلك ، يمكن أن تُهدد مخاطر الانتحال غير الخاضعة للرقابة الثقة العامة بشكل كبير. من المهم معالجة هذه المشكلة بشكل مباشر لتحقيق الإمكانيات الإبداعية الهائلة للذكاء الاصطناعي مع احترام حقوق المبدعين. سيتطلب تحقيق التوازن الصحيح مواجهة نقطة عمي الانتحال المُدمجة في طبيعة الشبكات العصبية. ومع ذلك ، من شأن ذلك أن يضمن ألا تُؤثر هذه النماذج القوية على الذكاء البشري الذي تهدف إلى تعزيزه.

لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من التعلم الآلي والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا في هندسة البرمجيات، مع التركيز بشكل خاص على الذكاء الاصطناعي والتعلم الآلي. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا متحمس لاستكشافه بشكل أكبر.