Connect with us

الذكاء الاصطناعي

مجموعات بيانات الحوسبة العصبية المُستخرجة من الويب والخصوصية: لماذا يستحق CommonPool النظر

mm
Web-Scraped AI Datasets and Privacy: Why CommonPool Deserves a Look

الذكاء الاصطناعي (AI) أصبح جزءًا من الحياة اليومية. إنه مرئي في بوتات الدردشة الطبية التي توجيه المرضى وفي الأدوات التوليدية التي تساعد الفنانين والكتاب والمطورين. هذه الأنظمة تبدو متقدمة، ومع ذلك، فهي تعتمد على مورد أساسي واحد: البيانات.

معظم البيانات المستخدمة لتدريب أنظمة الذكاء الاصطناعي تأتي من الإنترنت العام. البرامج الآلية تجمع كميات كبيرة من النصوص والصور والصوت من المنصات عبر الإنترنت. هذه المجموعات تشكل أساس النماذج الشهيرة مثل GPT-4 و Stable Diffusion والعديد من غيرها. ومع ذلك، فإن هذه المجموعة الكبيرة تثير مخاوف غير محلولة حول الخصوصية والملكية والموافقة المستنيرة.

سوق مجموعات البيانات للتدريب يعكس حجم هذه النشاط. في الوقت الحالي، يقدر القيمة العالمية لمجموعات بيانات الذكاء الاصطناعي بـ 3.2 مليار دولار. وفقًا للتنبؤات، قد يصل إلى 16.3 مليار دولار بحلول عام 2034، بمعدل نمو سنوي بنسبة 20.5٪. خلف هذه الأرقام تكمن تحديات هامة. جزء كبير من المواد المجمعة يتم الحصول عليها بدون إذن صريح. غالبًا ما تحتوي على بيانات شخصية وأعمال محمية بحقوق الطبع والنشر ومحتوى حساس آخر لم يكن من المفترض أبدًا استخدامه في أنظمة التعلم الآلي.

في الاستجابة لهذه القضايا، يتم استكشاف نهج بديلة لتحكم البيانات. مثال على ذلك هو CommonPool، الذي تم إطلاقه في أبريل 2023 كجزء من معيار DataComp. إنه مجموعة بيانات كبيرة تضم 12.8 مليار زوج من الصور والنصوص مصممة لأبحاث الذكاء الاصطناعي متعدد الوسائط. على عكس جهود الحصاد التقليدية، يطبق طرق التصفية، ويشدد على الشفافية، ويشمل المشاركة المجتمعية في تطويره. على الرغم من أنه لا يزال موضوع نقاش، فإن CommonPool يشير إلى محاولة بناء ممارسات أكثر مسؤولية ومراقبة لبيانات التدريب على الذكاء الاصطناعي. هذه المبادرات تسلط الضوء على الحاجة إلى معايير أخلاقية في مستقبل الذكاء الاصطناعي.

دور بيانات الويب المُستخرجة في تطوير الذكاء الاصطناعي

البيانات هي محور الذكاء الاصطناعي، حيث ترتبط أداء النظام ارتباطًا وثيقًا بكمية وتنوع المعلومات المتاحة للتدريب. في السنوات الأخيرة، أصبحت الحصاد من الويب طريقة قياسية لجمع مجموعات بيانات كبيرة النطاق.

مثال شائع هو Common Crawl، الذي سجل بحلول عام 2025 بيتابايت من النصوص التي تم جمعها من خلال爬ldata الشهرية التي تزيد عن 250 تيرابايت كل منها. يتم استخدام هذه المجموعة البيانات على نطاق واسع لتدريب نماذج الذكاء الاصطناعي القائمة على النص. مثال آخر هو LAION-5B، الذي يحتوي على حوالي 5.85 مليار زوج من الصور والنصوص. لعب دورًا هامًا في التطبيقات مثل Stable Diffusion، والتي يمكنها إنشاء صور واقعية من الإشارات المكتوبة.

تكون هذه المجموعات قيمة لأنها تزيد من دقة النموذج وتحسن التعميم من خلال المحتوى المتنوع، وتسمح للمجموعات الصغيرة، بما في ذلك الجامعات، بالمشاركة في تطوير الذكاء الاصطناعي. يشير دليل ستانفورد للذكاء الاصطناعي 2025 إلى أن معظم النماذج المتقدمة لا تزال تعتمد على بيانات مُستخرجة، مع نمو المجموعات سريعًا في الحجم. هذا الطلب دفع الاستثمارات الكبيرة، التي بلغت أكثر من 57 مليار دولار في عام 2024 لمراكز البيانات والقدرة الحاسوبية.

في الوقت نفسه، لا تخلو أدوات الحصاد من الويب من التحديات. تثير أسئلة حول الخصوصية والملكية والحقوق القانونية، منذ أن تم إنشاء معظم المحتوى المجمّع في الأصل للاستخدام البشري، وليس للاستخدام الآلي. تُظهر القضايا القضائية ومناقشات السياسات أن هذه التحديات أصبحت أكثر إلحاحًا. سيتوقف مستقبل جمع بيانات الذكاء الاصطناعي على إيجاد توازن بين التقدم والمسؤولية الأخلاقية.

مشكلة الخصوصية مع البيانات المُستخرجة

تجمع أدوات الحصاد من الويب المعلومات دون فصل واضح بين المحتوى العام والتفاصيل الحساسة. إلى جانب النصوص والصور، غالبًا ما يتم التقاط معلومات تعريف شخصية (PII) مثل الأسماء وعناوين البريد الإلكتروني والصور الشخصية.

كشفت مراجعة لمجموعة بيانات CommonPool في يوليو 2025 أن حوالي 0.1٪ من العينات لا تزال تحتوي على وجوه غير محجوبة، ووثائق هوية حكومية، ووثائق مثل السيرة الذاتية والجوازات، حتى بعد التصفية. على الرغم من أن النسبة المئوية تبدو صغيرة، فإنها تترجم إلى ملايين الأفراد المتأثرين عند مقارنتها بمليارات السجلات. تؤكد المراجعات وعمليات التدقيق الأمني أن وجود هذا النوع من المواد ليس غير عادي، وتشمل المخاطر سرقة الهوية والتنمر المستهدف والكشف غير المرغوب فيه عن البيانات الشخصية.

تزداد النزاعات القانونية أيضًا مع تزايد القلق حول ملكية البيانات والاستخدام العادل. بين عامي 2023 و 2024، واجهت شركات مثل OpenAI وStability AI دعاوى قضائية لاستخدام بيانات شخصية ومحمية بحقوق الطبع والنشر بدون موافقة. في فبراير 2025، حكمت محكمة اتحادية أمريكية أن تدريب الذكاء الاصطناعي على معلومات شخصية غير مرخصة يُعد انتهاكًا. هذا القرار شجع على المزيد من القضايا الجماعية. يُعد حق الطبع والنشر قضية كبرى. تحتوي العديد من مجموعات البيانات المُستخرجة على كتب ومقالات وفن ورمز. يجادل الكتاب والفنانون بأن أعمالهم تُستخدم بدون موافقة أو دفع. تُشكك قضية The New York Times v. OpenAI فيما إذا كان نظام الذكاء الاصطناعي يُكرر المحتوى المحمي بشكل غير قانوني. أثار الفنانون المرئيون شكاوى مماثلة، زاعمين أن الذكاء الاصطناعي ينسخ أسلوبهم الفريد. في يونيو 2025، أيدت محكمة أمريكية شركة الذكاء الاصطناعي بموجب الاستخدام العادل، لكن الخبراء يقولون إن الأحكام لا تزال غير متسقة والإطار القانوني لا يزال غير واضح.

أضعف عدم وجود موافقة في تدريب الذكاء الاصطناعي الثقة العامة. يكتشف العديد من الأشخاص أن مدوناتهم أو أعمالهم الإبداعية أو رمزهم البرمجي يتم تضمينها في مجموعات البيانات بدون معرفتهم. هذا أثار مخاوف أخلاقية ودعوات إلى المزيد من الشفافية. في الاستجابة، تتحرك الحكومات نحو الرقابة الأشد من خلال قوانين تعزز التطوير العادل لأنظمة الذكاء الاصطناعي والاستخدام الحذر للبيانات.

لماذا مجموعات البيانات المُستخرجة صعبة الاستبدال

على الرغم من القلق حول الخصوصية والموافقة، لا تزال مجموعات البيانات المُستخرجة ضرورية لتدريب الذكاء الاصطناعي. السبب هو الحجم. تحتاج نماذج الذكاء الاصطناعي الحديثة إلى تريليونات من الرموز من النصوص والصور والوسائط الأخرى. بناء مجموعات بيانات مثل هذه فقط من خلال مصادر مرخصة أو منقحة سيكلف مئات الملايين من الدولارات. هذا ليس عمليًا لمعظم الشركات الناشئة أو الجامعات.

ال تكلفة العالية ليست التحدي الوحيد مع مجموعات البيانات المنقحة. غالبًا ما تفتقر إلى التنوع وتتركز على لغات أو مناطق أو مجتمعات معينة. هذا التغطية الضيقة يجعل نماذج الذكاء الاصطناعي أقل توازنًا. في المقابل، تُلتقط البيانات المُستخرجة، على الرغم من كونها صاخبة وغير كاملة، نطاقًا أوسع من الثقافات والمواضيع والآراء. هذا التنوع يسمح لأنظمة الذكاء الاصطناعي بالعمل بشكل أفضل عند تطبيقها على العالم الحقيقي.

المخاطر، مع ذلك، هي أن اللوائح الصارمة قد تقيد الوصول إلى البيانات المُستخرجة. إذا حدث ذلك، قد يجد المنظمات الصغيرة صعوبة في المنافسة. الشركات الكبيرة ذات مجموعات البيانات الخاصة أو المملوكة، مثل Google أو Meta، ستستمر في التقدم. هذا الخلل قد يقلل من المنافسة ويبطئ الابتكار المفتوح في الذكاء الاصطناعي.

في الوقت الحالي، مجموعات البيانات المُستخرجة هي مركزية لأبحاث الذكاء الاصطناعي. في الوقت نفسه، المشاريع مثل CommonPool تُستكشف طرقًا لبناء مجموعات بيانات شاملة ومصدرة أخلاقيًا. هذه الجهود ضرورية للحفاظ على نظام الذكاء الاصطناعي أكثر انفتاحًا وعدلًا ومسؤولية.

CommonPool: نحو هندسة بيانات مسؤولة على نطاق واسع

CommonPool هو واحد من الجهود الأكثر طموحًا تقنيًا لبناء مجموعة بيانات مفتوحة على نطاق واسع متعدد الوسائط. مع حوالي 12.8 مليار زوج من الصور والنصوص، يطابق حجمه مجموعة بيانات LAION-5B ولكن يدمج آليات هندسة بيانات وحوكمة أقوى. الهدف الرئيسي من التصميم لم يكن فقط تحقيق الحجم الأقصى ولكن أيضًا مواءمة مبادئ التكرار وبرهنة البيانات والامتثال التنظيمي.

تتبع بناء مجموعة بيانات CommonPool خط أنابيب من ثلاث مراحل منظمة. المرحلة الأولى تتضمن استخراج العينات الخام من لحظات Common Crawl التي تم جمعها بين عامي 2014 و 2022. يتم جمع الصور والنصوص المرتبطة بها، مثل العناوين أو المقاطع المحيطة. يتم تطبيق تقييم التوجيه الدلالي باستخدام نظام CLIP، ويتخلص من الأزواج ذات التناسق الضعيف بين محتوى الصورة والنص. يقلل هذا الخطوة الأولية من الضوضاء بشكل كبير مقارنة bằng خطوط الحصاد البسيطة.

في المرحلة الثانية، تخضع المجموعة البيانات إلى إزالة التكرار على نطاق واسع. يتم استخدام تقنيات التجزئة الحسية و MinHash لتحديد وإزالة الصور المكررة، ومنع التكرار من السيطرة على تدريب النموذج. يتم تطبيق مرشحات إضافية لاستبعاد الملفات التالفة والروابط المكسورة والصور ذات الدقة المنخفضة. في هذه المرحلة، يتم أيضًا تضمين تنسيق النص وتحديد اللغة الآلية، مما يسمح بإنشاء مجموعات فرعية محددة بالمجال أو اللغة للاستخدام المستهدف.

تركز المرحلة الثالثة على السلامة والامتثال. يتم تطبيق الكشف التلقائي عن الوجوه وتعتيمها، بينما يتم إزالة الصور المتعلقة بالأطفال والمعرفات الشخصية مثل الأسماء وعناوين البريد الإلكتروني والعناوين البريدية. يحاول خط الأنابيب أيضًا الكشف عن المواد المحمية بحقوق الطبع والنشر. على الرغم من أن أي طريقة آلية لا يمكن أن تضمن التصفية الكاملة على نطاق الويب، فإن هذه التدابير الأمنية تمثل تحسنًا تقنيًا كبيرًا مقارنة بمجموعة بيانات LAION-5B، حيث كانت التصفية محدودة في الغالب بمحتوى الكبار وخطورة المحتوى.

خارج معالجة البيانات، يقدم CommonPool نموذج حوكمة يميزه عن إصدارات مجموعات البيانات الثابتة. يتم صيانه كمجموعة بيانات حية مع إصدارات مصفوفة وبيانات وصفية ودوائر تحديث وثائقية. يتم تضمين معلومات الترخيص مع كل عينة حيثما كان ذلك ممكنًا، مما يدعم الامتثال للوائح بحقوق الطبع والنشر. يسمح بروتوكول الإزالة للأفراد والمؤسسات بطلب إزالة المحتوى الحساس، مما يعالج المخاوف التي أثيرت بواسطة قانون الذكاء الاصطناعي في الاتحاد الأوروبي والإطارات التنظيمية ذات الصلة. تُحسن البيانات الوصفية مثل عناوين URL ودرجات التصفية من الشفافية والتناسق، مما يسمح للباحثين بمتابعة قرارات الإدراج والاستبعاد.

مقارنة CommonPool مع مجموعات البيانات المُستخرجة التقليدية

على عكس مجموعات البيانات المُستخرجة على نطاق واسع مثل LAION-5B (5.85 مليار عينة) و COYO-700M (700 مليون عينة) و WebLI (400 مليون عينة)، يُشدد CommonPool على الهيكلة والتناسق والحوكمة. يتم الاحتفاظ بالبيانات الوصفية مثل عناوين URL وتواريخ الزمن، مما يدعم التتبع والتحقق الجزئي للتراخيص. بالإضافة إلى ذلك، يتم تطبيق تصفية دلالية قائمة على CLIP لإزالة أزواج الصور والنصوص منخفضة الجودة أو غير متوافقة، مما يؤدي إلى تحسين جودة البيانات.

بالمقارنة، تم تجميع LAION-5B و COYO من Common Crawl مع تصفية محدودة وبدون توثيق ترخيص مفصل. تحتوي هذه المجموعات البيانات غالبًا على مواد حساسة، بما في ذلك السجلات الطبية ووثائق الهوية والوجوه غير المحجوبة. لا تتمتع WebLI، التي تستخدمها OpenAI داخليًا، بالشفافية، لأنها لم يتم إطلاقها أبدًا لمراجعة أو تكرار خارجي.

يحاول CommonPool معالجة هذه القضايا من خلال استبعاد معلومات التعريف الشخصية ومحتوى الكبار، مع الاعتراف بأن موافقة المستخدم لا تزال غير محلولة. هذا يجعلها أكثر موثوقية ومتوافقة مع الأخلاقيات من البدائل السابقة.

الخلاصة

تُظهر تطوير CommonPool تحولًا هامًا في كيفية تصور مجموعات بيانات الذكاء الاصطناعي على نطاق واسع ومaintenanceها. في حين أن المجموعات السابقة مثل LAION-5B و COYO أ優tت الحجم مع الرقابة المحدودة، يُظهر CommonPool أن الشفافية والتصفية والحوكمة يمكن دمجها في بناء المجموعة البيانات دون المساس bằng استخدامها لأغراض البحث.

من خلال الاحتفاظ بالبيانات الوصفية وتطبيق فحص التوجيه الدلالي ودمج حماية الخصوصية، يقدم CommonPool موردًا أكثر تكرارًا ومتوافقًا. في الوقت نفسه، تُذكرنا عمليات التدقيق المستقلة بأنه لا يمكن للتحصينات الآلية إزالة المخاطر تمامًا، مما يُظهر الحاجة إلى استمرار اليقظة.

الدكتور أسعد عباس، أستاذ مساعد متفرغ في جامعة كومساطس إسلام آباد، باكستان، حصل على دكتوراه من جامعة نورث داكوتا الحكومية، الولايات المتحدة الأمريكية. يركز بحثه على التكنولوجيا المتقدمة، بما في ذلك الحوسبة السحابية، وحوسبة الضباب، وحوسبة الحافة، وتحليل البيانات الكبيرة، والذكاء الاصطناعي. قدم الدكتور عباس مساهمات كبيرة من خلال المنشورات في المجلات العلمية والمؤتمرات ذات السمعة الطيبة. وهو أيضًا مؤسس MyFastingBuddy.