رطم كيف سيقضي التحيز على استراتيجية الذكاء الاصطناعي/تعلم الآلة الخاصة بك وماذا تفعل حيال ذلك - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

قاده التفكير

كيف سيقضي التحيز على استراتيجية الذكاء الاصطناعي/تعلم الآلة الخاصة بك وماذا تفعل حيال ذلك

يصف "التحيز" في النماذج من أي نوع الموقف الذي يستجيب فيه النموذج بشكل غير دقيق للمطالبات أو البيانات المدخلة لأنه لم يتم تدريبه بما يكفي من البيانات المتنوعة عالية الجودة لتوفير استجابة دقيقة. أحد الأمثلة سيكون ميزة فتح الهاتف بالتعرف على الوجه من Apple، والتي فشلت بمعدل أعلى بكثير للأشخاص ذوي البشرة الداكنة بدلاً من الألوان الفاتحة. ولم يتم تدريب النموذج على ما يكفي من الصور للأشخاص ذوي البشرة الداكنة. كان هذا مثالًا منخفض المخاطر نسبيًا على التحيز، ولكن هذا هو بالضبط السبب وراء وضع قانون الذكاء الاصطناعي للاتحاد الأوروبي متطلبات لإثبات فعالية النموذج (وضوابطه) قبل طرحه في السوق. يجب الوثوق بالنماذج ذات المخرجات التي تؤثر على المواقف التجارية أو المالية أو الصحية أو الشخصية، وإلا فلن يتم استخدامها.

معالجة التحيز بالبيانات

كميات كبيرة من البيانات عالية الجودة

من بين العديد من الممارسات الهامة لإدارة البيانات، أ العنصر الرئيسي للتغلب على التحيز وتقليله في نماذج الذكاء الاصطناعي/التعلم الآلي هو الحصول على كميات كبيرة من البيانات المتنوعة وعالية الجودة. وهذا يتطلب التعاون مع العديد من المنظمات التي لديها مثل هذه البيانات. تقليديًا، يواجه الحصول على البيانات والتعاون تحديات تتعلق بالخصوصية و/أو مخاوف حماية IP - لا يمكن إرسال البيانات الحساسة إلى مالك النموذج، ولا يمكن لمالك النموذج المخاطرة بتسريب عنوان IP الخاص به إلى مالك البيانات. الحل الشائع هو العمل مع البيانات الوهمية أو الاصطناعية، والتي يمكن أن تكون مفيدة ولكن لها أيضًا قيود مقارنة باستخدام بيانات حقيقية كاملة السياق. هذا هو المكان الذي توفر فيه تقنيات تعزيز الخصوصية (PETs) الإجابات التي تشتد الحاجة إليها.

البيانات الاصطناعية: قريبة، ولكن ليس تماما

البيانات التركيبية يتم إنشاؤها بشكل مصطنع لتقليد البيانات الحقيقية. من الصعب القيام بذلك ولكنه أصبح أسهل قليلاً باستخدام أدوات الذكاء الاصطناعي. يجب أن تحتوي البيانات الاصطناعية عالية الجودة على نفس مسافات الميزات مثل البيانات الحقيقية، وإلا فلن تكون مفيدة. يمكن استخدام البيانات الاصطناعية عالية الجودة لتعزيز تنوع بيانات التدريب بشكل فعال عن طريق سد الثغرات بالنسبة للمجموعات السكانية الصغيرة والمهمشة، أو للسكان الذين لا يمتلك مزود الذكاء الاصطناعي بيانات كافية لديهم. يمكن أيضًا استخدام البيانات الاصطناعية لمعالجة حالات الحافة التي قد يصعب العثور عليها بكميات كافية في العالم الحقيقي. بالإضافة إلى ذلك، يمكن للمؤسسات إنشاء مجموعة بيانات تركيبية لتلبية متطلبات موقع البيانات والخصوصية التي تمنع الوصول إلى البيانات الحقيقية. هذا يبدو عظيما؛ ومع ذلك، فإن البيانات الاصطناعية هي مجرد قطعة من اللغز، وليست الحل.

أحد القيود الواضحة للبيانات الاصطناعية هو الانفصال عن العالم الحقيقي. على سبيل المثال، سوف تواجه المركبات ذاتية القيادة المدربة فقط على البيانات الاصطناعية صعوبات في التعامل مع ظروف الطريق الحقيقية وغير المتوقعة. بالإضافة إلى ذلك، ترث البيانات الاصطناعية التحيز من بيانات العالم الحقيقي المستخدمة في توليدها، وهو ما يتعارض إلى حد كبير مع الغرض من مناقشتنا. في الختام، تعد البيانات الاصطناعية خيارًا مفيدًا لضبط ومعالجة الحالات المتطورة، لكن التحسينات الكبيرة في فعالية النموذج وتقليل التحيز لا تزال تعتمد على الوصول إلى بيانات العالم الحقيقي.

طريقة أفضل: بيانات حقيقية عبر سير العمل الذي يدعم PETs

تحمي الحيوانات الأليفة البيانات أثناء الاستخدام. عندما يتعلق الأمر بنماذج الذكاء الاصطناعي/التعلم الآلي، يمكنها أيضًا حماية عنوان IP الخاص بالنموذج الذي يتم تشغيله - "عصفوران، حجر واحد". توفر الحلول التي تستخدم PETs خيار تدريب النماذج على مجموعات بيانات حقيقية وحساسة لم يكن من الممكن الوصول إليها من قبل بسبب مخاوف تتعلق بخصوصية البيانات وأمانها. يعد فتح تدفقات البيانات إلى بيانات حقيقية هو الخيار الأفضل لتقليل التحيز. ولكن كيف يمكن أن تعمل في الواقع؟

في الوقت الحالي، تبدأ الخيارات الرائدة ببيئة حوسبة سرية. بعد ذلك، يتم التكامل مع حل برمجي قائم على PETs مما يجعله جاهزًا للاستخدام خارج الصندوق أثناء معالجة متطلبات إدارة البيانات والأمن التي لم يتم تضمينها في بيئة التنفيذ القياسية الموثوقة (TEE). باستخدام هذا الحل، يتم تشفير جميع النماذج والبيانات قبل إرسالها إلى بيئة حوسبة آمنة. يمكن استضافة البيئة في أي مكان، وهو أمر مهم عند معالجة متطلبات معينة لتوطين البيانات. وهذا يعني أنه يتم الحفاظ على كل من عنوان IP النموذجي وأمن بيانات الإدخال أثناء الحساب - ولا يستطيع حتى موفر بيئة التنفيذ الموثوقة الوصول إلى النماذج أو البيانات الموجودة بداخلها. يتم بعد ذلك إرسال النتائج المشفرة مرة أخرى للمراجعة وتكون السجلات متاحة للمراجعة.

يفتح هذا التدفق البيانات ذات الجودة الأفضل بغض النظر عن مكان وجودها أو من يملكها، مما يخلق طريقًا لتقليل التحيز والنماذج عالية الكفاءة التي يمكننا الوثوق بها. هذا التدفق هو أيضًا ما وصفه قانون الاتحاد الأوروبي للذكاء الاصطناعي في متطلباته الخاصة بوضع الحماية التنظيمي للذكاء الاصطناعي.

تسهيل الامتثال الأخلاقي والقانوني

إن الحصول على بيانات حقيقية ذات نوعية جيدة أمر صعب. تحد متطلبات خصوصية البيانات وتوطينها على الفور من مجموعات البيانات التي يمكن للمؤسسات الوصول إليها. ولكي يحدث الابتكار والنمو، يجب أن تتدفق البيانات إلى أولئك الذين يمكنهم استخلاص القيمة منها.

تنص المادة 54 من قانون الاتحاد الأوروبي للذكاء الاصطناعي على متطلبات أنواع النماذج "عالية المخاطر" من حيث ما يجب إثباته قبل طرحها في السوق. باختصار، ستحتاج الفرق إلى استخدام بيانات العالم الحقيقي داخل الشبكة البيئة التجريبية التنظيمية للذكاء الاصطناعي لإظهار فعالية النموذج الكافية والامتثال لجميع عناصر التحكم المفصلة في الباب الثالث الفصل 2. تتضمن عناصر التحكم المراقبة والشفافية وقابلية الشرح وأمن البيانات وحماية البيانات وتقليل البيانات وحماية النموذج - فكر في DevSecOps + Data Ops.

سيكون التحدي الأول هو العثور على مجموعة بيانات حقيقية لاستخدامها، حيث إنها بيانات حساسة بطبيعتها لمثل هذه الأنواع من النماذج. بدون ضمانات فنية، قد تتردد العديد من المؤسسات في الوثوق بموفر النموذج فيما يتعلق ببياناتها أو لن يُسمح لها بذلك. بالإضافة إلى ذلك، فإن الطريقة التي يحدد بها القانون "البيئة التنظيمية للذكاء الاصطناعي" تمثل تحديًا في حد ذاتها. تتضمن بعض المتطلبات ضمان إزالة البيانات من النظام بعد تشغيل النموذج بالإضافة إلى ضوابط الحوكمة والتنفيذ وإعداد التقارير لإثبات ذلك.

لقد حاولت العديد من المؤسسات استخدام غرف البيانات النظيفة (DCRs) وبيئات التنفيذ الموثوقة (TEEs) الجاهزة. ولكن هذه التقنيات، في حد ذاتها، تتطلب خبرة كبيرة وتعمل على تفعيل وتلبية المتطلبات التنظيمية للبيانات والذكاء الاصطناعي.
تعد وحدات DCR أسهل في الاستخدام، ولكنها ليست مفيدة بعد لاحتياجات الذكاء الاصطناعي/التعلم الآلي الأكثر قوة. تعتبر TEEs خوادم مؤمنة ولا تزال بحاجة إلى منصة تعاون متكاملة لتكون مفيدة وسريعة. ومع ذلك، فإن هذا يحدد فرصة لمنصات تكنولوجيا تعزيز الخصوصية للتكامل مع TEEs لإزالة هذا العمل، والتقليل من أهمية إعداد واستخدام صندوق الحماية التنظيمي للذكاء الاصطناعي، وبالتالي الحصول على البيانات الحساسة واستخدامها.

ومن خلال تمكين استخدام مجموعات بيانات أكثر تنوعًا وشمولاً بطريقة تحافظ على الخصوصية، تساعد هذه التقنيات على ضمان امتثال ممارسات الذكاء الاصطناعي وتعلم الآلة للمعايير الأخلاقية والمتطلبات القانونية المتعلقة بخصوصية البيانات (على سبيل المثال اللائحة العامة لحماية البيانات وقانون الاتحاد الأوروبي للذكاء الاصطناعي في أوروبا). باختصار، في حين أن المتطلبات غالبًا ما يتم استيفاؤها بأصوات تنهدات مسموعة، فإن هذه المتطلبات ترشدنا ببساطة إلى بناء نماذج أفضل يمكننا الوثوق بها والاعتماد عليها لاتخاذ قرارات مهمة تعتمد على البيانات مع حماية خصوصية أصحاب البيانات المستخدمة لتطوير النماذج والتخصيص.

عدي هيرشتين هو نائب الرئيس للمنتج في تقنيات ثنائية. يتمتع Adi بأكثر من 20 عامًا من الخبرة كمدير تنفيذي ومدير منتج ورائد أعمال في بناء وقيادة الابتكار في شركات التكنولوجيا التي تركز بشكل أساسي على الشركات الناشئة في مجال B2B في مجال البيانات والذكاء الاصطناعي. قبل Duality، شغل Adi منصب نائب رئيس المنتج لشركة Iguazio (شركة MLOps) التي استحوذت عليها شركة McKinsey وقبل ذلك شغل منصب مدير المنتج في EMC بعد الاستحواذ على شركة ناشئة أخرى تسمى Zettapoint (شركة قواعد البيانات والتخزين) حيث عمل بصفته نائب الرئيس للمنتج الذي يقود المنتج من البداية إلى اختراق السوق والنمو.