Connect with us

كيف سيقتل التحيز استراتيجية الذكاء الاصطناعي والتعلم الآلي و ماذا تفعل حيال ذلك

قادة الفكر

كيف سيقتل التحيز استراتيجية الذكاء الاصطناعي والتعلم الآلي و ماذا تفعل حيال ذلك

mm

يصف مصطلح “التحيز” في نماذج أي نوع حالة يرد فيها النموذج بشكل غير دقيق على الإشارات أو بيانات الإدخال لأنها لم يتم تدريبها على بيانات عالية الجودة ومتنوعة بما يكفي لتوفير استجابة دقيقة. ومن الأمثلة على ذلك ميزة فتح قفل الهاتف بواسطة تقنية التعرف على الوجه من شركة آبل، والتي فشلت بنسبة أعلى بكثير للأشخاص ذوي البشرة الداكنة مقارنة بالدرجات الأفتح. ولم يتم تدريب النموذج على صور كافية للأشخاص ذوي البشرة الداكنة. وكان هذا مثالًا ذا مخاطر منخفضة نسبيًا للتحيز، ولكنه بالضبط السبب في أن قانون الذكاء الاصطناعي في الاتحاد الأوروبي قد وضع متطلبات لإثبات فعالية النموذج (والضوابط) قبل إطلاقه في السوق. يجب أن تكون النماذج ذات الإخراج الذي يؤثر على الأعمال أو المالية أو الصحة أو الحالات الشخصية موثوقة بها، أو لن يتم استخدامها.

مكافحة التحيز مع البيانات

كميات كبيرة من البيانات عالية الجودة

من بين العديد من ممارسات إدارة البيانات المهمة، فإن مكونًا رئيسيًا للتغلب على التحيز وتقليله في نماذج الذكاء الاصطناعي والتعلم الآلي هو الحصول على كميات كبيرة من البيانات عالية الجودة والمتنوعة. ويتطلب ذلك التعاون مع العديد من المنظمات التي تمتلك مثل هذه البيانات. وتواجه عمليات الحصول على البيانات والتعاون تحديات بسبب مشاكل الخصوصية وحماية الملكية الفكرية – لا يمكن إرسال البيانات الحساسة إلى مالك النموذج، ولا يستطيع مالك النموذج أن يخاطر بتسريب الملكية الفكرية لمالك البيانات. ومن الحلول الشائعة العمل مع بيانات وهمية أو مصنعة، والتي يمكن أن تكون مفيدة ولكنها أيضًا لديها قيود مقارنة باستخدام البيانات الحقيقية والكاملة. وهنا تقدم تقنيات تعزيز الخصوصية (PETs) الإجابات اللازمة.
البيانات الاصطناعية: قريبة ولكن ليس تمامًا

البيانات الاصطناعية يتم توليدها بشكل اصطناعي لمحاكاة البيانات الحقيقية. وهذا صعب القيام به ولكنه يصبح أسهل قليلاً مع أدوات الذكاء الاصطناعي. وينبغي أن تكون البيانات الاصطناعية الجيدة ذات مسافات ميزة متساوية مثل البيانات الحقيقية، أو لن تكون مفيدة. ويمكن استخدام البيانات الاصطناعية الجيدة لتعزيز تنوع بيانات التدريب بشكل فعال عن طريق ملء الفجوات لل人口 الصغيرة أو الهامشية، أو السكان الذين لا يمتلك مزود الذكاء الاصطناعي بيانات كافية لهم. ويمكن استخدام البيانات الاصطناعية أيضًا لمعالجة الحالات الحدية التي قد تكون صعبة العثور عليها في كميات كافية في العالم الحقيقي. بالإضافة إلى ذلك، يمكن للمنظمات توليد مجموعة بيانات اصطناعية لتحقيق متطلبات الخصوصية وحماية البيانات التي تحظر الوصول إلى البيانات الحقيقية. ويبدو هذا رائعًا، ومع ذلك، فإن البيانات الاصطناعية مجرد جزء من اللغز، وليس الحل.
واحدة من القيود الواضحة للبيانات الاصطناعية هي الانقطاع عن العالم الحقيقي. على سبيل المثال، سيواجه المركبات ذاتية القيادة التي تم تدريبها فقط على البيانات الاصطناعية صعوبات في ظروف الطريق الحقيقية غير المتوقعة. بالإضافة إلى ذلك، ترث البيانات الاصطناعية التحيز من البيانات الحقيقية المستخدمة لتوليدها – مما يبطل غرض مناقشتنا تقريبًا. وبالتالي، فإن البيانات الاصطناعية خيار مفيد لتعديل وتحسين الحالات الحدية، ولكن التحسينات الكبيرة في فعالية النموذج وتقليل التحيز لا تزال تعتمد على الوصول إلى البيانات الحقيقية.
طريقة أفضل: البيانات الحقيقية عبر سير عمل PETs

تحمي تقنيات تعزيز الخصوصية (PETs) البيانات أثناء استخدامها. ويمكنها أيضًا حماية الملكية الفكرية للنموذج الذي يتم تشغيله – “طائرين بحجر واحد”. وتوفر الحلول التي تستخدم تقنيات تعزيز الخصوصية خيارًا لتدريب النماذج على مجموعات بيانات حقيقية وحساسة لم تكن متاحة من قبل بسبب مخاوف الخصوصية وأمان البيانات. ويتوفر هذا التحرير لتدفقات البيانات إلى البيانات الحقيقية وهو الخيار الأفضل لتقليل التحيز. ولكن كيف سيعمل هذا في الواقع؟
للحظة، تبدأ الخيارات الرائدة ببيئة حوسبة موثوقة. ثم يتم دمجها مع حل برمجي يستند إلى تقنيات تعزيز الخصوصية مما يجعله جاهزًا للاستخدام فورًا مع معالجة متطلبات الحوكمة وأمان البيانات التي لا يتم تضمينها في بيئة تنفيذ موثوقة (TEE) стандартية. وبالنسبة إلى هذا الحل، يتم تشفير النماذج والبيانات قبل إرسالها إلى بيئة حوسبة موثوقة. ويمكن استضافة البيئة في أي مكان، وهو ما يهم عند معالجة متطلبات التوطين البيانات. وهذا يعني أن كلاً من الملكية الفكرية للنموذج وأمان بيانات الإدخال يتم الحفاظ عليهما أثناء الحوسبة – ولا يستطيع حتى مزود بيئة التنفيذ الموثوقة الوصول إلى النماذج أو البيانات داخلها. ثم يتم إرسال النتائج المشفرة إلى المراجعة وتتوفر السجلات للمراجعة.
هذا التدفق يفتح أفضل بيانات جودة بغض النظر عن مكان وجودها أو من يمتلكها، مما يخلق مسارًا لتقليل التحيز وإنشاء نماذج فعالة يمكننا الثقة بها. وهذا التدفق هو ما وصفته لوائح الذكاء الاصطناعي في الاتحاد الأوروبي في متطلباتها لصندوق تجريبي تنظيمي للذكاء الاصطناعي.

تسهيل الامتثال الأخلاقي والقانوني

الحصول على بيانات جيدة جودة صعب. وتقييدات الخصوصية والتوطين للبيانات تحد بشكل فوري من مجموعات البيانات التي يمكن للمنظمات الوصول إليها. و为了 تحقيق الابتكار والنمو، يجب أن تتدفق البيانات إلى أولئك الذين يمكنهم استخراج القيمة منها.
يحدد المادة 54 من قانون الذكاء الاصطناعي في الاتحاد الأوروبي متطلبات لأنواع النماذج “العالية المخاطر” فيما يتعلق بما يجب إثباته قبل إطلاقها في السوق. وباختصار، سيتعين على الفرق استخدام بيانات العالم الحقيقي داخل صندوق تجريبي تنظيمي للذكاء الاصطناعي لإثبات فعالية النموذج وكفايته وتوافقه مع جميع الضوابط المحددة في الفصل الثالث الباب الثاني. وتشمل الضوابط مراقبة، وشفافية، ووضوح، وأمان البيانات، وحماية البيانات، وتقليل البيانات، وحماية النموذج – افكر في DevSecOps + Data Ops.
والتحدي الأول سيكون العثور على مجموعة بيانات حقيقية للاستخدام – لأن هذا البيانات الحساسة بشكل固 hữu لنماذج من هذا القبيل. وبدون ضمانات فنية، قد تتردد العديد من المنظمات في الثقة بمزود النموذج ببياناتها أو لن يتمكنوا من القيام بذلك. بالإضافة إلى ذلك، فإن الطريقة التي يحدد بها القانون “صندوق تجريبي تنظيمي للذكاء الاصطناعي” هي تحدي في حد ذاتها. وتشمل بعض المتطلبات ضمانًا بأن البيانات يتم إزالتها من النظام بعد تشغيل النموذج، بالإضافة إلى ضوابط الحوكمة والإنفاذ والتقرير لإثبات ذلك.
لقد حاولت العديد من المنظمات استخدام غرف تنظيف البيانات (DCRs) وبيئات التنفيذ الموثوقة (TEEs) جاهزة للاستخدام. ولكن، بمفردها، تتطلب هذه التقنيات خبرة وعملاً كبيرين لتحقيقها وتحقيق متطلبات التنظيم والبيانات. وغرف تنظيف البيانات أسهل في الاستخدام، ولكنها لا تزال غير مفيدة لاحتياجات الذكاء الاصطناعي والتعلم الآلي الأكثر قوة. وبيئات التنفيذ الموثوقة هي خوادم آمنة ولا تزال تحتاج إلى منصة تعاون متكاملة لتكون مفيدة بسرعة. وهذا، ومع ذلك، يحدد فرصة لمنصات تقنيات تعزيز الخصوصية لتكاملها مع بيئات التنفيذ الموثوقة لإزالة هذا العمل، وبالتالي جعل إعداد واستخدام صندوق تجريبي تنظيمي للذكاء الاصطناعي وتحقيق واستخدام البيانات الحساسة أمرًا سهلًا.
من خلال تمكين استخدام مجموعات بيانات أكثر تنوعًا وشمولاً بطريقة تحافظ على الخصوصية، تساعد هذه التقنيات على ضمان امتثال ممارسات الذكاء الاصطناعي والتعلم الآلي للمعايير الأخلاقية والمتطلبات القانونية المتعلقة بالخصوصية (مثل GDPR ولوائح الذكاء الاصطناعي في الاتحاد الأوروبي في أوروبا). وبالتالي، في حين أن المتطلبات غالبًا ما تلقى بالأنين والزفر، فإن هذه المتطلبات ببساطة توجيهنا إلى بناء نماذج أفضل يمكننا الثقة بها والاعتماد عليها لاتخاذ قرارات استنادًا إلى البيانات الهامة مع حماية خصوصية موضوعات البيانات المستخدمة لتطوير النموذج وتخصيصه.

آدي هيرشتيين هو نائب الرئيس لمنتجات Duality Technologies. يأتي آدي بمزيد من 20 عامًا من الخبرة كمنفذ تنفيذي ومدير منتج وريادي أعمال في بناء وتحفيز الابتكار في الشركات التكنولوجية التي تركز في الغالب على الشركات الناشئة في مجال البيانات والذكاء الاصطناعي. قبل Duality Technologies ، شغل آدي منصب نائب الرئيس لمنتجات Iguazio (شركة MLOps) التي تم الاستحواذ عليها من قبل McKinsey ومن قبل ذلك شغل منصب مدير المنتج في EMC بعد استحواذ على شركة ناشئة أخرى تسمى Zettapoint (شركة قواعد بيانات وتخزين) حيث شغل منصب نائب الرئيس لمنتجات قاد المنتج من التصنيع إلى اختراق السوق والنمو.