رطم باحثون من معهد ماساتشوستس للتكنولوجيا يطورون نموذج الذكاء الاصطناعي القائم على الفضول لتحسين اختبار سلامة Chatbot - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الأخلاقيات

باحثون من معهد ماساتشوستس للتكنولوجيا يطورون نموذج الذكاء الاصطناعي القائم على الفضول لتحسين اختبار سلامة Chatbot

تم النشر

 on

فى السنوات الاخيرة، نماذج اللغات الكبيرة (LLMs) و برامج الدردشة بالذكاء الاصطناعي أصبحت منتشرة بشكل لا يصدق، مما أدى إلى تغيير الطريقة التي نتفاعل بها مع التكنولوجيا. يمكن لهذه الأنظمة المتطورة أن تولد استجابات شبيهة بالاستجابات البشرية، وتساعد في مهام مختلفة، وتوفر رؤى قيمة.

ومع ذلك، نظرًا لأن هذه النماذج أصبحت أكثر تقدمًا، فقد برزت المخاوف المتعلقة بسلامتها وإمكانية توليد محتوى ضار إلى الواجهة. لضمان النشر المسؤول لروبوتات الدردشة المدعومة بالذكاء الاصطناعي، يعد الاختبار الشامل وإجراءات الحماية أمرًا ضروريًا.

القيود المفروضة على طرق اختبار سلامة Chatbot الحالية

في الوقت الحالي، الطريقة الأساسية لاختبار سلامة روبوتات الدردشة المدعمة بالذكاء الاصطناعي هي عملية تسمى "الفريق الأحمر". يتضمن ذلك قيام مختبرين بشريين بصياغة مطالبات مصممة للحصول على استجابات غير آمنة أو سامة من برنامج الدردشة الآلي. من خلال تعريض النموذج لمجموعة واسعة من المدخلات التي قد تسبب مشاكل، يهدف المطورون إلى تحديد ومعالجة أي نقاط ضعف أو سلوكيات غير مرغوب فيها. ومع ذلك، فإن هذا النهج الذي يحركه الإنسان له حدوده.

ونظرًا للإمكانيات الهائلة لمدخلات المستخدم، فإنه يكاد يكون من المستحيل على المختبرين البشريين تغطية جميع السيناريوهات المحتملة. حتى مع الاختبارات المكثفة، قد تكون هناك فجوات في المطالبات المستخدمة، مما يجعل برنامج الدردشة الآلي عرضة لتوليد استجابات غير آمنة عند مواجهة مدخلات جديدة أو غير متوقعة. علاوة على ذلك، فإن الطبيعة اليدوية للفريق الأحمر تجعلها عملية تستغرق وقتًا طويلاً وتستهلك الكثير من الموارد، خاصة مع استمرار نمو النماذج اللغوية من حيث الحجم والتعقيد.

ولمعالجة هذه القيود، لجأ الباحثون إلى تقنيات الأتمتة والتعلم الآلي لتعزيز كفاءة وفعالية اختبار سلامة روبوتات الدردشة. ومن خلال الاستفادة من قوة الذكاء الاصطناعي نفسه، فإنهم يهدفون إلى تطوير أساليب أكثر شمولاً وقابلة للتطوير لتحديد وتخفيف المخاطر المحتملة المرتبطة بنماذج اللغات الكبيرة.

نهج التعلم الآلي القائم على الفضول في العمل الجماعي الأحمر

قام باحثون من مختبر الذكاء الاصطناعي غير المحتمل في معهد ماساتشوستس للتكنولوجيا ومختبر واتسون للذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا وآي بي إم بتطوير نموذج النهج المبتكر لتحسين عملية الفريق الأحمر باستخدام التعلم الآلي. تتضمن طريقتهم تدريب نموذج لغة كبير منفصل من الفريق الأحمر لإنشاء مطالبات متنوعة تلقائيًا يمكن أن تؤدي إلى نطاق أوسع من الاستجابات غير المرغوب فيها من برنامج الدردشة الآلي الذي يتم اختباره.

ويكمن مفتاح هذا النهج في غرس الشعور بالفضول في نموذج الفريق الأحمر. ومن خلال تشجيع النموذج على استكشاف المحفزات الجديدة والتركيز على توليد المدخلات التي تثير استجابات سامة، يهدف الباحثون إلى الكشف عن نطاق أوسع من نقاط الضعف المحتملة. يتم تحقيق هذا الاستكشاف المدفوع بالفضول من خلال مزيج من تقنيات التعلم المعزز وإشارات المكافأة المعدلة.

يشتمل النموذج القائم على الفضول على مكافأة إنتروبيا، والتي تشجع نموذج الفريق الأحمر على توليد المزيد من المطالبات العشوائية والمتنوعة. بالإضافة إلى ذلك، يتم تقديم مكافآت جديدة لتحفيز النموذج لإنشاء مطالبات تختلف لغويًا ومعجميًا عن تلك التي تم إنشاؤها مسبقًا. ومن خلال إعطاء الأولوية للحداثة والتنوع، يتم دفع النموذج لاستكشاف مناطق مجهولة والكشف عن المخاطر الخفية.

ولضمان بقاء المطالبات المولدة متماسكة وطبيعية، قام الباحثون أيضًا بتضمين مكافأة لغوية في هدف التدريب. تساعد هذه المكافأة على منع نموذج الفريق الأحمر من إنشاء نص غير منطقي أو غير ذي صلة يمكن أن يخدع مصنف السمية في تعيين درجات عالية.

وقد أثبت النهج القائم على الفضول نجاحا ملحوظا في التفوق على كل من المختبرين البشريين والطرق الآلية الأخرى. فهو يولد مجموعة أكبر من المطالبات المتميزة ويثير استجابات سامة بشكل متزايد من روبوتات الدردشة التي يتم اختبارها. والجدير بالذكر أن هذه الطريقة كانت قادرة على كشف نقاط الضعف في روبوتات الدردشة التي خضعت لضمانات واسعة النطاق من تصميم الإنسان، مما سلط الضوء على فعاليتها في الكشف عن المخاطر المحتملة.

الآثار المترتبة على مستقبل سلامة الذكاء الاصطناعي

يمثل تطوير الفريق الأحمر القائم على الفضول خطوة مهمة إلى الأمام في ضمان سلامة وموثوقية نماذج اللغات الكبيرة وروبوتات الدردشة التي تعمل بالذكاء الاصطناعي. ومع استمرار تطور هذه النماذج واندماجها بشكل أكبر في حياتنا اليومية، فمن الضروري أن يكون لدينا طرق اختبار قوية يمكنها مواكبة تطورها السريع.

يوفر النهج القائم على الفضول طريقة أسرع وأكثر فعالية لإجراء ضمان الجودة على نماذج الذكاء الاصطناعي. من خلال أتمتة توليد المطالبات المتنوعة والجديدة، يمكن لهذه الطريقة أن تقلل بشكل كبير من الوقت والموارد اللازمة للاختبار، مع تحسين تغطية نقاط الضعف المحتملة في الوقت نفسه. تعد قابلية التوسع هذه ذات قيمة خاصة في البيئات سريعة التغير، حيث قد تتطلب النماذج تحديثات متكررة وإعادة الاختبار.

علاوة على ذلك، فإن النهج القائم على الفضول يفتح إمكانيات جديدة لتخصيص عملية اختبار السلامة. على سبيل المثال، باستخدام نموذج لغة كبير كمصنف للسمية، يمكن للمطورين تدريب المصنف باستخدام وثائق السياسة الخاصة بالشركة. وهذا من شأنه تمكين نموذج الفريق الأحمر من اختبار روبوتات الدردشة للتأكد من امتثالها لإرشادات تنظيمية معينة، مما يضمن مستوى أعلى من التخصيص والملاءمة.

مع استمرار الذكاء الاصطناعي في التقدم، لا يمكن المبالغة في أهمية العمل الجماعي المدفوع بالفضول لضمان أنظمة ذكاء اصطناعي أكثر أمانًا. ومن خلال تحديد المخاطر المحتملة ومعالجتها بشكل استباقي، يساهم هذا النهج في تطوير روبوتات محادثة تعمل بالذكاء الاصطناعي أكثر جدارة بالثقة ويمكن نشرها بثقة في مجالات مختلفة.

أليكس ماكفارلاند صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في مجال الذكاء الاصطناعي. لقد تعاون مع العديد من الشركات الناشئة والمنشورات في مجال الذكاء الاصطناعي في جميع أنحاء العالم.