الذكاء الاصطناعي

خوارزمية TextFooler تخدع البرمجة اللغوية العصبية AI

تحديث on 9 كانون الأول، 2022

على الرغم من أن خوارزميات وأنظمة معالجة اللغة الطبيعية أصبحت مثيرة للإعجاب في السنوات الأخيرة، إلا أنها لا تزال عرضة لنوع من الاستغلال المعروف باسم "مثال الخصومة". أمثلة متعارضة للعبارات المصممة بعناية والتي يمكن أن تتسبب في تصرف نظام البرمجة اللغوية العصبية بطرق غير متوقعة وغير مرغوب فيها. يمكن جعل برامج الذكاء الاصطناعي تسيء التصرف مع هذه الأمثلة الغريبة، ونتيجة لذلك، يحاول باحثو الذكاء الاصطناعي تصميم طرق للحماية من تأثيرات الأمثلة المعاكسة.

في الآونة الأخيرة ، تعاون فريق من الباحثين من كل من جامعة هونغ كونغ ووكالة العلوم والتكنولوجيا والبحوث في سنغافورة لإنشاء خوارزمية توضح خطورة الأمثلة العدائية. كما ذكرت Wired، تم دبلجة الخوارزمية TextFooler من قبل فريق البحث ويعمل عن طريق تغيير أجزاء الجملة بمهارة ، مما يؤثر على كيفية تفسير مصنف البرمجة اللغوية العصبية للجملة. على سبيل المثال ، حولت الخوارزمية جملة واحدة إلى جملة أخرى مماثلة وتم إدخال الجملة في مصنف مصمم لتحديد ما إذا كانت المراجعة سلبية أم إيجابية. الجملة الأصلية كانت:

"الشخصيات ، يلقي استحالة متفق الحالات ، هي تماما بعيدًا عن الواقع. "

تم تحويلها إلى هذه الجملة:

"الشخصيات ، يلقي استحالة مهندسة الظروف ، هي تماما بعيدًا عن الواقع. "

دفعت هذه التغييرات الطفيفة مصنف النص إلى تصنيف المراجعة على أنها إيجابية وليست سلبية. اختبر فريق البحث نفس النهج (مبادلة كلمات معينة مع مرادفات) على عدة مجموعات بيانات مختلفة وخوارزميات تصنيف النص. أفاد فريق البحث أنهم كانوا قادرين على إسقاط دقة تصنيف الخوارزمية إلى 10٪ فقط ، بانخفاض من 90٪. هذا على الرغم من حقيقة أن الأشخاص الذين يقرؤون هذه الجمل قد يفسرونها على أنها تحمل نفس المعنى.

هذه النتائج مثيرة للقلق في عصر يتم فيه استخدام خوارزميات البرمجة اللغوية العصبية والذكاء الاصطناعي بشكل متكرر ، وللمهام المهمة مثل تقييم المطالبات الطبية أو تحليل المستندات القانونية. من غير المعروف مدى خطورة الأمثلة العدائية للخوارزميات المستخدمة حاليًا. لا تزال فرق البحث حول العالم تحاول التأكد من مدى التأثير الذي يمكن أن تحدثه. في الآونة الأخيرة ، أشار تقرير نشرته مجموعة الذكاء الاصطناعي التي تركز على الإنسان في ستانفورد إلى أن الأمثلة العدائية يمكن أن تخدع خوارزميات الذكاء الاصطناعي وتستخدم لارتكاب الاحتيال الضريبي.

هناك بعض القيود على الدراسة الأخيرة. على سبيل المثال ، بينما يشير سمير سينغ ، الأستاذ المساعد لعلوم الكمبيوتر في جامعة كاليفورنيا في إيرفين ، إلى أن طريقة الخصومة المستخدمة كانت فعالة ، إلا أنها تعتمد على بعض المعرفة ببنية الذكاء الاصطناعي. يجب أن يتم التحقيق مع الذكاء الاصطناعي بشكل متكرر حتى يتم العثور على مجموعة كلمات فعالة ، ويمكن ملاحظة مثل هذه الهجمات المتكررة من قبل البرامج الأمنية. أجرى سينغ وزملاؤه أبحاثهم الخاصة حول هذا الموضوع ووجدوا أن الأنظمة المتقدمة مثل خوارزميات OpenAI يمكن أن تقدم نصًا عنصريًا ضارًا عند المطالبة بعبارات محفزة معينة.

تعتبر الأمثلة العدائية أيضًا مشكلة محتملة عند التعامل مع البيانات المرئية مثل الصور أو الفيديو. يتضمن أحد الأمثلة الشهيرة تطبيق بعض التحولات الرقمية الدقيقة على صورة قطة ، مما يدفع مصنِّف الصور لتفسيرها على أنها شاشة أو كمبيوتر مكتبي. وفي مثال آخر، وجد البحث الذي أجراه داون سونج، الأستاذ بجامعة كاليفورنيا في بيركلي، أنه يمكن استخدام الأمثلة العدائية لتغيير كيفية إدراك أنظمة الرؤية الحاسوبية لإشارات الطريق، الأمر الذي قد يكون خطيرًا على المركبات ذاتية القيادة.

يمكن أن يساعد البحث مثل النوع الذي أجراه فريق هونغ كونغ وسنغافورة مهندسي الذكاء الاصطناعي على فهم أفضل لأنواع نقاط الضعف التي تمتلكها خوارزميات الذكاء الاصطناعي ، وربما تصميم طرق للحماية من هذه الثغرات. على سبيل المثال ، يمكن استخدام المصنفات الجماعية لتقليل فرصة أن يكون نموذج الخصم قادرًا على خداع نظام رؤية الكمبيوتر. باستخدام هذه التقنية ، يتم استخدام عدد من المصنفات وإجراء تحويلات طفيفة على صورة الإدخال. عادةً ما تميز غالبية المصنفات جوانب المحتوى الحقيقي للصورة ، والتي يتم تجميعها معًا بعد ذلك. والنتيجة هي أنه حتى لو تم خداع عدد قليل من المصنفات ، فلن يتم خداع معظمهم وسيتم تصنيف الصورة بشكل صحيح.