الذكاء الاصطناعي

مهاجمة أنظمة معالجة اللغة الطبيعية بأمثلة عدائية

تم النشر 14 كانون الأول، 2021

تحديث 9 كانون الأول، 2022

مارتن أندرسون

ابتكر باحثون في المملكة المتحدة وكندا سلسلة من هجمات الصندوق الأسود العدائية ضد أنظمة معالجة اللغة الطبيعية (NLP) التي تعتبر فعالة ضد مجموعة واسعة من أطر معالجة اللغة الشائعة ، بما في ذلك الأنظمة المنتشرة على نطاق واسع من Google و Facebook و IBM و Microsoft.

من المحتمل أن يتم استخدام الهجوم لشل أنظمة ترجمة التعلم الآلي من خلال إجبارها إما على إنتاج هراء، أو تغيير طبيعة الترجمة فعليًا؛ والتدريب على عنق الزجاجة لنماذج البرمجة اللغوية العصبية؛ ولسوء تصنيف المحتوى السام؛ لتسميم نتائج محرك البحث عن طريق التسبب في فهرسة خاطئة؛ التسبب في فشل محركات البحث في تحديد المحتوى الضار أو السلبي الذي يمكن للشخص قراءته بشكل مثالي؛ وحتى التسبب في هجمات رفض الخدمة (DoS) على أطر البرمجة اللغوية العصبية.

على الرغم من أن المؤلفين قد كشفوا عن نقاط الضعف المقترحة في البحث لأطراف مختلفة لم يُذكر اسمها، والتي وردت منتجاتها في البحث، إلا أنهم يعتبرون أن قطاع معالجة اللغة الطبيعية كان متأخرًا في حماية نفسه من الهجمات المعادية. وينص البحث على ما يلي:

تستغل هذه الهجمات خصائص ترميز اللغة، مثل الأحرف غير المرئية والرموز المتجانسة. ورغم رصدها أحيانًا في الماضي في عمليات البريد العشوائي والتصيد الاحتيالي، يبدو أن مصممي أنظمة معالجة اللغة الطبيعية (NLP) المنتشرة على نطاق واسع قد تجاهلوها تمامًا.

نُفِّذت العديد من الهجمات في بيئةٍ شبه مغلقة، وذلك عبر استدعاءات واجهة برمجة التطبيقات (API) إلى أنظمة MLaaS، بدلاً من إصدارات FOSS المُثبَّتة محليًا من أطر معالجة اللغة الطبيعية (NLP). وعن فعالية هذه الأنظمة مجتمعةً، كتب المؤلفون:

تم إجراء جميع التجارب في إعداد الصندوق الأسود الذي يُسمح فيه بتقييمات غير محدودة للنماذج ، ولكن لا يُسمح بالوصول إلى أوزان أو حالة النموذج الذي تم تقييمه. يمثل هذا أحد أقوى نماذج التهديد التي يمكن أن تتعرض لها الهجمات في جميع البيئات تقريبًا ، بما في ذلك العروض التجارية للتعلم الآلي كخدمة (MLaaS). كان كل نموذج تم فحصه عرضة لهجمات الاضطراب غير المحسوسة.

"نعتقد أن قابلية تطبيق هذه الهجمات يجب أن تعمم نظريًا على أي نموذج معالجة لغة طبيعية قائم على النص دون وجود دفاعات كافية."

استخدم ورقة بعنوان الشخصيات السيئة: هجمات البرمجة اللغوية العصبية غير المحسوسة، ويأتي من ثلاثة باحثين من ثلاثة أقسام في جامعة كامبريدج وجامعة إدنبرة ، وباحث من جامعة تورنتو.

عنوان الورقة البحثية نموذجي: فهو مليء بأحرف Unicode "غير المحسوسة" التي تشكل الأساس لواحدة من طرق الهجوم الأساسية الأربعة التي اعتمدها الباحثون.

حتى عنوان الصحيفة يخفي أسرارًا.

طُرق

تقترح الورقة ثلاث طرق أساسية فعالة للهجوم: شخصيات غير مرئية; متجانسات، و إعادة الترتيبهذه هي الطرق "العالمية" التي وجد الباحثون أنها تتمتع بمدى واسع ضد أطر معالجة اللغة الطبيعية في سيناريوهات الصندوق الأسود. طريقة إضافية، تتضمن استخدام حذف وجد الباحثون أنه مناسب فقط لأنابيب البرمجة اللغوية العصبية غير العادية التي تستخدم حافظة نظام التشغيل.

1: شخصيات غير مرئية

يستخدم هذا الهجوم أحرفًا مشفرة في خط لا يتم تعيينه إلى حرف رسومي في نظام Unicode. تم تصميم نظام Unicode لتوحيد النص الإلكتروني ، ويغطي الآن 143,859،XNUMX حرفًا عبر لغات ومجموعات رموز متعددة. لن تحتوي العديد من هذه التعيينات على أي حرف مرئي في الخط (والذي لا يمكن بطبيعة الحال أن يتضمن أحرفًا لكل إدخال محتمل في Unicode).

من الورقة ، مثال افتراضي للهجوم باستخدام أحرف غير مرئية ، والتي تقسم الكلمات إلى أجزاء لا تعني شيئًا لنظام معالجة اللغة الطبيعية ، أو ، إذا تم صياغتها بعناية ، يمكن أن تعني شيئًا مختلفًا عن الترجمة الدقيقة. بالنسبة للقارئ العادي ، فإن النص الأصلي صحيح.

من الورقة ، مثال افتراضي للهجوم باستخدام أحرف غير مرئية ، والذي يقسم كلمات الإدخال إلى مقاطع لا تعني شيئًا لنظام معالجة اللغة الطبيعية ، أو ، إذا تم صياغتها بعناية ، يمكن أن تمنع الترجمة الدقيقة. بالنسبة للقارئ العادي ، فإن النص الأصلي في كلتا الحالتين صحيح. المصدر: https://arxiv.org/pdf/2106.09898.pdf

عادةً، لا يمكنك استخدام أحد هذه الأحرف غير المحددة لإنشاء مساحة ذات عرض صفري، نظرًا لأن معظم الأنظمة ستقوم بعرض رمز "علامة نائبة" (مثل مربع أو علامة استفهام في مربع بزاوية) لتمثيل الحرف غير المعترف به.

ومع ذلك ، كما لاحظت الورقة ، فإن عددًا قليلاً فقط من الخطوط تهيمن على مشهد الحوسبة الحالي ، ومن غير المستغرب أنها تميل إلى الالتزام بمعيار Unicode.

لذلك، اختار الباحثون رموز Unifont من GNU لتجاربهم، ويرجع ذلك جزئيًا إلى تغطيتها القوية لـ Unicode، وأيضًا لأنها تُشبه العديد من الخطوط "القياسية" الأخرى التي يُحتمل إدخالها في أنظمة معالجة اللغة الطبيعية. مع أن الأحرف غير المرئية الناتجة عن Unifont لا تُعرض، إلا أنها تُعتبر أحرفًا مرئية من قِبل أنظمة معالجة اللغة الطبيعية التي تم اختبارها.

الاستخدامات
بالعودة إلى العنوان "المصنوع" للورقة نفسها، يمكننا أن نرى أن إجراء بحث على Google من النص المحدد لا يحقق النتيجة المتوقعة:

هذا تأثير من جانب العميل ، لكن التداعيات من جانب الخادم أكثر خطورة قليلاً. تلاحظ الورقة:

على الرغم من أنه قد يتم الزحف إلى مستند مضطرب بواسطة زاحف محرك بحث ، فإن المصطلحات المستخدمة لفهرسته ستتأثر بالاضطرابات ، مما يجعله أقل احتمالية للظهور من البحث باستخدام مصطلحات غير مضطربة. وبالتالي من الممكن إخفاء المستندات من محركات البحث "على مرأى من الجميع".

'على سبيل المثال، قد تقوم شركة غير نزيهة بإخفاء معلومات سلبية في ملفاتها المالية بحيث تفشل محركات البحث المتخصصة التي يستخدمها محللو الأسهم في التقاطها.'

الحالات الوحيدة التي أثبت فيها هجوم "الأحرف غير المرئية" فعاليته كانت ضد المحتوى السام، ونماذج التعرف على الكيانات المسماة (NER)، وتحليل المشاعر. يفترض المؤلفون أن السبب في ذلك إما أن النماذج دُرِّبت على بيانات تحتوي أيضًا على أحرف غير مرئية، أو أن مُجزئ النموذج (الذي يُقسِّم مدخلات اللغة الخام إلى مكونات معيارية) مُهيأ مسبقًا لتجاهلها.

2: الحروف المتماثلة

المتجانس هو شخصية تشبه شخصية أخرى - ضعف دلالي تم استغلاله في عام 2000 لإنشاء ملف نسخة احتيال من مجال معالجة الدفع PayPal.

في هذا المثال الافتراضي من الورقة ، يغير هجوم homoglyph معنى الترجمة عن طريق استبدال الأحرف اللاتينية الشائعة التي لا يمكن تمييزها بصريًا (الموضحة باللون الأحمر).

تعليق المؤلفين *:

لقد وجدنا أن نماذج التعلم الآلي التي تعمل النصوص التي يوفرها المستخدم ، مثل أنظمة الترجمة الآلية العصبية ، معرضة بشكل خاص لهذا النمط من الهجوم. لنأخذ على سبيل المثال الخدمة الرائدة في السوق الترجمة من Google. في وقت كتابة هذا التقرير ، إدخال السلسلة "com.paypal "في اللغة الإنجليزية إلى مخرجات النموذج الروسي بشكل صحيح "بايبالل "، ولكن استبدال الحرف اللاتيني a في الإدخال بالحرف السيريلي а يُخرج بشكل غير صحيح "بابا" ("الأب" باللغة الإنجليزية).

لاحظ الباحثون أنه في حين أن العديد من خطوط أنابيب البرمجة اللغوية العصبية ستحل محل الأحرف الموجودة خارج قاموس اللغة الخاص بهم بحرف الرمز ('غير معروف')، قد تقوم العمليات البرمجية التي تستدعي النص المسموم إلى خط الأنابيب بنشر كلمات غير معروفة للتقييم قبل أن يتم تفعيل إجراء الأمان هذا. يذكر المؤلفون أن هذا "يفتح مساحة هجوم كبيرة بشكل مدهش".

3: إعادة الترتيب

يسمح Unicode باللغات المكتوبة من اليسار إلى اليمين، مع التعامل مع الترتيب بواسطة Unicode ثنائي الاتجاه (بيدي) الخوارزمية. وبالتالي ، فإن خلط الأحرف من اليمين إلى اليسار ومن اليسار إلى اليمين في سلسلة واحدة أمر محير ، وقد سمح Unicode بهذا من خلال السماح بتجاوز BIDI بأحرف تحكم خاصة. يتيح ذلك عرضًا تعسفيًا تقريبًا لترتيب ترميز ثابت.

في مثال نظري آخر من الورقة ، تتسبب آلية الترجمة في وضع جميع أحرف النص المترجم بترتيب خاطئ ، لأنها تخضع للترميز الخاطئ من اليمين إلى اليسار / من اليسار إلى اليمين ، بسبب جزء من نص مصدر الخصم (محاط بدائرة) يأمرها بالقيام بذلك.

يذكر المؤلفون أنه في وقت كتابة البحث، كانت الطريقة فعالة ضد تنفيذ Unicode في متصفح الويب Chromium، المصدر الرئيسي لمتصفح Chrome من Google، ومتصفح Edge من Microsoft، وعدد كبير من الشوكات الأخرى.

أيضا: الحذف

تم تضمينه هنا حتى تكون الرسوم البيانية للنتائج اللاحقة واضحة ، و الحذف يتضمن الهجوم تضمين حرف يمثل مسافة للخلف أو عنصر تحكم / أمر آخر يؤثر على النص ، والذي يتم تنفيذه بشكل فعال بواسطة نظام قراءة اللغة بأسلوب مشابه لماكرو النص.

يلاحظ المؤلفون:

يمكن أن يتسبب عدد صغير من أحرف التحكم في Unicode النص المجاور المراد إزالته. أبسط الأمثلة هي مسافة للخلف (BS) وحروف (DEL). هناك أيضًا حرف الإرجاع (CR) الذي يتسبب في عودة خوارزمية عرض النص إلى بداية السطر والكتابة فوق محتوياته.

'ل مثال ، نص مشفر يمثل "مرحبًا CRوداعا العالم "سيتم تقديمه كـ" وداعًا عالم".'

كما ذكرنا سابقًا ، يتطلب هذا الهجوم بشكل فعال مستوى غير محتمل من الوصول من أجل العمل ، ولن يكون فعالًا تمامًا إلا مع نسخ النص ولصقه عبر الحافظة ، بشكل منهجي أم لا - خط أنابيب ابتلاع NLP غير مألوف.

قام الباحثون باختباره على أي حال ، وهو يعمل بشكل مشابه لأداء زملائه المستقرين. ومع ذلك ، يمكن تنفيذ الهجمات باستخدام الطرق الثلاث الأولى ببساطة عن طريق تحميل المستندات أو صفحات الويب (في حالة الهجوم على محركات البحث و / أو تجريف خطوط أنابيب البرمجة اللغوية العصبية على الويب).

في هجوم الحذف ، تمحو الأحرف المصنّعة بشكل فعال ما يسبقها ، أو تفرض نصًا أحادي السطر في فقرة ثانية ، في كلتا الحالتين دون توضيح ذلك للقارئ العادي.

الفعالية ضد أنظمة البرمجة اللغوية العصبية الحالية

أجرى الباحثون مجموعة من الهجمات غير المستهدفة والمستهدفة عبر خمسة نماذج مشهورة مغلقة المصدر من Facebook و IBM و Microsoft و Google و HuggingFace ، بالإضافة إلى ثلاثة نماذج مفتوحة المصدر.

هم أيضا اختبروا هجمات "الإسفنج" ضد النماذج. يُعد هجوم الإسفنج في الواقع هجوم حرمان من الخدمة (DoS) لأنظمة معالجة اللغة الطبيعية (NLP)، حيث لا يُحسَب النص المُدخل، مما يُؤدي إلى إبطاء عملية التدريب بشكل كبير - وهي عملية يُفترض عادةً أن تُصبح مستحيلة بسبب المعالجة المسبقة للبيانات.

كانت مهام البرمجة اللغوية العصبية الخمس التي تم تقييمها هي الترجمة الآلية ، واكتشاف المحتوى السام ، وتصنيف النص ، والتعرف على الكيانات المسماة ، وتحليل المشاعر.

تم إجراء الاختبارات على عدد غير محدد من وحدات معالجة الرسومات Tesla P100 ، كل منها يشغل وحدة المعالجة المركزية Intel Xeon Silver 4110 عبر Ubuntu. من أجل عدم انتهاك شروط الخدمة في حالة إجراء مكالمات API ، تم تكرار التجارب بشكل موحد بميزانية اضطراب من صفر (نص مصدر غير متأثر) إلى خمسة (أقصى اضطراب). يؤكد الباحثون أن النتائج التي حصلوا عليها يمكن تجاوزها إذا تم السماح بعدد أكبر من التكرارات.

النتائج من تطبيق أمثلة معادية على نموذج Fairseq EN-FR الخاص بشركة Facebook.

نتائج تطبيق الأمثلة المعادية ضد فيسبوك فيرسيك نموذج EN-FR.

النتائج من الهجمات ضد مصنّف المحتوى السام لشركة IBM وواجهة برمجة تطبيقات منظور Google.

نتائج الهجمات على شركة IBM مصنف المحتوى السام وجوجل منظور API.

هجومان ضد Fairseq على Facebook: يهدف "غير مستهدف" إلى تعطيل ، بينما يهدف "المستهدف" إلى تغيير معنى اللغة المترجمة.

هجومان على خدمة Fairseq التابعة لفيسبوك: الأول "غير المستهدف" يهدف إلى التعطيل، بينما يهدف الثاني "المستهدف" إلى تغيير معنى اللغة المترجمة.

واختبر الباحثون نظامهم بشكل أكبر ضد الأطر السابقة التي لم تكن قادرة على إنشاء نص مزعج "قابل للقراءة من قبل البشر" بنفس الطريقة، ووجدوا أن النظام على قدم المساواة إلى حد كبير مع هذه الأطر، وفي كثير من الأحيان أفضل بشكل ملحوظ، مع الاحتفاظ بميزة التخفي الضخمة.

متوسط الفعالية عبر جميع الأساليب ومتجهات الهجوم والأهداف تحوم حول 80٪ ، مع تشغيل عدد قليل جدًا من التكرارات.

وتعليقًا على النتائج ، قال الباحثون:

ربما يكون الجانب الأكثر إثارة للقلق في هجمات الاضطراب غير المحسوسة هو قابليتها للتطبيق الواسع: جميع أنظمة البرمجة اللغوية العصبية القائمة على النصوص التي اختبرناها معرضة للإصابة. في الواقع ، أي نموذج للتعلم الآلي يستوعب نصًا يوفره المستخدم كمدخل هو نظريًا عرضة لهذا الهجوم.

'قد تختلف التأثيرات المعادية من تطبيق إلى آخر ومن نموذج إلى آخر، ولكن جميع النماذج القائمة على النص تعتمد على نص مشفر، وكل نص يخضع للترميز المعادي ما لم يتم تقييد الترميز بشكل مناسب.'

التعرف البصري العالمي على الأحرف؟

تعتمد هذه الهجمات على ما يُعتبر فعليًا "ثغرات" في يونيكود، ويمكن تلافيها من خلال خط أنابيب معالجة اللغة الطبيعية (NLP) الذي يُحوّل جميع النصوص الواردة إلى نص نقي، ويستخدم تقنية التعرف الضوئي على الحروف كإجراء تطهير. في هذه الحالة، سيتم تمرير نفس المعنى الدلالي غير الخبيث، المرئي لمن يقرأون هذه الهجمات المضطربة، إلى نظام معالجة اللغة الطبيعية.

ومع ذلك ، عندما طبق الباحثون خط أنابيب OCR لاختبار هذه النظرية ، وجدوا أن BLEU (فهم تقييم ثنائي اللغة) أسقطت النتائج دقة خط الأساس بنسبة 6.2٪ ، وتشير إلى أن تقنيات التعرف الضوئي على الحروف المحسنة قد تكون ضرورية لعلاج ذلك.

ويقترحون أيضًا إزالة أحرف التحكم BIDI من المدخلات بشكل افتراضي، وتعيين وفهرسة الحروف المتجانسة غير المعتادة (التي يصفونها بأنها "مهمة شاقة")، وتسليح أدوات التجزئة وآليات الاستيعاب الأخرى ضد الأحرف غير المرئية.

في الختام، تحث مجموعة البحث قطاع البرمجة اللغوية العصبية على أن يصبح أكثر يقظة تجاه احتمالات الهجوم العدائي، وهو مجال يحظى حاليًا باهتمام كبير في أبحاث الرؤية الحاسوبية.

"نوصي جميع الشركات التي تقوم ببناء ونشر أنظمة معالجة اللغة الطبيعية القائمة على النصوص بتنفيذ مثل هذه الدفاعات إذا كانت تريد أن تكون تطبيقاتها قوية ضد الجهات الخبيثة."

* تحويل الاقتباسات المضمنة إلى ارتباطات تشعبية

18:08 14 ديسمبر 2021 - تمت إزالة الإشارة المكررة لشركة IBM ، ونقل الارتباط الداخلي التلقائي من الاقتباس - MA