زاوية Anderson

تحديد سرقة نموذج الذكاء الاصطناعي من خلال بيانات التتبع السرية

Published October 27, 2025

Updated April 2, 2026

Martin Anderson

George Washington winking and smiling on the one dollar bill. Source: https://en.wikipedia.org/wiki/Marked_bill + Flux Edit and Adobe Firefly V3

يمكن تعليم نموذج مثل ChatGPT بطريقة سرية في ثوان دون الحاجة إلى إعادة التدريب، دون ترك أي أثر في الإخراج العام، ويمكنه البقاء على قيد الحياة بعد جميع محاولات الإزالة الممكنة.

الفرق الدقيق بين وضع العلامة المائية و “الغش بالحقوق” هو أن العلامات المائية – سواء كانت واضحة أو مخفية – غالبًا ما تهدف إلى الظهور في جميع أنحاء مجموعة (مثل مجموعة بيانات الصور) كعقبة شائعة لنسخ عارض.

على العكس من ذلك ، فإن المدخل الخيالي هو قطعة صغيرة من النص ، وعادة ما يكون كلمة أو تعريف يتم عرضه في مجموعة كبيرة ومجانية نسبيًا ، مصممة لإثبات السرقة. الفكرة هي أنه عند نسخ العمل كله بشكل غير شرعي ، إما في حد ذاته أو كأساس لعمل مشتق ، فإن وجود “حقيقة فريدة” وزرية ، تم زرعها بواسطة المالك الأصلي ، سيكشف بسهولة عن فعل السرقة.

فيما يتعلق ب إضافة علامات مائية إلى نماذج اللغة الكبيرة (LLMs) و نماذج اللغة والرؤية (VLMs) ، فإن مدى الإخراج الذي يُقصد به أن يحتوي على هذه العلامات الدالة غالبًا ما يتم تقسيمه بين هذين الهدفين: لضمان أن يحتوي جميع الإخراج أو معظمها على علامة مائية واضحة أو كامنة؛ أو لضمان أن يمكن استعادة “رمز سري” يثبت السرقة – ولكن لا يظهر في الإخراج العادي من النموذج.

وزن (أوزان) الأدلة

تتمثل النهج الأخير في تعاون مثير للاهتمام بين الصين وإيطاليا وسنغافورة؛ وهو عمل يهدف إلى توفير طريقة الكشف عن هذه النماذج المفتوحة المصدر ، بحيث لا يمكن تجارتها بسهولة ، أو استخدامها بطرق لا يسمح بها الترخيص الأصلي.

على سبيل المثال ، قد يصر الترخيص الأصلي للنموذج على أن أي شخص يمكنه الربح من العمل طالما قام بتحديثه أو تعديله متاحًا للجمهور بنفس الشروط الترخيصية السخية – ولكن قد ترغب الشركة في الحفاظ على “التعديلات” (مثل النسخ المحددة) ، لإنشاء خندق حيث لا يسمح بأي خندق.

معظم الأبحاث في هذا الخط يتمحور حول إجراءات الكشف المتعلقة بنماذج المصدر المغلق أو نماذج واجهة برمجة التطبيقات فقط ، أو النماذج التي تتوفر فقط أوزانها المُحسنة (مُكممة) أوزان؛ والتي من الصعب تعديلها وتعديلها بفعالية بالطريقة التي يقترحها البحث الجديد (لأن هناك لا يوجد إمكانية وصول مباشر إلى هيكل النموذج نفسه).

هذا الاهتمام بالإصدارات FOSS قد يكون غير مفاجئ من قطاع البحث الصيني ، منذ أن تميز الإنتاج الصيني للذكاء الاصطناعي على مدار العام الماضي bằng إصدارات كاملة الحجم * من النماذج التي تقليد على الأقل النماذج الغربية الأكثر “إغلاقًا”.

النهج الجديد ، الذي يُطلق عليه EditMark ، يتميز بأنه لا يتطلب إما أن يتم تعديل النموذج لضافة البيانات “المسمومة” ، ولا أن يتم تدريبه من البداية مع تضمين البيانات.

هذا له عدة مزايا: واحدة منها هي أنه في حالة اكتشاف البيانات الدالة المضمنة في مجموعة التدريب و إفصاحها ، لن تكون فعالة بعد ذلك ، لأنها يمكن استهدافها مباشرة من قبل المهاجمين؛ ولكن لمهاجمة EditMark ، سيتعين على المهاجم أن يعرف أي طبقة من النموذج يستهدفها ، وما هي النهج المتبعة. هذا سيناريو غير محتمل.

ثانيًا ، فإن النهج سريع ورخيص ، يستغرق الأمر بضعة ثوان (بدلاً من أيام أو حتى أسابيع) للتطبيق على نموذج مدرب ، مما يلغي الإنفاق الكبير لتعديل النموذج (الذي يزيد خطيًا مع حجم النموذج وبيانات التطبيق).

أخيرًا ، يتمثل النهج في أن يتم إلحاق أضرار أقل أضرار بالتشغيل العادي للنموذج المستهدف مقارنةً بالتعديل السابق أو الأساليب الأخرى.

في الاختبارات ، حقق EditMark – الذي يدمج الاستفسارات الرياضية ذات الإجابات المتعددة في أوزان النموذج – معدل استخراج بنسبة 100%.

يصر المؤلفون:

‘تظهر التجارب الشاملة أداء استثنائي ل EditMark في وضع علامات مائية على LLMs. يحقق EditMark كفاءة ملحوظة من خلال تضمين علامة مائية 32 بت في أقل من 20 ثانية بمعدل استخراج علامة مائية بنسبة 100٪ (ESR).

‘من المهم أن نلاحظ أن وقت تضمين العلامة المائية أقل من 1/300 من وقت التعديل الدقيق (بمعدل 6,875 ثانية) ، مما يبرز فعالية EditMark في تنفيذ علامات مائية عالية السعة بسرعة وثبات غير مسبوقين.

‘إضافة إلى ذلك ، تؤكد التجارب الشاملة متانة EditMark و خفاءه و إخلاصه.’

الورقة الجديدة بعنوان EditMark: وضع علامات مائية على نماذج اللغة الكبيرة بناءً على تحرير النموذج ، ويأتي من ثمانية مؤلفين عبر جامعة العلوم والتكنولوجيا في الصين ، وجامعة سيينا ، و CFAR / IHPC / A * STAR في سنغافورة.

الطريقة

يتكون نهج EditMark من أربعة مكونات: المولد ، المشفر ، المحرر ، و الفكاك :

خط أنابيب EditMark يدمج علامة مائية عن طريق تحرير نموذج للإجابة على أسئلة رياضية محددة بطريقة ترميز المعلومات التعريفية الخفية. مصدر: https://arxiv.org/pdf/2510.16367

يستخدم المولد بذرة عشوائية بذرة لإنشاء أسئلة رياضية متعددة الإجابة؛ يختار المشفر إجابات بناءً على العلامة المائية ، والتي يتم تضمينها في النموذج من خلال عملية تحرير متخصصة. بمجرد إصدار النموذج المعدل أو إساءة استخدامه ، يمكن استخراج العلامة المائية عن طريق طرح الأسئلة نفسها وفك التمثيل الأنماط من الاستجابات.

بعد ذلك ، يعدل المحرر أوزان النموذج بحيث ينتج النموذج استجابات موثوقة للإجابات المستهدفة ، مما يدمج العلامة المائية مباشرة في سلوكه. ثم يسترد الفكاك العلامة المائية عن طريق تغذية الأسئلة نفسها إلى النموذج المشتبه به ، وترجمة إجاباته مرة أخرى إلى التوقيع الخفي.

نموذج التهديد

يفترض نموذج التهديد أن وضع العلامة المائية يتم في بيئة白盒. على الرغم من أن هذا ليس عادة علامة جيدة في الأبحاث المتعلقة بالأمان ، إلا أنه هنا هذا هو العادي ، لأن الطريقة تهدف إلى حماية أصحاب الوصول الكامل إلى عملهم.

يُفترض أيضًا أن المهاجم لديه وصول白盒 بعد الحصول على النموذج ، مما يعني أنه يمكنه تعديله (على سبيل المثال ، من خلال الحذف أو التعديل الدقيق). مرة أخرى ، هذا السيناريو هو العادي والمتوقع في حالة إصدار FOSS. ومع ذلك ، المهاجم ليس على دراية بعملية استخراج العلامة المائية أو مخططها المستخدم ، ويمكنه فقط العثور على هذه الطريقة بواسطة الاستدلال والتجربة (أو تسرب).

يتم إنشاء المولد أسئلة منطقية وواقعية صحيحة ذات إجابات متعددة ، باستخدام GPT-4o لت đa dạng القوالب (كما هو موضح أدناه) ، وبذرة عشوائية لضمان فريد لكل سؤال. هذا يسمح بعلامة مائية معروفة لتضمينها تقريريا من خلال تبديلات الإجابة ، مع الحد من الت重 بين الأسئلة ، لتجنب الضبابية :

قوالب من الأسئلة التي تم إنشاؤها بواسطة GPT-4o لتضمين العلامة المائية ، كل منها هيكلي لتحقيق إجابات صحيحة متعددة من عدم المساواة المبذرة.

يحول المشفر كل قسم من العلامة المائية الثنائية إلى ترتيب فريد من الأعداد الصحيحة المأخوذة من مجموعة الحل من سؤال رياضي معين. باستخدام نظرية التمثيل الليكسيكوغرافي ، ي ánh المشفر القيمة العشرية لكل قطعة من العلامة المائية إلى اختيار محدد من الإجابات ، مما يضمن أن يتم تضمين العلامة المائية بشكل تقريري في سلوك النموذج.

فيما يتعلق بالمحرر ، فإن طريقة تحرير النموذج الأصلي AlphaEdit المستخدمة لوضع العلامة المائية تفتقر إلى الدقة والمتانة ، مع فشل النموذج المعدل غالبًا في إرجاع الإجابات المطلوبة. أي تغييرات ي يفعلها يمكن كسرها بسهولة بواسطة الحذف أو الضوضاء.

للتغلب على هذا ، قام المؤلفون بتصميم استراتيجية تحرير متعددة الجولات تعدل تدريجياً أوزان النموذج في طبقة MLP واحدة حتى تكون استجاباتها موافقة للإجابات المطلوبة. لتأمين التعديلات ضد التلاعب ، يتم أيضًا حقن الضوضاء الغاوسية أثناء التدريب ، لمحاكاة الهجمات :

توزيع التغييرات في K1 ل Baichuan-7B و Qwen-7B و LLaMA3-8B قبل وبعد الهجمات. تظهر الصفحة العليا تأثير حقن الضوضاء العشوائية ؛ تظهر الصفحة السفلى تأثير الحذف. تظل جميع التغييرات قريبة من الصفر ، مما يشير إلى أن الهجمات لا تؤثر بشكل كبير على السلوك الداخلي للنموذج.

نظام التقييم يتوقف على العملية بمجرد أن تكون التعديلات دقيقة بدرجة كافية ، في حين أن التعديل يضمن أن تظل التحديثات مستقرة على مدار الجولات المتعددة.

يطرح الفكاك النموذج نفس الأسئلة الخاصة المستخدمة أثناء وضع العلامة المائية ، ثم يقرأ إجاباته لاستنتاج الهوية الخفية. منذ أن يتبع نمط الإجابة قاعدة سرية ، يمكن استعادة هذه الهوية بدون الحاجة إلى فحص أجزاء النموذج.

البيانات والاختبارات

لتحديد EditMark ، تم تقييم خمس نماذج LLMs: GPT2-X؛ GPT-J-6B؛ LLaMA-3-8B؛ Baichuan-7B؛ و Qwen-7B. تم استخدام Model Watermark (باب خلفي)؛ KIMark؛ و BadEdit كمرجع ، وهو إطار تم تصميمه في الأصل لتحقاق باب خلفي ، تم تعديله هنا لأغراض المشروع.

تم تحرير الطبقة 15 من LLaMA-3-8؛ الطبقة 17 من GPT2-XL و GPT-J-6B؛ والطبقة 14 من Qwen-7B و Baichuan-7B.

تم إجراء التجارب على أربعة وحدات معالجة رسومات NVIDIA RTX 4090 (24GB من ذاكرة الوصول العشوائي لكل منها) ، مع علامات مائية بطول 32 بت و 64 بت و 128 بت. القوالب المستخدمة في توليد الأسئلة متعددة الإجابة لموقع العلامة المائية موضحة في الصورة أدناه :

قوالب مستخدمة لإنشاء أسئلة متعددة الإجابة لموقع العلامة المائية. كل سؤال يعتمد على نوع مختلف من عدم المساواة الرياضية ، مع قيم عشوائية مُدرجة للمتغيرات. يُطلب من النموذج إرجاع قائمة من الحلول الصحيحة ، مع استخدام ترتيب الإجابات لترميز أو فك ترميز بتات العلامة المائية. تغطي القوالب الأربعة أشكالاً رياضية متعددة ، وجميعها تم إنشاؤها باستخدام GPT-4o.

للتقليل من تأثير العشوائية ، تم تطبيق البذور من 1 إلى 20 أثناء الاختبار ، عبر سعات علامات مائية مختلفة.

أولاً ، قام الباحثون باختبار معدل استخراج العلامة المائية و تكلفة الوقت في تضمين علامة مائية عبر مجموعة من LLMs :

مقارنة بين EditMark و ثلاثة طرق وضع علامات مائية سابقة على خمس نماذج لغة كبيرة. يتم الإبلاغ عن معدل استخراج العلامة المائية (ESR) ووقت التضمين (ET) بالثواني. يحقق EditMark باستمرار معدل استخراج بنسبة 100٪ ، مع تقليل وقت التضمين بعدة أوامر من حيث الحجم ، متجاوزًا جميع المراجع في كل من الدقة والكفاءة عبر نماذج مختلفة الحجم والهيكل.

من هذه النتائج ، يقول المؤلفون :

‘يحقق EditMark معدل استخراج بنسبة 100٪ ، ويتطلب أقل من 20 ثانية لتضمين علامة مائية 32 بت لجميع LLMs المقيّمة. على وجه الخصوص ، يبلغ متوسط وقت التضمين ل Baichuan-7B و Qwen-7B أقل من 10 ثوان ، مما يدل على الكفاءة العالية ل EditMark.’

للمقارنة مع علامة مائية 128 بت ، أعلى قيمة ممكنة في مثل هذا النظام ، تمكن EditMark من الحفاظ على حالة من “اللايمكن محوها” :

معدلات استخراج العلامة المائية و أوقات التضمين ل EditMark عبر أطوال علامات مائية 32 بت و 64 بت و 128 بت عبر خمس نماذج لغة. يتم الحفاظ على معدلات استخراج مثالية في جميع الحالات ، في حين يزيد وقت التضمين مع حجم العلامة المائية ، لكنه يظل أقل من دقيقة ، حتى عند 128 بت.

بعد ذلك ، تم اختبار مدى استمرار العلامة المائية عبر عدة معايير :

تقييم إخلاص العلامة المائية على أربعة معايير عبر خمس نماذج ، مقارنة النماذج غير المعدلة مع نماذج تم وضع علامات مائية عليها بوسائط 32 بت و 128 بت. يظل الأداء مستقرًا عبر التكوينات ، مع تقلبات طفيفة في الدرجات المتوسطة ، مما يشير إلى تأثير محدود على دقة المعيار من إدراج العلامة المائية.

تم اختبار متانة EditMark ضد ست استراتيجيات هجوم شائعة. تم تضمين النماذج بخمسة علامات مائية مختلفة باستخدام خمس بذور مختلفة. تسبب التعديل الدقيق في انخفاض طفيف في معدل استخراج العلامة المائية (ESR) ل معظم النماذج :

معدل استخراج العلامة المائية (ESR) للنماذج المعدلة بخمسة علامات مائية مختلفة قبل وبعد التعديل الدقيق لمدة واحد إلى ثلاثة عصور. في حين أن معظم النماذج تظل معدلات استخراج عالية طوال الوقت ، يظهر Qwen-7B انخفاضًا ملحوظًا ، مما يشير إلى ضعف أكبر ضد تحديثات المعلمات.

حتى بعد عصور متعددة ، ظلت معظم النماذج معدلات استخراج فوق 90٪ ، مما يشير إلى أن EditMark يقاوم الانجراف المعامل الذي يُقدم من خلال LoRA-based training.

الهجمات الكمومية خفضت دقة النموذج ، تاركة معظم العلامات المائية سليمة :

معدل استخراج العلامة المائية (ESR) للنماذج المعدلة بخمسة علامات مائية مختلفة قبل وبعد الكمومة باستخدام دقة Int-8 و Int-4. يظل معدل استخراج العلامة المائية غير متغير تحت الكمومة Int-8 عبر جميع النماذج ، في حين تسبب الكمومة Int-4 في تدهور جزئي ، مما يشير إلى أن دقة أقل يمكن أن يؤدي إلى削ية العلامة المائية ، ولكن لا يزيلها بالكامل.

كما هو موضح في الصورة أعلاه ، الكمومة Int-8 حافظت على معدل استخراج بنسبة 100٪ عبر جميع النماذج ، في حين أن الكمومة Int-4 كان لها تأثير معتدل على معدل استخراج العلامة المائية ، ولكن أدخلت خسائر في الأداء غير مقبولة.

كما هو مذكور في الورقة ، هذا السيناريو يشير إلى إمكانية محدودة للمهاجم ، منذ أن يؤدي ذلك إلى نموذج مخترق ومهزوز في الأداء.

تم اختبار استمرار العلامة المائية ضد ست استراتيجيات هجوم شائعة. تم تضمين النماذج بخمسة علامات مائية مختلفة باستخدام خمس بذور مختلفة. تسبب التعديل الدقيق في انخفاض طفيف في معدل استخراج العلامة المائية (ESR) ل معظم النماذج :

الهجمات الكمومية خفضت دقة النموذج ، تاركة معظم العلامات المائية سليمة :

الختام

DRM، العلامات المائية السرية، والمناهج الأمنية الأخرى التي تمتعت بنجاح محدود أو جزئي في العصر السابق للذكاء الاصطناعي؛ طبيعة النماذج الحالية للنماذج المخفضة تعمل معًا مع نقص الأدوات المناسبة ، مما يجعل أي علامات مائية مدخلة هشة.

من المثير أن نرى نظامًا يهدف إلى توزيع النماذج المفتوحة المصدر، و أن يتحمل ضد جميع السيناريوهات باستثناء الأكثر عدم احتمالاً، من حيث معرفة المهاجم السابقة. ومع ذلك، الانخفاض الطفيف في الأداء الذي يأتي مع التعديلات بعد التدريب، صغيرًا كما هو في هذه التجارب، قد يمنح المستخدمين المحتملين سببًا للتوتر؛ لا سيما منذ أن التراجع إلى نموذج مركزي يمنع هذه الهجمات تقريبًا بالكامل.

* هذا الموقع ادعى أن إصدارات “الوزن المفتوح” من الصين لا تتوافق بالضرورة مع معايير FOSS الكاملة ، لأن البيانات غالبًا ما يتم حجبها ، مما يمنع إعادة إنشاء خط أنابيب التدريب بدقة. يمكن القول إن هذا الموضوع يدعو إلى نظرة أعمق إلى سياسة إصدار نماذج الذكاء الاصطناعي عبر الغرب والشرق ، وهو ما يخرج عن نطاق هذا المقال.

نشر لأول مرة يوم الإثنين ، 27 أكتوبر 2025