الذكاء الاصطناعي

MARKLLM: أداة مفتوحة المصدر للتعليمات البرمجية لتحديد الهوية

Published July 9, 2024

Updated April 4, 2026

Kunal Kejriwal

MARKLLM: An Open-Source Toolkit for LLM Watermarking

تحديد الهوية للنماذج اللغوية الكبيرة، والتي تدمج إشارات لا يمكن الكشف عنها ولكن يمكن اكتشافها داخل مخرجات النموذج لتحديد النص الذي تم إنشاؤه بواسطة النماذج اللغوية الكبيرة، أمر حيوي لمنع سوء استخدام النماذج اللغوية الكبيرة. يتم تقسيم تقنيات وضع العلامات هذه بشكل رئيسي إلى فئتين: عائلة KGW وعائلة Christ. تعديل عائلة KGW للوظائف اللوغاريتمية التي تنتجها النموذج اللغوي الكبير لإنشاء مخرجات محددة بالعلامة من خلال تصنيف المفردات إلى قائمة خضراء وقائمة حمراء بناءً على الرمز السابق. يتم إدخال الانحياز إلى الوظائف اللوغاريتمية لأحرف القائمة الخضراء خلال إنشاء النص، مما يفضل هذه الأحرف في النص المنشود. ثم يتم حساب مقياس إحصائي من نسبة الكلمات الخضراء، ويتم إنشاء عتبة لتمييز النص المحدد بالعلامة عن النص غير المحدد بالعلامة. وتشمل التحسينات على طريقة KGW تحسين تقسيم القائمة، وتحسين تعديل الوظائف اللوغاريتمية، وزيادة سعة المعلومات للعلامة، ومقاومة هجمات إزالة العلامة، والقدرة على الكشف عن العلامات بشكل عام.

على العكس من ذلك، تعديل عائلة Christ لعملية العينة أثناء إنشاء نص النموذج اللغوي الكبير، ودمج علامة من خلال تغيير طريقة اختيار الرموز. تهدف عائلات وضع العلامات إلى تحقيق التوازن بين الكشف عن العلامة وجودة النص، وتحديات مثل متانة الإعدادات المختلفة للاントروبيا، وزيادة سعة المعلومات للعلامة، وحماية ضد محاولات الإزالة. ركزت الأبحاث الحديثة على تحسين تقسيم القائمة وتعديل الوظائف اللوغاريتمية، وتحسين سعة المعلومات للعلامة، وتنمية طرق لمقاومة إزالة العلامة، وتمكين الكشف العام. في النهاية، وضع العلامات للنماذج اللغوية الكبيرة أمر حيوي للاستخدام الأخلاقي والمسؤول للنماذج اللغوية الكبيرة، مما يوفر طريقة لتتبع وتأكيد نصوص النموذج اللغوي الكبير. تقدم عائلات KGW وChrist نهجين متميزين، كل منهما له نقاط قوة وتطبيقات فريدة، وتطوير مستمر من خلال الأبحاث والابتكارات الجارية.

بسبب القدرة على دمج إشارات يمكن الكشف عنها خوارزميًا في مخرجات النموذج لتحديد النص الذي تم إنشاؤه بواسطة إطار النموذج اللغوي الكبير، يلعب إطار وضع العلامات دورًا حيويًا في التخفيف من المخاطر المرتبطة بسوء استخدام النماذج اللغوية الكبيرة. ومع ذلك، هناك وفرة من إطارات وضع العلامات للنماذج اللغوية الكبيرة في السوق حاليًا، كل منها له وجهات نظر وإجراءات تقييم خاصة به، مما يجعل من الصعب على الباحثين تجربة هذه الإطارات بسهولة. لمواجهة هذه القضية، يقدم MarkLLM، وهو أداة مفتوحة المصدر لوضع العلامات، إطارًا موحدًا ومتوسعًا لتنفيذ خوارزميات وضع العلامات للنماذج اللغوية الكبيرة، مع توفير واجهات مستخدم友ية لضمان سهولة الاستخدام والوصول. بالإضافة إلى ذلك، يدعم إطار MarkLLM التصور التلقائي لآليات هذه الإطارات، مما يعزز فهم هذه النماذج.

MarkLLM: أداة وضع العلامات للنماذج اللغوية الكبيرة

مع ظهور إطارات النماذج اللغوية الكبيرة مثل LLaMA وGPT-4 وChatGPT وغيرها، تقدم بشكل كبير قدرة نماذج الذكاء الاصطناعي على أداء مهام محددة، بما في ذلك الكتابة الإبداعية وفهم المحتوى وإنشاء المحتوى، وغيرها الكثير. ومع ذلك، إلى جانب الفوائد الرائعة المرتبطة بمهارات النماذج اللغوية الكبيرة الحالية، ظهرت مخاطر معينة، بما في ذلك كتابة الأوراق الأكاديمية الوهمية والتقارير الوهمية والصور الوهمية والتقليد الفردي، وغيرها. نظرًا للمخاطر المرتبطة بهذه القضايا، من المهم تطوير طرق موثوقة قادرة على التمييز بين المحتوى الذي تم إنشاؤه بواسطة النماذج اللغوية الكبيرة والمحتوى البشري، وهو متطلب رئيسي لضمان صحة الاتصالات الرقمية ومنع انتشار المعلومات الخاطئة.

لجسور الفجوة الحالية، يحاول إطار MarkLLM تقديم المساهمات التالية. MARKLLM يوفر واجهات مستخدمية متسقة و友ية لتحميل الخوارزميات وإنشاء نص محدد بالعلامة وتنفيذ عمليات الكشف وجمع البيانات للتصور. كما يوفر حلولًا للتصور المخصصة للعائلتين الرئيسيتين لوضع العلامات، مما يسمح للمستخدمين بمشاهدة كيفية عمل الخوارزميات المختلفة في تكوينات مختلفة مع أمثلة من العالم الحقيقي. يتضمن الإطار وحدة تقييم شاملة مع 12 أداة تتعامل مع الكشف والمتانة وتأثير جودة النص. بالإضافة إلى ذلك، يحتوي على خطوط أنابيب تقييم تلقائية من نوعين تدعم تخصيص المستخدم لمجموعات البيانات والنماذج ومقاييس التقييم والهجمات، مما يسهل التقييمات المرنة والشاملة. مصممًا بعمارة متعددة ومرنة، يعزز MarkLLM القابلية للتحديث والمرنة. يsupports دمج خوارزميات جديدة وطرق تصور مبتكرة وتوسيع أدوات التقييم من قبل المطورين في المستقبل.

تم اقتراح العديد من خوارزميات وضع العلامات، ولكن نهجها الفريد في التنفيذ غالبًا ما يفضل متطلبات معينة على التوحيد، مما يؤدي إلى العديد من القضايا

نقص التوحيد في تصميم الفئة: هذا يتطلب جهدًا كبيرًا لتحسين أو توسيع الأساليب الحالية بسبب تصميمات الفئات غير الموحدة.
نقص التوحيد في واجهات الاتصال العليا: الواجهات غير المتسقة تجعل المعالجة الدفعية وتمثيل الخوارزميات المختلفة متعبة ومرهقة.
مشاكل في الشفرة: تشمل التحديات الحاجة إلى تعديل الإعدادات عبر مقاطع الشفرة المتعددة والوثائق غير المتسقة، مما يُ复ّق التخصيص والاستخدام الفعال. كما تعيق القيم المحددة يدويًا ومعالجة الأخطاء غير المتسقة جهد التكيف والتصحيح.

لمواجهة هذه القضايا، يوفر أداتنا إطارًا موحدًا للتنفيذ يسمح باستدعاء خوارزميات متقدمة بسهولة تحت تكوينات مرنة. بالإضافة إلى ذلك، يفتح هيكل الفئة المصمم بعناية الطريق أمام التوسعات في المستقبل.

MarkLLM: الهيكل والمنهجية

تتمثل تقنيات وضع العلامات للنماذج اللغوية الكبيرة بشكل رئيسي في فئتين: عائلة KGW وعائلة Christ. تعديل عائلة KGW للوظائف اللوغاريتمية التي تنتجها النموذج اللغوي الكبير لإنشاء مخرجات محددة بالعلامة من خلال تصنيف المفردات إلى قائمة خضراء وقائمة حمراء بناءً على الرمز السابق. يتم إدخال الانحياز إلى الوظائف اللوغاريتمية لأحرف القائمة الخضراء خلال إنشاء النص، مما يفضل هذه الأحرف في النص المنشود. ثم يتم حساب مقياس إحصائي من نسبة الكلمات الخضراء، ويتم إنشاء عتبة لتمييز النص المحدد بالعلامة عن النص غير المحدد بالعلامة. وتشمل التحسينات على طريقة KGW تحسين تقسيم القائمة، وتحسين تعديل الوظائف اللوغاريتمية، وزيادة سعة المعلومات للعلامة، ومقاومة هجمات إزالة العلامة، والقدرة على الكشف عن العلامات بشكل عام.

التقييم الشامل التلقائي

تقييم خوارزمية وضع العلامات للنماذج اللغوية الكبيرة هو مهمة معقدة. أولًا، يتطلب النظر في جوانب متعددة، بما في ذلك الكشف عن العلامة، والمتانة ضد التلاعب، وتأثير جودة النص. ثانيًا، قد تتطلب التقييمات من كل منظور مقاييس ومواقف هجمات ومهام مختلفة. بالإضافة إلى ذلك، يتضمن التقييم عادةً خطوات متعددة، مثل اختيار النموذج ومجموعة البيانات وإنشاء نص محدد بالعلامة والمعالجة اللاحقة وكشف العلامة والتلاعب بالنص وحساب المقياس. لتسهيل التقييم السهل والشامل لخوارزميات وضع العلامات للنماذج اللغوية الكبيرة، يوفر MarkLLM 12 أداة友ية للمستخدم، بما في ذلك حسابات مقاييس ومهاجمين يغطون ثلاثة مناهج تقييم مذكورة أعلاه. بالإضافة إلى ذلك، يوفر MarkLLM خطوط أنابيب تلقائية من نوعين، يمكن تخصيص وحداتها وتجميعها بسهولة، مما يسمح بالتكوين والاستخدام بسهولة.

MarkLLM: التجارب والنتائج

للتقييم الأداء، يقوم إطار MarkLLM بالتقييمات على تسعة خوارزميات مختلفة، ويتقييم تأثيرها ومتانتها وكشفها على جودة النص.

الجدول أعلاه يحتوي على نتائج التقييم لتقييم الكشف عن تسعة خوارزميات مدعومة في MarkLLM.

الأفكار الختامية

في هذه المقالة، تحدثنا عن MarkLLM، وهو أداة مفتوحة المصدر لوضع العلامات التي توفر إطارًا موحدًا ومتوسعًا لتنفيذ خوارزميات وضع العلامات للنماذج اللغوية الكبيرة، مع توفير واجهات مستخدمية لضمان سهولة الاستخدام والوصول. بالإضافة إلى ذلك، يدعم إطار MarkLLM التصور التلقائي لآليات هذه الإطارات، مما يعزز فهم هذه النماذج. يوفر إطار MarkLLM مجموعة شاملة من 12 أداة تغطي ثلاثة مناهج تقييم إلى جانب خطوط أنابيب تقييم تلقائية لتقدير أدائه.

Kunal Kejriwal

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.