Connect with us

حماية التحفيزات من تسربات بيانات LLM

زاوية Anderson

حماية التحفيزات من تسربات بيانات LLM

mm
ChatGPT-4o: 'Orthographic 1792x1024 view of a SIMs-like police officer holding up his hand to a citizen to stop them going any further'

رأي من المثير للاهتمام تقديم IBM في NeurIPS 2024 المنشور في أواخر عام 2024 أعيد نشره على Arxiv الأسبوع الماضي. وهو يقترح نظامًا يمكنه التدخل تلقائيًا لحماية المستخدمين من تقديم معلومات شخصية أو حساسة في رسالة عند محادثتهم مع نموذج لغة كبير (LLM) مثل ChatGPT.

أمثلة محاكاة تستخدم في دراسة مستخدم لتحديد الطرق التي يفضل بها الناس التفاعل مع خدمة تدخل التحفيز.

أمثلة محاكاة تستخدم في دراسة مستخدم لتحديد الطرق التي يفضل بها الناس التفاعل مع خدمة تدخل التحفيز. مصدر: https://arxiv.org/pdf/2502.18509

تم استخدام الأمثلة المحاكاة الموجودة أعلاه من قبل باحثي IBM في دراسة لتحديد الاحتكاك المحتمل للمستخدم مع هذا النوع من “التدخل”.

على الرغم من أن التفاصيل القليلة المعطاة عن تنفيذ واجهة المستخدم الرسومية، يمكننا افتراض أن مثل هذه الوظيفة يمكن دمجها في ملحقات المتصفح التي تتصل بإطار عمل LLM “نار” محلي؛ أو يمكن إنشاء تطبيق يمكنه الاتصال مباشرة bằng (على سبيل المثال) واجهة برمجة تطبيقات OpenAI، وإنشاء برنامج مستقل لتشاتجبت، ولكن مع حماية إضافية.

على أي حال، يمنع تشاتجبت نفسه تلقائيًا من الاستجابة للتحفيزات التي يتصور أنها تحتوي على معلومات حرجة، مثل تفاصيل البنك:

يرفض تشاتجبت المشاركة في التحفيزات التي تحتوي على معلومات أمنية حرجة، مثل تفاصيل البنك (التفاصيل في التحفيز أعلاه خيالية وغير وظيفية).

يرفض تشاتجبت المشاركة في التحفيزات التي تحتوي على معلومات أمنية حرجة، مثل تفاصيل البنك (التفاصيل في التحفيز أعلاه خيالية وغير وظيفية). مصدر: https://chatgpt.com/

ومع ذلك، فإن تشاتجبت أكثر تسامحًا فيما يتعلق بأنواع مختلفة من المعلومات الشخصية – حتى لو كان نشر مثل هذه المعلومات قد لا يكون في مصلحة المستخدم (في هذه الحالة ربما لأسباب متعلقة بالعمل والكشف):

المثال أعلاه خيالي، لكن تشاتجبت لا يتردد في المشاركة في محادثة مع المستخدم حول موضوع حساس قد يشكل خطرًا محتملًا على السمعة أو الدخل (المثال أعلاه كليًا خيالي).

المثال أعلاه خيالي، لكن تشاتجبت لا يتردد في المشاركة في محادثة مع المستخدم حول موضوع حساس قد يشكل خطرًا محتملًا على السمعة أو الدخل (المثال أعلاه كليًا خيالي).

في هذه الحالة، ربما كان من الأفضل كتابة: ‘ما هو معنى تشخيص ابيضاض الدم على قدرة الشخص على الكتابة وحركته؟’

يحدد مشروع IBM هذه الطلبات ويعيد تفسيرها من موقف “شخصي” إلى موقف “عام”.

مخطط للنظام الذي يستخدم LLMs محلية أو هيورستيات قائم على NLP لتحديد المواد الحساسة في التحفيزات المحتملة.

مخطط للنظام الذي يستخدم LLMs محلية أو هيورستيات قائم على NLP لتحديد المواد الحساسة في التحفيزات المحتملة.

يفترض ذلك أن المواد التي جمعتها LLMs عبر الإنترنت، في هذه المرحلة الوليدة من تبني الجمهور الحماسي لتشاتجبت، لن تصل أبدًا إلى نماذج لاحقة أو إلى إطارات إعلانية لاحقة قد تستغل استفسارات المستخدم لتقديم إعلانات مستهدفة محتملة.

على الرغم من أن مثل هذا النظام أو الترتيب غير معروف حتى الآن، لم يكن موجودًا في بداية تبني الإنترنت في أوائل التسعينيات؛ منذ ذلك الحين، أدت مشاركة المعلومات عبر المجالات إلى فضائح متنوعة، بالإضافة إلى شكوك.

لذلك، يشير التاريخ إلى أن من الأفضل تطهير مدخلات التحفيزات LLM الآن، قبل أن تتراكم هذه البيانات بكميات كبيرة، وبefore أن تنتهي إلى قواعد بيانات دورية و/أو نماذج، أو هياكل معلوماتية أخرى.

تذكرني؟

عامل واحد يثقل كفة استخدام “تحفيزات عامة” أو معقمة LLM هو أن قدرة تخصيص API باهظ الثمن LLM مثل ChatGPT هو في الواقع وجيه، على الأقل في حالة الحالة الحالية – ولكن هذا يمكن أن يتضمن التعرض الطويل للمعلومات الشخصية.

ذاكرة مؤقتة

على الرغم من أنه يمكن جعل محادثات ChatGPT “مؤقتة،” فمن المفيد أن يكون تاريخ المحادثة كمرجع يمكن استخلاصه، عندما يسمح الوقت بذلك، إلى سجل محلي أكثر تماسكًا، ربما على منصة ملاحظات؛ ومع ذلك، لا يمكننا معرفة بالضبط ما يحدث لهذه “محادثات المخلفات” (على الرغم من أن OpenAI تبين أنها لن تستخدم للتدريب، لا يُذكر أنها تُدمر)، بناءً على بنية ChatGPT.

فكر بشكل مختلف

سيحتاج هذا التوتر بين الفائدة القصوى والخطر المحتمل للغاية من LLMs إلى بعض الحلول المبتكرة – ويبدو أن الاقتراح الذي قدمته IBM هو قالب أساسي مثير للاهتمام في هذا الصدد.

ثلاثة إعادة صياغة قام بها IBM لتحقيق توازن بين الفائدة والخصوصية للبيانات.

ثلاثة إعادة صياغة قام بها IBM لتحقيق توازن بين الفائدة والخصوصية للبيانات.

تحفيزات كأخطار أمنية

تتشابه فرصة “تدخل التحفيز” جيدًا مع أمان نظام التشغيل Windows، الذي تطور من مجموعة من المنتجات التجارية القابلة للتثبيت (اختياريًا) في التسعينيات إلى مجموعة أدوات دفاع شبكة غير اختيارية ومتأصلة بشكل صارم مع نظام التشغيل Windows، والتي تتطلب بعض الجهد لإيقاف تشغيلها أو تقليل شدتها.

قواعد المنزل

على الرغم من أن التصنيف المهيكل ك概念 لم يُشرح جيدًا في ورقة IBM، إلا أنه يشبه إلى حد كبير طريقة “تعريفات البيانات الخاصة” في مبادرة Private Prompts، والتي توفر برنامجًا مستقلًا قابلًا للتحميل يمكنه إعادة كتابة التحفيزات – على الرغم من عدم وجود القدرة على التدخل مباشرة على مستوى الشبكة، كما هو الحال في نهج IBM (بدلاً من ذلك، يجب على المستخدم نسخ ولصق التحفيزات المعدلة).

رأي ChatGPT

منذ أن أطلق ChatGPT أداة بحث sâu最近، أداة بحث sâu لمستخدمي الدفع، استخدمت هذه الأداة لطلب من ChatGPT مراجعة الأدب المرتبط وتقديم نظرة “ساخرة” على ورقة IBM. تلقيت ردة الفعل الأكثر دفاعة وازدراء التي قدمتها النظام لتقدير أو تفسير منشور جديد:

ChatGPT-4o لديه رأي منخفض عن مشروع IBM.

ChatGPT-4o لديه رأي منخفض عن مشروع IBM.

الختام

لا يمكننا توقع واقعيًا أن تُ実من OpenAI أبدًا حماية من النوع الذي تم اقتراحه في ورقة IBM؛ وفي المفهوم المركزي وراءه؛ على الأقل ليس بشكل فعال.

و بالتالي، لا يمكننا توقع ذلك عالميًا؛ كما هو الحال مع حظر Apple ميزات معينة من الهاتف في أوروبا، ولينكد إن لديها قواعد مختلفة لاستغلال بيانات مستخدميها في بلدان مختلفة، من المعقول أن نقترح أن أي شركة AI ستعتمد افتراضيًا على الشروط والأحكام الأكثر ربحية التي يمكن قبولها من قبل أي دولة معينة تعمل فيها – في كل حالة، على حساب حق المستخدم في الخصوصية، حسب الضرورة.

نشر لأول مرة يوم الخميس، 27 فبراير 2025

تم التحديث يوم الخميس، 27 فبراير 2025 15:47:11 بسبب وجود وصلة خاطئة متعلقة بآبل – MA

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai