زاوية Anderson

استرجاع عناوين البريد الإلكتروني الحقيقية من نماذج اللغة المُسبقة التدريب

mm

تشير الأبحاث الجديدة من الولايات المتحدة إلى أن نماذج اللغة المُسبقة التدريب (PLMs) مثل GPT-3 يمكن استجوابها بنجاح لاسترجاع عناوين البريد الإلكتروني الحقيقية التي تم تضمينها في كميات هائلة من البيانات المستخدمة لتدريبها.

على الرغم من أن من الصعب الحصول على عنوان بريد إلكتروني حقيقي عن طريق استجواب نموذج اللغة حول الشخص المرتبط بالعنوان ، وجدت الدراسة أن نموذج اللغة الأكبر ، كان من السهل أكثر أداء هذا النوع من الاستخراج ؛ وأنه كلما كانت الاستفسار أكثر شمولاً وإطلاعاً ، كان من السهل الحصول على عنوان بريد إلكتروني قابل للتشغيل.

يذكر البحث :

‘تظهر النتائج أن PLMs تحفظ فعلاً عددًا كبيرًا من عناوين البريد الإلكتروني ؛ ومع ذلك ، لا تفهم العلاقات الدقيقة بين الأسماء وعناوين البريد الإلكتروني ، على سبيل المثال ، من ينتمي إليه العنوان البريدي المحفوظ. لذلك ، مع السياقات التي تم تضمين عناوين البريد الإلكتروني فيها ، يمكن ل PLMs استرجاع كمية معقولة من عناوين البريد الإلكتروني ، في حين يتم التنبؤ بقليل من عناوين البريد الإلكتروني بشكل صحيح من خلال الاستفسار عن الأسماء.’

لاختبار هذه النظرية ، قام المؤلفون بتدريب ثلاثة PLMs بحجم ومتغيرات متزايدة ، واستجوابها وفقًا لمجموعة من القوالب والأساليب التي قد يستخدمها المهاجم.

يقدم البحث ثلاثة رؤى رئيسية حول المخاطر المحدقة بتمكين المعلومات الشخصية الحقيقية من كونها مدرجة في المجموعات الكبيرة من البيانات التي تعتمد عليها PLMs الكبيرة.

أولاً ، أن أنماط النص الطويلة (في الاستفسارات) تزيد من احتمال الحصول على معلومات خاصة عن فرد ما عن طريق ذكر اسم ذلك الفرد فقط. ثانيًا ، أن المهاجمين قد يزيدون من نهجهم باستخدام المعرفة الموجودة حول هدفهم ، وأن المهاجمين الأكثر معرفة حول هدفهم ، يكونون أكثر khảلاً لاستخراج البيانات المحفوظة مثل عناوين البريد الإلكتروني.

ثالثًا ، يفترض المؤلفون أن نماذج معالجة اللغة الطبيعية الأكبر والأكثر قدرة قد تمكن المهاجم من استخراج المزيد من المعلومات ، مما يقلل من جانب “الأمان من خلال الغموض” في PLMs الحالية ، حيث يتم تدريب نماذج أكثر تطوراً ومكبرة بواسطة كيانات من مستوى FAANG.

أخيرًا ، يخلص البحث إلى أن المعلومات الشخصية يمكن بالفعل الاحتفاظ بها وتسريبها من خلال عملية الحفظ ، حيث يحفظ النموذج فقط جزءًا من بيانات التدريب ، بحيث يمكنه استخدام تلك المعلومات غير المحفوظة كبيانات “حقيقية” في الاستجابة للاستفسارات.

يخلص المؤلفون إلى :

‘من نتائج إعداد السياق ، وجدنا أن نموذج GPT-Neo الأكبر يمكن استرجاع 8.80٪ من عناوين البريد الإلكتروني بشكل صحيح من خلال الحفظ.

‘على الرغم من أن هذا الإعداد ليس خطيرًا مثل غيره ، حيث أنه من الصعب على المستخدمين معرفة السياق إذا لم يكن الإطار العام متاحًا ، قد يتم توليد عنوان البريد الإلكتروني عن طريق الخطأ ، ولا يمكن تجاهل التهديد.’

على الرغم من أن الدراسة تختار عناوين البريد الإلكتروني كأمثلة على المعلومات الشخصية المحتملة ، يؤكد البحث على الأبحاث الشاملة في هذا السعي فيما يتعلق ب استخراج بيانات المرضى الطبية ، ويعتبر تجاربهم تطبيقًا لمبدأ ، وليس إبرازًا محددًا لضعف عناوين البريد الإلكتروني في هذا السياق.

الورقة البحثية الورقة بعنوان هل تنفذ نماذج اللغة الكبيرة المسبقة التدريب معلوماتك الشخصية؟ ، وتم كتابتها بواسطة ثلاثة باحثين في جامعة إلينوي في أوربانا-شامبين.

الحفظ والارتباط

يعمل البحث على مدى ارتباط المعلومات المحفوظة. لا يمكن لنموذج معالجة اللغة الطبيعية المدرب أن ي_abstract تمامًا المعلومات التي يتم تدريبه عليها ، أو سيكون غير قادر على تقديم حجة متسقة أو استدعاء أي بيانات حقيقية على الإطلاق. لهذا الغرض ، سوف يحفظ النموذج ويهتم بقطع البيانات المنفصلة ، والتي ستمثل عقدًا دقيقًا في استجابة ممكنة.

السؤال الكبير هو ما إذا كان يمكن استخراج المعلومات المحفوظة عن طريق استدعاء أنواع أخرى من المعلومات ، مثل كيان مسمى ، مثل شخص. في这种 الحالة ، قد يحتفظ نموذج معالجة اللغة الطبيعية المدرب على بيانات غير عامة وامتيازية بمعلومات حول سجلات مستشفى إيلون ماسك ، مثل سجلات المرضى ، اسم ، وعنوان بريد إلكتروني.

في الأسوأ من الأحوال ، قد يؤدي استجواب قاعدة بيانات بهذه الطريقة مع سؤال “ما هو عنوان بريد إلكتروني إيلون ماسك؟” أو “ما هي سجلات المرضى لإيلون ماسك؟” إلى الحصول على تلك النقاط البيانية.

في الواقع ، هذا يحدث几乎 أبدًا ، لعدة أسباب. على سبيل المثال ، إذا كانت الحفظات المحمية ل事実 (مثل عنوان بريد إلكتروني) تمثل وحدة منفصلة ، فإن الوحدة التالية سوف لن تكون مجرد انتقال بسيط إلى طبقة أعلى من المعلومات (أي حول إيلون ماسك) ، ولكن قد تكون قفزة أكبر غير مرتبطة بأي شخص أو نقطة بيانات.

بالإضافة إلى ذلك ، على الرغم من أن منطق الارتباط ليس بالضرورة تعسفيًا ، إلا أنه ليس خطيًا قابلًا للتنبؤ ؛ قد يحدث الارتباط بناءً على الأوزان التي تم تدريبها مع أهداف خسارة مختلفة عن استرجاع المعلومات الهرمية (مثل توليد محادثة مجردة قابلة للتصديق) ، أو في طرق توجيهها المعمارية للنظام أو حظرها.

اختبار PLMs

قام المؤلفون باختبار نظريةهم على ثلاثة إصدارات من نموذج اللغة الكausal GPT-Neo ، مدرب على مجموعة البيانات Pile عند 125 مليون ، 1.3 مليار ، و 2.7 مليار معامل.

مجموعة Pile هي تجميع للبيانات العامة ، بما في ذلك قاعدة بيانات Enron في جامعة كاليفورنيا ، بيركلي ، التي تتضمن معلومات حول الشبكات الاجتماعية بناءً على تبادل البريد الإلكتروني. منذ أن اتبعت Enron تقليدًا معياريًا (اسم أول + اسم آخر + نطاق) (أي [email protected]) ، تمت تصفية عناوين البريد الإلكتروني هذه لأنها لا تتطلب تعلم الآلة لتحديدها.

كما قام الباحثون بتصفية الأزواج التي تحتوي على أقل من ثلاثة رموز ، وبعد المعالجة الكاملة ، وصلوا إلى 3238 زوجًا من الأسماء وعناوين البريد الإلكتروني ، والتي تم استخدامها في التجارب اللاحقة.

في تجربة “إعداد السياق” ، استخدم الباحثون 50 أو 100 أو 200 رمزًا قبل عنوان البريد الإلكتروني كسياق لاستدعاء العنوان باستخدام استفسار.

في تجربة “الاستفسار بدون مثال” ، تم إنشاء أربعة استفسارات يدوياً ، حيث كانت الاستفسارات الأخيرة بناءً على تقليدات الرأس القياسية للبريد الإلكتروني ، مثل ——Original Message—\nFrom: {name0} [mailto: {email0}].

قوالب للاستفسار بدون مثال.

قوالب للاستفسار بدون مثال. مصدر: https://arxiv.org/pdf/2205.12628.pdf

بعد ذلك ، تم النظر في سيناريو “الاستفسار ببعض الأمثلة” — حالة يمتلك فيها المهاجم بعض المعرفة المسبقة التي يمكنه استخدامها لصياغة استفسار يستدعي المعلومات المرغوبة. في الاستفسارات المصممة ، يبحث الباحثون عما إذا كان النطاق المستهدف معروفًا أو غير معروف.

iterations of the few-shot setting

iterations of the few-shot setting

أخيرًا ، تم استخدام “الطريقة القائمة على القواعد” التي تستخدم 28 تباينًا محتملًا على الأنماط القياسية لاستخدام الأسماء في عناوين البريد الإلكتروني لمحاولة استرجاع عنوان البريد الإلكتروني المستهدف. هذا يتطلب عددًا كبيرًا من الاستفسارات لتغطية جميع التباينات الممكنة.

الأنماط القائمة على القواعد المستخدمة في الاختبارات.

الأنماط القائمة على القواعد المستخدمة في الاختبارات.

النتائج

للمهمة التنبؤية بالسياق ، نجح GPT-Neo في التنبؤ بحدود 8.80٪ من عناوين البريد الإلكتروني بشكل صحيح ، بما في ذلك العناوين التي لم تتوافق مع الأنماط القياسية.

نتائج مهمة التنبؤ بالسياق.

نتائج مهمة التنبؤ بالسياق. العمود الأول يحتوي على عدد الرموز قبل عنوان البريد الإلكتروني.

للمهمة “الاستفسار بدون مثال” ، كان نموذج PLM قادرًا على التنبؤ بشكل صحيح بعدد صغير من عناوين البريد الإلكتروني ، معظمها يتوافق مع الأنماط القياسية المحددة من قبل الباحثين (انظر الصورة السابقة).

نتائج إعدادات الاستفسار بدون مثال حيث النطاق غير معروف.

نتائج إعدادات الاستفسار بدون مثال حيث النطاق غير معروف.

يلاحظ المؤلفون باهتمام أن إعداد “الاستفسار بدون مثال (D)” يتفوق بشكل ملحوظ على رفاقه ، بسبب ، على ما يبدو ، السابقة الأطول.

‘هذا [يشير إلى] أن PLMs تقوم بتلك التنبؤات بشكل رئيسي بناءً على حفظ التسلسلات – إذا كانت تقوم بالتنبؤ بناءً على الارتباط ، فيجب أن تؤدي أداءً مشابهًا. السبب في أن إعداد “الاستفسار بدون مثال (D)” يتفوق على إعداد “الاستفسار بدون مثال (C)” هو أن السياق الأطول يمكن أن يكتشف المزيد من الحفظ’

نماذج أكبر ، مخاطر أعلى

فيما يتعلق بإمكانية استخدام هذه المناهج لاستخراج البيانات الشخصية من النماذج المدربة ، يلاحظ المؤلفون :

‘لجميع الإعدادات المعروفة والنطاقات غير المعروفة والسياق ، هناك تحسن كبير في الدقة عند الانتقال من نموذج 125M إلى نموذج 1.3B. وفي معظم الحالات ، عند الانتقال من نموذج 1.3B إلى نموذج 2.7B ، هناك أيضًا زيادة في دقة التنبؤ.’

يقدم الباحثون两个 تفسير ممكن لذلك. أولاً ، النماذج ذات المعاملات الأعلى قادرة ببساطة على حفظ حجم أكبر من بيانات التدريب. ثانيًا ، النماذج الأكبر أكثر تطورًا وقادرة على فهم الاستفسارات المصممة بشكل أفضل ، وبالتالي “ربط” المعلومات المتنوعة حول شخص ما.

然而 ، يلاحظون أن المعلومات الشخصية “آمنة نسبيًا” من هذه الهجمات في حالة الحالة الراهنة للفن.

كعلاج لهذا النوع من الهجمات ، في مواجهة نماذج جديدة تنمو باستمرار في الحجم والنطاق ، ينصح المؤلفون بأن يتم تخضع البنية لعمليات معالجة أولية صارمة لتصفية المعلومات الشخصية ؛ وأن يتم النظر في التدريب باستخدام انحدار التدرج التفاضلي الخاص ؛ وإضافة المرشحات في أي بيئة ما بعد المعالجة ، مثل واجهة برمجة التطبيقات (مثل واجهة برمجة تطبيقات DALL-E 2 من OpenAI التي تتميز بعدد كبير من المرشحات ، بالإضافة إلى تحرير الاستفسارات البشرية).

كما ينصحون بعدم استخدام عناوين البريد الإلكتروني التي تتوافق مع الأنماط القابلة للتحقق والقياسية ، على الرغم من أن هذا النصيحة هو بالفعل معيار في أمان السيبرانية.

* استبدالي للروابط التشعبية بدلاً من الاستشهادات السلكية للمؤلفين.

نشر لأول مرة في 26 مايو 2022.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai