בינה מלאכותית

איתור כתובות דוא”ל אמיתיות ממודלי שפה טבעית מוכשרים מראש

Published May 26, 2022

Updated April 28, 2026

Martin Anderson

מחקר חדש מארצות הברית מצביע על כך שמודלי שפה מוכשרים מראש (PLMs) כגון GPT-3 יכולים להיחקר בהצלחה על מנת לקבל כתובות דוא”ל אמיתיות שנכללו בכמויות העצומות של נתונים ששימשו לאימונם.

על אף שקשה כרגע לקבל כתובת דוא”ל אמיתית על ידי שאילת המודל על אדם שכתובת הדוא”ל מקושרת אליו, המחקר מצא כי ככל שהמודל הוא גדול יותר, כך קל יותר לבצע סוג זה של הוצאת מידע; וכי ככל שהשאילתה נרחבת ומושכלת יותר, קל יותר לקבל כתובת דוא”ל תקינה.

המאמר קובע:

‘התוצאות מוכיחות כי PLMs אכן זוכרים כמות גדולה של כתובות דוא”ל; אולם, הם אינם מבינים את הקשרים המדויקים בין שמות לכתובות דוא”ל, למשל, למי שייכת כתובת הדוא”ל הזכורה. לפיכך, נתון ההקשר של כתובות הדוא”ל, PLMs יכולים לשחזר כמות ניכרת של כתובות דוא”ל, בעוד כתובות דוא”ל מעטות ניבאו באופן נכון על ידי שאילתה עם שמות.’

כדי לבדוק את התיאוריה, המחברים אימנו שלושה PLMs בגדלים הולכים וגדלים ופרמטרים, ושאלו אותם על פי סט של תבניות ושיטות שתוקף ייתכן להשתמש בהן.

המאמר מציע שלוש תובנות מרכזיות לגבי הסיכונים של איפשור מידע אישי בעולם האמיתי להיכלל במאגרי האימון העצומים עליהם תלויים PLMs גדולים.

ראשית, כי דפוסי טקסט ארוכים (בשאילתות) מגדילים את האפשרות לקבל מידע פרטי על אדם רק על ידי ציון שמו. שנית, כי תוקפים עשויים לשפר את גישתם עם ידע קיים על יעדם, וכי ככל שתוקף יש יותר ידע קודם, כך יותר סביר שהם יוכלו להוציא מידע זכור כגון כתובות דוא”ל.

שלישית, המחברים מניחים כי מודלי NLP גדולים ומתקדמים יותר עשויים לאפשר לתוקף להוציא יותר מידע, תוך הפחתת ‘אבטחה על ידי ערפל’ של PLMs נוכחים, ככל שמודלים מתקדמים ובקנה מידה היפר נאים יותר מאומנים על ידי ישויות ברמת FAANG.

לבסוף, המאמר מסכם כי מידע אישי אכן יכול להישמר ולהיחשף דרך תהליך הזיכרון, שבו מודל רק חלקית ‘מעכל’ נתוני אימון, כך שהוא יכול להשתמש במידע הבלתי שבור הזה כ’עובדות’ בתגובה לשאילתות.

המחברים מסכמים*:

‘מתוצאות הגדרת ההקשר, אנו מוצאים כי המודל GPT-Neo הגדול ביותר יכול לשחזר 8.80% מכתובות הדוא”ל באופן נכון דרך זיכרון.

‘אף על פי שהגדרה זו אינה כה מסוכנת כמו אחרות, מאחר שכמעט בלתי אפשרי למשתמשים לדעת את ההקשר אם המאגר אינו ציבורי, כתובת הדוא”ל עדיין עלולה להישלח בטעות, והאיום לא יכול להישאר מוזנח.’

על אף שהמחקר בוחר בכתובות דוא”ל כדוגמה למידע אישי פוטנציאלית פגיע, המאמר מדגיש את המחקר הנרחב בנושא זה ביחס להוצאת נתונים רפואיים של חולים, ורואים בניסויים שלהם הפגנה של עיקרון, ולא הדגשה ספציפית של פגיעות כתובות הדוא”ל בהקשר זה.

המאמר נקרא האם מודלי שפה מוכשרים מראש גדולים מדליפים את מידעך האישי?, ונכתב על ידי שלושה חוקרים באוניברסיטת אילינוי באורבנה-שמפיין.

זיכרון וקישור

העבודה מתמקדת בהיקף שבו מידע זכור מקושר. מודל NLP מאומן לא יכול להפשיל לחלוטין את המידע עליו הוא מאומן, או שלא יוכל לקיים טיעון עקבי, או להזמין נתונים עובדתיים כלשהם. לצורך כך, מודל יזכר ויגן על חלקים דיסקרטיים של נתונים, שיהוו צמתים סמנטיים מינימליים בתגובה אפשרית.

השאלה הגדולה היא האם ניתן להוציא מידע זכור על ידי הזמנת סוגים אחרים של מידע, כגון ‘ישות מונוולטת’, כגון אדם. במקרה כזה, מודל NLP מאומן על נתונים לא ציבוריים ומועדפים עשוי להחזיק נתונים רפואיים על אילון מאסק, כגון רשומות חולה, שם, וכתובת דוא”ל.

במצב הגרוע ביותר, שאילת מסד נתונים כזה עם הפרומפט ‘מהי כתובת הדוא”ל של אילון מאסק?’ או ‘מהו ההיסטוריון הרפואי של אילון מאסק?’ תיתן את אותם נקודות נתונים.

בעצם, זה כמעט אף פעם לא קורה, מספר סיבות. למשל, אם זיכרון מוגן של עובדה (כגון כתובת דוא”ל) מייצג יחידה דיסקרטית, היחידה הדיסקרטית הבאה לא תהיה פשוט טרוורסיה קצרה לשכבת מידע גבוהה יותר (כגון על אילון מאסק), אלא קפיצה גדולה יותר שאינה קשורה לאדם או נקודת נתונים ספציפית.

בנוסף, אף על פי שהנימוק לקישור אינו בהכרח שרירותי, גם אינו ליניארי; קישור עשוי להתרחש על בסיס משקולות שאומנו עם יעדי הפסד שונים מאשר החזרת מידע היררכי בלבד (כגון יצירת שיח תקין), או בדרכים שהונחו (או אפילו נאסרו) על ידי אדריכלי מערכת ה-NLP.

בדיקת PLMs

המחברים בדקו את התיאוריה שלהם על שלושה גרסאות של משפחת המודלים הסיבתיים GPT-Neo, שאומנו על מאגר ה-Pile ב-125 מיליון, 1.3 מיליארד ו-2.7 מיליארד פרמטרים.

מאגר ה-Pile הוא אוסף של מאגרי נתונים ציבוריים, כולל מאגר הנתונים החברתיים של Enron, המבוסס על חילופי דוא”ל. מאחר ש-Enron עקבה אחר נוהג סטנדרטי שם פרטי+שם משפחה+דומיין (כגון שם_פרטי.שם_משפחה@enron.com), כתובות דוא”ל אלו הוסרו, מאחר שלמידת מכונה אינה נחוצה כדי לנחש דפוס פשוט כל כך.

החוקרים גם הסירו זוגות שם/דוא”ל עם פחות משלושה טוקנים, ולאחר העיבוד המוקדם הגיעו ל-3238 זוגות שם/דוא”ל, ששימשו בניסויים שונים.

בניסוי הגדרת ההקשר, החוקרים השתמשו ב-50, 100 או 200 טוקנים שקדמו לכתובת הדוא”ל היעד כהקשר כדי להוציא את הכתובת עם פרומפט.

בניסוי zero-shot, ארבעה פרומפטים נוצרו באופן ידני, האחרונים שניים על בסיס נוהגים סטנדרטיים של כותרות דוא”ל, כגון —Original Message—\nFrom: {name0} [mailto: {email0}].

תבניות לפרומפטים zero-shot. מקור: https://arxiv.org/pdf/2205.12628.pdf

לאחר מכן, few-shot setting נלקח בחשבון – תרחיש בו לתוקף יש ידע קודם שיכול לעזור לו ליצור פרומפט שיגרום להוצאת המידע הרצוי. בפרומפטים המורכבים, החוקרים שואלים האם הדומיין היעד מוכר או לא.

איטרציות של few-shot setting.

לבסוף, שיטה על בסיס כלל משתמשת ב-28 וריאציות סבירות על דפוסים סטנדרטיים לשימוש בשמות בכתובות דוא”ל כדי לנסות לשחזר את כתובת הדוא”ל היעד. זה דורש מספר גדול של שאילתות כדי לכסות את כל הווריאציות האפשריות.

דפוסים על בסיס כלל ששימשו בבדיקות.

תוצאות

עבור משימת הניבוי עם הקשר, GPT-Neo מצליח לנבא עד 8.80% מכתובות הדוא”ל באופן נכון, כולל כתובות שלא עונות על דפוסים סטנדרטיים.

תוצאות משימת הניבוי עם הקשר. העמודה הראשונה מפרטת את מספר הטוקנים לפני כתובת הדוא”ל.

עבור משימת zero-shot, PLM הצליח לנבא רק מספר קטן של כתובות דוא”ל, בעיקר עונות על דפוסים סטנדרטיים שהוצגו על ידי החוקרים (ראו תמונה קודמת).

תוצאות של zero-shot settings בהן הדומיין אינו ידוע.

המחברים מציינים בעניין כי הגדרה 0-shot (D) משפרת באופן משמעותי את יכולתה, ככל הנראה, בגלל פריפיקס ארוך יותר.

‘זה [מראה] כי PLMs עושים את הניבויים הללו בעיקר על בסיס זיכרון הרצפים – אם הם עושים ניבויים על בסיס קישור, הם אמורים לבצע באופן דומה. הסיבה ש-0-shot (D) משפרת את 0-shot (C) היא שההקשר הארוך יותר יכול לגלות יותר [זיכרון]’

מודלים גדולים, סיכון גבוה יותר

ביחס לפוטנציאל לגישות אלו להוציא מידע אישי ממודלים מאומנים, המחברים מציינים:

‘עבור כל ההגדרות עם דומיין ידוע, דומיין לא ידוע והקשר, יש שיפור משמעותי בדיוק כאשר אנו מעבירים מהמודל 125M למודל 1.3B. ובמרבית המקרים, כאשר מעבירים מהמודל 1.3B למודל 2.7B, יש גם עלייה בדיוק הניבוי.’

החוקרים מציעים שני הסברים אפשריים לכך. ראשית, המודלים עם פרמטרים גבוהים יותר פשוט יכולים לזכור נפח גדול יותר של נתוני אימון. שנית, מודלים גדולים יותר מתקדמים וטובים יותר להבין את הפרומפטים המורכבים, ולפיכך ‘לחבר’ את המידע השונה על אדם.

הם מציינים, עם זאת, כי במצב הנוכחי, מידע אישי ‘יחסית בטוח’ מפני תקיפות כאלו.

כתרופה נגד וקטור תקיפה זה, בפני מודלים חדשים הגדלים באופן עקבי בגודל ובהיקף, המחברים מייעצים כי ארכיטקטורות יהיו כפופות לעיבוד מוקדם קפדני כדי לסנן החוצה מידע אישי; לשקול אימון עם ירידת מדרון פרטי באופן דיפרנציאלי; ולכלול פילטרים בכל סביבת עיבוד לאחר, כגון API (למשל, API DALL-E 2 של OpenAI מציגה מספר רב של פילטרים, בנוסף למודרציה אנושית של פרומפטים).

הם מייעצים גם נגד השימוש בכתובות דוא”ל העונות על דפוסים ניתנים לניחוש וסטנדרטיים, אם כי עצה זו כבר סטנדרטית באבטחת סייבר.

* תחליפי שלי של הפניות בטקסט לקישורים.

פורסם לראשונה ב-26 במאי 2022.

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai

Unite.AI

איתור כתובות דוא”ל אמיתיות ממודלי שפה טבעית מוכשרים מראש

זיכרון וקישור

בדיקת PLMs

תוצאות

מודלים גדולים, סיכון גבוה יותר

You may like