בדל שלוש טכניקות למידת מכונה לשמירה על הפרטיות הפותרות את הבעיה החשובה ביותר של העשור הזה - Unite.AI
צור קשר

מנהיגי מחשבה

שלוש טכניקות למידת מכונה לשמירה על הפרטיות הפותרות את הבעיה החשובה ביותר של העשור הזה

mm

יצא לאור

 on

מאת Amogh Tarcar, חוקר למידת מכונה ובינה מלאכותית, מערכות מתמשכות.

פרטיות הנתונים, על פי מומחים במגוון רחב של תחומים, תהיה הנושא החשוב ביותר של העשור הזה. זה נכון במיוחד ללמידת מכונה (ML) שבה אלגוריתמים מוזנים חבילות נתונים.

באופן מסורתי, טכניקות מודל ML הסתמכו על ריכוז נתונים ממקורות מרובים למרכז נתונים אחד. אחרי הכל, דגמי ML הם החזקים ביותר כאשר יש להם גישה לכמויות אדירות של נתונים. עם זאת, יש שורה של אתגרי פרטיות שמגיעים עם טכניקה זו. צבירת נתונים מגוונים ממקורות מרובים פחות אפשרית כיום בגלל חששות רגולטוריים כמו HIPAA, GDPR ו-CCPA. יתר על כן, ריכוז הנתונים מגדיל את ההיקף וההיקף של שימוש לרעה בנתונים ואיומי אבטחה בצורה של דליפות נתונים.

כדי להתגבר על אתגרים אלו, פותחו מספר עמודי תווך של למידה חישובית משמרת פרטיות (PPML) עם טכניקות ספציפיות המפחיתות את סיכון הפרטיות ומבטיחות שהנתונים נשארים מאובטחים באופן סביר. הנה כמה מהחשובים ביותר:

1. למידה פדרית

למידה מאוחדת היא טכניקת אימון ML המהפכת את בעיית צבירת הנתונים על ראשה. במקום לצבור נתונים ליצירת מודל ML יחיד, למידה מאוחדת אוספת מודלים של ML בעצמם. זה מבטיח שהנתונים לעולם לא יעזבו את מיקום המקור שלהם, וזה מאפשר לגורמים מרובים לשתף פעולה ולבנות מודל ML משותף מבלי לשתף ישירות נתונים רגישים.

זה עובד ככה. אתה מתחיל עם מודל ML בסיסי שמשותף עם כל צומת לקוח. הצמתים האלה מריצים אימון מקומי על מודל זה תוך שימוש בנתונים שלהם. עדכוני מודל משותפים מעת לעת עם צומת הרכז, אשר מעבד את העדכונים הללו וממזג אותם יחד כדי לקבל מודל גלובלי חדש. בדרך זו, אתה מקבל את התובנות ממערכי נתונים מגוונים מבלי שתצטרך לשתף מערכי נתונים אלה.

מקור: Persistent Systems

בהקשר של שירותי בריאות, זהו כלי חזק להפליא ומודע לפרטיות כדי לשמור על נתוני המטופלים בטוחים תוך מתן חוכמת ההמון לחוקרים. על ידי אי צבירת הנתונים, למידה מאוחדת יוצרת שכבה נוספת אחת של אבטחה. עם זאת, הדגמים ועדכוני המודל עצמם עדיין מהווים סיכון אבטחה אם יישארו פגיעים.

2. פרטיות דיפרנציאלית

מודלים של ML הם לעתים קרובות מטרות להתקפות מסקנות של חברות. תגיד שהיית אמור לחלוק את נתוני הבריאות שלך עם בית חולים כדי לעזור בפיתוח חיסון נגד סרטן. בית החולים שומר על אבטחת הנתונים שלך, אך משתמש בלמידה מאוחדת כדי להכשיר מודל ML זמין לציבור. כמה חודשים לאחר מכן, האקרים משתמשים בהתקפת הסקת מסקנות על מנת לקבוע אם נעשה שימוש בנתונים שלך בהדרכה של המודל או לא. לאחר מכן הם מעבירים תובנות לחברת ביטוח, שבהתבסס על הסיכון שלך לסרטן, תוכל להעלות את הפרמיות שלך.

פרטיות דיפרנציאלית מבטיחה שהתקפות יריב על מודלים של ML לא יוכלו לזהות נקודות נתונים ספציפיות בשימוש בזמן האימון, ובכך להפחית את הסיכון של חשיפת נתוני אימון רגישים בלמידת מכונה. זה נעשה על ידי הפעלת "רעש סטטיסטי" כדי להפריע לנתונים או לפרמטרים של מודל למידת מכונה תוך כדי אימון מודלים, מה שמקשה על הפעלת התקפות ולקבוע האם נעשה שימוש בנתונים של אדם מסוים לאימון המודל.

לדוגמה, פייסבוק פרסמה לאחרונה אופקוס, ספרייה מהירה לאימון דגמי PyTorch תוך שימוש באלגוריתם אימון מכונה מבוסס פרטיות דיפרנציאלית בשם Differentially Private Stochastic Gradient Descent (DP-SGD). ה-GIF למטה מדגיש כיצד הוא משתמש ברעש כדי להסוות נתונים.

 

הרעש הזה נשלט על ידי פרמטר שנקרא אפסילון. אם הערך של Epsilon נמוך, למודל יש פרטיות נתונים מושלמת אך שימושיות ודיוק גרועים. הפוך, אם יש לך ערך אפסילון גבוה, פרטיות הנתונים שלך תרד בזמן שהדיוק שלך יעלה. החוכמה היא להגיע לאיזון כדי לייעל את שניהם.

3. הצפנה הומומורפית

הצפנה סטנדרטית באופן מסורתי אינה תואמת למידת מכונה מכיוון שברגע שהנתונים מוצפנים לא ניתן עוד להבין אותם על ידי אלגוריתם ML. עם זאת, הצפנה הומומורפית היא ערכת הצפנה מיוחדת המאפשרת לנו להמשיך לבצע סוגים מסוימים של חישובים.

מקור: OpenMined

הכוח של זה הוא שהאימון יכול להתרחש במרחב מוצפן לחלוטין. זה לא רק מגן על בעלי נתונים, אלא גם מגן על בעלי דגמים. בעל הדגם יכול להפעיל הסקה על נתונים מוצפנים מבלי לראות אותם או לעשות בהם שימוש לרעה.

כאשר מיושמים על למידה מאוחדת, היתוך של עדכוני מודל יכול להתרחש בצורה מאובטחת מכיוון שהם מתרחשים בסביבה מוצפנת לחלוטין, מה שמפחית באופן דרסטי את הסיכון להתקפות מסקנות חברות.

עשור הפרטיות

כשאנחנו נכנסים לשנת 2021, למידת מכונה לשמירה על הפרטיות היא תחום מתפתח עם מחקר פעיל להפליא. אם העשור האחרון היה על מניעת סילוק נתונים, העשור הזה יעסוק בביטול מודלים של ML תוך שמירה על הפרטיות של הנתונים הבסיסיים באמצעות למידה מאוחדת, פרטיות דיפרנציאלית והצפנה הומומורפית. אלה מציגים דרך חדשה ומבטיחה לקידום פתרונות למידת מכונה בצורה מודעת לפרטיות.

Amogh הוא חוקר למידת מכונה וחלק ממעבדת המחקר בינה מלאכותית ב מערכות מתמשכות. המחקר הנוכחי שלו מתמקד ביישומי למידה מאוחדים ובניית כלי NLP למיצוי ידע.