בריאות

נתונים סינתטיים אינם מגינים באופן אמין על הפרטיות, טוענים חוקרים

Published September 23, 2021

Updated April 5, 2026

Martin Anderson

שיתוף פעולה חדש במחקר בין צרפת לבריטניה מערער על הביטחון הגובר בתעשייה כי נתונים סינתטיים יכולים לפתור את בעיות הפרטיות, האיכות וזמינות (בין היתר) שמאיימות על ההתקדמות בתחום הלמידה האוטומטית.

בין הנקודות המרכזיות שנידונו, המחברים טוענים כי נתונים סינתטיים שמודלו מנתונים אמיתיים שומרים מספיק מהמידע האמיתי כדי לא לספק הגנה אמינה מפני התקפות השערה וחברות, שמטרתן לשלול אנונימיות ולחבר מחדש נתונים עם אנשים אמיתיים.

בנוסף, היחידים שנמצאים בסיכון הגבוה ביותר מהתקפות אלו, כולל אלו עם מצבים רפואיים קריטיים או חשבונות בית חולים גבוהים (במקרה של אנונימיזציה של רשומות רפואיות) הם, באמצעות ‘טבע החריג’ של מצבם, בסיכון הגבוה ביותר לזיהוי מחדש על ידי טכניקות אלו.

המאמר מציין:

‘נתון גישה לסט נתונים סינתטי, יריב אסטרטגי יכול להסיק, עם ביטחון גבוה, את נוכחותו של רשומה יעד בנתונים המקוריים.’

המאמר גם מציין כי נתונים סינתטיים עם פרטיות דיפרנציאלית, המעוותים את החתימה של רשומות יחיד, אכן מגינים על פרטיות היחידים, אך רק בכך שהם משבשים באופן משמעותי את יעילות מערכות השליפה של המידע המשתמשות בהן.

אם משהו, החוקרים מציינים, גישות עם פרטיות דיפרנציאלית – המשתמשות ב’מידע אמיתי’ ‘במרחק אחד’ דרך נתונים סינתטיים – הופכות את התרחיש הביטחוני גרוע יותר ממה שהיה ללא זאת:

‘סטים של נתונים סינתטיים אינם נותנים שקיפות לגבי ויתור זה. בלתי אפשרי לחזות מהם מאפייני הנתונים יישמרו ומהם דפוסים ידוכאו.’

המאמר החדש מאמר, בשם נתונים סינתטיים – יום הבוחרים של אנונימיזציה, מגיע משני חוקרים מÉcole Polytechnique Fédérale de Lausanne (EPFL) בפריז וחוקר מUniversity College London (UCL).

החוקרים ביצעו בדיקות של אלגוריתמים קיימים לאימון מודלים פרטיים, ומצאו כי החלטות יישום מסוימות מפרות את ההבטחות הפורמליות של פרטיות שניתנו במסגרות, והותירו רשומות מגוונות חשופות להתקפות השערה.

המחברים מציעים גרסה מתוקנת של כל אלגוריתם, שעשויה למתן את החשיפה, ומעמידים את הקוד זמין כספרייה בקוד פתוח. הם טוענים כי זה יעזור לחוקרים להעריך את הרווחים של פרטיות של נתונים סינתטיים ולהשוות באופן מועיל שיטות אנונימיזציה פופולריות. המסגרת החדשה כוללת שני שיטות התקפת פרטיות רלוונטיות שניתן ליישם על אלגוריתם אימון מודל גנרטיבי.

נתונים סינתטיים

נתונים סינתטיים משמשים לאימון מודלים של למידה אוטומטית במצבים שונים, כולל מקרים שבהם מחסור במידע מקיף יכול להיות ממולא על ידי נתונים מלאכותיים. דוגמה לכך היא האפשרות להשתמש בפנים מיוצרים באמצעות CGI כדי לספק ‘קשים’ או תמונות פנים נדירות לסטים של סינתזה של תמונות, שבהן תמונות פרופיל, זוויות חדות או הבעות לא שכיחות בחומר המקור.

סוגים אחרים של תמונות CGI שימשו לאכלוס סטים של נתונים שירוצו לבסוף על נתונים לא סינתטיים, כגון סטים המציגים ידיים ורהיטים.

במונחים של הגנה על פרטיות, נתונים סינתטיים יכולים להיות מיוצרים מנתונים אמיתיים על ידי מערכות Generative Adversarial Network (GAN) שמוציאות מאפיינים מהנתונים האמיתיים ויוצרות רשומות דומות, בדויות, שכנראה יכולות להתאים היטב לנתונים אמיתיים (לא נראים, מאוחרים) אך מיועדות לעוות פרטים של אנשים אמיתיים המופיעים בנתונים המקוריים.

מתודולוגיה

לצורך המחקר החדש, המחברים העריכו רווחי פרטיות בחמישה אלגוריתמים לאימון מודלים גנרטיביים. שלושה מהמודלים אינם מציעים הגנה על פרטיות מפורשת, בעוד ששניים אחרים באים עם הבטחות פרטיות דיפרנציאלית. מודלים טבלאיים אלו נבחרו כדי לייצג מגוון רחב של ארכיטקטורות.

המודלים שתקפו היו BayNet, PrivBay (גרסה של PrivBayes/BayNet), CTGAN, PATEGAN וIndHist.

מסגרת ההערכה למודלים יושמה כספרייה בפייתון עם שתי מחלקות מרכזיות – GenerativeModels וPrivacyAttacks. האחרונה כוללת שני פנים – יריב השערה והתקפת השערה. המסגרת גם מסוגלת להעריך את יתרונות הפרטיות של ‘נקי’ (כלומר מאונונימיים) נתונים ונתונים סינתטיים.

שני סטי הנתונים ששימשו בבדיקות היו Adult Data Set מאוסף הלמידה האוטומטית של UCI, וHospital Discharge Data Public Use Data File ממחלקת הבריאות של מדינת טקסס. גרסת סט הנתונים של טקסס ששימשה את החוקרים מכילה 50,000 רשומות שנדגמו מרשומות חולים לשנת 2013.

התקפות וממצאים

המטרה הכללית של המחקר היא להקים ‘ניתוב’ (חיבור מחדש של נתונים אמיתיים עם נתונים סינתטיים שנוצרו בהשראתם). מודלי התקפה ששימשו במחקר כוללים מודלים של Logistic Regression, Random Forests וK-Nearest Neighbors.

המחברים בחרו שתי קבוצות יעד המורכבות מחמש רשומות שנבחרו באופן אקראי מ’קטגוריות מיעוט’ של האוכלוסייה, מאחר שאלו בסיכון הגבוה להתקפת קישור. הם גם בחרו רשומות עם ‘ערכי קטגוריה נדירים’ מחוץ לתחום 95% של התכונה. דוגמאות כוללות רשומות הקשורות לסיכון גבוה לתמותה, חשבונות בית חולים גבוהים, וחומרת מחלה.

אף על פי שהמאמר אינו מפרט בהיבט זה, מנקודת מבטם של תוקפים אמיתיים, אלו הם בדיוק הסוגים של ‘יקרים’ או ‘בסיכון גבוה’ של חולים שיהיו מועדים להתקפות השערה וסוגים אחרים של גישות לנתונים.

מודלי התקפה מרובים אומנו נגד מידע ציבורי כדי לפתח ‘מודלים צל’ על עשרה יעדים. התוצאות ברחבי מגוון ניסויים (כפי שתואר לעיל) מראות כי מספר רשומות היו ‘פגיעות מאוד’ להתקפות קישור שכוונו אליהן על ידי החוקרים. תוצאות גם מצאו כי 20% מכל היעדים בניסויים קיבלו רווח פרטיות של אפס מנתונים סינתטיים שיוצרו על ידי שיטות GAN.

החוקרים מציינים כי התוצאות השתנו, בהתאם לשיטה ששימשה ליצירת נתונים סינתטיים, וקטור ההתקפה ומאפייני הסט היעד. הדו”ח מוצא כי במקרים רבים, דיכוי זהות יעיל דרך גישות נתונים סינתטיים מוריד את יעילות המערכות התוצאיות. באופן אפקטיבי, יעילות ודיוק של מערכות אלו יכולים להיות במקרים רבים מדד ישיר לכמה הן פגיעות להתקפות זיהוי מחדש.

החוקרים מסיקים:

‘אם סט נתונים סינתטי שומר על האפיונים של הנתונים המקוריים בדיוק גבוה, ובכך שומר על יעילות הנתונים למקרי השימוש שהוא מפורסם עבורם, הוא בו-זמנית מאפשר ליריבים לחלץ מידע רגיש על יחידים.

‘רווח גבוה בפרטיות דרך אמצעי אנונימיזציה שבחנו אינו יכול להישג אלא אם גרסת הנתונים הסינתטיים או המאונונימיים של הנתונים המקוריים אינה נושאת את האות של רשומות יחיד בנתונים הגולמיים ובעצם דוחסת את רשומותיהן.’

Related Topics:cybersecurity health research surveillance synthetic data

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai