בדל ניתוח מדיניות פרטיות של 25 שנים עם למידת מכונה - Unite.AI
צור קשר

בינה מלאכותית

ניתוח מדיניות פרטיות של 25 שנים עם למידת מכונה

mm
מְעוּדכָּן on

מחקר שנערך לאחרונה השתמש בטכניקות ניתוח למידת מכונה כדי לשרטט את הקריאות, התועלת, האורך והמורכבות של יותר מ-50,000 מדיניות פרטיות באתרים פופולריים בתקופה של 25 שנים מ-1996 עד 2021. המחקר מסיק שהקורא הממוצע יצטרך להקדיש 400 שעות של 'זמן קריאה שנתי' (יותר משעה ביום) על מנת לחדור לספירת המילים ההולכת וגוברת, שפה מעורפלת ושימוש בשפה מעורפלת המאפיינת את מדיניות הפרטיות המודרנית של כמה מהאתרים הנפוצים ביותר.

הדו"ח קובע:

"אורך הפוליסה הממוצע כמעט הוכפל בעשר השנים האחרונות, עם 2159 מילים במרץ 2011 ו-4191 מילים במרץ 2021, וכמעט פי ארבעה מאז 2000 (1146 מילים)."

ספירת המילים הממוצעת וספירת המשפטים בקרב הקורפוס הנלמד, על פני תקופה של 25 שנה. מקור: https://arxiv.org/pdf/2201.08739.pdf

ספירת המילים הממוצעת וספירת המשפטים בקרב הקורפוס הנלמד, על פני תקופה של 25 שנה. מקור: https://arxiv.org/pdf/2201.08739.pdf

למרות ששיעור הגידול באורך עלה כאשר ה-GDPR וחוק הגנת הפרטיות של קליפורניה (CCPA) נכנסו לתוקף, העיתון מפחית את הווריאציות הללו כ'גדלים קטנים של אפקט', שנראה שהם חסרי משמעות מול המגמה ארוכת הטווח הרחבה יותר. עם זאת, GDPR מזוהה כגורם אפשרי להגדלת השפה ה'עמומה' במדיניות (ראה להלן).

בהנחה של מהירות קריאה של 250 מילים לדקה, העיתון טוען כי מדיניות הפרטיות הממוצעת לוקחת כעת 17 דקות לקריאה, בעוד שמדיניות פופולרית יותר (כלומר מדיניות הקשורה למספר גבוה של משתמשים) נמשכת 23 דקות.

המדיניות הארוכה ביותר במערך הנתונים, מבית מיקרוסופט, דורשת 152 דקות לצריכה, על פי המחקר, שמינף מספר גרסאות ב- Google מודל השפה של BERT.

גידול בשיעור השעות השנתיות הנדרשות לקריאת מדיניות הפרטיות המודרנית, בהנחה שהקורא מבקר ב-1462 אתרים ייחודיים בשנה.

גידול בשיעור השעות השנתיות הדרושות לקריאת מדיניות הפרטיות המודרנית, בהנחה שהקורא מבקר 1462 אתרים ייחודיים בשנה.

חלק ניכר מהעלייה האחרונה בהמללות ובאי בהירות במדיניות הפרטיות מיוחסת על ידי העיתון כתגובה לניסיונות של שני העשורים האחרונים לכפות תקנות, אך גם לשימוש לא הגון בדרישות הציות לתקנות כתירוץ להגדלת ההיקף וההתגנבות. אטימות של מדיניות הפרטיות.

"בסך הכל, התוצאות שלנו מראות שתקנות הפרטיות האחרונות לא שיפרו באופן מהותי את פרטיות המשתמשים באינטרנט, אלא הובילו למדיניות פרטיות נפוחה יותר שמתארת ​​יותר ויותר שיטות מידע פולשניות".

למרות שמספר מאמרים בנושא עיבוד שפה טבעית (NLP) התייחסו לקריאות ובהיבטים אחרים של מדיניות הפרטיות בשנים האחרונות, המחבר מאמין שזהו הפרויקט הראשון מסוגו המספק סקירה רחבה כל כך של פיתוח מדיניות בעשורים האחרונים.

השמיים מאמר מכונה מדיניות פרטיות לאורך הדורות: התוכן והקריאה של מדיניות הפרטיות 1996–2021, ומגיע מאיזבל וגנר במכון הסייבר הטכנולוגי של אוניברסיטת דה מונפורט בבריטניה.

שפה אליפטית

הדו"ח מציע גם שהמספר הממוצע של 'מילים מטשטשות' (כלומר קביל, משמעותי, בעיקר, ומילים אחרות שאינן מספקות משמעות סופית) במדיניות הפרטיות עלו בהתמדה עד 2018, אך אז עלו מחציון של 227 בסביבות מרץ 2018 ל-304 ביוני 2020.

המחבר טוען שהעלייה הזו מיוחסת להשפעות ה-GDPR, והמאמר מגלה שלמעלה משני שלישים (72%) מהמשפטים במדיניות הפרטיות שנחקרה הכילו מינימום של מילה אחת מטשטשת.

קריאות

על פני שלושה מדדים נפוצים של קושי בקריאה, המחקר מצא את זה "מדיניות הפרטיות הפכה יותר ויותר קשה לקריאה עם השנים". המחברים מעריכים של-41% מהפוליסות הקיימות כיום ב-2021 היה חציון קלות הקריאה של פלש (FRE, גבוה יותר עדיף) של 31.8 בלבד, כאשר המחבר מתבונן "ציון זה מצביע על טקסט קשה מאוד שמובן בצורה הטובה ביותר על ידי בוגרי אוניברסיטאות".

במקביל, רק 6.7% מהפוליסות השיגו ציון FRE מעל 45 (שמציין הדוח הוא תקן הקריאה הנדרש לפוליסות ביטוח במדינת פלורידה).

מודעות לשינוי מדיניות

העבודה עוסקת גם באיזו מידה מדיניות הפרטיות כוללת פרטים על האופן שבו יקבל בסופו של דבר הודעה למתמחה הפוטנציאלי במקרה של עדכונים הבאים, מה שעלול להשפיע על נכונות המשתמש לשמור על ההסכם.

המחבר מציין:

"בשנת 2021, 73% מהפוליסות כוללות הצהרה על שינוי מדיניות. מתוכם, 34% מציינים כי השינויים יפורסמו בהודעה במדיניות הפרטיות, 37% יפרסמו הודעה באתר ו-22% ישלחו הודעה אישית (שאר המדיניות משאירה את סוג ההודעה לא מוגדר).

"כתוצאה מכך, לא סביר שרוב המשתמשים יהיו מודעים לשינויים במדיניות הפרטיות.

"בנוסף, למשתמשים כמעט ולא מוצעת בחירה משמעותית כאשר המדיניות משתנה. מתוך הפוליסות המודיעות למשתמש על שינויים, רק 12% מציעות הצטרפות חדשה, בעוד ש-34% לא נותנים ברירה ו-54% משאירים אותה לא מפורטת.'

ממצאי המאמר על השיטות המתוארות להודיע ​​למשתמשים על שינויים במדיניות.

ממצאי המאמר על השיטות המתוארות להודיע ​​למשתמשים על שינויים במדיניות.

בחירה מוגבלת לגבי מעקב

על פי המחקר, מגוון גדול בהרבה של מנגנונים מוצעים במדיניות הפרטיות לגישה למידע על חשבון משתמש מאשר לגישה לנתוני פרופיל משתמש. ניתן ליצור ולעדכן נתוני פרופיל באמצעות מנגנונים אוטומטיים ולא מובנים מאליהם, בעוד שנתוני חשבון משתמש לא רק מוענקים במפורש על ידי המשתמש, אלא גם מחויבים להיות ניתנים לעריכה במסגרת תקנות של תחומי שיפוט שונים.

בחירת הצרכן על פני הסכמת עוגיות במדיניות הפרטיות (נושא שמשך ויכוח סוער מאז הופעת ה-GDPR פרסמה מאות אלפי חלונות קופצים להסכמה לקובצי Cookie עבור מופעים של אתרים בינלאומיים ואירופיים באיחוד האירופי) מטופלת בדרך כלל במדיניות, אך מסתירה שכבה חשובה יותר של נתונים פחות נגישים*:

"האפשרויות [ה] לגבי קובצי Cookie אינן מספיקות כדי להגן על המשתמשים מכל מעקב מכיוון שמנגנוני בחירה או בקרה מוצעים רק לעתים נדירות עבור מידע על המחשב, מזהי מכשירים, ו מזהים אישיים, המאפשרים מעקב אחר משתמשים באמצעות טביעת אצבע.'

ניגוד מוחלט ברמת השליטה הזמינה הניתנת על ידי מדיניות הפרטיות בין נתוני פרופיל (שעשויים להתקבל באמצעים מרומזים או חשאיים) ונתוני חשבון משתמש (כאשר מידה מסוימת של שליטה נדרשת לעתים קרובות על ידי GDPR, חוק הפרטיות לצרכן בקליפורניה (CCPA) ), ומנגנונים לאומיים ואזוריים דומים).

ניגוד מוחלט ברמת השליטה הזמינה הניתנת על ידי מדיניות הפרטיות בין נתוני פרופיל (שעשויים להתקבל באמצעים מרומזים או חשאיים) ונתוני חשבון משתמש (כאשר מידה מסוימת של שליטה נדרשת לעתים קרובות על ידי GDPR, חוק הפרטיות לצרכן בקליפורניה (CCPA) ), ומנגנונים לאומיים ואזוריים דומים).

נתונים

כדי להשיג את הנתונים עבור המחקר, המחבר סרק אתרים אחר קישורים למדיניות הפרטיות שלהם, ומצא לעתים קרובות צורך להרחיב את ההיקף מעבר לתוצאה הראשונית, בשל מספר המדיניות הלא אינטגרלית שמקשרת למדיניות נוספת (כל אחת מהן שיש לו פוטנציאל להשתנות במקביל או ללא תלות בהורה או במדיניות הקשורה אליו).

השמיים מכונת Wayback שימש להשגת מדיניות היסטורית, אם כי היה צורך בבחינת תוצאות להתחשב במדיניות שנחסמה לסריקה או לארכיון באמצעות קובץ תצורה של robots.txt (קובץ טקסט קטן המכיל הוראות לסוכני אינדקס סורקי אינטרנט לגבי דפים ואחרים גופים שאסור להם לכלול במדד ציבורי).

תמונת מצב אחת לחודש התקבלה מ-Wayback Machine על ידי שלה CDX API עבור כל מדיניות ניתן לזהות ומתמשכת, באמצעות פיירפוקס תחת סלניום. ביצוע זיהוי תווים אופטי במדיניות הזמינה רק בפורמט PDF לא נשקל עבור הפרויקט, מה שהגביל את עצמו למספר (הרבה יותר) של מדיניות HTML זמינה.

תוצאה מעניינת אחת מהפרויקט היא שהבהירות והקריאות של אתרי אינטרנט פורנוגרפיים השתפרו למעשה במהלך המרווח הנחקר - אולי בציפייה לקריאות הולכות וגדלות להגברת הרגולציה והבהירות. על מנת לאסוף מסמכים אלו, היה צורך להשיגם בסריקות נוספות מכתובות IP מגורים, בשל פרוטוקולי חסימת התוכן של האוניברסיטה.

בתחילה הושגו 1,068,683 מסמכים, השווים ל-120,265 מסמכים ייחודיים המכילים בממוצע 39.1 מאמרים או סעיפי מדיניות ו-4.4 טקסטים ייחודיים של מדיניות לכל קישור.

רק אנגלית

כמקובל במחקרים דומים עדכניים, הפרויקט לא הצליח להתייחס למדיניות הפרטיות שאינה אנגלית, אשר נמחקה בשלב ניקוי הנתונים באמצעות PYCLD2 חֲבִילָה.

כדי להבדיל בין מדיניות הפרטיות לסוגים אחרים של חומר, הפרויקט השתמש במסווג שפותחה ב 2019 כיוזמה משותפת של אוניברסיטת ויסקונסין והאקול פוליטכניק פדראל דה לוזאן.

ארכיטקטורה של מסווג IS-POLICY. מקור: https://arxiv.org/pdf/1809.08396.pdf

ארכיטקטורה של מסווג IS-POLICY. מקור: https://arxiv.org/pdf/1809.08396.pdf

למרות שמסווג IS-POLICY הוכשר על אותו קורפוס של 1,000 מסמכים כמו במסמך המקור, המחבר היה צריך להשיג מסמכים שאינם מדיניות חדשים להדרכה, מכיוון שהמקורות המקוריים לא היו זמינים.

לאחר סינון, הנתונים צומצמו ל-56,416 מדיניות פרטיות ייחודית.

 

* הציטוט המוטבע של העיתון מומר להיפר-קישור כאן, החלפת נטוי היא מהעיתון.

פורסם לראשונה ב-31 בינואר 2022.