ืืื ื ืืืืืืชืืช
ื’ื ืขืืืื’, ืืื ืืขืืืื ืืื ืืืืฉืจ ืฉืงืืืข ืืช ืขืชืื ื-AI

שני דוחות חדשים, כולל מאמר בהובלת Google Research, מביעים דאגה כי המגמה הנוכחית להסתמך על בריכת עובדים זמניים גלובליים וזולים ליצירת עובדות בסיס למערכות למידת מכונה עלולה להיות בעלת השלכות משמעותיות עבור AI. בין היתר, המחקר של Google מוצא כי העובדים הזמניים נוטים להחדיר את הטיותיהם הוא למערכות AI; כי פרקטיקות עבודה לא הוגנות נפוצות (כולל בארצות הברית) על פלטפורמות עבודה זמנית עלולות לפגוע באיכות התגובות; וכי מערכת ה”קונצנזוס” (בעצם “בחירות מיני” לחלק מעובדות היסוד שישפיעו על מערכות AI) יכולה לזרוק את התגובות הטובות ביותר. זו הבשורה הרעה; הבשורה הגרועה יותר היא שכמעט כל התרופות הן יקרות, צורכות זמן, או שתיהן.
ביטחון, דחייה אקראית ורנקור
המאמר הראשון, מאת חמישה חוקרים מ-Google, נקרא מיים עובדות? חשבון לזהויות אינדיבידואליות וקולקטיביות מתחת לסימון מדגם; המאמר השני, מאת שני חוקרים מאוניברסיטת סירקיוז בניו יורק, נקרא מקור וערך של אי-הסכמה בין מסמני נתונים: מקרה של הבדלים אינדיבידואליים בסימון נאום שנאה. המאמר של Google מציין כי עובדים זמניים – שהמדרגים שלהם לעיתים קרובות מהווים את הבסיס המגדיר של מערכות למידת מכונה שעלולות להשפיע על חיינו – פועלים לעיתים קרובות תחת מגבלות שונות שעלולות להשפיע על האופן שבו הם מגיבים למשימות ניסיוניות.
‘[רוב גדול של עובדים זמניים (94%) היו עובדים שנדחו או לא שולמו. עם זאת, המבקשים (אלו שמעניקים את המשימות) שומרים על זכויות מלאות על הנתונים שהם מקבלים, בלי קשר לכך אם הם מקבלים או דוחים אותם; Roberts (2016) מתאר את המערכת הזו כ”מערכת המאפשרת גנבת שכר”.
‘בנוסף, דחיית עבודה והחזקת תשלום היא כואבת, שכן דחיות רבות נגרמות על ידי הוראות לא ברורות וחוסר ערוצי משוב משמעותיים; רבים מהעובדים הזמניים דיווחו כי תקשורת גרועה משפיעה לרעה על עבודתם.’
המחברים ממליצים כי חוקרים שמשתמשים בשירותים מחוץ לארגון לפיתוח מאגרי נתונים צריכים לשקול כיצד פלטפורמת עבודה זמנית מתייחסת לעובדיה. הם מציינים כי בארצות הברית, עובדים זמניים מסווגים כ”קבלנים עצמאיים”, ולכן העבודה אינה מוסדרת ואינה מכוסה על ידי שכר המינימום הנדרש על ידי חוק תקני העבודה ההוגן.
הקשר חשוב
המאמר גם מבקר את השימוש בעובדים זמניים גלובליים אד הוק למשימות סימון, בלי לקחת בחשבון את רקעו של המסמן.
‘[ה]מושג “אמת אחת” בתגובות לעבודה זמנית הוא מיתוס; אי-הסכמה בין מסמנים, שלעיתים קרובות נתפסת כשלילית, יכולה לספק אותות יקרים. שנית, מכיוון שרבים מבריכות המסמנים הזמניים מוטות סוציו-דמוגרפית, יש השלכות לאוכלוסיות שמיוצגות במאגרי נתונים, כמו גם לאוכלוסיות שפוגעות מעבודה זמנית.’
‘חשבון לאסימטריות בדמוגרפיה של המסמנים הוא ביקורתי להקשרת מאגרי נתונים ולהבטחת שימוש אחראי. בקיצור, יש ערך בהכרה ובחשבון לרקע הסוציו-תרבותי של העובד – הן מנקודת מבט של איכות נתונים והן מנקודת מבט של השפעה חברתית.’
אין ‘דעות נייטרליות’ בנושאים חams
אפילו במקרים שבהם דעותיהם של ארבעה מסמנים אינן מוטות, המאמר של Google מביע דאגה כי החוקרים אינם לוקחים בחשבון את ניסיון החיים או הנטייה הפילוסופית של המסמנים:
‘בעוד שחלק מהמשימות נוטות להציג שאלות אובייקטיביות עם תשובה נכונה (האם יש פנים אנושיות בתמונה?), לעיתים קרובות מאגרי נתונים מטרתם לתפוס שיפוט על משימות סובייקטיביות עם אין תשובה אובייקטיבית (האם טקסט זה מיני?). חשוב להיות מכוונים לשאלה האם להסתמך על שיפוטים סובייקטיביים של המסמנים.’
השופט עלול להיות מוטה גם הוא
חוסר אובייקטיביות זה עלול לחזור גם כלפי מעלה, על פי המאמר של סירקיוז, שטוען כי ההתערבות הידנית (או מדיניות אוטומטית, שנקבעה גם היא על ידי אדם) שקובעת את “המנצח” של הצבעות הקונסנזוס צריכה להיות נתונה לביקורת.
‘[ה]מנהלים של קהילה יכולים לקבוע את גורלם של פוסטים ומשתמשים בקהילה על ידי קידום או הסתרת פוסטים, כמו גם כבוד, השפלה או הרחקת המשתמשים. החלטות המנהלים משפיעות על התוכן שמוצג לחברי הקהילה והקהל ובהמשך גם על חוויית הדיון בקהילה.
‘בהנחה שמנהל אנושי הוא חבר קהילה שיש לו הומוגניות דמוגרפית עם חברים אחרים בקהילה, נראה שאפשרי שהמודל המנטלי שהוא משתמש בו להעריך תוכן יתאים לזה של חברים אחרים בקהילה.’
קידום ארגון המסמנים
כל זאת מניח כי יש באמת תקציב בפרויקט המחקר למספר רב של סימון שיביא להצבעת קונסנזוס. במקרים רבים, חוקרים מנסים “לקדם” את בריכת המסמנים הזמניים בעלות נמוכה יותר על ידי ציון תכונות שהעובדים צריכים להיות בעליהן, כגון מיקום גאוגרפי, מגדר או גורמים תרבותיים אחרים, תוך סחר בריבוי תמורת ספציפיות.
ה’מרצים’ בסימון מאגרי נתונים
עם כוח עבודה שמשולם פחות מ-40% משכר המינימום בארצות הברית, תחת תחרות קשה על משימות זמינות, ומדוכאים על ידי היעדר פרספקטיבות קריירה, המסמנים מניעים לספק במהירות את “התשובה הנכונה” ולעבור למשימה הבאה.
‘שני מצאו כי הצגת הגדרת Twitter להתנהגות שנאה למסמנים גרמה להם להתאים חלקית את דעותיהם עם ההגדרה. הסטת זו הובילה לאמינות ב间-מסמנים נמוכה מאוד של הסימון.’
פורסם ב-13 בדצמבר 2021 – עודכן ב-18 בדצמבר 2021: תגיות נוספו












