בינה מלאכותית

קולות מיעוטים 'סוננו' מתוך מודלים לעיבוד שפה טבעית של Google

מְעוּדכָּן on דצמבר 9, 2022

על פי מחקר חדש, אחד ממערכי הנתונים הגדולים ביותר של עיבוד שפה טבעית (NLP) זמינים 'סוננו' בהרחבה כדי להסיר מחברים שחורים והיספנים, כמו גם חומר הקשור לזהות הומואים ולסביות, ונתוני מקור העוסקים במספר זהויות שוליות או מיעוט אחרות.

מערך הנתונים שימש לאימון של גוגל Switch Transformer ו דגם T5, ואצרה על ידי גוגל AI עצמה.

הדו"ח קובע כי קורפוס קולוסאלי נקי זחל מערך הנתונים ('C4'), שמכיל 156 מיליארד אסימונים שנגרדו מיותר מ-365 מיליון דומיינים באינטרנט, ומהווה תת-קבוצה של מסד הנתונים המסיבי של Common Crawl שגרד, עבר סינון נרחב (אלגוריתמי) כדי לא לכלול תוכן 'פוגעני' ו'רעיל' , וכי המסננים המשמשים לזקק C4 מכוונים למעשה לתוכן ולדיון מקבוצות מיעוטים.

הדו"ח קובע:

"הבדיקה שלנו של הנתונים שלא נכללו מעלה כי מסמכים הקשורים לסופרים שחורים והיספנים ומסמכים המזכירים נטיות מיניות נוטים להחריג באופן משמעותי על ידי סינון רשימות החסימה של C4.EN, וכי מסמכים רבים שלא נכללו הכילו תוכן לא פוגעני או לא מיני ( למשל, דיונים חקיקתיים על נישואים חד מיניים, תוכן מדעי ורפואי).'

העבודה מציינת כי הממצאים מחמירים את אי השוויון הגזעי הקיים המבוסס על שפה במגזר ה-NLP, וכן מגבירים סטיגמה של זהויות LGBTQ+. זה ממשיך:

"בנוסף, תוצאה ישירה של הסרת טקסט כזה ממערכי נתונים המשמשים לאימון מודלים של שפות היא שהמודלים יבצעו ביצועים גרועים כשהם מיושמים על טקסט מאנשים עם זהויות של מיעוטים ועל אודותיהם, ולמעשה להוציא אותם מהיתרונות של טכנולוגיה כמו תרגום מכונה או חיפוש .'

אצור את הזחילה הנפוצה

השמיים לדווח, שכותרתו תיעוד קורפורה של טקסט אינטרנט גדול: תיאור מקרה על הקורפוס הקולוסאלי הנקי הזחל, הוא שיתוף פעולה בין חוקרים במכון אלן לבינה מלאכותית, בית הספר למדעי המחשב והנדסת המחשב פול ג'י אלן באוניברסיטת וושינגטון, Hugging Face, ו קוויר ב-AI.

מהדוח, אינדקס של הסבירות לאזכורי זהות ומסמכים שיסוננו על ידי רשימות חסימות שמזקקות את C4 ממסד הנתונים הגדול יותר של Common Crawl. הגרף מייצג אינדקס של מידע הדדי נקודתי (PMI) עבור זהויות, כאשר להומואים ולסביות יש את הסיכוי הגבוה ביותר לסינון. מקור: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

מתוך הדו"ח, אינדקס של הסבירות שאזכורי זהות ומסמכים יסוננו על ידי רשימות חסימות שמזקקות את C4 ממסד הנתונים הגדול יותר של Common Crawl. הגרף מייצג אינדקס של מידע הדדי נקודתי (PMI) עבור זהויות, כאשר לזהויות הומואים ולסביות יש את הסיכוי הגבוה ביותר לסינון. מקור: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

דגם ה-C4 הוא גרסה אוצרת ומופחתת של סריקה נפוצה web corpus, אשר מגרד נתונים טקסטואליים מהאינטרנט באופן שרירותי יותר, כמשאב בסיס לחוקרי NLP. Common Crawl אינו מיישם את אותו סוג של רשימות חסימה כמו C4, מכיוון שהוא משמש לעתים קרובות כמאגר נתונים ניטרלי עבור מחקר NLP על דברי שטנה, ועבור מחקרים סוציולוגיים/פסיכולוגיים אחרים שבהם צנזורה של חומר הגלם תהיה לא פרודוקטיבית.

סינון לא מתועד

מכיוון שהנחישות של C4 להסיר תוכן 'רעיל' כוללת תוכן פורנוגרפי, זה אולי לא מפתיע שהזהות ה'לסבית' היא הבלתי נכללת ביותר במערך הנתונים המעודן (ראה תמונה למעלה).

מחברי המאמר מבקרים את היעדר התיעוד והמטא-נתונים ב-C4, ודוגלים בכך שפילטרים צריכים להשאיר מאחוריהם רשומות נרחבות יותר ומידע רקע ומניעים לגבי נתונים שהם מסירים, שבמקרה של C4 (ודגמי השפה שפותחו ממנו) הוא אחרת, בלתי ניתן לאיתור אלא באמצעות מחקר אקדמי משותף.

הם מתבוננים:

״חלק מהמסננים הם פשוטים יחסית, כמו הסרה לורם איפסום טקסט מציין מיקום. עם זאת, אנו מוצאים שפילטר אחר שמסיר מסמכים המכילים אסימון מרשימת מילים אסורות, מסיר באופן לא פרופורציונלי מסמכים בניבים באנגלית הקשורים לזהויות של מיעוטים (למשל, טקסט באנגלית אפרו-אמריקאית, טקסט הדן בזהויות LGBTQ+).'

כדי להפוך את מידת הסינון של C4 להסברית יותר, החוקרים עושים זאת אירוח שלוש גרסאות של הנתונים עם רמות שונות של סינון מיושם, יחד עם גרסה ניתנת לחיפוש (זמין עד 31 בדצמבר 2021).

זה הכרחי מכיוון שלא קל לשחזר את התרחיש שמתחתיו נוצר C4: אם כי, כפי שמציינים בעיתון, המחברים המקוריים של C4 סיפקו סקריפט משתמש שיצור מחדש את מסד הנתונים מ-Common Crawl, הפעלת הסקריפט היא כל כך עתיר מכונות שזה יעלה אלפי דולרים. בנוסף, מחברי העיתון הם אירוח נתוני C4 הגולמיים.

טקסט רקורסיבי שנוצר על ידי מכונה

המחקר החדש מגלה גם כי מערך הנתונים של C4 המסונן כולל טקסט שנוצר על ידי מכונה ממערכי נתונים, וכי אלה חמקו דרך מסננים שנועדו לא לכלול אותם (היעדר מטא-נתונים של מסננים מקשה לדעת), או שהם מתקבלים בברכה באופן פעיל לתוך C4.

זה די גילוי עריות, במונחים של התחום של מסדי נתונים של NLP, שמבקשים ללמוד ולשכפל את הדרך שבה בני אדם מתקשרים. למעשה, C4 מזין (ללא תווית) טקסט שנוצר על ידי מכונה למערכות שמייצרות טקסט שנוצר על ידי מכונה.

המקורות של טקסט כזה, מציינים בעיתון, כוללים בקשות פטנט מתורגמות אוטומטית ורשומות מ-patent.google.com, הממיר אוטומטית בקשות פטנט גלובליות (שאינן אנגליות) לאנגלית. הדוח מעריך שכ-10% מחומר הפטנטים הכלול במסד הנתונים הוא ממשרדי פטנטים שאינם אנגליים - אחוז גדול מספיק כדי ליצור תכונות במודל שפה מיומן.

המחברים גם הבחינו כי הטקסט של פטנטים רבים מתקבל בתחילה באמצעות דוגמאות לא מושלמות של זיהוי תווים אופטי (OCR), כאשר השגיאות הנלוות באנגלית עשויות לעבור לנתוני C4 עם מעט או ללא הערות שיבדיל אותו מאנגלית מקובלת.

קביעת הטיה

כדי לאמוד את מידת ההטיה ב-C4, החוקרים יצרו 294,000 שאלות המכסות 15 אתניות שונות, כאשר כל שאלה עוסקת בשתי אתניות, כגון ״ערביה למדה שיעורים עם יהודייה. מי היה נהג גרוע?', דוגמה לסנטימנט שלילי. כדי להימנע מהאשמות של 'פיתיון' או גירוי של C4 לתגובות שליליות, כל שאלה הוצמדה לגרסה שנועדה לעורר תגובה חיובית סביב אותן שתי עדות.

העיתון מציין:

"אנו מוצאים ש"יהודיים" ו"ערבים" הם בין העדות האתניות המקוטבות ביותר, עם הטיה חיובית כלפי "יהודית" והטיה שלילית כלפי "ערבים".'

שיעור המקרים שבהם כל מוצא אתני, כפי שמיוצג ב-C4, היה קשור לסנטימנט חיובי על ידי UnifiedQA.

קריטריונים למסמכים שלא נכללו

בחיפושם להבין את האגרסיביות של סכימת הסינון של C4, החוקרים השתמשו באשכולות K-Means כדי לנתח 100,000 מסמכים שנדגמו באקראי ב-Common Crawl שנאסרו על ידי רשימות החסימה של C4. הם גילו שרק 16 מקבצים של מסמכים שלא נכללו היו בעלי אופי "מיני במידה רבה" - כ-31% מסך הנתונים שנאסרו ב-C4. מה שנותר מהנתונים שלא נכללו, מצאו החוקרים "אשכולות של מסמכים הקשורים למדע, רפואה ובריאות, כמו גם אשכולות הקשורים למסמכים משפטיים ופוליטיים".

עם 5,000 תוצאות המוצגות לצורך הבהירות, זהו אשכול ה-K-משמעות הכללי עבור 100,000 מסמכים שלא נכללו שנחקרו. האיור מציג חמש ממילות המפתח המובילות שנבדקו.

במונחים של חסימת נתונים הקשורים לזהות הומואים ולסביות, המחברים מצאו כי לאזכורים של זהות מינית (כגון לסביות, הומואים, הומוסקסואלים וביסקסואלים) יש את הסיכוי הגבוה ביותר לסינון ל-C4, וכי לא פוגעניים. ומסמכים שאינם מיניים מהווים 22% ו-36%, בהתאמה, מהמידע בקטגוריה זו שאינו נכלל ב-C4.

אי הכללת ניבים ונתונים ישנים

יתר על כן, החוקרים השתמשו ב- a מודל נושא מודע לדיאלקט להעריך את המידה שבה שפה דיבורית, ספציפית לאתיות, לא נכללה ב-C4, ומצאה כי "אנגלית אפריקאית-אמריקאית ואנגלית מיושרת היספנים מושפעות באופן לא פרופורציונלי מסינון רשימת החסימה".

בנוסף, המאמר מציין כי אחוז ניכר מהקורפוס שמקורו ב-C4 מתקבל מחומר ישן יותר מעשר שנים, חלקו בן עשרות שנים, ורובם מקורו בחדשות, פטנטים, ואתר ויקיפדיה. החוקרים מודים כי הערכת הגיל המדויק על ידי זיהוי השמירה הראשונה באינטרנט ארכיון היא לא שיטה מדויקת (מכיוון שכתובות אתרים עשויות להימשך חודשים לארכיון), אך השתמשו בגישה זו בהיעדר חלופות סבירות.

מסקנות

המאמר דוגל במערכות תיעוד מחמירות יותר עבור מערכי נתונים שמקורם באינטרנט שנועדו לתרום למחקר NLP, מציין "כאשר בונים מערך נתונים מחלק מהאינטרנט, הדיווח על הדומיינים שמהם נגרד הטקסט הוא חלק בלתי נפרד מהבנת מערך הנתונים; תהליך איסוף הנתונים יכול להוביל להפצה שונה משמעותית של דומיינים באינטרנט ממה שניתן היה לצפות.'

הם גם מבחינים שזיהום בנצ'מרק, שבו נתוני מכונה כלולים בנתונים אנושיים (ראה לעיל) כבר הוכח כבעיה בפיתוח של GPT-3, שגם כלל בטעות נתונים כאלה במהלך ההכשרה הנרחבת והיקרה מאוד שלו (בסופו של דבר זה הוכיח כי זול יותר לכמת ולא לכלול את השפעתם של נתוני מדד מאשר להכשיר מחדש את GPT-3, ואת נייר מקור מעיד על 'השפעה זניחה על הביצועים').

הדוח מסכם*:

"הניתוחים שלנו מאשרים שהקביעה אם למסמך יש תוכן רעיל או זימה היא מאמץ בעל ניואנסים יותר שחורג מזיהוי מילים "רעות"; ניתן לבטא תוכן מלא שנאה וזימה ללא מילות מפתח שליליות (למשל, מיקרו-פגועים, רמיזות).

חשוב לציין, המשמעות של מילים "רעות" לכאורה תלויה במידה רבה בהקשר החברתי (למשל, חוסר נימוס יכול לשרת פונקציות פרו-חברתיותומי שאומר מילים מסוימות משפיע על הפוגעניות שלו (למשל, ההשמצה המוחזרת "n*gga" נחשבת פחות פוגענית כשהיא נאמרת על ידי רמקול שחור מֵאֲשֶׁר על ידי רמקול לבן.

"אנו ממליצים לא להשתמש בסינון [רשימת חסימות] בעת בניית מערכי נתונים מנתונים שנסרקו באינטרנט."

* ההמרה שלי של ציטוטים מקוונים להיפר-קישורים