ืืื ื ืืืืืืชืืช
ืึทืึฒืึธื ื ึถืึถื ืึทืึฐึผืึธืึธื ืขึดื ืชึทึผืึฐื ึดืืช Dbias, ืึฐืึดืื ึธื ืึผึดืคึฐืึธืชืึนื

חוקרים בקנדה, הודו, סין ואוסטרליה שיתפו פעולה כדי ליצור חבילת פייתון חינמית שניתן להשתמש בה בצורה יעילה כדי לאתר ולהחליף ‘שפה לא הוגנת’ בעותקי חדשות.
המערכת, שכותרתה Dbias, משתמשת בטכנולוגיות למידת מכונה ובסיסי נתונים שונים כדי לפתח זרימת עבודה מעגלית בת שלושה שלבים שיכולה לשפר טקסט מוטה עד שתחזור גרסה לא מוטה או לפחות נייטרלית יותר.

Loaded language in a news snippet identified as ‘biased’ is transformed into a less incendiary version by Dbias. Source: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf
המערכת מייצגת צינור רב-שימושי ועצמאי שניתן להתקין דרך Pip מ-Hugging Face, ולשלב אותו בפרויקטים קיימים כשלב משלים, תוסף או תוסף.
באפריל, פונקציונליות דומה שיושמה ב-Google Docs עוררה ביקורת, לא פחות בגלל מחסור בעריכה. Dbias, מצד שני, יכול להיות מאומן בצורה יותר סלקטיבית על כל קורפוס של חדשות שהמשתמש הסופי רוצה, ושומר על היכולת לפתח קווים מנחים להוגנות מותאמים אישית.
ההבדל המהותי הוא שצינור Dbias מיועד להפוך ‘שפה טעונה’ (מילים שמוסיפות שכבה ביקורתית לתקשורת עובדתית) לשפה נייטרלית או פרוזאית, ולא להדריך את המשתמש באופן רציף. בעצם, המשתמש הסופי יגדיר פילטרים אתיים ויאמן את המערכת בהתאם; בגישת Google Docs, המערכת – בטענה – מאמנת את המשתמש, באופן חד-צדדי.

Conceptual architecture for the Dbias workflow.
לפי החוקרים, Dbias היא חבילת גילוי הטיה הקונפיגורציה הראשונה, בניגוד לפרויקטים המורכבים מהמדף שאפיינו את תת-ענף זה של עיבוד שפה טבעית (NLP) עד כה.
המאמר החדש כותרתו An Approach to Ensure Fairness in News Articles, והוא מגיע מתורמים באוניברסיטת טורונטו, טורונטו מטרופוליטן יוניברסיטי, Environmental Resources Management בבנגלור, DeepBlue Academy of Sciences בסין, ו-The University of Sydney.
שיטה
המודול הראשון ב-Dbias הוא גילוי הטיה, שמנצל את DistilBERT – גרסה מאופטימיזציה גבוהה של BERT של Google. לצורך הפרויקט, DistilBERT עבר עידון על מאגר הנתונים Media Bias Annotation (MBIC).

MBIC כולל כתבות חדשות ממקורות תקשורת שונים, כולל Huffington Post, USA Today ו-MSNBC. החוקרים השתמשו בגרסה המורחבת של מאגר הנתונים.
על אף שהנתונים המקוריים סומנו על ידי עובדים מועסקים באמצעות קהל (שיטה שעוררה ביקורת בסוף 2021), החוקרים של המאמר החדש הצליחו לזהות מקרים נוספים של הטיה שאינם מסומנים במאגר הנתונים, וצירפו אותם באופן ידני. מקרי ההטיה שזוהו היו קשורים לגזע, חינוך, אתניות, שפה, דת ומגדר.
המודול הבא, זיהוי הטיה, משתמש בNamed Entity Recognition (NER) כדי לזהות מילים מוטות מהטקסט הקלט. המאמר קובע:
‘לדוגמה, החדשות “Don’t buy the pseudo-scientific hype about tornadoes and climate change” סווגו כמוטות על ידי המודול לגילוי הטיה הקודם, והמודול לזיהוי הטיה יכול עכשיו לזהות את המונח “pseudo-scientific hype” כמילה מוטה.’
NER אינו תוכנן במיוחד עבור משימה זו, אך הוא שימש בעבר לזיהוי הטיה, במיוחד עבור פרויקט 2021 מ-Durham University בבריטניה.
לשלב זה, החוקרים השתמשו בRoBERTa בשילוב עם SpaCy English Transformer NER pipeline.

השלב הבא, מסיכת הטיה, כוללת מסיכה רב-מסיכה חדשה של מילים מוטות, שפועלת באופן רציף במקרים של מילים מוטות מרובות.

Loaded language is replaced with pragmatic language in the third stage of Dbias. Note that ‘mouthing’ and ‘using’ equate to the same action, though the former is considered derisive.
כפי שנדרש, משוב משלב זה יישלח בחזרה לתחילת הצינור להערכה נוספת עד שייווצרו מספר ניסוחים אלטרנטיביים או מילים מתאימות. שלב זה משתמש ב-Masked Language Modeling (MLM) לאורך קווים שהוקמו על ידי שיתוף פעולה 2021 בהובלת Facebook Research.
בדרך כלל, משימת MLM תסמן 15% מהמילים באופן אקראי, אך צינור Dbias אומר לתהליך לקחת את המילים המוטות שזוהו כקלט.
הארכיטקטורה יושמה ואומנה ב-Google Colab Pro על NVIDIA P100 עם 24GB VRAM בגודל באטץ’ 16, עם רק שני תווים (מוטה ולא מוטה).
בדיקות
החוקרים בדקו את Dbias נגד חמישה גישות דומות: LG-TFIDF עם רגרסיה לוגיסטית וTfidfVectorizer (TFIDF) word embeddings; LG-ELMO; MLP-ELMO (רשת נוירונים מלאכותית קדמית המכילה ELMO embeddings); BERT; ו-RoBERTa.
המדדים ששימשו לבדיקות היו דיוק (ACC), דיוק (PREC), רגישות (Rec) וציון F1. מכיוון שהחוקרים לא היו מודעים לקיומו של מערכת קיימת שיכולה לבצע את כל שלוש המשימות בצינור בודד, הותרה היתר למסגרות המתחרות, על ידי הערכה רק של משימות Dbias העיקריות – גילוי הטיה וזיהוי.

Results from the Dbias trials.
Dbias הצליחה לעקוף תוצאות מכל המסגרות המתחרות, כולל אלו עם טביעת עיבוד כבדה יותר
המאמר קובע:
‘התוצאה גם מראה ששיבוצים עמוקים של נוירונים, באופן כללי, יכולים לשפר את שיטות השיבוץ המסורתיות (למשל TFIDF) במשימת סיווג הטיה. זה מודגם על ידי ביצועים טובים יותר של שיבוץ נוירונים עמוק (כגון ELMO) לעומת TFIDF vectorization כאשר משומשים עם LG.
‘זה כנראה מכיוון ששיבוץ נוירונים עמוק יכול לתפוס טוב יותר את ההקשר של המילים בטקסט בהקשרים שונים. שיבוץ נוירונים עמוק ושיטות נוירונים עמוק (MLP, BERT, RoBERTa) גם מבצעים טוב יותר משיטות ML מסורתיות (LG).’
החוקרים גם מציינים כי שיטות מבוססות Transformer משפרות את השיטות המתחרות בגילוי הטיה.
בדיקה נוספת כללה השוואה בין Dbias לבין גרסאות שונות של SpaCy Core Web, כולל core-sm (קטן), core-md (בינוני) ו-core-lg (גדול). Dbias הובילה גם במבחנים אלו:

החוקרים מסיקים כי משימות זיהוי הטיה בדרך כלל מראות דיוק טוב יותר במודלים גדולים ויקרים יותר, ככל הנראה בגלל מספר הפרמטרים ונקודות הנתונים הגדול יותר. הם גם מציינים כי יעילות עבודה עתידית בתחום זה תלויה במאמצים גדולים יותר לסימון מאגרי נתונים איכותיים.
היער והעצים
בתקווה, סוג זה של פרויקט זיהוי הטיה מודרני יוטמע בעתיד במסגרות המחפשות הטיה, שיכולות לקחת תצפית פחות מיקרוסקופית, ולקחת בחשבון שבחירה לכסות כל סיפור היא בעצמה פעולה של הטיה, שניתן לנהלה על ידי יותר מאשר סטטיסטיקות צפייה דווחות.
פורסם לראשונה ב-14 ביולי 2022.












