בדל MIT: מדידת הטיית מדיה בכלי חדשות מרכזיים עם למידת מכונה - Unite.AI
צור קשר

בינה מלאכותית

MIT: מדידת הטיית מדיה בכלי חדשות מרכזיים עם למידת מכונה

mm
מְעוּדכָּן on

מחקר מ-MIT השתמש בטכניקות למידת מכונה כדי לזהות ניסוחים מוטים בכ-100 מכלי החדשות הגדולים והמשפיעים ביותר בארה"ב ומחוצה לה, כולל 83 מפרסומי החדשות המודפסים המשפיעים ביותר. זהו מאמץ מחקרי שמראה את הדרך לעבר מערכות אוטומטיות שעלולות לסווג אוטומטית את האופי הפוליטי של פרסום, ולתת לקוראים תובנה עמוקה יותר לגבי העמדה האתית של שקע בנושאים שהם עשויים לחוש בלהט לגביהם.

העבודה מתמקדת באופן ההתייחסות לנושאים בניסוח מסוים, כגון מהגר ללא תיעוד | מהגר בלתי חוקי, עוּבָּר | תינוק שטרם נולד, מפגינים | אנרכיסטים.

הפרויקט השתמש בטכניקות עיבוד שפה טבעית (NLP) כדי לחלץ ולסווג מקרים כאלה של שפה 'טעונה' (בהנחה שככל הנראה מונחים 'ניטרליים' יותר מייצגים גם עמדה פוליטית) למיפוי רחב שחושף הטיה שמאלה וימינה. על פני למעלה משלושה מיליון מאמרים מכ-100 ערוצי חדשות, וכתוצאה מכך ניתן לניווט נוף הטיה מהפרסומים המדוברים.

השמיים מאמר מגיע מסמנתה ד'אלונזו ומקס טגמרק במחלקה לפיזיקה של MIT, ומבחין כי מספר יוזמות אחרונות סביב 'בדיקת עובדות', על רקע פרשיות 'חדשות מזויפות' רבות, יכולות להיות מתפרש כלא הגיוני ומשרת את הגורמים לאינטרסים מסוימים. הפרויקט נועד לספק גישה מונעת נתונים יותר לחקר השימוש בהטיה ושפה 'השפעה' בהקשר חדשותי כביכול ניטרלי.

ספקטרום של ביטויים (תרתי משמע) משמאל לימין, כפי שנגזר מהמחקר. מקור: https://arxiv.org/pdf/2109.00024.pdf

ספקטרום של ביטויים (תרתי משמע) משמאל לימין, כפי שנגזר מהמחקר. מקור: https://arxiv.org/pdf/2109.00024.pdf

עיבוד NLP

נתוני המקור מהמחקר התקבלו מהקוד הפתוח מסד הנתונים של Newspaper3K, וכללה 3,078,624 מאמרים שהתקבלו מ-100 מקורות חדשות בתקשורת, כולל 83 עיתונים. העיתונים נבחרו על סמך טווח ההגעה שלהם, בעוד שמקורות תקשורת מקוונים כללו גם כתבות מאתר ניתוח החדשות הצבאי ההגנה אחת, ו מדע.

המקורות ששימשו במחקר.

המקורות ששימשו במחקר.

העיתון מדווח שהטקסט שהורד עבר עיבוד מוקדם 'מינימלי'. ציטוטים ישירים בוטלו, מכיוון שהמחקר מתעניין בשפה שנבחרה על ידי עיתונאים (למרות שבחירת הציטוטים היא כשלעצמה תחום לימודים מעניין).

האיות הבריטי שונו לאמריקאי כדי לתקן את מסד הנתונים, כל סימני הפיסוק הוסרו, והוסרו כולם מלבד המספרים הסידוריים. האותיות הראשוניות במשפט הומר לאותיות קטנות, אך כל שאר האותיות הרישיות נשמרו.

100,000 הביטויים הנפוצים הראשונים זוהו, ולבסוף דורגו, טוהרו ומוזגו לרשימת ביטויים. כל השפה המיותרת שניתן לזהות (כגון 'שתף מאמר זה' ו'מאמר פורסם מחדש') נמחקה גם כן. וריאציות על פני ביטויים זהים בעצם (כלומר 'ביג טק' ו'ביג טק', 'אבטחת סייבר' ו'אבטחת סייבר') היו סטנדרטיות.

'קוטף אגוזים'

המבחן הראשוני היה בנושא 'חיים שחורים חשובים', והצליח להבחין בהטיית ביטויים ובמילים נרדפות נרדפות על פני הנתונים.

רכיבים עקרוניים מוכללים למאמרים בנושא Black Lives Matter (BLM). אנו רואים אנשים המשתתפים בתביעה אזרחית מאופיינים, מילולית ופיגורטיבית משמאל לימין, כמפגינים, אנרכיסטים ובקצה הימני ביותר של הקשת, כ"מתפרעים". העיתונים שמקורם הביטוי מיוצגים בלוח הימני.

רכיבים עקרוניים מוכללים למאמרים בנושא Black Lives Matter (BLM). אנו רואים אנשים המשתתפים בתביעה אזרחית מאופיינים, מילולית ופיגורטיבית משמאל לימין, כמפגינים, אנרכיסטים ובקצה הימני ביותר של הקשת, כ"מתפרעים". העיתונים שמקורם הביטוי מיוצגים בלוח הימני.

בעוד ש'מפגינים' עוברים מ'אנרכיסטים' ל'פורעים' בזמן שאנו גולשים לאורך העמדה הפוליטית של המקור המדובר, העיתון מציין כי עמדת החילוץ והניתוח של ה-NLP מעכבת על ידי הפרקטיקה של 'בחירת אגוזים' - כאשר כלי תקשורת יצטט ביטוי שנראה כתקף על ידי פלח פוליטי שונה בחברה, ויכול (כנראה) לסמוך על קהל הקוראים שלו כדי לראות את הביטוי בצורה שלילית. העיתון מביא כדוגמה לכך את 'הסר את המשטרה'.

מטבע הדברים, זה אומר שביטוי 'נוטה לשמאל' מופיע בהקשר ימני אחר, ומייצג אתגר יוצא דופן עבור מערכת NLP המסתמכת על ביטויים מתוחכמים כדי לשמש כמסמנים לעמדות פוליטיות.

ביטויים כאלה הם 'דו-ערכיים' [SIC] , בעוד שביטויים מסוימים אחרים הם בעלי קונוטציה שלילית אוניברסלית כל כך (כלומר 'רצח תינוקות') שהם תמיד מיוצגים כשליליים בטווח של שקעים.

המחקר גם חושף מיפויים דומים לנושאים 'חמים' כמו הפלות, צנזורה טכנולוגית, הגירה לארה"ב ופיקוח על נשק.

סוסי תחביב

ישנן נטיות פוליטיות שנויות במחלוקת בכלי התקשורת שאינם מתפצלים באופן צפוי בדרך זו, כמו נושא ההוצאות הצבאיות. העיתון מצא ש-CNN 'נוטה לשמאל' הגיעה בסופו של דבר ליד ה-National Review ו-Fox News הנוטה לימין בנושא זה.

אולם באופן כללי, עמדה פוליטית יכולה להיקבע על ידי ביטויים אחרים, כמו העדפת הביטוי 'תסביך צבאי-תעשייתי' על פני 'תעשייה ביטחונית' הנוטה יותר לימין. התוצאות מראות שהראשון משמש חנויות קריטיות לממסד כמו כנרית ו הקונסרבטיבית האמריקנית, בעוד שהאחרון משמש לעתים קרובות יותר על ידי פוקס ו-CNN.

המחקר מבסס כמה התקדמות נוספות משפה קריטית לממסד לשפה פרו-ממסדית, כולל הסולם מ"מוות ביריות" ל"הרג" הפסיבי יותר; 'פושעים אסירים' ל'כלואים'; ו'יצרני נפט' ל'נפט גדול'.

מילים נרדפות עם הטיית ממסד, מלמעלה למטה.

מילים נרדפות עם הטיית ממסד, מלמעלה למטה.

המחקר מכיר בכך ששקעים 'יתרחקו' מהעמדה הפוליטית הבסיסית שלהם, בין אם ברמה הלשונית (כגון שימוש בביטויים דו-ערכיים), או ממניעים שונים אחרים. למשל, הפרסום הימני המכובד בבריטניה Spectator, שהוקמה ב-1828, מציגה תכופות ובולטות קטעי מחשבה שמאלניים החורצים את הזרימה הפוליטית הכללית של זרם התוכן שלה. אם זה נעשה מתוך תחושה של דיווח חסר פניות או כדי לעורר מעת לעת את הליבה של קהל הקוראים שלו לסערות תגובות יוצרות תעבורה זה עניין של השערה - ולא מקרה קל עבור מערכת למידת מכונה שמחפשת אסימונים ברורים ועקביים.

'סוסי התחביב' המסוימים הללו והשימוש המעורפל בנקודות מבט 'צורמות' בקרב ארגוני חדשות בודדים מבלבלים מעט את המיפוי השמאל-ימני שהמחקר מציע בסופו של דבר, אם כי מספקים אינדיקציה רחבה לשייכות פוליטית.

מניעת משמעות

למרות שהתוארך ב-2 בספטמבר ופורסם בסוף אוגוסט 2021, העיתון זכה למשיכה קטנה יחסית. חלקית זה יכול להיות בגלל שמחקר ביקורתי המכוון לתקשורת המיינסטרים לא סביר שיתקבל בהתלהבות על ידה; אבל זה יכול להיות גם בגלל חוסר הרצון של המחברים לייצר גרפים ברורים וחד משמעיים המרבדים היכן עומדים פרסומי תקשורת משפיעים וחזקים בנושאים שונים, יחד עם ערכים מצטברים המציינים את המידה שבה פרסום נוטה לשמאל או לימין. למעשה, נראה שהכותבים מקפידים להפחית את ההשפעה הפוטנציאלית של התוצאות.

כמו כן, הנרחבים נתונים שפורסמו מהפרויקט מציג ספירות תדירות של מקרים של מילים, אך נראה שהוא אנונימי, מה שמקשה לקבל תמונה ברורה של הטיה תקשורתית בפרסומים שנחקרו. מבלי להפעיל את הפרויקט בצורה כלשהי, זה משאיר רק את הדוגמאות הנבחרות שהוצגו במאמר.

מחקרים מאוחרים יותר מסוג זה עשויים להיות שימושיים יותר אם הם היו לוקחים בחשבון לא רק את הניסוח המשמש לנושאים, אלא אם הנושא כוסה בכלל, שכן השתיקה מדברת רבות, ויש לו כשלעצמו אופי פוליטי מובהק שלעתים קרובות מדבר על יותר מסתם מגבלות תקציביות או גורמים פרגמטיים אחרים שעשויים להודיע ​​על בחירת חדשות.

עם זאת, נראה כי מחקר MIT הוא הגדול ביותר מסוגו עד כה, ויכול להוות את המסגרת למערכות סיווג עתידיות, ואפילו טכנולוגיות משניות כגון תוספי דפדפן שעשויים להתריע בפני קוראים מזדמנים על הצבע הפוליטי של הפרסום שהם. כרגע קורא.

בועות, הטיה ו-Blowback

בנוסף, יש לשקול האם מערכות כאלה יגבירו עוד יותר את אחד ההיבטים השנויים ביותר במחלוקת של מערכות המלצות אלגוריתמיות - הנטייה להוביל צופה לסביבות שבהן הוא אף פעם לא רואה נקודת מבט מנוגדת או מאתגרת, מה שעלול להרחיק עוד יותר את עמדת הקורא בנושאי ליבה.

בין אם כזה או לא בועת תוכן הוא 'סביבה בטוחה', מכשול לצמיחה אינטלקטואלית, או הגנה מפני תעמולה חלקית, הוא שיפוט ערכי - עניין פילוסופי שקשה לגשת אליו מנקודת המבט המכניסטית והסטטיסטית של מערכות למידת מכונה.

יתרה מכך, ככל שמחקר MIT טרח לתת לנתונים להגדיר את התוצאות, סיווג הערך הפוליטי של ביטויים הוא בהכרח גם סוג של שיפוט ערכי, ושאינו יכול לעמוד בקלות ביכולתה של השפה לשנות מחדש תוכן רעיל או שנוי במחלוקת לביטויים חדשים שאינם במדריך, בחוקי הפורום או במאגר ההדרכה.

אם קודיפיקציה מסוג זה הייתה מוטמעת במערכות מקוונות פופולריות, סביר להניח שמאמץ מתמשך למפות את הטמפרטורה האתית והפוליטית של ערוצי החדשות הגדולים עלול להתפתח למלחמה קרה בין היכולת של בינה מלאכותית להבחין בהטיה לבין יכולתם של המוציאים לאור. להביע את עמדתם בניסוח מתפתח שנועד להקדים באופן שגרתי את ההבנה של למידת מכונה של סמנטיקה.


14/09/21 – 1.41 GMT+2 – שונה '100 עיתונים' ל'100 ערוצי חדשות'
4:58 - ציטוט נייר תוקן כך שיכלול את סמנתה ד'אלונזו ותיקונים קשורים.

כותב על למידת מכונה, בינה מלאכותית וביג דאטה.
אתר אישי: martinanderson.ai
איש קשר: [מוגן בדוא"ל]
טוויטר: @manders_ai