בדל זיהוי תוכן ממומן באתרי חדשות בעזרת Machine Learning - Unite.AI
צור קשר

בינה מלאכותית

זיהוי תוכן ממומן באתרי חדשות באמצעות למידת מכונה

mm
מְעוּדכָּן on

חוקרים מהולנד פיתחו שיטת למידת מכונה חדשה המסוגלת להבחין בין תוכן ממומן או בתשלום אחר בתוך פלטפורמות חדשות, עד לרמת דיוק של יותר מ-90%, בתגובה להתעניינות הגוברת של מפרסמים בפורמטים של פרסום 'מקורי' שקשה לאפשר. להבדיל מתפוקה עיתונאית 'אמיתית'.

DELETE THIS מאמר, שכותרתו הבחנה מסחרית מתוכן עריכה בחדשות, מגיע מחוקרים מאוניברסיטת ליידן.

תת-גרפים מסחריים (אדומים) ועריכהיים (כחולים) העולים מניתוח הנתונים. מקור: https://arxiv.org/pdf/2111.03916.pdf

תת-גרפים מסחריים (אדומים) ועריכהיים (כחולים) העולים מניתוח הנתונים. מקור: https://arxiv.org/pdf/2111.03916.pdf

המחברים מבחינים כי למרות שפרסומים רציניים יותר, שיכולים בקלות רבה יותר להכתיב תנאים למפרסמים, יעשו מאמץ סביר להבחין בין 'תוכן שותף' מהרצף הכללי של חדשות וניתוחים, הסטנדרטים עוברים לאט אך ללא הרחקה לאינטגרציה מוגברת בין עריכה וצוותים מסחריים על אאוטלט, שלדעתם מגמה מדאיגה ושליליה.

"היכולת להסוות תוכן, מרצון או שלא, והסבירות שפרסומות אינן מוכרות ככאלה גם אם הן מסווגות כראוי היא משמעותית. משווקים קוראים לזה Native [פרסום] מסיבה כלשהי״.

כמה דוגמאות עדכניות של פרסום מקורי, הנקראים באופן שונה 'תוכן שותף', 'תוכן מותג' ועוד כינויים רבים שנועדו לטשטש בעדינות את ההבחנה בין תוכן מקורי לתוכן מסחרי בפלטפורמות עיתונאיות.

כמה דוגמאות עדכניות של פרסום מקורי, הנקראים באופן שונה 'תוכן שותף', 'תוכן מותג' ועוד כינויים רבים שנועדו לטשטש בעדינות את ההבחנה בין תוכן מקורי לתוכן מסחרי בפלטפורמות עיתונאיות.

העבודה בוצעה כחלק מחקירה רחבה יותר על תרבות החדשות המרושתת ב- ערוץ הדהוד של ACED, שבסיסה באמסטרדם, שמתרכזת בניתוח מונחה נתונים של מגמות עיתונאיות מתפתחות.

רכישת נתונים

כדי לפתח נתוני מקור עבור הפרויקט, המחברים השתמשו ב-1,000 מאמרים וב-1,000 פרסומות מארבעה כלי חדשות הולנדיים וסיווגו אותם על סמך המאפיינים הטקסטואליים שלהם. מכיוון שמערך הנתונים היה צנוע יחסית בגודלו, המחברים נמנעו מגישות בקנה מידה גבוה כמו BERT, ובמקום זאת העריכו את היעילות של מסגרות למידת מכונה קלאסיות יותר, כולל תמיכה במכונה וקטורית (SVM), LinearSVC, עץ החלטות, יער אקראי, השכן הקרוב ביותר (K-NN), ירידה בשיפוע סטוכסטי (SGD) ו נאיביות.

הקורפוס של ערוץ Reverb הצליח לספק את 1,000 המאמרים ה'ישרים' הדרושים, אך המחברים נאלצו לגרד פרסומות ישירות מארבעת אתרי האינטרנט ההולנדים המופיעים. הנתונים שהתקבלו הם זמין בצורה מוגבלת (בשל חששות של זכויות יוצרים) ב-GitHub, יחד עם חלק מהקוד של Python המשמש להשגת הנתונים והערכתם.

ארבעת הפרסומים שנחקרו היו שמרנים מבחינה פוליטית Nu.nl, כמה שיותר מתקדם טלגרף, NRC, וכתב העת העסקי דה אונדרנמר. כל פרסום היה מיוצג באופן שווה בנתונים.

היה צורך לזהות ולהוזיל 'מדליפים' פוטנציאליים בלקסיקון שנוצר על ידי המחקר - מילים שעשויות להופיע בשני סוגי התוכן עם הבחנה קטנה בין התדירות והשימוש שלהם, כדי לבסס דפוסים ברורים לתוכן מקורי וממומן באמת.

תוצאות

על פני השיטות שנבדקו לזיהוי, התוצאות הטובות ביותר התקבלו על ידי SVM, linearSVC, Random Forest ו-SGD. לכן החוקרים המשיכו להשתמש ב-SVM בניתוח נוסף.

גישת המודל הטובה ביותר לחילוץ סיווג על פני הקורפוס עלתה על דיוק של 90%, אם כי החוקרים מציינים כי השגת סיווג ברור הופכת קשה יותר כאשר עוסקים בפרסומים מוכווני B2B, כאשר החפיפה המילונית בין תוכן "אמיתי" ו"ממומן" נתפס. מוגזם - אולי בגלל שהסגנון המקומי של השפה העסקית כבר סובייקטיבי יותר מהרצף הכללי של מוסכמות דיווח וניתוח, ויכול להסתיר ביתר קלות סדר יום.

עלילות t-Distributed Stochastic Neighbor Embedding (t-SNE) להפרדה בין תוכן אמיתי וממומן בין ארבעת הפרסומים.

t-Distributed Stochastic Neighbor Embedding (t-SNE) עלילות להפרדה בין תוכן אמיתי וממומן בין ארבעת הפרסומים.

האם תוכן ממומן הוא 'חדשות מזויפות'?

המחקר של המחברים מצביע על כך שהפרויקט שלהם חדשני בתחום ניתוח תוכן חדשותי. מסגרות המסוגלות לזהות תוכן ממומן יכולות לסלול את הדרך לפיתוח ניטור משנה לשנה של האיזון בין עיתונות אובייקטיבית לבין הנתח ההולך וגדל של 'פרסום מקורי' שנמצא כמעט באותו הקשר ברוב הפרסומים, תוך שימוש באותם רמזים ויזואליים ( גיליונות סגנונות CSS ועיצוב אחר) כתוכן כללי.

במובן מסוים, ההיעדר התכוף של הקשר ברור לתוכן ממומן מתגלה כתת-תחום של חקר 'חדשות מזויפות'. למרות שרוב המפרסמים מכירים בצורך בהפרדה בין 'כנסייה ומדינה', ובחובה לספק לקוראים חלוקות ברורות בין תוכן בתשלום לתוכן שנוצר אורגני, המציאות של הסצנה העיתונאית שלאחר הדפוס, והתלות המוגברת במפרסמים, הפכו ביטול הדגש של אינדיקטורים ממומנים לאמנות יפה בפסיכולוגיה של ממשק המשתמש. לפעמים התגמולים של הפעלת תוכן ממומן מפתים מספיק כדי להסתכן בא אסון אופטי גדול.

בשנת 2015 המדיה החברתית ופלטפורמת ההשוואה התחרותית Quintly הציעו זיהוי מבוסס AI שיטה כדי לקבוע אם פוסט בפייסבוק הוא ממומן, בטענה לשיעור דיוק של 96%. בשנה שלאחר מכן, א ללמוד מאוניברסיטת ג'ורג'יה טען שהדרך שבה בעלי אתרים מטפלים בהצהרה על תוכן ממומן יכולה להיות 'שותף להונאה'.

בשנת 2017 MediaShift, ארגון שבוחן את ההצטלבות בין מדיה לטכנולוגיה, שנצפה המידה ההולכת וגוברת שבה הניו יורק טיימס מייצר רווחים מפעילותו באמצעות אולפן התוכן הממותג שלו, T Brand Studio, הטוענת לרמות הולכת ופוחתת של שקיפות סביב תוכן ממומן, עם התוצאה המכוונת בשתיקה שקוראים לא יכולים לדעת בקלות אם תוכן נוצר או לא אורגנית.

בשנת 2020, יוזמת מחקר נוספת מהולנד פיתחה מסווגים של למידת מכונה זיהוי אוטומטי חדשות במימון המדינה הרוסי המופיעות בפלטפורמות חדשות סרבית. יותר מזה, זה היה מוערך ב-2019, "פתרונות תוכן המדיה" של פורבס מהווים 40% מסך ההכנסות שלו באמצעות BrandVoice, אולפן התוכן שהשיק המוציא לאור ב-2010.