Connect with us

ื”ืื AI ื™ื›ื•ืœ ืœืคืชื— ื—ื•ืฉ ืœื—ื“ืฉื•ืช?

ื”ื–ื•ื•ื™ืช ืฉืœ Anderson

ื”ืื AI ื™ื›ื•ืœ ืœืคืชื— ื—ื•ืฉ ืœื—ื“ืฉื•ืช?

mm
AI-generated image (GPT-1.5) featuring a dog journalist in a photorealistic newsroom, who has spotted a lead, and attracted the attention of his co-workers.

AI הולך ומשתפר בכתיבת סיפורי חדשות, אך לא משתפר הרבה בזיהוי שלהן.

 

דעה בחמש השנים מאז בדקתי לאחרונה את יכולת ה-AI למצוא סיפור חדשות רותח, הנוף השתנה באופן משמעותי, עם רמות גבוהות יותר של אוטומציה המונעת על ידי AI, לצד הכאבים הבלתי נמנעים והמחלוקות.

לאחרונה, דו”ח WSJ על תורם Fortune פורה, שמשתמש ב-AI, הציג את העיתונאי של העתיד כמי ששוחרר מעבודות משמרת כגון העתקת הודעות לעיתונות, ומותיר לו תקציב לכתיבת מאמרים ולעשיית חפירות שרק פרסומים גדולים יותר בדרך כלל מעוניינים לשלם.

אבל מה שאנו שומעים פחות עליו הוא יכולתו של AI לאתר סיפור חדשות.

הפחתת רעש

ב-2021, התמקדתי בכותבים שסיקרו את המחקר, מאחר שזהו המקום בו ביליתי את רוב זמני; ואולי ההשפעה הגדולה ביותר שמהפכת ה-AI החדשה הייתה על כך שיצרה מעין מתקפת DDoS של הגשות מחקר מונעות על ידי AI, שהעלתה את יחס האות לרעש כל כך גבוה, עד שאפילו סיקור מחקרים AI-יים ב-Arxiv באופן מקיף כבר אינו בתחום היכולת של אדם יחיד.

בטח זהו המקום בו AI מצטיין – באיטרציה דרך קטעים עצומים של נתונים שבני אדם לא יכולים לפתור, כדי למצוא ‘חריגים’ (שאליהם נגיע בקרוב) בשניות שהיו לוקחות לאנשים ימים, אם הם היו יכולים לעשות זאת בכלל.

למה, אם כן, AI עדיין כל כך גרוע בזיהוי סיפור חדשות רותח מתוך אלפים, או אפילו עשרות אלפים, מועמדים יומיים?

AI המסתכל אחורה

התפשטות עצומה זו של תוכן מונע על ידי AI מתרחשת הרבה מעבר למגזר האקדמי שדנתי בו בעבר. בסוף השנה האחרונה הוערך כי חצי מכל הכתיבה החדשה ברשת נכתב על ידי AI, עם האצה גדולה יותר של מגמה זו המשוערת לבוא. לכן, הרעש הוא מסנוור בכל מקום, לא רק באקדמיה.

אף על פי שהייתה התקדמות מסוימת בזיהוי AI/אלגוריתמי של ‘סיפור רותח’ במהלך השנים האחרונות, מערכות אלו נוטות להתרכז בזרמי נתונים מובנים וניתנים לחיזוי, מה שאומר שהן יכולות לפעול רק בהקשר קשיח.

בקשר לכך, חוקר הפוסט-דוקטורט של סטנפורד ועיתונאי לשעבר של New York Times אלכסנדר ספנגר, עשה מספר ניסיונות להגדיר ‘ראויות לפרסום’ במונחים שניתן ליישם בתהליכים של למידת מכונה וניתוח סטטיסטי; והפיק ראיות ליצירת עובדות אוטומטית במסמכים כגון הגשות לבית המשפט, חוקים מדינתיים וישיבות מועצת העיר, כמו גם מסמכים ציבוריים כלליים – הסוג הזה של פלט עם סכמה שתורם AI-מונע של Fortune יכול להפוך ל-6-7 כתבות חדשות ביום:

[כותרת id=”attachment_412116″ align=”alignnone” width=”869″]<img class=" wp-image-412116" src="https://www.unite.ai/wp-content/uploads/2026/04/Word-Distributions-for-Newsworthy-vs.-Non-Newsworthy-Text.jpg" alt="ה'חום' של הפצות מילים שנלקחו ממסמכים ציבוריים. במקרה זה, אנו יכולים לראות ש'מאשר' הוא בעל ציון גבוה, אולי מכיוון שהוא מייצג החלטה, שינוי וחדשנות. מקור – https://arxiv.org/pdf/2311.09734[/כותרת]

הבעיה עם התקרבויות כגון הצעת עקיבה אחר ראויות לפרסום של מסמכים ציבוריים מ-2023, היא שבאופן טיפוסי ל-AI, הן מתרכזות במגמות נצפות בנתונים. במילים אחרות, הן צופות דברים שהיו חדשות טובות לפני, והולכות לחפש עוד מאותו הסוג.

בעולם האמיתי, מקורות בלתי צפויים כמעט תמיד מסתברים כ’פלא יחיד’; ולמרות היותם מועילים פעם אחת, ובניגוד לניסיונות לנצל את התהילה/המוניטין החולף, הם בדרך כלל לא ייצרו דבר מועיל שוב.

סימן הזמנים

לכן, מכיוון שמעקב אחר מקור חד-פעמי כזה יהיה בדרך כלל רק הוספת עוד רעש למבול הכללי, האם AI לא יכול לזהות את המסמנים של מקור שיהיה פורה ביום מן הימים? אם אפשר לגלות מהו סוג המקור שיהיה עשוי להניב חדשות, אפשר להתרכז באפיונו במקום בהקשר או בשיטות.

על פי הלוגיקה הזו, אפשר להסיק מהגילויים של אדוארד סנודן בשנות ה-2010, שכל מי שזה עתה עזב את ה-CIA (או ארגון דומה) יהיה שווה לעקוב אחריו כמקור פוטנציאלי לסיפור עתידי.

אבל אין תזרימים RSS או API שכנראה יוכלו לאוטומט את סוג זה של מעקב מתמיד, מכיוון ש-LinkedIn ומקורות נתונים פתוחים רבים אחרים נסוגים בפני AI וeb-גנבים חוקיים. אפילו אם היה, תדירות היא בעיה, מכיוון שאי אפשר לשאול API או אתר כל חמש שניות; מלבד עלות המשאב, תגובות IP-איסור מהפלטפורמות יעשו זאת פעילות בלתי ברת קיימא.

כמו כן, יש ממד אנושי בדבר הזה שקשה לאוטומט.

הדרך הצרה

מערכות AI-מונעות נוכחיות של זיהוי ראויות לפרסום מסתמכות על מבני נתונים פורמליים (כגון פלט JSON, מ-API), או על מבני נתונים בלתי פורמליים שאלגוריתמים מונעים על ידי AI יש סיכוי לפרש לסכמה מובנית (כגון הודעות לעיתונות מארגון מסוים):

[כותרת id=”attachment_412145″ align=”alignnone” width=”660″]<img class=" wp-image-412145" src="https://www.unite.ai/wp-content/uploads/2026/04/all-the-presents-men-garage.jpg" alt="תזרים RSS/XML מפורש, המגלה את ההיררכיה הקשיחה של מכלי נתונים. מקור – https://www.xml.com/articles/2023/03/06/visualising-xml-schemas/[/כותרת]

ברור שגישות מסוג זה מתאימות היטב לפלט תוכניתי, כגון עבודה שגרתית שהדובר WSJ המוזכר לעיל מצהיר כי AI שחרר אותו ממנה, כולל דיווחי מזג אוויר, מניות ותוצאות ספורט, כמו גם הודעות לעיתונות רוטיניות מארגונים מוניציפליים וממשלתיים.

בעוד שאפשר לחבר ‘אזעקות התראה אנושיות’ לתזרימים סטטיסטיים כגון מזג אוויר (סופות פתאומיות), מניות (צניחות פתאומיות) וספורט (ניצחונות/הפסדים בלתי צפויים, עם עבודה מוקדמת), שוב, תשומת לב אנושית תידרש עדיין לדיווחי ממשלה רוטיניים, כדי לבדוק את ראויותם לפרסום.

המונחים ‘מוות’, ‘מחלה בלתי צפויה’, ‘דליפה’ ו’תאונה’ יכולים כולם לעזור לצמצם אירועים ראויים לפרסום, אך הם רק מתייחסים לאירועים ‘רגילים’, וגם לא יכולים להתחשב בשפה אלטרנטיבית.

שיבת הכותבים הבכירים?

בשנים האחרונות, עיתונאות נתונים הפכה לדופן עולה בדיווח חדשות, עם מחלקות עריכה שאינן מוגבלות עוד לעסקאות ‘סקופ’ מתוקשבות המעניקות להן שחרור מוקדם של דוחות מיוחדים וניירות לבן ממו”לים גדולים; במקום זאת, הן יכולות לנפץ את הנתונים בעצמן.

אבל זהו לא ארוחת חינם; ככל שערכה הברור של פירוק נתונים ציבוריים עם AI בדרך זו גדל, תגובה של גביית דמי חסות/AI-חסימה הלכה ובאה – או אפילו קדמה – לביקוש, וד

ื›ื•ืชื‘ ืขืœ ืœืžื™ื“ืช ืžื›ื•ื ื”, ืžื•ืžื—ื” ืชื—ื•ื ื‘ืกื™ื ืชื–ื” ืฉืœ ืชืžื•ื ื•ืช ืื ื•ืฉื™ื•ืช. ืœืฉืขื‘ืจ ืจืืฉ ืชื•ื›ืŸ ืžื—ืงืจ ื‘- Metaphysic.ai.
ืืชืจ ืื™ืฉื™: martinanderson.ai
ืฆื•ืจ ืงืฉืจ: [email protected]
ื˜ื•ื•ื™ื˜ืจ: @manders_ai