הזווית של Anderson

זיהום AI בתוצאות חיפוש מסכנים ‘קריסת שחזור’

Published February 19, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image (GPT-1.5) depicting sewer workers shining their torches on a huge fatberg blocking the sewer, in which is embedded multiple extruded texts saying 'AI'.

כאשר תוכן AI זוהם את הרשת, וקטור התקפה חדש נפתח בשדה הקרב עבור הסכמה תרבותית.

מחקר בראשות חברת חיפוש קוריאנית טוען כי כאשר דפים שנוצרו על ידי AI חודרים לתוצאות חיפוש, הם תוקפים את יציבות צינורות החיפוש והדירוג, ומחלישים מערכות – כגון Retrieval-Augmented Generation (RAG) – שתלויות בדירוגים אלה כדי להחליט מהי המידע שיוצג וייחשב אמין, ובכך מגדילים את הסיכון שחומר מטעה או לא מדויק יוחשב כרשמי.

המונח שנטבע על ידי החוקרים לתופעה זו הוא קריסת שחזור, שונה מהאיום הידוע של קריסת מודל (שבו AI מאומנת על פלטים שלה נעשית הולכת וגרועה יותר).

במצב של קריסת שחזור, תוכן AI-יי הולך ודומין על תוצאות מנועי החיפוש, עד כדי כך שאפילו כאשר התשובות נותרות נכונות באופן עקרוני, בסיס הראיות יהיה מנותק ממקורות אנושיים מקוריים. בכל זאת, נתונים ‘חסרי שורש’ אלה נראים עשויים להשיג מקום גבוה בתוצאות חיפוש*:

‘עם התפשטות של טקסט AI-יי, אתגרים בייחוס ואיכות נתונים לפני אימון הוחרפו. שונה מספאם מילות מפתח מסורתי, תוכן סינתטי מודרני הוא תואם באופן סמנטי, מה שמאפשר לו להתערבב במערכות דירוג ולהתפשט דרך צינורות כראיות מוסמכות.’

המאמר טוען כי זה ייצר סביבה ‘בריטית מבנית’ שבה אותות דירוג מעדיפים דפים AI-יים מותאמים ל-SEO, ודוחקים החוצה מקורות אנושיים לאורך זמן באופן מסוכן, כלומר, בלי לגרום לירידה ברורה באיכות התשובות:

‘ה[צמיחה] של תוכן AI-יי ברשת מציגה סיכון מבני לאיכות השחזור, כאשר מנועי חיפוש ומערכות RAG הולכות וצורכות ראיות המיוצרות על ידי מודלים גדולים של שפה (LLM).’

‘אנו מאפיינים את מצב הכשל הזה ברמת המערכת כקריסת שחזור, תהליך בן שני שלבים שבו (1) תוכן AI-יי דומין על תוצאות חיפוש, מביא לביטול הגיוון, ו-(2) תוכן באיכות נמוכה או עוין חודר לצינור השחזור.’

החוקרים טוענים כי כאשר ‘שלב הדומיננטיות’ מוקם, אותו צינור שחזור הופך לרגיש יותר לזיהום מכוון, שכן דפים עוינים יכולים לנצל את אותם מנגנונים של אופטימיזציה כדי לזכות בנראות*:

‘על ידי יצירת מסגרת של קריסת שחזור, עבודה זו מניחה את היסודות להבנת איך תוכן סינתטי מעצב מחדש את השחזור. כדי למתן את הסיכונים האלה, אנו מציעים מעבר לעבר אסטרטגיות דירוג הגנתי שמאופטמיזם משולב של רלוונטיות, עובדות ומוצא.’

קריסת שחזור עלולה להחמיר את קריסת המודל, מאחר שהיא מוסיפה שכבה של כוונה זדונית ל’אפקט הצילום’ של אנטרופיה, שבו AI הולכת וניזונה מפלטים AI-יים. מלבד השפעה על ההסכמה הנראית על ‘אמת’ בתוצאות חיפוש בזמן אמת, אי-דיוקים והתקפות יכולים להיכלל מאוחר יותר במודלים LLM מאומנים כמקורות מוסמכים.

העבודה החדשה נקראת קריסת שחזור כאשר AI זוהם את הרשת, ובאה משלושה חוקרים בחברת Naver.

שיטה

כדי לבדוק כיצד תוכן AI-יי מתפשט דרך מערכות שחזור, החוקרים בחרו באופן אקראי 1000 זוגות שאילתא/תשובה מאוסף MS MARCO ונקודת ביחס, המורכבים משאילתאות תחום פתוח המזוגות עם תשובות הפניה מאומתות בידי בני אדם. אלו שימשו הן כדי לייסד שחזור והן כדי לבדוק את נכונות העובדות של תגובות מיוצרות.

עבור כל שאילתא MS MARCO במבחנים, עשרה מסמכים אינטרנטיים נלקחו מ-Google Search, בסיס התוצאות המדורגות ב-SEO עבור כל מונח, ולבסוף הפיקו בריכה של 10,000 מסמכים.

תוקפות העובדות של המסמכים נבדקה על ידי השוואת כל אחד מהם לעומת האמת הקרקעית של MS MARCO, באמצעות GPT-5 Mini כשופט.

חיקוי חוות תוכן

כדי לחקות את רמת האיכות (של מאמרים רגילים, לא עוינים) המקושרים לחוות תוכן, המחברים השתמשו בדגם GPT-5 Nano של OpenAI, כיוון שזהו רמת ה-AI ה’זולה’ שברור שתשמש טחנות תוכן.

לעומת זאת, כדי לחקות פוסטים עוינים (כלומר, תוכן שנועד להפיץ מידע כוזב או המכיל מידע כוזב), לא שימשו הפניה למקורות בעולם האמיתי. במקום זאת, טיוטות ראשונות של הדוגמאות נוצרו עם יוצר קליקבייט/SEO קונבנציונלי, ואז הועברו ל-GPT-5 Nano, שהוטל עליו להחליף מספר מסוים של עובדות בחלופות אמינות אך כוזבות. GPT-5 Nano ביצע גם את הדירוג הסמנטי מחדש לצורכי ההקשר הניסיוני.

כדי לחקות רוויה AI במשך הזמן, תהליך זיהום 20-שלבי בוצע, שבו נוסף מסמך סינתטי אחד לכל שאילתא לקבוצה קבועה של עשרה מסמכים מקוריים, והולך ומגדיל את חלקו של AI מ-0% ל-66.7%.

עבור בריכת ה-SEO, היוצר הופנה ‘לפעול כמומחה SEO’, ולשלב מילים עם IDF גבוה מהמסמכים המקוריים כדי לשפר את הסיכוי לשחזור.

עבור הבריכה העוינת, ההפניה נועדה לשמר פרוזה זורמת וטבעית, בעודה משנה בעדינות ישויות מונומיות ופרטים מספריים, ויוצרת מסמכים שלא יפעילו את המסננים הסטטיסטיים, בעודה משחיתה בשקט את הדיוק העובדתי.

מדדים

שלושה מדדים אומצו עבור הניסויים: שיעור זיהום בריכה (PCR), כדי לקבוע כמה מהבריכה הכוללת היא AI-יית; שיעור זיהום חשיפה (ECR), כדי למדוד כמה מתוצאות החיפוש העליונות באות ממקורות AI (המראה על מה שנכנס בפועל לצינור השחזור); ושיעור זיהום ציטוט (CCR), כדי לרשום כמה מהראיות המצוטטות בתשובה הסופית היו סינתטיות.

כדי לבדוק השפעה מעשית, נבדקו הן איכות המקורות שהושבו והן שלמות התשובה הסופית. דיוק@10 (P@10) תפס כמה מתוצאות העליונות היו באמת נכונות כאשר נבדקו מול האמת הקרקעית של MS MARCO; ודיוק תשובה (AA) מדד האם התשובה המיוצרת תאמה את אותה תשובת הפניה, עם GPT-5 Mini ששימש כדי לקבוע האם המשמעות הייתה עקבית.

מבחנים

תחילה, המחברים בדקו את שיטתם נגד הבריכה המקורית של המסמכים שהוצאו מ-SERPS, כלומר לפני ששימשו כחומר ליצירת נתונים סינתטיים, והם מציינים כי מדרגם LLM השיג ‘איכות שחזור חזקה’, ועלה על BM25 Ranker הבסיס.

המבחן הראשון מבין שני המבחנים העיקריים, שכונה דומיננטיות והומוגניזציה, היה בחינה של הדרך שבה מסמכים סינתטיים המעוצבים על ידי SEO משפיעים על תוצאות השחזור:

Left, contamination curves for Scenario 1 under BM25 and LLM rankers show Pool Contamination Rate (PCR) rising round by round, with Exposure Contamination Rate (ECR) and Citation Contamination Rate (CCR) increasing more steeply as synthetic documents crowd into the top results, while Answer Accuracy (AA) remains broadly stable. Right, the corresponding table reports the same progression numerically across rounds 0, 5, 10, and 20, detailing PCR, ECR, CCR, and AA for both rankers.

Left: contamination curves for Scenario 1 under BM25 and LLM rankers show Pool Contamination Rate (PCR) rising with each round, with Exposure Contamination Rate (ECR) and Citation Contamination Rate (CCR) increasing more steeply as synthetic documents crowd into the top results; Answer Accuracy (AA) remains broadly stable. Right: the corresponding table reports the same progression numerically across rounds 0, 5, 10, and 20, detailing PCR, ECR, CCR, and AA for both rankers.

ככל שמסמכים AI-יים נוספו בהדרגה לסביבת המבחן, הם החלו לדומין על תוצאות החיפוש העליונות מהר מהצפוי. כאשר תוכן AI יצר 50% מכלל המסמכים, יותר מ-68% מתוצאות העליונות של BM25 היו כבר AI-יים; וכאשר חלקו של חומר AI עלה ל-67%, יותר מ-80% מתוצאות העליונות שלו הגיעו ממקורות AI.

המדרג LLM-יי הראה נטייה חזקה יותר בכיוון זה, עם כ-76% מתוצאותיו העליונות שבאו מדפים AI-יים, כאשר אלו היוו רק חצי מהבריכה הכוללת – והוא המשיך להסתמך עליהם יותר מאשר BM25, ככל שנוכחותם גדלה. המחברים מציינים:

‘דפים אלו מפעילים באופן לא פרופורציונלי אותות דירוג, גורמים לשני המודלים להתכנס במהירות לראיות סינתטיות.’

באשר למתיחות בין יציבות נראית לעין וקריסה של מגוון, המאמר מציין כי בהקשר זה, AA נותר יציב, או אפילו משתפר:

‘מכיוון שמסמכי SEO הם באיכות גבוהה ומסודרים נושאית, השחזור נראה בריא כאשר נמדד רק על פי דיוק. אולם, כמעט כל הראיות שהושבו הן סינתטיות, מראות קריסה חמורה בגיוון המקורות.

‘זו הפרדה, המאופיינת על ידי דיוק יציב על רקע קריסת מגוון, חושפת צינור שחזור ‘בריטי’: המערכת מבצעת היטב במדדים מצטברים, בעודה מאבדת בשקט את הקשר שלה לתוכן האנושי.’

‘בסך הכל, תוכן סינתטי באיכות גבוהה לא רק משתלב בצורה חלקה בצינורות שחזור, אלא גם מכריע אותות דירוג, וגורם ל-BM25 ולמדרגי LLM להסתמך כמעט באופן בלעדי על ראיות AI-יות.’

המבחן השני, שכונה זיהום ושחיתות מערכת, חשף הבדל משמעותי בהתנהגות המדרג:

Left: the scenario 2 results show what happens when deliberately misleading pages are added to the system. As more of these pages are mixed in, BM25 begins to place some of them in its top results – though only up to about a quarter at the midpoint, and almost none are actually used in the final answer. Overall answer quality falls slightly. Right: the table presents the same pattern in numbers for both BM25 and the LLM-based ranker, making clear that BM25 lets some misleading pages into its top results, whereas the LLM ranker largely filters them out.

המדרג LLM-יי הצליח ברובו לזהות ולסנן דפים מטעים, ושמר על חלקם של דפים כאלו בתוצאותיו העליונות קרוב לאפס; אולם BM25 איפשר לחלק משמעותי של דפים עוינים להיכנס לתוצאותיו העליונות, עם כ-19% עד 24% הופיעו שם בשלבים מסוימים של המבחן.

אף על פי שהמדרג LLM-יי הוכיח עמידות רבה יותר בניסוי זה, המחברים מציינים כי מערכות דירוג LLM-יות הן דורשות יותר מבחינה חישובית, מה שיכול להפוך פריסה בקנה מידה גדול לבלתי מעשית. אף על פי ש-BM25 פשוט יותר וזול יותר להרצה, מערכות שחזור נפוצות שמנצלות אותו עלולות, טוענים, להיות חשופות יותר לתוכן מניפולטיבי ממה שנראה בתחילה.

המחברים מאפיינים זאת כ’סיכון מבני משמעותי’.

ביחס לניגוד בין יציבות נראית לעין והידרדרות תת-מובנית, המחברים מציינים כי בהקשר זה, AA נותר יציב, בזכות ה-LLM השופט שמדכא זיהום ציטוט, ובכך מתפקד כסוג של ‘אש חומה’ אחרונה נגד תוכן עוין.

אולם, דיוק התשובה בהיבט זה היה תמיד נמוך יותר מאשר במבחן הראשון:

‘בעוד שבמבחן 1 AA נותר יציב, או אפילו שופר (עד 70% עם מדרגי LLM) בגלל איכותם הגבוהה של מסמכי SEO, מבחן 2 מראה ירידה באיכות התשובה לעומת הגדרת SEO […]

‘זה מאשר כי ללא קשר למדרג, זיהום עוין בשלב השחזור משפיע לרעה על הביצועים מקצה לקצה, עם הידרדרות החמורה ביותר כאשר מסתמכים על מחזירים קלים.’

המחברים מסיקים כי דירוג מחדש בשלב השחזור הוא גישה מאוחרת מדי, וכי צריך לשקול מסננים ‘בשלב הבליעה’. הם מציעים כי ‘גרפים של מוצא’ ו’מסנני פרפלקס’ יכולים להיכלל.

הם סוגרים בהדגשה כי האיום העיקרי הוא תוכן בעל זרימה גבוהה אך צפיפות ייחוס נמוכה, בעצם נתק רשתות מבטיחות של מוצא, ומציינים:

‘[כאשר] AI אוטונומיים מתחילים לפרסם תוכן, מנגנוני הגנה חייבים להתפתח מניתוח טקסט סטטי ל’טביעות אצבעות התנהגותיות’, זיהוי ובידוד סוכנים שמייצרים באופן שיטתי זרמים בעלי אנטרופיה גבוהה ועובדות נמוכות.’

מסקנה

הקמת שיטות חדשות או משופרות למוצא מידע עשויה להיות אחת הדרישות הקריטיות ביותר ל-2026. מערכות אשראי מורכבות כמו C2PA המתקשה, הדורשות שינויים תשתיתיים מצד מפרסמים, וחינוך ציבורי על משמעותן ואיך ולמה להשתמש בהן, נראות גורלן נצור.

דבר מה פשוט יותר נדרש, וטרם נמצא. זוהי משימה דחופה, שכן תקופה זו עשויה להיות נקודת המפנה הקריטית ביותר להסכמה ציבורית על אמת מאז המצאת הצילום ב-1822, ועליית התעמולה בעשורים שקדמו למלחמת העולם השנייה.

* המרתי (בררנית, כאשר נדרש) את הציטוטים הפנימיים של המחברים לקישורים.

פורסם לראשונה ביום חמישי, 19 בפברואר 2026

Related Topics:Advanced LLMs Large Language Models (LLMs)model collapse