ืืื ื ืืืืืืชืืช
ืืื ืืืืื ืกืืื ืื ืืืืืืชืืื ืืืืงืจ ืืืืชื? ืืื ืืืคื ืื ืขื ืื”ื ืืื ื ืฉื Deep Research

כאשר מודלי שפה גדולים (LLMs) מתפתחים במהירות, כך גם הבטחתם כעוזרי מחקר חזקים. בהדרגה, הם לא רק עונים על שאלות עובדתיות פשוטות – הם טוענים “מחקר עמוק”, שיכול לכלול טיעונים רב-שלביים, בדיקת מידע סותר, מקורות מידע מרחבי הרשת וסינתזה לתוצאה קוהרנטית.
יכולת זו המתפתחת כעת משווקת תחת שמות מותג שונים על ידי מעבדות גדולות – OpenAI קוראת לזה “Deep Research”, Anthropic מתייחסת אליו כ”חשיבה מורחבת”, Google’s Gemini מציעה תכונות “חיפוש + Pro” ו-Perplexity מכנה אותו “חיפוש Pro” או “מחקר עמוק”. אבל כמה יעילים הם ההצעות האלה בפועל? דו”ח חדש של FutureSearch, בשם Deep Research Bench (DRB): הערכת סוכנים למחקר אינטרנט, מציע את ההערכה המחמירה ביותר עד כה – והתוצאות חושפות הן יכולות מרשימות והן חוסרים קריטיים.
מהו Deep Research Bench?
נוצר על ידי צוות FutureSearch, Deep Research Bench הוא בנך מקיף שנבנה בקפידה כדי לבדוק את ביצועי סוכנים מלאכותיים במשימות מחקר מרובות-שלבים המבוססות על הרשת. אלו אינן שאלות פשוטות עם תשובות ישירות – הן משקפות את האתגרים המסובכים והפתוחים שאנליסטים, מדיניות וחוקרים פוגשים בסביבות העולם האמיתי.
הבנך כולל 89 משימות שונות ב-8 קטגוריות כגון:
- מצא מספר: למשל “כמה החזרות של התקנים רפואיים מדרגה II של FDA התרחשו?”
- אימות טענה: למשל “האם ChatGPT 10 פעמים יותר אנרגטי מאשר Google Search?”
- הרכבה של מאגר נתונים: למשל “מגמות תעסוקה למפתחים תוכנה בארצות הברית מ-2019–2023”
כל סוג משימה מובנה בקפידה עם תשובות מאומתות על ידי בני אדם ונבדקות באמצעות סט נתונים קפוא של דפי אינטרנט מושלפים, הידוע בשם RetroSearch. זה מבטיח עקביות ברחבי הערכות המודל.
ארכיטקטורת הסוכן: ReAct ו-RetroSearch
בלב Deep Research Bench נמצאת ארכיטקטורת ReAct, קיצור של “Reason + Act.” שיטה זו חוקת איך חוקר אנושי עשוי לטפל בבעיה – על ידי חשיבה דרך המשימה, ביצוע פעולה כגון ביצוע חיפוש ברשת, תצפית על התוצאות ואז החלטה האם לחזור על התהליך או לסיים.
בעוד שמודלים קודמים עוקבים אחר הלולאה הזו במפורש, מודלים “חשיבה” חדשים יותר מעבדים את התהליך, משלבים יותר היטב את החשיבה לתוך פעולותיהם. כדי להבטיח עקביות בהערכות, DRB מציג RetroSearch – גרסה סטטית מותאמת אישית של הרשת. במקום לסמוך על האינטרנט החי, שמשתנה באופן קבוע, הסוכנים מתחברים לארכיון קורט של דפי אינטרנט שנלקחו באמצעות כלים כגון Serper, Playwright, ו-ScraperAPI. היקף הדבר מרשים: עבור משימות ברמת קושי גבוהה כגון “איסוף ראיות”, RetroSearch יכול לספק גישה ליותר מ-189,000 דפים, כולם קפואים בזמן, מה שמבטיח סביבת בדיקה הוגנת וניתנת לשחזור.
אילו סוכנים מלאכותיים מבצעים הכי טוב?
בין כל המתמודדים, OpenAI’s o3 עלה כמבצע הטוב ביותר, עם ציון 0.51 מתוך 1.0 אפשרי ב-Deep Research Bench. בעוד שזה עשוי להישמע מתון, חשוב להבין את קושי הבנך: בגלל אי-בהירות בהגדרות המשימות ובניקוד, אפילו סוכן מושלם כנראה יגיע רק עד 0.8 – מה שחוקרים קוראים “תקרת רעש”. במילים אחרות, אפילו המודלים הטובים ביותר היום עדיין נופלים קצת מאחורי חוקרים אנושיים מעודכנים ושיטתיים.
עם זאת, הטבלת הדירוג מציעה תובנות מגלות. o3 לא רק הוביל את החבוץ אלא עשה זאת במהירות ועקביות, הוכיח ביצועים חזקים בכמעט כל סוגי המשימות. Claude 3.7 Sonnet מ-Anthropic עקב קרוב, הוכיח גמישות בשני המצבים “חשיבה” ו”לא-חשיבה”. Gemini 2.5 Pro, המודל הדגל של Google, התבלט ביכולתו לטפל במשימות הדורשות תכנון מובנה וטיעונים רב-שלביים. בינתיים, DeepSeek-R1 הפתיע כיאות – שמר על קצב עם GPT-4 Turbo וצמצם את הפער בביצועים בין מודלים פתוחים וסגורים.
ברחבי הלוח, נוצר דפוס ברור: מודלים “חשיבה” חדשים יותר הוכיחו באופן עקבי עליונות על קודמיהם, ומודלים סגורים שמרו על יתרון משמעותי על חלופות משקל-פתוח.
באיזה מקומות הסוכנים מתקשים?
קריאה בדפוסי הכישלון המודגשים בדו”ח Deep Research Bench הרגישה באופן מוכר מאוד. אחד היבטים המרגיזים ביותר שפגשתי, במיוחד במהלך סשנים ארוכות של מחקר או יצירת תוכן, הוא כאשר סוכן מלאכותי פשוט “שוכח” מה אנחנו עושים. ככל שחלון ההקשר מתרחב, המודל לעיתים קרובות מתחיל לאבד את החוט: פרטים מרכזיים נעלמים, מטרות מתבלבלות, ופתאום התגובות נראות מנותקות או חסרות כיוון. בנקודה מסוימת, למדתי שלעיתים קרובות עדיף לוותר ולהתחיל מחדש, אפילו אם זה אומר לזרוק הכל מה שנוצר עד כה.
סוג זה של “שכחה” אינו רק אנקדוטלי – הוא המנבא החשוב ביותר של כישלון בהערכת Deep Research Bench. אבל זה לא הבעיה היחידה החוזרת. הדו”ח גם מדגיש כיצד מודלים מסוימים נופלים לשימוש חוזר בכלים, רצים את אותו החיפוש שוב ושוב כאילו היו תקועים בלולאה. אחרים מראים יצירת שאילתות גרועה, מתאימים מילות מפתח בצורה עצלנית במקום לחשוב ביקורתית על איך לחפש ביעילות. ולמרבה המקרים, סוכנים נופלים קורבן למסקנות מוקדמות – מגישים תשובה חצי-מורכבת שבאופן טכני מסמנת את הקלפי, אבל נופלת קצת מהיכולת לספק תובנות אמיתיות.
אפילו בין המודלים הטובים ביותר, ההבדלים בולטים. GPT-4 Turbo, למשל, הראה נטייה בולטת לשכוח צעדים קודמים, בעוד DeepSeek-R1 היה יותר מועד ל-הזיות או המצאת מידע שווא, אך נשמע סביר. ברחבי הלוח, מודלים נכשלים תכופות בבדיקת מקורות או אימות ממצאים לפני השלמת הפלט. עבור מי שסמך על AI לעבודה רצינית, בעיות אלו ירגישו מוכרות מדי – והן מדגישות כמה רחוק עודנו מלבנות סוכנים שיכולים באמת לחשוב ולחקור כמו בני אדם.
מה עם ביצועים המבוססים על זיכרון?
באופן מעניין, Deep Research Bench העריך גם “סוכנים ללא כלים” – מודלי שפה הפועלים ללא גישה לכלים חיצוניים, כגון חיפוש ברשת או אחזור מסמכים. סוכנים אלו סומכים אך ורק על נתוני האימון הפנימיים וזיכרון, ומייצרים תשובות על בסיס מה ש”זכרו” מתקופת האימון. בפועל, זה אומר שהם לא יכולים לחפוש דברים או לאמת מידע – הם “מנחשים” על סמך מה ש”ידעו” מראש.
באופן מפתיע, סוכנים אלו ביצעו כמעט כמו סוכני מחקר מלאים במשימות מסוימות. למשל, במשימת “אימות טענה” – שמטרתה להעריך את תוקף הטענה – הם קיבלו ציון 0.61, כמעט זהה לממוצע 0.62 של סוכנים עם כלים. זה מרמז שמודלים כמו o3 ו-Claude הם בעלי ידע פנימי חזק ויכולים לעיתים קרובות לזהות את נכונותן של טענות נפוצות ללא צורך לחפוש ברשת.
אבל במשימות דורשות יותר – כגון “גזירת מספר”, שדורשת לחבר ערכים מרובים ממקורות שונים, או “איסוף ראיות”, שתלוי במציאת והערכת עובדות שונות בהקשר – מודלים אלו ללא כלים התמוטטו לחלוטין. ללא מידע חדש או יכולת לאימות בזמן אמת, הם פשוט חסרו את האמצעים לייצר תשובות מדויקות או מקיפות.
הניגוד הזה מדגיש נואנס חשוב: בעוד מודלי LLMs של היום יכולים לחקות “ידע” רב, מחקר עמוק תלוי לא רק בזיכרון, אלא גם בחשיבה עם מידע מעודכן וניתן לאימות – משהו שרק סוכנים משופרים על ידי כלים יכולים לספק באמת.
מחשבות סופיות
דו”ח DRB מוכיח דבר אחד: בעוד סוכנים מלאכותיים הטובים ביותר היום יכולים לעקוף את בני האדם הממוצעים במשימות מוגדרות היטב, הם עדיין נופלים מאחורי חוקרים כלליים מיומנים – במיוחד כאשר מדובר בתכנון אסטרטגי, הסתגלות במהלך התהליך וחשיבה עם עדינות.
פער זה הופך לבולט במיוחד במהלך סשנים ארוכות או מורכבות – משהו שחוויתי בעצמי, שם סוכן הולך ומאבד את המטרה של המשימה, מה שמוביל לקריסה מתסכלת בקוהרנטיות ובתועלת.
מה שהופך את Deep Research Bench לכל כך שימושי הוא שהוא לא רק בודק ידע על פני השטח – הוא חוקר את המפגש בין שימוש בכלים, זיכרון, חשיבה והסתגלות, ומציע אנלוג קרוב יותר למחקר בעולם האמיתי מאשר בנכים כגון MMLU או GSM8k.
ככל שמודלי LLMs משולבים בעבודת ידע רצינית, כלים של FutureSearch כגון DRB יהיו חיוניים להערכת לא רק מה אלו המערכות יודעות, אלא כיצד הן באמת פועלות.










