الذكاء الاصطناعي
ما مدى كفاءة وكلاء الذكاء الاصطناعي في البحث الحقيقي؟ تقرير من داخل منصة البحث العميق

As نماذج اللغات الكبيرة (LLMs) يتطورون بسرعة، وكذلك إمكاناتهم كمساعدين بحثيين أكفاء. وبشكل متزايد، لا يقتصر دورهم على الإجابة على أسئلة واقعية بسيطة، بل يتناولون مهام "بحثية عميقة"، تتضمن التفكير متعدد الخطوات، وتقييم المعلومات المتضاربة، وجمع البيانات من جميع أنحاء الإنترنت، وتلخيصها في نتائج متماسكة.
تُسوّق هذه القدرة الناشئة حاليًا تحت أسماء تجارية مختلفة من قِبل مختبرات رئيسية - تُطلق عليها OpenAI اسم "البحث العميق"، وتُشير إليها Anthropic باسم "التفكير المُوسّع"، بينما يُقدّم برنامج Gemini من Google ميزات "البحث + الاحترافية"، وتُصنّف Perplexity برنامجها باسم "البحث الاحترافي" أو "البحث العميق". ولكن ما مدى فعالية هذه العروض عمليًا؟ يُشير تقرير جديد صادر عن البحث المستقبلي، بعنوان منصة البحث العميق (DRB): تقييم وكلاء البحث على الويبويقدم هذا التقرير التقييم الأكثر صرامة حتى الآن، وتكشف النتائج عن قدرات مثيرة للإعجاب وعيوب حرجة.
ما هو Deep Research Bench؟
ابتكر فريق FutureSearch منصة Deep Research Bench، وهي معيارٌ مُصمَّمٌ بعنايةٍ لتقييم أداء وكلاء الذكاء الاصطناعي في مهام بحثية متعددة الخطوات عبر الإنترنت. هذه ليست أسئلةً بسيطةً ذات إجاباتٍ مباشرة، بل تعكس التحديات المعقدة والمفتوحة التي يواجهها المحللون وصانعو السياسات والباحثون في بيئاتٍ واقعية.
يتضمن المعيار 89 مهمة مميزة عبر 8 فئات مثل:
- البحث عن الرقم:على سبيل المثال "كم عدد عمليات استدعاء الأجهزة الطبية من الفئة الثانية التي أجرتها إدارة الغذاء والدواء؟"
- التحقق من صحة المطالبة:على سبيل المثال "هل يستهلك ChatGPT طاقة أكثر بعشر مرات من بحث Google؟"
- تجميع مجموعة البيانات: على سبيل المثال "اتجاهات العمل لمطوري البرمجيات في الولايات المتحدة من 2019 إلى 2023"
يُهيكل كل نوع من المهام بعناية باستخدام إجابات مُتحقق منها بشريًا، ويُقيّم باستخدام مجموعة بيانات مُجمدة من صفحات الويب المُستخرجة، تُعرف باسم RetroSearch. يضمن هذا اتساق تقييمات النماذج، مُتجنبًا تقلبات الويب.
هندسة الوكيل: ReAct وRetroSearch
في صميم منصة Deep Research Bench، تكمن بنية ReAct، وهي اختصار لعبارة "العقل + الفعل". تُحاكي هذه الطريقة كيفية تعامل الباحث البشري مع مشكلة ما، من خلال التفكير في المهمة، واتخاذ إجراء مثل البحث على الويب، وملاحظة النتائج، ثم تحديد ما إذا كان يجب تكرارها أم استنتاجها.
بينما تتبع النماذج السابقة هذه الحلقة بوضوح، غالبًا ما تُبسط نماذج "التفكير" الأحدث العملية، مُدمجةً التفكير المنطقي بسلاسة أكبر في إجراءاتها. لضمان الاتساق في جميع التقييمات، تُقدم DRB خدمة RetroSearch، وهي نسخة ثابتة ومُصممة خصيصًا من الويب. فبدلاً من الاعتماد على الإنترنت المباشر، الذي يتغير باستمرار، يستفيد الوكلاء من أرشيف مُنسق لصفحات الويب المُستخرجة باستخدام أدوات مثل سيربر, الكاتب المسرحيو ScraperAPIإن النطاق مثير للإعجاب: بالنسبة للمهام عالية التعقيد مثل "جمع الأدلة"، يمكن لـ RetroSearch توفير الوصول إلى أكثر من 189,000 صفحة، كلها مجمدة في الوقت، مما يضمن بيئة اختبار عادلة وقابلة للتكرار.
ما هي وكلاء الذكاء الاصطناعي الذين يحققون أفضل أداء؟
من بين جميع المنافسين، برز o3 من OpenAI كأفضل أداء، مسجلاً 0.51 من أصل 1.0 في اختبار البحث العميق. قد يبدو هذا متواضعًا، لكن من المهم فهم صعوبة هذا المعيار: فنظرًا للغموض في تعريفات المهام وتسجيل النتائج، حتى الوكيل المثالي من المرجح أن يحقق حوالي 0.8 - وهو ما يسميه الباحثون "سقف الضوضاء". بعبارة أخرى، حتى أفضل النماذج اليوم لا تزال دون مستوى الباحثين البشريين المطلعين والمنهجيين.
مع ذلك، تُقدم لوحة المتصدرين رؤىً كاشفة. لم يكتفِ o3 بالريادة، بل حقق ذلك بسرعة وثبات، مُظهرًا أداءً قويًا في جميع أنواع المهام تقريبًا. وتبعه Claude 3.7 Sonnet من Anthropic بفارق ضئيل، مُظهرًا تنوعًا في وضعي "التفكير" و"عدم التفكير". وتميز Gemini 2.5 Pro، الطراز الرائد من Google، بقدرته على التعامل مع المهام التي تتطلب تخطيطًا مُنظمًا والتفكير خطوة بخطوة. وفي الوقت نفسه، حقق DeepSeek-R1 ذو الوزن المفتوح مفاجأة سارة، حيث حافظ على وتيرة GPT-4 Turbo، وقلص فجوة الأداء بين الطرازين المفتوح والمغلق.
وعلى نطاق واسع، ظهر نمط واضح: حيث تفوقت النماذج الأحدث "القائمة على التفكير" على نظيراتها السابقة باستمرار، وحافظت النماذج المغلقة المصدر على أفضلية ملحوظة على البدائل مفتوحة الوزن.
أين يواجه الوكلاء صعوبة؟
بدت قراءة أنماط الفشل التي سُلِّط عليها الضوء في تقرير "منصة البحث العميق" مألوفة بشكلٍ مدهش. من أكثر الجوانب المُحبطة التي واجهتها شخصيًا - خاصةً خلال جلسات البحث الطويلة أو إنشاء المحتوى - عندما ينسى عميل الذكاء الاصطناعي ما كنا نفعله. مع امتداد نافذة السياق، غالبًا ما يبدأ النموذج في فقدان ترابطه: تتلاشى التفاصيل الرئيسية، وتختلط الأهداف، وفجأةً، تبدو الاستجابات مُشتَّتة أو بلا هدف. في مرحلةٍ ما، تعلمتُ أنه من الأفضل غالبًا تقليل الخسائر والبدء من الصفر، حتى لو كان ذلك يعني التخلص من كل ما تم إنشاؤه حتى الآن.
هذا النوع من النسيان ليس مجرد سردٍ عابر، بل هو أهم مؤشر للفشل في تقييم منصة البحث العميق. ولكنه ليس المشكلة المتكررة الوحيدة. يُسلّط التقرير الضوء أيضًا على كيفية وقوع بعض النماذج في فخ الاستخدام المتكرر للأدوات، حيث تُجري عملية البحث نفسها مرارًا وتكرارًا كما لو كانت عالقة في حلقة مفرغة. وتُظهر نماذج أخرى سوء صياغة الاستعلامات، ومطابقة الكلمات المفتاحية بتكاسل بدلاً من التفكير النقدي في كيفية البحث الفعال. وفي كثير من الأحيان، يقع الوكلاء ضحيةً لاستنتاجاتٍ سابقة لأوانها، حيث يُقدمون إجابةً غير مُكتملة تُلبي المتطلبات من الناحية الفنية، لكنها لا تُقدم رؤيةً حقيقية.
حتى بين أفضل النماذج، كانت الاختلافات صارخة. على سبيل المثال، أظهر GPT-4 Turbo ميلًا ملحوظًا لنسيان الخطوات السابقة، بينما كان DeepSeek-R1 أكثر عرضة لـ هلوسة أو اختلاق معلومات تبدو معقولة - لكنها غير صحيحة. عمومًا، غالبًا ما فشلت النماذج في التحقق من المصادر أو التحقق من صحة النتائج قبل إصدار نتائجها النهائية. لكل من اعتمد على الذكاء الاصطناعي في عمل جاد، ستبدو هذه المشكلات مألوفة جدًا - وهي تُبرز مدى التقدم الذي لا يزال أمامنا في بناء وكلاء قادرين على التفكير والبحث مثل البشر.
ماذا عن الأداء المبني على الذاكرة؟
من المثير للاهتمام أن منصة Deep Research Bench قيّمت أيضًا ما أسمته "الوكلاء عديمي الأدوات" - وهي نماذج لغوية تعمل دون أي وصول إلى أدوات خارجية، مثل البحث على الويب أو استرجاع المستندات. تعتمد هذه الوكلاء كليًا على بيانات التدريب الداخلية وذاكرتها، وتُنتج إجابات بناءً على ما تعلمته سابقًا أثناء التدريب فقط. عمليًا، هذا يعني أنها لا تستطيع البحث عن أي شيء أو التحقق من المعلومات - بل تُخمّن بناءً على ما "تتذكره".
من المثير للدهشة أن أداء هذه العوامل غير المُستخدمة للأدوات كان يُضاهي أداء عوامل البحث الكاملة في بعض المهام. على سبيل المثال، في مهمة التحقق من صحة الادعاء - حيث يكون الهدف تقييم معقولية بيان ما - سجلت هذه العوامل 0.61، وهو ما يُقارب متوسط 0.62 للعوامل المُستخدمة للأدوات. يُشير هذا إلى أن نماذج مثل o3 وClaude تتمتع بتوقعات داخلية قوية، ويمكنها غالبًا تمييز صدق الادعاءات الشائعة دون الحاجة إلى البحث على الإنترنت.
لكن في المهام الأكثر تعقيدًا - مثل "اشتقاق الأرقام"، الذي يتطلب تجميع قيم متعددة من مصادر متنوعة، أو "جمع الأدلة"، الذي يعتمد على إيجاد حقائق متنوعة وتقييمها في سياقها - انهارت هذه النماذج عديمة الأدوات تمامًا. فبدون معلومات جديدة أو إمكانيات بحث آني، افتقرت ببساطة إلى الوسائل اللازمة لإنتاج إجابات دقيقة أو شاملة.
يسلط هذا التباين الضوء على فارق بسيط مهم: في حين يمكن لبرامج الماجستير في القانون اليوم محاكاة "المعرفة" كثيرًا، فإن البحث العميق لا يعتمد فقط على التذكر، ولكن أيضًا على التفكير باستخدام معلومات حديثة وقابلة للتحقق - وهو شيء لا يمكن أن يقدمه حقًا إلا الوكلاء المعززون بالأدوات.
الخلاصة
يجعل تقرير DRB أمرًا واحدًا واضحًا: في حين أن أفضل وكلاء الذكاء الاصطناعي اليوم يمكنهم التفوق على البشر العاديين في مهام محددة بدقة، إلا أنهم لا يزالون يتخلفون عن الباحثين العامين المهرة - خاصة عندما يتعلق الأمر بالتخطيط الاستراتيجي، والتكيف في منتصف العملية، والتفكير مع الفروق الدقيقة.
تصبح هذه الفجوة واضحة بشكل خاص أثناء الجلسات الطويلة أو المعقدة - وهو شيء شهدته بنفسي، حيث يفقد العميل تدريجيًا مسار غرض المهمة، مما يؤدي إلى انهيار محبط في التماسك والفائدة.
ما يجعل مقعد البحث العميق إن ما يميز هذا الاختبار هو أنه لا يختبر المعرفة السطحية فحسب، بل يستكشف أيضًا تقاطع استخدام الأدوات والذاكرة والتفكير والتكيف، مما يوفر تشابهًا أقرب إلى البحث في العالم الحقيقي من المعايير مثل MMLU أو GSM8k.
مع استمرار دمج برامج الماجستير في القانون في العمل المعرفي الجاد، البحث المستقبلي وستكون أدوات مثل DRB ضرورية لتقييم ليس فقط ما تعرفه هذه الأنظمة، بل وأيضاً مدى نجاحها في العمل فعلياً.










