الذكاء الاصطناعي
كيف جيدة هي وكلاء الذكاء الاصطناعي في البحث الحقيقي؟ داخل تقرير بنش العميق للبحث

随着 النماذج اللغوية الكبيرة (LLMs) تتطور بسرعة، تتطور أيضًا وعودها كمساعدين بحث قويين. بشكل متزايد، لا Longer يطرحون فقط أسئلة حقيقية بسيطة – إنهم يتعاملون مع مهام “البحث العميق”، والتي تتضمن التفكير المتعدد الخطوات، وتقييم المعلومات المتناقضة، وتصنيف البيانات من جميع أنحاء الويب، ودمجها في إخراج متسق.
تتم تسويق هذه القدرة الناشئة الآن تحت أسماء علامات تجارية مختلفة من قبل مختبرات كبرى – يسميها OpenAI “البحث العميق”، و Anthropic يسميها “التفكير الممتد”، وGemini من Google تقدم ميزات “البحث + Pro”، و Perplexity ت贴بلها “البحث المحترف” أو “البحث العميق”. ولكن كيف فعالية هذه العروض في الممارسة؟ تقرير جديد من FutureSearch، بعنوان بنش البحث العميق (DRB): تقييم وكلاء البحث على الويب، يقدم التقييم الأكثر صرامة حتى الآن – والنتائج تكشف عن قدرات مثيرة للإعجاب ونقصيات حاسمة.
ما هو بنش البحث العميق؟
تم إنشاؤه بواسطة فريق FutureSearch، بنش البحث العميق هو معيار متقن بعناية مصمم لتقييم أداء وكلاء الذكاء الاصطناعي على مهام البحث على الويب متعددة الخطوات. هذه ليست أسئلة بسيطة مع إجابات مباشرة – إنها تعكس التحديات المفتوحة والمضطربة التي يواجهها المحللون، وواضعو السياسات، والباحثون في بيئات العالم الحقيقي.
يشمل المعيار 89 مهمة متميزة عبر 8 فئات مثل:
- إيجاد الرقم: على سبيل المثال، “كم عدد استدعاءات أجهزة الطب البيولوجي من الفئة الثانية التي حدثت؟”
- التحقق من المطالبة: على سبيل المثال، “هل ChatGPT 10 مرات أكثر استهلاكًا للطاقة من بحث Google؟”
- تجميع مجموعة البيانات: على سبيل المثال، “اتجاهات الوظائف للمطورين البرمجيين في الولايات المتحدة من 2019-2023”
كل نوع من أنواع المهام يتم هيكلته بعناية مع إجابات تم التحقق منها من قبل الإنسان وتقييمها باستخدام مجموعة بيانات مجمدة من صفحات الويب الممسوحة، تُعرف باسم RetroSearch. هذا يضمن الاتساق عبر تقييمات النموذج، وتجنب حالة الويب الحية المتغيرة.
هيكل الوكيل: ReAct وRetroSearch
في قلب بنش البحث العميق يقع هيكل ReAct، اختصار “التفكير + العمل”. هذا الأسلوب يقلد كيف قد يتناول باحث بشري مشكلة – بالتفكير في المهمة، وأداء عمل مثل إجراء بحث على الويب، ومراقبة النتائج، ثم决定 ما إذا كان سيتم التكرار أو الاستنتاج.
في حين تتبع النماذج السابقة هذه الحلقة بشكل صريح، فإن النماذج “التفكيرية” الجديدة غالبًا ما تسهل العملية، وتضم التفكير بشكل أكثر سلاسة في أفعالها. لضمان الاتساق عبر التقييمات، يقدم DRB RetroSearch – إصدار مخصص وثابت من الويب. بدلاً من الاعتماد على الإنترنت الحية، التي تتغير باستمرار، يعتمد الوكلاء على أرشيف من صفحات الويب الممسوحة ضوئيًا باستخدام أدوات مثل Serper، Playwright، وScraperAPI. النطاق مثير للإعجاب: لمهام معقدة مثل “اجمع الأدلة”، يمكن أن يوفر RetroSearch الوصول إلى أكثر من 189,000 صفحة، كلها مجمدة في الوقت، مما يضمن بيئة اختبار عادلة ويمكن تكرارها.
أي وكلاء الذكاء الاصطناعي يؤدون بشكل أفضل؟
من بين جميع المنافسين، ظهر o3 من OpenAI كأفضل أداء، حيث سجل 0.51 من أصل 1.0 على بنش البحث العميق. بينما قد يبدو هذا الرقم متواضعًا، من المهم فهم صعوبة المعيار: بسبب الغموض في تعريفات المهام وتقييمها، حتى الوكيل المثالي سيصل احتمالًا إلى حوالي 0.8 – ما يسميه الباحثون “سقف الضوضاء”. بعبارة أخرى، حتى أفضل النماذج اليوم لا تزال تفتقر إلى باحثين بشريين مطلعين ومدروسين.
ومع ذلك، يوفر الترتيب رؤى مُ启َة. لم يكن o3 فقط يتصدر الصفوف، بل فعل ذلك بسرعة وثبات، وأظهر أداء قوي عبر جميع أنواع المهام تقريبًا. اتبعته Claude 3.7 Sonnet من Anthropic عن كثب، وأظهرت مرونة في كل من وضعي “التفكير” و”غير التفكير”. تميز Gemini 2.5 Pro من Google بقدرته على التعامل مع المهام التي تتطلب التخطيط المنظم والتفكير المتسلسل. في غضون ذلك، قدم DeepSeek-R1 المفتوح الوزن مفاجأة سارة – حيث سار على قدم المساواة مع GPT-4 Turbo وضيق الفجوة في الأداء بين النماذج المفتوحة والمنغلقة.
على مدى اللوحة، ظهر نمط واضح: النماذج الجديدة “الممكنة بالتفكير” تفوقت باستمرار على سابقاتها، والنماذج المنغلقة حافظت على حافة ملحوظة على بديلات الوزن المفتوح.
أين يصعب على الوكلاء؟
القراءة من خلال أنماط الفشل المُبرزة في تقرير بنش البحث العميق شعرت بمشاعر مألوفة. واحدة من أكثر الجوانب إحباطًا التي واجهتها شخصيًا – خاصة خلال جلسات البحث أو إنشاء المحتوى الطويلة – هي عندما ينسى وكيل الذكاء الاصطناعي ببساطة ما كنا نفعل.随着 تمديد نافذة السياق، يبدأ النموذج في بعض الأحيان في فقدان الخيط: تفاصيل رئيسية ت褻، وأهداف تتضح، وردود الفعل تصبح غير متصلة أو غير هادفة. في بعض الأحيان، تعلمت أنه من الأفضل تقليص الخسائر والبدء من الصفر، حتى لو كان ذلك يعني التخلص من كل ما تم توليده حتى الآن.
ذلك النوع من النسيان ليس مجرد قصة شخصية – إنه أكبر معوق للفشل في تقييم بنش البحث العميق. ولكن ليس هو الوحيد. يبرز التقرير أيضًا كيف تقع بعض النماذج في استخدام الأدوات المتكرر، حيث تعيد تشغيل نفس البحث مرارًا وتكرارًا كما لو كانت عالقة في حلقة. يظهر آخرون بناء استفسار سيئ، حيث يطابقون الكلمات الرئيسية بلا مبالاة بدلاً من التفكير بحكمة في كيفية البحث بشكل فعال. وفي الكثير من الأحيان، يقع الوكلاء ضحية الاستنتاجات المسبقة – حيث يقدمون إجابة نصف مصنعة التي تحقق مربعًا تقنيًا ولكنها تفتقر إلى الإيضاح الحقيقي.
حتى بين أفضل النماذج، تكون الفروق واضحة. أظهر GPT-4 Turbo، على سبيل المثال، ميلًا ملحوظًا إلى نسيان الخطوات السابقة، بينما كان DeepSeek-R1 أكثر احتمالًا للاختراع أو اختراع معلومات تبدو معقولة ولكنها خاطئة. على مدى اللوحة، فشل النماذج بشكل متكرر في التحقق من مصادرها أو التحقق من نتائجها قبل إصدار الإخراج النهائي. لأي شخص يعتمد على الذكاء الاصطناعي للعمل الجاد، ستشعر هذه القضايا بالفamiliar – وتشير إلى مدى ما زلنا بعيدين عن بناء وكلاء يمكنهم التفكير والبحث حقًا مثل البشر.
ماذا عن الأداء المستند إلى الذاكرة؟
من المثير للاهتمام أن بنش البحث العميق cũng تقييم ما يسمى “وكلاء بدون أدوات” – نماذج لغة تعمل بدون أي وصول إلى أدوات خارجية، مثل بحث الويب أو استرجاع الوثائق. تعتمد هذه الوكلاء完全 على بيانات التدريب الداخلية وذاكرتهم، وتوليد إجابات بناءً على ما تعلموه خلال التدريب. في الممارسة، هذا يعني أنهم لا يستطيعون البحث عن أي شيء أو التحقق من المعلومات – إنهم يخمنون بناءً على ما “يتذكرونه”.
من المثير للاهتمام أن وكلاء بدون أدوات هذه أدوا تقريبًا بنفس جودة وكلاء البحث الكامل على بعض المهام. على سبيل المثال، في مهمة التحقق من المطالبة – حيث الهدف هو تقييم مدى صحة البيان – سجلوا 0.61، وهو ما يقترب من المتوسط 0.62 لوكلاء البحث المزودين بأدوات. هذا يشير إلى أن نماذج مثل o3 وClaude تمتلك أسباب داخلية قوية ويمكنها غالبًا التعرف على صحة المطالبات الشائعة دون الحاجة إلى البحث على الويب.
ولكن على مهام أكثر صعوبة – مثل استخراج الرقم، الذي يتطلب تجميع قيم متعددة من مصادر مختلفة، أو جمع الأدلة، التي تعتمد على العثور على وقييم الأدلة المختلفة في السياق – انهارت هذه النماذج بدون أدوات تمامًا. بدون معلومات جديدة أو قدرات البحث في الوقت الفعلي، لم يكن لديهم الوسائل لإنتاج إجابات دقيقة أو شاملة.
هذا التباين يبرز دقة مهمة: في حين يمكن أن تقلد نماذج LLM اليوم “معرفة” الكثير، يعتمد البحث العميق ليس فقط على الاستدعاء، ولكن على التفكير بالبيانات الموثوقة والمحدثة – شيء يمكن فقط لوكلاء الأدوات أن يقدموه حقًا.
أفكار ختامية
يجعل تقرير DRB شيء واحد واضحًا: بينما يمكن لوكلاء الذكاء الاصطناعي الأفضل اليوم أن يتفوقوا على البشر العاديين في مهام محددة بشكل ضيق، لا يزالون يفتقرون إلى باحثين عامين مهرة – خاصة عندما يتعلق الأمر بالتخطيط الاستراتيجي، والتكيف في منتصف العملية، والتفكير بالدقة.
ت trở nên واضحة بشكل خاص خلال الجلسات الطويلة أو المعقدة – شيء تعرضت له شخصيًا، حيث يفقد الوكيل تدريجيًا غرض المهمة، مما يؤدي إلى انهيار محبط في الاتساق والفائدة.
ما يجعل بنش البحث العميق قيمًا هو أنه لا يختبر فقط المعرفة السطحية – إنه يخترق تقاطع استخدام الأدوات، والذاكرة، والتفكير، والتكيف، ويوفر مقاربة أقرب إلى البحث في العالم الحقيقي من معايير مثل MMLU أو GSM8k.
随着 استمرار دمج نماذج LLM في أعمال المعرفة الجادة، ستكون أدوات FutureSearch مثل DRB ضرورية لتقييم ليس فقط ما تعرفه هذه الأنظمة، ولكن كيف تعمل حقًا.












