Connect with us

الذكاء الاصطناعي يقسم البحث على الويب إلى ثلاثة واقعيات منفصلة

زاوية Anderson

الذكاء الاصطناعي يقسم البحث على الويب إلى ثلاثة واقعيات منفصلة

mm
AI-generated image (GPT-2): Three very different library staff members, a traditional librarian, a friendly service robot, and a salesman-like attendant, compete for a visitor's attention at a public library help desk.

تجد أبحاث جديدة أن جوجل تستخدم现在 ثلاثة أنظمة معلومات مختلفة داخل إمبراطوريته البحثية، مع تفضيل البحث العادي والملخصات الذكية وجيميني لمصادر وترتيب ومحتوى مختلف.

 

القواعد البسيطة تحكم. خلال الأشهر الثانية عشرة الماضية، تم تجاوز الميم “دعني أبحث عن ذلك من أجلك” بميم جديد “لديك تلخيص لنتائج البحث على جوجل“، حيث تزيد الملخصات الذكية في نتائج البحث بشكل متزايد، وتوفر للقارئ ملخصًا لنتائج البحث دون الحاجة إلى النقر على روابط البحث (ما قد يؤدي إلى إزالة تمويل المواقع المصدر في هذه العملية)، من خلال تقليل نتائج البحث إلى بضع جمل منشأة.

يمكن أن نعتقد أن المعرفة الأساسية التي تم الكشف عنها، واختيار المواقع التي يتم سحب هذه المعرفة منها، ستكون متشابهة إلى حد ما عبر جميع الطرق الثلاث الشائعة للبحث على الإنترنت عن المعلومات: في البحث التقليدي على الويب؛ في الملخصات الذكية (AIOs) التي تظهر الآن في معظم نتائج البحث؛ ومن خلال استخدام الزيادة في استخدام الوكلاء التفاعليين مثل ChatGPT كأوراكل للويب (مع أو بدون مكالمات RAG الخارجية).

انقسام ثلاثي

في ورقة جديدة وواضحة ومفصلة، بعنوان كيف يزعزع الذكاء الاصطناعي البحث: دراسة تجريبية لجوجل البحث وجيميني والملخصات الذكية، يحدد ستة باحثين من معهد نيوجيرسي للتكنولوجيا الطرق التي تتباعد بها طرق البحث الثلاث، ويقدمون بعض النظريات الممكنة لهذه الشقوق في النهج.

تنص الورقة على ما يلي:

‘أولاً، وجدنا أن 51.5٪ من استفسارات المستخدمين الحقيقيين تم إنشاء ملخصات ذكية لها، وتم عرضها فوق نتائج البحث العضوية. غالبًا ما تؤدي الأسئلة المثيرة للجدل إلى ملخص ذكي.

‘ثانيًا، أظهرنا أن المصادر المستخرجة تختلف بشكل كبير لكل محرك بحث (<0.2 متوسط تشابه جاكارد). من المرجح أن يتم استرجاع المعلومات من المواقع الشهيرة أو المؤسسية في الحكومة أو التعليم من خلال البحث التقليدي على جوجل، في حين أن محركات البحث التوليدية أكثر احتمالًا لاسترجاع المحتوى المملوك لجوجل.

‘ثالثًا، لاحظنا أن المواقع التي تحجب زاحف جوجل الاصطناعي أقل احتمالًا لاسترجاعها من قبل الملخصات الذكية، على الرغم من وجود الوصول إلى المحتوى.’

نظرًا لأن الورقة هي مجموعة من الاكتشافات المثيرة للاهتمام، بدلاً من اتباع سير عمل خطي ومدفوع بالطريقة، سننظر بشكل أعمق إلى هذه النقاط، وبعض النتائج الأخرى المثيرة والمضيئة.

الطريقة القديمة “الاثنان في واحد”

يُظهر أحد النتائج المثيرة للاهتمام في الدراسة أن ملخصات جوجل الذكية تميل إلى الكبح عن الأحداث الإخبارية المفاجئة، لأن المصادر الأولى والأكثر توفرًا قد لا تكون الأكثر دقة.

هذا النظام لا يعمل دائمًا: في المثال أدناه، الذي لاحظه الباحثون، ينسب ملخص جوجل الذكي نتيجة مباراة الملاكمة إلى الملاكم الخاطئ، على الرغم من أن المصدر الوحيد الذي ينص على هذا النتيجة (الخاطئة) هو تغذية رياضية ساخرة على فيسبوك:

أحد الأسباب التي تجعل ملخصات جوجل الذكية تتجنب الملخصات الحاسمة هي أن المعلومات المبكرة قد تكون غير كاملة أو غير دقيقة تمامًا. في هذه الحالة، خسر الملاكم جيك بول المباراة. مصدر - https://arxiv.org/pdf/2604.27790

أحد الأسباب التي تجعل ملخصات جوجل الذكية تتجنب الملخصات الحاسمة هي أن المعلومات المبكرة قد تكون غير كاملة أو غير دقيقة تمامًا. في هذه الحالة، خسر الملاكم جيك بول المباراة. مصدر

يلاحظ المؤلفون أن الملخصات الذكية تميل إلى الظهور عندما تكون الأحداث على الأقل خمسة أيام قديمة، مما يؤهله كاستثناء – ولكن في أي حال، كان الباحثون قادرين على استدعاء هذا الاستثناء بسهولة.

تم العثور على الملخصات الذكية لزيادة احتمال ظهورها عندما يتم إغلاق الاستفسار bằng علامة استفهام، و rằng قصد الاستفسار كان عاملاً فيما إذا كان سيتم عرض ملخص ذكي:

نسبة الحوادث التي تم فيها إنتاج ملخص بحث ذكي في جولة الاختبارات التي أجراها الباحثون. هنا يشير “معلوماتي” إلى الأسئلة المباشرة، والتي تميل إلى إنتاج ملخصات ذكية أكثر من أي نوع آخر من التفاعل.

بالإضافة إلى ذلك، يُدعي في الورقة، الاستفسارات الأطول تميل إلى زيادة احتمال إنتاج ملخص ذكي بدلاً من نتائج البحث فقط، على الرغم من أن المؤلفين لم يقدموا بعد نظرية لتفسير هذا.

مملكة منقسمة

ربما يكون النتيجة الأكثر إثارة للدهشة في العمل الجديد هو التداخل الصغير نسبيًا في نوعية النتائج بين منصات البحث الثلاث لجوجل.

تظهر الورقة بشكل متكرر أن البحث التقليدي على جوجل والملخصات الذكية وجيميني (LLM) يستردون مصادر مختلفة بشكل ملحوظ لنفس الاستفسار، مع درجات تشابه منخفضة بما فيه الكفاية ليدل على ثلاثة منطق استرجاع منافس داخل شركة واحدة، في حين قد يفترض المستخدمون أن جوجل لديها فهرس موثوق به واحد و فلسفة تصنيف واحدة:

حتى داخل نظام جوجل نفسه، كان التداخل بين البحث التقليدي والملخصات الذكية وجيميني صغيرًا بشكل مفاجئ، مع إنتاج قائمة مصادر مختلفة بشكل كبير لنفس الاستفسار، اعتمادًا على النظام الذي تمت معالجته.

حتى داخل نظام جوجل نفسه، كان التداخل بين البحث التقليدي والملخصات الذكية وجيميني صغيرًا بشكل مفاجئ، مع إنتاج قائمة مصادر مختلفة بشكل كبير لنفس الاستفسار، اعتمادًا على النظام الذي تمت معالجته.

بخصوص هذا القسم من تحليلهم، يُشير المؤلفون إلى ما يلي:

‘[الجدول أعلاه] يعرض المتوسط ​​للمشابهة بين قائمة المصادر التي تم إرجاعها بواسطة الملخصات الذكية وجيميني والبحث التقليدي للكل استفسار في مجموعة البيانات المرجعية.

‘النقطة الرئيسية هي أن بغض النظر عن جزء الاستفسار وازدواجية محرك البحث ، فإن القوائم المستردة غير متشابهة ، على الرغم من أن جميعها تم تطويرها بواسطة جوجل ‘.’

يُشير الباحثون إلى أن لا طريقة بحث تم اختبارها أثبتت وجود تداخل منحاز للترتيب (RBO) أعلى من 0.27، وهو درجة منخفضة جدًا. يُشيرون إلى أن أمازون ريتيل والاستفسارات المحلية (أي، ‘المتاجر بالقرب مني’) كانت أقل تشابهًا بين طرق البحث.

ينسبون انخفاض الاتفاق إلى ‘عدم الاتساق بين محركات البحث’، مشيرين إلى أن العشوائية أو أي عامل آخر واضح لا يمكن أن يفسر هذا الانقطاع.

هل هناك عوائق..؟

وجدت الدراسة أيضًا أن الناشرين الذين يحجبون زاحف جوجل الاصطناعي – زاحف الويب التلقائي الذي يخدش البيانات من موقعك trừ إذا قمت بتحديده باستخدام ملف robots.txt – أقل احتمالًا لظهورهم في الملخصات الذكية.

قد يبدو هذا وكأنه جرح ذاتي واضح، لكن في الواقع، أعلنت جوجل علنًا أن المحتوى من المنصات التي تحجب زاحف جوجل الاصطناعي 不会 يتم منعها من الظهور في الملخصات الذكية؛ بل سيتم فقط عدم خدش بياناتهم، وتنسيقها في مجموعة، و passingها عبر الجولة التالية من تدريب الذكاء الاصطناعي لجيميني ومشاريع جوجل الاصطناعية الأخرى.

然而، لم تكن هذه الاستنتاج التي توصل إليها باحثو الورقة الجديدة، حيث وجدوا بدلاً من ذلك أن الناشرين الشهيرين الذين يحظرون زاحف جوجل الاصطناعي نادرًا ما يتم الاستشهاد بهم في جيميني، سواء في نسخة LLM أو نسخة نتائج البحث المخففة والمزيد من المرونة. وتم الإبلاغ عن الناشرين “الممنوعين فعليًا” على أنهم NYTimes و CNN و BBC و ScienceDirect و Reuters و Wiley و Nature و ESPN و Business Insider و CNBC و NPR و WIRED و USA Today و NBC News و Genius و National Geographic و The Conversation و U.S. News & World Report و Scientific American و Consumer Reports و STAT.

بعض حظر خدش زاحف جوجل الاصطناعي الذي تم تنفيذه من قبل الناشرين المذكورين أعلاه. ولكن هل أدى ذلك إلى إدانة أوسع من جوجل؟

بعض حظر خدش زاحف جوجل الاصطناعي الذي تم تنفيذه من قبل الناشرين المذكورين أعلاه. ولكن هل أدى ذلك إلى إدانة أوسع من جوجل؟

يُشير المؤلفون إلى ما يلي:

‘في تحليلنا للأ etki والأ etki الأكثر تأثراً، وجدنا أن 21 ناشراً شعبياً (الذين يتم استرجاعهم لاستفسارات فريدة من قبل بحث جوجل والملخصات الذكية) لم يتم الاستشهاد بهم أبدًا من قبل جيميني.

‘كما تلقى العديد من المواقع الإعلامية الاجتماعية (فيسبوك وإنستجرام وتيك توك) و مواقع المراجعة (IMDb و Yelp و Tripadvisor) صفر الاستشهادات من جيميني. عند التحقيق بشكل أكبر، وجدنا أن جميع هذه المواقع تحظر زاحف جوجل الممتد في ملفات robots.txt الخاصة بهم.’

إذا تم التحقق من هذا الاستنتاج في مكان آخر وثبوت استمراريته، يمكن للمرء أن يتكهن بأن هذه الشركات قد تُضغط للاستسلام والتعاون مع عمليات جوجل الاصطناعية من خلال الإزالة الجزئية. عند النظر السطحي، يبدو أن النتائج واضحة – لكن ثم، النتائج الجديدة أكثر إشارة إلى الفوضى من العمد؛ وبالتالي، فإن التعليق الوحيد المعقول الذي يمكن أن يُستقر عليه هو أن هذه النتائج تبدو ساذجة، مهما كان السبب الحقيقي.

الاستنتاج

رأي هذا هو ورقة واضحة ومدروسة، والتي تتوسع في عشرة صفحات رئيسية إلى مجموعة هائلة من النتائج الإضافية. منذ أن كان لدينا وقت لcoverage فقط جزء صغير من هذه، أوصي بملف PDF الأصلي حتى للقارئ العادي (حدث نادر).

على الرغم من أن موقفًا “أصفر” قد يلقي العديد من التأويلات السلبية على اكتشافات المؤلفين، إلا أن العمل يُعالج ربما على أنه يشير إلى زعيم تقني عالمي يحاول الحصول على رصيد عالمي في البحث القائم على الذكاء الاصطناعي، باستخدام منصات متباينة جدًا تم تطويرها في ظروف مختلفة وعبر عصور مختلفة.

الذكاء الاصطناعي كما كان في عام 1999

قبل ظهور جوجل، كان من الممكن “اللعب” بنتائج البحث من خلال الحجم فقط، وبهذه الطريقة، يمكنك غالبًا تحقيق وضع الصفحة الأولى لنتائج البحث مع جهد قليل (غالبًا تلقائي). تم إنهاء هذا “لعبة الأرقام” بشكل فعال حول عام 2002 بواسطة خوارزمية تصنيف بحث جوجل الأكثر تعقيدًا وسرية. لكن منذ أن كانت المراهنات كبيرة، لم تختف المحتوى منخفض الجودة أبدًا بطريقة معنوية.

لذلك، بحلول الوقت الذي تم فيه وضع الأسس لمجموعات كبيرة مثل Common Crawl لتأسيس ثورة الذكاء الاصطناعي الحديثة، كان من المقرر أن يهيمن على بروز البيانات على مدى khả năng العمليات التلقائية المرشحين والترتيب لجودة البيانات الواردة، و (أقل احتمالًا)، مدى توافر الأموال لدفع الناس لترتيب هذه البيانات.

كان هناك الكثير من البيانات السيئة أو منخفضة الجودة في تلك المجموعات الكبيرة والغير محددة؛ البيانات التي قد لا تحتوي على عري أو شتائم أو مواضيع عنصرية، أو أي من الأشياء الأخرى التي من السهل تصفيتها من مجموعات التدريب – ولكنها كانت في أي حال ذاتية وواسعة النطاق، مثل نتائج البحث على الإنترنت حوالي 1999-2001.

بسبب أن عمليات استدلال البيانات لا تزال غير جيدة، فمن الصعب حتى على جوجل جعل الذكاء الاصطناعي يتصرف بطريقة تجارية، منذ أن يتم ديكتاتة قرارات جيميني على الطراز PageRank من قبل فهم غير كامل لكيفية تحويل البيانات الهائلة إلى توزيعات بيانات وتمثيلات كامنة خلال تدريب نموذج الذكاء الاصطناعي.

 

* صفحات نتائج محرك البحث.

التوكيد من المؤلفين، وليس لي. ومع ذلك، قمت بتحويل التوكيد إلى غامق، لأن التوكيد بالغامق لا يعمل جيدًا في الاقتباسات التي هي بالفعل غامقة بشكل رئيسي.

نشر لأول مرة يوم الأربعاء، 13 مايو 2026

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai