الذكاء الاصطناعي

تتصور Google نظام استعلام يشبه GPT-3 ، بدون نتائج بحث

تحديث on 9 كانون الأول، 2022

تقترح ورقة بحثية جديدة من أربعة باحثين في Google نظامًا "خبيرًا" قادرًا على الإجابة بشكل رسمي على أسئلة المستخدمين دون تقديم قائمة بنتائج البحث المحتملة ، على غرار نموذج الأسئلة والأجوبة الذي لفت انتباه الجمهور من خلال ظهور GPT-3 على مدار الماضي سنة.

• ورقة، مخول إعادة التفكير في البحث: إخراج الخبراء من Dilettantes، يقترح أن المعيار الحالي المتمثل في تقديم قائمة نتائج البحث للمستخدم ردًا على استفسار هو "عبء معرفي"، ويقترح تحسينات في قدرة نظام معالجة اللغة الطبيعية (NLP) على تقديم استجابة موثوقة ونهائية .

بموجب النموذج المقترح لـ "الخبير" ، أوراكل عبر المجالات ، سيتم دمج الآلاف من مصادر نتائج البحث المحتملة في نموذج لغة بدلاً من أن تكون متاحة بشكل صريح كمورد استكشافي للمستخدمين لتقييمها والتنقل فيها بأنفسهم. المصدر: https://arxiv.org/pdf/2105.02274.pdf

تقترح الورقة ، التي يقودها دونالد ميتزلر في أبحاث Google ، تحسينات في نوع استجابات أوراكل متعددة المجالات التي يمكن الحصول عليها حاليًا من نماذج لغة الانحدار الذاتي للتعلم العميق مثل GPT-3. التحسينات الرئيسية المتصورة هي أ) أن النموذج سيكون قادرًا على الاستشهاد بدقة بالمصادر التي أبلغت الاستجابة ، و ب) أن النموذج سيمنع من "يهذيالاستجابات أو اختراع مادة مصدر غير موجودة ، وهو ما يمثل حاليًا مشكلة في مثل هذه البنى.

القدرات والتدريب متعدد المجالات

بالإضافة إلى ذلك ، فإن نموذج اللغة المقترح ، الذي تم وصفه في الورقة بأنه "نموذج واحد لجميع مهام استرداد المعلومات" ، سيتم تدريبه على مجموعة متنوعة من المجالات ، بما في ذلك الصور والنصوص. سيحتاج أيضًا إلى فهم حول مصدر المعرفة ، وهو ما تفتقر إليه بنيات نمط GPT-3.

لاستبدال الفهارس بنموذج واحد موحد ، يجب أن يكون من الممكن للنموذج نفسه أن يكون لديه معرفة حول عالم معرفات المستندات ، بنفس الطريقة التي تعمل بها الفهارس التقليدية. تتمثل إحدى طرق تحقيق ذلك في الابتعاد عن نماذج LM التقليدية ونحو نماذج المجموعة التي تصمم بشكل مشترك علاقات المصطلح والمصطلح والمستند والوثيقة.

في الصورة أعلاه ، من الورقة ، ثلاث طرق رداً على استفسار المستخدم: على اليسار ، اختارت نماذج اللغة المضمنة في نتائج البحث الخوارزمية من Google "أفضل إجابة" وتحديد أولوياتها ، لكنها تركتها على أنها النتيجة الأولى للكثيرين. Center ، استجابة محادثة بأسلوب GPT-3 ، تتحدث مع السلطة ، ولكنها لا تبرر ادعاءاتها أو تستشهد بالمصادر. حسنًا ، يدمج نظام الخبراء المقترح "أفضل استجابة" من نتائج البحث المصنفة مباشرةً في إجابة تعليمية ، مع اقتباسات من الحواشي على النمط الأكاديمي (غير موضحة في الصورة الأصلية) تشير إلى المصادر التي تسترشد بالاستجابة.

إزالة النتائج السامة وغير الدقيقة

لاحظ الباحثون أن الطبيعة الديناميكية والمحدثة باستمرار لفهارس البحث تمثل تحديًا لتكرارها بالكامل في نموذج التعلم الآلي من هذا النوع. على سبيل المثال، عندما يتم تدريب مصدر موثوق به مباشرة على فهم النموذج للعالم، فإن إزالة تأثيره (على سبيل المثال، بعد فقدان مصداقيته) قد يكون أكثر صعوبة من مجرد إزالة عنوان URL من SERPs، حيث يمكن أن تصبح مفاهيم البيانات مجردة وممثلة على نطاق واسع أثناء الاستيعاب في التدريب.

بالإضافة إلى ذلك ، سيحتاج مثل هذا النموذج إلى التدريب المستمر من أجل توفير نفس المستوى من الاستجابة للمقالات والمنشورات الجديدة كما هو متوفر حاليًا من خلال البحث المستمر عن المصادر في Google. يعني هذا بشكل فعال النشر المستمر والآلي ، على عكس النظام الحالي ، حيث يتم إجراء تعديلات طفيفة على أوزان وإعدادات خوارزمية البحث الحر ، ولكن عادةً ما يتم تحديث الخوارزمية نفسها بشكل غير منتظم.

أسطح الهجوم لخبير مركزي أوراكل

يمكن للنموذج المركزي الذي يستوعب باستمرار ويعمم البيانات الجديدة أن يحول سطح الهجوم لاستفسارات البحث.

في الوقت الحالي ، يمكن للمهاجم الحصول على فائدة من خلال تحقيق مرتبة عالية للنطاقات أو الصفحات التي تحتوي إما على معلومات خاطئة أو تعليمات برمجية ضارة. تحت رعاية أوراكل "خبير" أكثر غموضًا ، تتضاءل إلى حد كبير فرصة إعادة توجيه المستخدمين لمهاجمة المجالات ، ولكن تزداد بشكل كبير إمكانية حقن هجمات البيانات السامة.

هذا لأن النظام المقترح لا يلغي خوارزمية ترتيب البحث ، ولكنه يخفيها عن المستخدم ، ويؤدي بشكل فعال إلى أتمتة أولوية أفضل النتائج / النتائج ، ويخبزها (أو هم) في بيان تعليمي. لطالما كان المستخدمون المؤذون قادرين على تنظيم هجمات ضد خوارزمية بحث Google ، إلى بيع المنتجات المقلدة، المستخدمين المباشرين إلى مجالات نشر البرامج الضارة، أو لأغراض التلاعب السياسي، من بين العديد من حالات الاستخدام الأخرى.

ليس AGI

يؤكد الباحثون أن مثل هذا النظام من غير المرجح أن يُصنف على أنه ذكاء عام اصطناعي (AGI) ، ويضع احتمال وجود مستجيب خبير عالمي في سياق معالجة اللغة الطبيعية ، مع مراعاة جميع التحديات التي تواجهها هذه النماذج حاليًا.

تحدد الورقة خمسة متطلبات للحصول على استجابة "عالية الجودة":

1: السلطة
كما هو الحال مع خوارزميات التصنيف الحالية ، يبدو أن "السلطة" مشتقة من الاقتباس من المجالات عالية الجودة التي تعتبر موثوقة في حد ذاتها. لاحظ الباحثون:

يجب أن تولد الردود محتوى عن طريق السحب من مصادر موثوقة للغاية. هذا سبب آخر يجعل إنشاء روابط أكثر وضوحًا بين تسلسل المصطلحات والبيانات الوصفية للوثائق أمرًا بالغ الأهمية. إذا تم وضع تعليقات توضيحية على جميع المستندات الموجودة في مجموعة ما بدرجة موثوقية ، فيجب أخذ هذه الدرجة في الاعتبار عند تدريب النموذج أو إنشاء الردود أو كليهما.

على الرغم من أن الباحثين لا يقترحون أن نتائج SERPs التقليدية ستصبح غير متاحة إذا تم العثور على أوراكل خبير من هذا النوع فعالاً وشائعًا ، إلا أن الورقة بأكملها تقدم نظام التصنيف التقليدي وقوائم نتائج البحث ، في ضوء 'عقود. نظام استرجاع المعلومات القديم والعفا عليه الزمن.

حقيقة أن الترتيب هو عنصر حاسم في هذا النموذج هو أحد أعراض نظام الاسترجاع الذي يوفر للمستخدمين مجموعة من الإجابات المحتملة ، مما يؤدي إلى عبء معرفي كبير إلى حد ما على المستخدم. كانت الرغبة في إرجاع الإجابات بدلاً من قوائم النتائج المرتبة أحد العوامل المحفزة لتطوير أنظمة الإجابة على الأسئلة. "

2: الشفافية
يعلق الباحثون:

كلما كان ذلك ممكنًا ، يجب أن يكون مصدر المعلومات المقدمة للمستخدم متاحًا لهم. هل هذا هو المصدر الأساسي للمعلومات؟ إذا لم يكن كذلك ، فما هو المصدر الأساسي؟

3: التعامل مع التحيز
تشير الورقة البحثية إلى أن نماذج اللغة المدربة مسبقًا مصممة ليس لتقييم الحقيقة التجريبية ، ولكن لتعميم الاتجاهات السائدة في البيانات وترتيبها حسب الأولوية. تقر بأن هذا التوجيه يفتح النموذج للهجوم (كما حدث مع Microsoft روبوت محادثة عنصري عن غير قصد في عام 2016) ، وستكون هناك حاجة إلى أنظمة إضافية للحماية من استجابات النظام المتحيزة هذه.

4: تمكين وجهات النظر المتنوعة
تقترح الورقة أيضًا آليات لضمان تعدد وجهات النظر:

يجب أن تمثل الاستجابات المتولدة مجموعة من وجهات النظر المتنوعة ولكن لا ينبغي أن تكون مستقطبة. على سبيل المثال ، بالنسبة للاستفسارات حول الموضوعات المثيرة للجدل ، يجب تغطية جانبي الموضوع بطريقة عادلة ومتوازنة. من الواضح أن هذا له روابط وثيقة مع تحيز النموذج.

5: لغة يمكن الوصول إليها
إلى جانب تقديم ترجمات دقيقة في الحالات التي تكون فيها الاستجابة المعتبرة بلغة مختلفة ، تقترح الورقة أن الردود المغلفة يجب أن تكون "مكتوبة بأكبر قدر ممكن من المصطلحات".