اتصل بنا للحصول على مزيد من المعلومات

بحث جديد يكتشف ستة عشر مشكلة رئيسية في أنظمة RAG، بما في ذلك الحيرة

الذكاء الاصطناعي

بحث جديد يكتشف ستة عشر مشكلة رئيسية في أنظمة RAG، بما في ذلك الحيرة

mm
صورة تم إنشاؤها بواسطة ChatGPT-4o، مع المطالبة "إنشاء صورة بانورامية واقعية للغاية لروبوت يبحث بشكل محموم على الإنترنت على جهاز كمبيوتر محمول. لا تقم بتعديل هذه الصورة بحيث تبدو وكأنها صورة زائفة أو صورة تم إنشاؤها بواسطة الذكاء الاصطناعي"

توصلت دراسة حديثة أجريت في الولايات المتحدة إلى أن الأداء الحقيقي للأشخاص المشهورين الجيل المعزز الاسترداد إن أنظمة البحث (RAG) مثل Perplexity وBing Copilot لا ترقى إلى مستوى الضجيج التسويقي والتبني الشعبي الذي استحوذ على عناوين الأخبار على مدى الأشهر الاثني عشر الماضية.

وجد المشروع، الذي شمل مشاركة واسعة النطاق في استطلاع رأي شارك فيه 21 خبيرًا، ما لا يقل عن 16 منطقة أنتجت فيها أنظمة RAG المدروسة (You Chat وBing Copilot وPerplexity) سببًا للقلق:

1: عدم وجود تفاصيل موضوعية في الإجابات الناتجة، مع ملخصات عامة وعمق سياقي ضئيل أو فروق دقيقة.

2. تعزيز التحيز الملحوظ لدى المستخدمحيث يفشل محرك RAG في كثير من الأحيان في تقديم مجموعة من وجهات النظر، ولكنه بدلاً من ذلك يستنتج ويعزز تحيز المستخدم، بناءً على الطريقة التي يطرح بها المستخدم سؤالاً.

3. لغة واثقة بشكل مفرط، وخاصة في الاستجابات الذاتية التي لا يمكن إثباتها تجريبياً، مما قد يؤدي إلى ثقة المستخدمين في الإجابة أكثر مما تستحق.

4: اللغة التبسيطية وغياب التفكير النقدي والإبداع، حيث تعمل الاستجابات بشكل فعال على رعاية المستخدم بمعلومات "مبسطة" و"ممتعة"، بدلاً من التفكير والتحليل المدروس.

5: إسناد مصادر خاطئة والاستشهاد بها بشكل خاطئ، حيث يستخدم محرك الإجابة مصادر مستشهد بها لا تدعم استجابته/استجاباته، مما يعزز وهم المصداقية.

6: انتقاء المعلومات من السياق المستنتج، حيث يبدو أن وكيل RAG يبحث عن إجابات تدعم ادعائه الناتج وتقديره لما يريده المستخدم يريد أن يسمعبدلاً من الاعتماد في إجاباته على تحليل موضوعي لمصادر موثوقة (ربما يشير ذلك إلى وجود تعارض بين بيانات LLM "المخبوزة" للنظام والبيانات التي يحصل عليها أثناء التنقل من الإنترنت استجابةً لاستعلام).

7: حذف الاستشهادات التي تدعم البياناتحيث لا توجد أي مصادر للمواد التي يمكن الاعتماد عليها في الاستجابات.

8: لا تقدم أي مخطط منطقي لاستجاباتها، حيث لا يستطيع المستخدمون التساؤل عن سبب إعطاء النظام الأولوية لمصادر معينة على مصادر أخرى.

9: عدد محدود من المصادر حيث توفر معظم أنظمة RAG عادةً حوالي ثلاثة مصادر داعمة لبيان ما، حتى في حالة إمكانية تطبيق تنوع أكبر من المصادر.

10: مصادر يتيمة حيث لا يتم تضمين البيانات من كل أو بعض الاستشهادات الداعمة للنظام فعليًا في الإجابة.

11: استخدام مصادر غير موثوقة، حيث يبدو أن النظام يفضل مصدرًا شائعًا (أي من حيث مصطلحات تحسين محركات البحث) بدلاً من المصدر الصحيح من الناحية الواقعية.

12: مصادر زائدة، حيث يقدم النظام استشهادات متعددة تكون فيها الأوراق المصدرية متماثلة بشكل أساسي في المحتوى.

13: مصادر غير مصفاة، حيث لا يوفر النظام للمستخدم أي طريقة لتقييم أو تصفية الاقتباسات المقدمة، مما يجبر المستخدمين على اتخاذ معايير الاختيار على أساس الثقة.

14: عدم التفاعل أو القدرة على الاستكشاف، حيث شعر العديد من المشاركين في دراسة المستخدم بالإحباط لأن أنظمة RAG لم تطرح أسئلة توضيحية، بل افترضت نية المستخدم من الاستعلام الأول.

15: الحاجة إلى التحقق الخارجي، حيث يشعر المستخدمون بأنهم مجبرون على إجراء تحقق مستقل من الاستجابات المقدمة، مما يؤدي إلى إزالة الراحة المفترضة لـ RAG باعتبارها "بديلاً للبحث".

16:  استخدام أساليب الاستشهاد الأكاديمي، مثل [1] or [34]هذه ممارسة قياسية في الدوائر العلمية، ولكنها قد تكون غير بديهية للعديد من المستخدمين.

ولإجراء الدراسة، جمع الباحثون 21 خبيرًا في مجالات الذكاء الاصطناعي والرعاية الصحية والطب والعلوم التطبيقية والتعليم والعلوم الاجتماعية، وكانوا جميعًا إما باحثين في مرحلة ما بعد الدكتوراه أو مرشحين للحصول على درجة الدكتوراه. وتفاعل المشاركون مع أنظمة RAG التي تم اختبارها أثناء التحدث بصوت عالٍ عن عمليات تفكيرهم، لتوضيح (للباحثين) مخططهم العقلاني الخاص.

وتتضمن الورقة اقتباسًا موسعًا لمخاوف المشاركين ومخاوفهم بشأن أداء الأنظمة الثلاثة التي تمت دراستها.

تم بعد ذلك تنظيم منهجية دراسة المستخدم في دراسة آلية لأنظمة RAG، باستخدام مجموعات التحكم في المتصفح:

"أظهر تقييم آلي واسع النطاق لأنظمة مثل You.com وPerplexity.ai وBingChat أن أياً منها لم يحقق الأداء المقبول في معظم المقاييس، بما في ذلك الجوانب الحرجة المتعلقة بالتعامل مع الهلوسة، والتصريحات غير المدعومة، ودقة الاستشهادات."

يزعم المؤلفون بالتفصيل (وبجدية، في الورقة البحثية الشاملة التي تتألف من 27 صفحة) أن المستخدمين الجدد والمتمرسين على حد سواء يجب أن يتوخوا الحذر عند استخدام فئة أنظمة RAG التي تمت دراستها. كما يقترحون نظامًا جديدًا للقياسات، استنادًا إلى أوجه القصور التي وجدتها الدراسة، والتي يمكن أن تشكل الأساس لمزيد من الرقابة الفنية في المستقبل.

ومع ذلك، فإن متزايد إن الاستخدام العام لأنظمة RAG يدفع المؤلفين أيضًا إلى الدعوة إلى التشريع المناسب ومستوى أعلى من السياسة الحكومية القابلة للتنفيذ فيما يتعلق بواجهات البحث بالذكاء الاصطناعي بمساعدة الوكيل.

أكثر من دراسة يأتي هذا البحث من خمسة باحثين في جامعة ولاية بنسلفانيا وشركة Salesforce، ويحمل عنوان محركات البحث في عصر الذكاء الاصطناعي: الوعد الكاذب بتقديم إجابات موثوقة وموثقة من مصادر موثوقةيغطي العمل أنظمة RAG حتى أحدث التقنيات في أغسطس 2024

المقايضة بين RAG

يقدم المؤلفون مقدمة لعملهم من خلال تكرار أربعة أوجه قصور معروفة في نماذج اللغة الكبيرة (LLMs) حيث يتم استخدامها داخل محركات الإجابة.

أولاً، هم عرضة لـ معلومات هلوسة، ويفتقرون إلى القدرة على اكتشاف التناقضات الواقعيةثانياً، يواجهون صعوبة تقييم الدقة من الاستشهاد في سياق الإجابة المولدة. ثالثًا، يميلون إلى بيانات التفضيل من أوزانها المدربة مسبقًا، وقد تقاوم البيانات من الوثائق المستردة خارجيًا، حتى لو كانت هذه البيانات أحدث أو أكثر دقة.

أخيرًا، تميل أنظمة RAG إلى إرضاء الناس، سلوك متملق، في كثير من الأحيان على حساب دقة المعلومات في ردودهم.

وقد تم تأكيد كل هذه الاتجاهات في كلا جانبي الدراسة، من بين العديد من الملاحظات الجديدة حول مخاطر RAG.

تتناول الورقة البحثية شركة OpenAI بحثGPT منتج RAG (صدر (للمشتركين في الأسبوع الماضي، بعد تقديم الورقة الجديدة)، من المرجح أن يشجع ذلك المستخدمين على تبني أنظمة البحث القائمة على RAG، على الرغم من العيوب الأساسية التي تشير إليها نتائج المسح*:

"إصدار برنامج 'SearchGPT' من OpenAI، والذي تم تسويقه باعتباره "قاتل بحث جوجل"وهذا من شأنه أن يزيد من تفاقم [المخاوف]. ومع تزايد الاعتماد على هذه الأدوات، تزداد الحاجة الملحة إلى فهم تأثيرها. يندمان  يقدم مفهوم المعرفة المختومة، الذي ينتقد كيف تحد هذه الأنظمة من الوصول إلى إجابات متنوعة من خلال تكثيف استعلامات البحث في استجابات مفردة موثوقة، وإزالة المعلومات من سياقها بشكل فعال وتضييق نطاقها. المستخدم وجهات نظر.

"إن هذا "الختم" للمعرفة يعمل على إدامة التحيزات الاختيارية وتقييد وجهات النظر المهمشة."

الدراسة

قام المؤلفون أولاً باختبار إجراءات دراستهم على ثلاثة من أصل 24 مشاركًا مختارًا، تمت دعوتهم جميعًا عبر وسائل مثل LinkedIn أو البريد الإلكتروني.

المرحلة الأولى، بالنسبة للـ 21 المتبقين، شملت استرجاع المعلومات المتخصصةحيث أجرى المشاركون في المتوسط ​​حوالي ستة استفسارات بحثية على مدار جلسة مدتها 40 دقيقة. ركز هذا القسم على جمع البيانات والتحقق منها قائم على الحقائق الأسئلة والأجوبة، مع الحلول التجريبية المحتملة.

المرحلة الثانية تتعلق استرجاع معلومات المناقشة، والتي تعاملت بدلاً من ذلك مع مسائل ذاتية، بما في ذلك علم البيئة، والنباتية، والسياسة.

إجابات الدراسة المولدة من Perplexity (على اليسار) وYou Chat (على اليمين). المصدر: https://arxiv.org/pdf/2410.22349

إجابات الدراسة المولدة من Perplexity (على اليسار) وYou Chat (على اليمين). المصدر: https://arxiv.org/pdf/2410.22349

وبما أن جميع الأنظمة سمحت على الأقل بمستوى معين من التفاعل مع الاستشهادات المقدمة كدعم للإجابات التي تم إنشاؤها، فقد تم تشجيع المشاركين في الدراسة على التفاعل مع الواجهة قدر الإمكان.

في كلتا الحالتين، طُلب من المشاركين صياغة استفساراتهم من خلال نظام RAG ومحرك بحث تقليدي (في هذه الحالة، جوجل).

تم اختيار محركات الإجابة الثلاثة - You Chat، وBing Copilot، وPerplexity - لأنها متاحة للعامة.

كانت غالبية المشاركين بالفعل من مستخدمي أنظمة RAG، بنسب متفاوتة.

وبسبب قيود المساحة، لا يمكننا تفصيل كل من العيوب الستة عشر الرئيسية الموثقة بشكل شامل والتي وجدت في الدراسة، ولكننا نقدم هنا مجموعة مختارة من بعض الأمثلة الأكثر إثارة للاهتمام وتنويراً.

عدم وجود تفاصيل موضوعية

تشير الورقة البحثية إلى أن المستخدمين وجدوا أن استجابات الأنظمة غالبًا ما افتقرت إلى التفاصيل الموضوعية، سواءً في الإجابات الواقعية أو الذاتية. وعلق أحدهم:

"لقد كان مجرد محاولة للإجابة دون أن يقدم لي إجابة محددة أو إجابة مدروسة بشكل أفضل، وهو ما أستطيع الحصول عليه من خلال عمليات بحث متعددة على Google."

ولاحظ آخر:

إنه قصير جدًا ويلخص كل شيء بشكل كبير. يحتاج [النموذج] إلى تزويدي بمزيد من البيانات للادعاء، ولكنه مُلخّص للغاية.

عدم وجود وجهة نظر شمولية

يعرب المؤلفون عن قلقهم إزاء هذا الافتقار إلى الفروق الدقيقة والتفاصيل، ويذكرون أن محركات الإجابة فشلت في كثير من الأحيان في تقديم وجهات نظر متعددة حول أي حجة، وتميل إلى الانحياز إلى التحيز الملحوظ المستنتج من صياغة المستخدم نفسه للسؤال.

وقال أحد المشاركين:

"أريد أن أعرف المزيد عن الجانب الآخر من الحجة... كل هذا مع قليل من الملح لأننا لا نعرف الجانب الآخر والأدلة والحقائق."

وعلق آخر:

إنه لا يُقدّم لك كلا الجانبين من الحجة؛ ولا يُجادل معك. بل يُخبرك ببساطة: "أنت مُحق... وهذه هي الأسباب".

لغة واثقة

ويلاحظ المؤلفون أن الأنظمة الثلاثة التي تم اختبارها أظهرت استخدام لغة مفرطة الثقة، حتى في الإجابات التي تتناول أموراً ذاتية. ويزعمون أن هذه النبرة من شأنها أن تؤدي إلى إلهام ثقة غير مبررة في الاستجابة.

وأشار أحد المشاركين إلى:

يكتب بثقةٍ كبيرة، أشعر باليقين حتى دون النظر إلى المصدر. لكن عندما تنظر إلى المصدر، تجده سيئًا، وهذا ما يدفعني للتساؤل عنه مجددًا.

وعلق آخر:

"إذا كان شخص ما لا يعرف الإجابة الصحيحة تمامًا، فسوف يثق بها حتى لو كانت خاطئة."

اقتباسات غير صحيحة

كانت هناك مشكلة أخرى متكررة وهي الإسناد الخاطئ للمصادر المذكورة باعتبارها مرجعية لاستجابات أنظمة RAG، حيث ادعى أحد المشاركين في الدراسة:

يبدو أن هذا الكلام غير موجود في المصدر. أعني أن الكلام صحيح، صحيح... لكنني لا أعرف من أين حصل على هذه المعلومات.

تعليق مؤلفي الورقة الجديدة :

"شعر المشاركون بأن الأنظمة كانت" استخدام الاستشهادات لتبرير إجابتهممما خلق وهمًا بالمصداقية. لم يُكشف هذا الزيف إلا لعدد قليل من المستخدمين الذين شرعوا في التدقيق في المصادر.

انتقاء المعلومات المناسبة للاستعلام

بالعودة إلى مفهوم السلوك المتملق لإرضاء الناس في إجابات RAG، وجدت الدراسة أن العديد من الإجابات سلطت الضوء على وجهة نظر معينة بدلاً من تلخيص الموضوع بشكل شامل، كما لاحظ أحد المشاركين:

أشعر أن النظام مُتلاعب. فهو لا يأخذ سوى بعض المعلومات، وأشعر أنني مُتلاعب به لأرى جانبًا واحدًا فقط من الأمور.

ورأى آخر:

'[المصدر] في الواقع له إيجابيات وسلبيات، وقد تم اختيار نوع الحجج المطلوبة فقط من هذا الرابط دون الصورة الكاملة.'

ولمزيد من الأمثلة المتعمقة (والاقتباسات النقدية المتعددة من المشاركين في الاستطلاع)، فإننا نحيل القارئ إلى الورقة المصدر.

نظام RAG الآلي

في المرحلة الثانية من الدراسة الأوسع، استخدم الباحثون برمجيًا قائمًا على المتصفح لطلب الاستفسارات بشكل منهجي من محركات RAG الثلاثة المدروسة. ثم استخدموا نظام LLM (GPT-4o) لتحليل استجابات الأنظمة.

تم تحليل البيانات من أجل أهمية الاستعلام و عبارات مؤيدة وأخرى معارضة (أي ما إذا كانت الاستجابة لصالح أو ضد أو محايدة، فيما يتعلق بالتحيز الضمني للاستعلام.

An درجة ثقة الإجابة تم أيضًا تقييمه في هذه المرحلة الآلية، بناءً على مقياس ليكرت طريقة الاختبار النفسي القياسي. هنا تم تعزيز القاضي في مسابقة الماجستير في القانون من خلال اثنين من المعلقين البشريين.

وتضمنت العملية الثالثة استخدام استخراج البيانات من الويب للحصول على محتوى النص الكامل لصفحات الويب المذكورة، من خلال أداة Jina.ai Reader. ومع ذلك، وكما أشير في مكان آخر من الورقة، فإن معظم أدوات استخراج البيانات من الويب ليست قادرة على الوصول إلى المواقع المحمية بجدار الدفع أكثر من معظم الأشخاص (على الرغم من أن المؤلفين لاحظوا أن Perplexity.ai معروف بـ تجاوز هذا الحاجز).

وكانت الاعتبارات الإضافية هي ما إذا كانت الإجابات قد استشهدت بمصدر أم لا (تم حسابها على أنها "مصفوفة الاستشهاد")، فضلاً عن "مصفوفة الدعم الواقعي" - وهو مقياس تم التحقق منه بمساعدة أربعة معلقين بشريين.

وبالتالي تم الحصول على 8 مقاييس شاملة: إجابة من جانب واحد; إجابة واثقة من نفسها; بيان ذو صلة; مصادر غير مذكورة; عبارات غير مدعومة; ضرورة المصدر; دقة الاستشهاد، و دقة الاستشهاد.

تتكون المادة التي تم اختبار هذه المقاييس عليها من 303 سؤالاً تم اختيارها بعناية من مرحلة دراسة المستخدم، مما أدى إلى 909 إجابة عبر الأنظمة الثلاثة التي تم اختبارها.

التقييم الكمي عبر أنظمة RAG الثلاثة التي تم اختبارها، بناءً على ثمانية مقاييس.

التقييم الكمي عبر أنظمة RAG الثلاثة التي تم اختبارها، بناءً على ثمانية مقاييس.

وفيما يتعلق بالنتائج، جاء في الورقة:

'بالنظر إلى المقاييس الثلاثة المتعلقة بنص الإجابة، نجد أن محركات الإجابة التي تم تقييمها جميعها في كثير من الأحيان (50-80%) تولد إجابات أحادية الجانب، مفضلة الاتفاق مع صياغة مشحونة لسؤال المناقشة على تقديم وجهات نظر متعددة في الإجابة، مع أداء Perplexity بشكل أسوأ من المحركين الآخرين.

"تتوافق هذه النتيجة مع [النتائج] التي توصلنا إليها في نتائجنا النوعية. ومن المثير للدهشة أنه على الرغم من أن الحيرة من المرجح أن تولد إجابة من جانب واحد، إلا أنها تولد أيضًا أطول الإجابات (18.8 عبارة لكل إجابة في المتوسط)، مما يشير إلى أن الافتقار إلى تنوع الإجابات لا يرجع إلى اختصار الإجابات.

'بعبارة أخرى، فإن زيادة طول الإجابة لا يؤدي بالضرورة إلى تحسين تنوع الإجابة.'

ويشير المؤلفون أيضًا إلى أن الحيرة هي الأكثر احتمالاً لاستخدام لغة واثقة (90% من الإجابات)، وعلى النقيض من ذلك، فإن النظامين الآخرين يميلان إلى استخدام لغة أكثر حذرًا وأقل ثقة عندما يتعلق الأمر بالمحتوى الذاتي.

كان You Chat هو إطار عمل RAG الوحيد الذي حقق صفر مصادر غير مذكورة للإجابة، مع Perplexity بنسبة 8% وBing Chat بنسبة 36%.

وقد أظهرت جميع النماذج "نسبة كبيرة" من البيانات غير المدعومة، وتعلن الورقة:

"يتم الإعلان عن إطار عمل RAG لحل السلوك الهلوسة لطلاب الماجستير في القانون من خلال فرض قيام طالب الماجستير في القانون بإنشاء إجابة مبنية على مستندات المصدر، ومع ذلك، تظهر النتائج أن محركات الإجابات المعتمدة على RAG لا تزال تولد إجابات تحتوي على نسبة كبيرة من البيانات غير المدعومة بالمصادر التي تقدمها.'

بالإضافة إلى ذلك، واجهت جميع الأنظمة التي تم اختبارها صعوبة في دعم بياناتها بالاستشهادات:

"يحقق موقع You.Com و[Bing Chat] أداءً أفضل قليلاً من Perplexity، حيث يشير ما يقرب من ثلثي الاستشهادات إلى مصدر يدعم البيان المذكور، بينما يحقق موقع Perplexity أداءً أسوأ حيث يكون أكثر من نصف استشهاداته غير دقيقة.

"هذه النتيجة مفاجئة: الاستشهاد ليس فقط غير صحيح بالنسبة للبيانات التي لا يدعمها أي (مصدر)، ولكننا نجد أنه حتى عندما يوجد مصدر يدعم بيانًا ما، فإن جميع المحركات لا تزال تستشهد في كثير من الأحيان بمصدر غير صحيح مختلف، مما يؤدي إلى فقدان الفرصة لتزويد المستخدم بمصدر معلومات صحيح.

'وبعبارة أخرى، لا يتجلى السلوك الهلوسة فقط في التصريحات غير المدعومة بالمصادر، بل يتجلى أيضًا في الاستشهادات غير الدقيقة التي تمنع المستخدمين من التحقق من صحة المعلومات.'

وخلص المؤلفون إلى:

'لم يحقق أي من محركات الإجابة أداءً جيدًا في غالبية المقاييس، مما يسلط الضوء على المجال الكبير للتحسين في محركات الإجابة.'

 

 

* قمتُ بتحويل اقتباسات المؤلفين المضمنة إلى روابط تشعبية. عند الضرورة، اخترتُ أول اقتباس من بين عدة اقتباسات للرابط التشعبي، وذلك لأسباب تتعلق بالتنسيق.

التركيز من وجهة نظر المؤلف، وليس من وجهة نظري.

نُشرت لأول مرة يوم الاثنين 4 نوفمبر 2024

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai