الذكاء الاصطناعي

التغلب على هلوسات LLM باستخدام التوليد المُحسَّن بالاسترجاع (RAG)

Published March 5, 2024

Updated April 27, 2026

Haziqa Sajid

نماذج اللغة الكبيرة (LLMs) تحول طريقة معالجة اللغة وتوليدها، ولكنها ليست كاملة. مثل البشر الذين قد يرون أشكالًا في السحب أو وجوهًا على القمر، يمكن للنماذج LLM أيضًا “الهلوسة”، مما يؤدي إلى إنشاء معلومات غير دقيقة. هذا الظاهرة، المعروفة باسم هلوسات LLM، تشكل قلقًا متزايدًا مع توسع استخدام النماذج LLM. يمكن أن تسبب الأخطاء ارتباكًا للمستخدمين، وفي بعض الحالات، قد تؤدي حتى إلى مشاكل قانونية للشركات. على سبيل المثال، في عام 2023، قام ветерان القوات الجوية جيفري باتل (المعروف باسم أستاذ الفضاء الجوي) بتقديم دعوى قضائية ضد مايكروسوفت عندما وجد أن محرك البحث بинг الذي يعمل بالذكاء الاصطناعي أحيانًا يعطي معلومات غير دقيقة ومضرّة عن اسمه. يخلط محرك البحث بينه وبين جيفري ليون باتل، الذي هو مجرم محكوم. لتحقيق التوازن مع الهلوسات، ظهر التوليد المُحسَّن بالاسترجاع (RAG) كحل واعد. إنه يدمج المعرفة من قواعد بيانات خارجية لتعزيز دقة وموثوقية النماذج LLM. دعونا نلقي نظرة أقرب على كيفية جعل RAG النماذج LLM أكثر دقة وموثوقية. سنناقش أيضًا ما إذا كان RAG يمكن أن يعطل بشكل فعال مشكلة هلوسات LLM.

فهم هلوسات LLM: الأسباب والأمثلة

النماذج LLM، بما في ذلك النماذج الشهيرة مثل ChatGPT وChatGLM وClaude، يتم تدريبها على مجموعات بيانات نصية واسعة النطاق، لكنها ليست محصنة ضد إنتاج مخرجات غير دقيقة، وهو ظاهرة تسمى “هلوسات”. تحدث هلوسات لأن النماذج LLM يتم تدريبها على إنشاء استجابات ذات معنى بناءً على قواعد اللغة الأساسية، بغض النظر عن دقتها الواقعية.

وجدت دراسة Tidio bahwa 72٪ من المستخدمين يعتقدون أن النماذج LLM موثوقة، بينما 75٪ تلقوا معلومات غير صحيحة من الذكاء الاصطناعي على الأقل مرة واحدة. حتى النماذج LLM الأكثر وعدًا مثل GPT-3.5 وGPT-4 يمكنها في بعض الأحيان إنتاج محتوى غير دقيق أو غير منطقي.

هنا نظرة عامة سريعة على أنواع هلوسات LLM الشائعة:

أنواع هلوسات الذكاء الاصطناعي الشائعة:

الخلط بين المصادر: يحدث هذا عندما يدمج النموذج تفاصيل من مصادر متعددة، مما يؤدي إلى تناقضات أو حتى مصادر مفبركة.
الأخطاء الواقعية: قد تنتج النماذج LLM محتوى غير دقيق من الناحية الواقعية، خاصة مع وجود عدم دقة متأصل في الإنترنت
المعلومات غير المنطقية: تتنبأ النماذج LLM بالكلمة التالية بناءً على الاحتمالية. يمكن أن يؤدي هذا إلى نص صحيح من الناحية النحوية ولكن بدون معنى، مما يضلل المستخدمين حول سلطة المحتوى.

في العام الماضي، واجه两个 محامي إمكانية فرض عقوبات عليهم للاستشهاد بستة قضايا غير موجودة في وثائقهم القانونية، بعد أن أضللهم محتوى تم إنشاؤه بواسطة ChatGPT. هذا المثال يبرز أهمية النظر إلى محتوى النماذج LLM بeye ناقد، مما يؤكد على الحاجة إلى التحقق لضمان الموثوقية. بينما يساعد سعه إبداعية في التطبيقات مثل رواية القصص، يطرح تحديات لل任务 التي تتطلب اتباعًا صارمًا للحقائق، مثل إجراء البحث الأكاديمي، وكتابة تقارير التحليل الطبي والمالي، وتقديم المشورة القانونية.

استكشاف الحل لهلوسات LLM: كيف يعمل التوليد المُحسَّن بالاسترجاع (RAG)

في عام 2020، قدم باحثو النماذج LLM تقنية تسمى التوليد المُحسَّن بالاسترجاع (RAG) لتخفيف هلوسات LLM من خلال دمج مصدر بيانات خارجي. على عكس النماذج LLM التقليدية التي تعتمد فقط على المعرفة المُتدرب عليها مسبقًا، تنتج نماذج LLM التي تعتمد على RAG استجابات دقيقة من الناحية الواقعية عن طريق استرجاع المعلومات ذات الصلة ديناميكيًا من قاعدة بيانات خارجية قبل الإجابة على الأسئلة أو توليد النص.

تفكيك عملية RAG:

خطوات RAG

خطوات عملية RAG: المصدر

الخطوة 1: الاسترجاع

يبحث النظام في قاعدة معارف محددة عن معلومات تتعلق بالاستفسار المستخدم. على سبيل المثال، إذا سأل شخص ما عن الفائز الأخير بكأس العالم لكرة القدم، فإنه يبحث عن معلومات كرة قدم أكثر صلة.

الخطوة 2: التعزيز

يتم بعد ذلك تحسين الاستفسار الأصلي بالمعلومات الموجودة. باستخدام مثال كرة القدم، يتم تحديث الاستفسار “من هو الفائز بكأس العالم لكرة القدم؟” بالتفاصيل المحددة مثل “فازت الأرجنتين بكأس العالم لكرة القدم”.

الخطوة 3: التوليد

مع الاستفسار المتحسن، تنتج النموذج LLM استجابة مفصلة ودقيقة. في حالتنا، سيتوليد استجابة بناءً على المعلومات المُحسَّنة حول فوز الأرجنتين بكأس العالم.

يساعد هذا الأسلوب في تقليل عدم الدقة وضمان أن استجابات النموذج LLM أكثر موثوقية وأصالة في البيانات.

المنافع والعيوب من RAG في تقليل الهلوسات

أظهر RAG وعدًا في تقليل الهلوسات من خلال إصلاح عملية التوليد. يسمح هذا الآلية بنماذج RAG بتقديم معلومات أكثر دقة ومواكبة للأحداث ومORE ذات صلة بالسياق.

من المؤكد أن مناقشة التوليد المُحسَّن بالاسترجاع (RAG) بمعنى أوسع يسمح بفهم أوسع لمنافعها وقيودها عبر مختلف التنفيذات.

منافع RAG:

بحث أفضل للمعلومات: يجد RAG بسرعة المعلومات الدقيقة من مصادر البيانات الكبيرة.
تحسين المحتوى: يخلق محتوى واضحًا ومتوافقًا مع ما يحتاجه المستخدمون.
استخدام مرن: يمكن للمستخدمين تعديل RAG ليناسبوا متطلباتهم الخاصة، مثل استخدام مصادر البيانات الخاصة بهم، مما يعزز الفعالية.

تحديات RAG:

يتطلب بيانات محددة: يمكن أن يكون فهم سياق الاستفسار بدقة لتقديم معلومات ذات صلة ودقيقة أمرًا صعبًا.
التنقل: يمكن أن يكون توسيع النموذج لاستيعاب مجموعات بيانات كبيرة واستفسارات مع الحفاظ على الأداء صعبًا.
التحديث المستمر: يمكن أن يكون تحديث قاعدة البيانات المعرفة تلقائيًا بالمعلومات الأحدث أمرًا مرهقًا للموارد.

استكشاف البدائل ل RAG

إلى جانب RAG، هناك بعض الأساليب الواعدة الأخرى التي تمكن باحثو النماذج LLM من تقليل الهلوسات:

G-EVAL: يتحقق من دقة المحتوى المُولَّد مع مجموعة بيانات موثوقة، مما يعزز الموثوقية.
SelfCheckGPT: يتحقق تلقائيًا من أخطائه ويعالجها لضمان دقة ومواكبة الإخراج.
هندسة الاستمطة: تساعد المستخدمين على تصميم استمطات الدخول الدقيقة لتوجيه النماذج نحو استجابات دقيقة وذات صلة.
التحسين الدقيق: يعدل النموذج لبيانات محددة للمهمة لتحسين الأداء في مجال معين.
LoRA (التكيف منخفض الرتبة): يعدل جزءًا صغيرًا من معاملات النموذج للتكيف مع المهمة، مما يعزز الكفاءة.

تسلط استكشاف RAG وبدائله الضوء على النهج الديناميكي والمتعدد الجوانب لتحسين دقة وموثوقية النماذج LLM. مع تقدمنا، فإن الابتكار المستمر في تقنيات مثل RAG ضروري لمواجهة التحديات المتأصلة في هلوسات LLM.

للحصول على آخر التطورات في مجال الذكاء الاصطناعي والتعلم الآلي، بما في ذلك التحليلات والاخبار العميقة، زوروا unite.ai.