Connect with us

أفضل نماذج الذكاء الاصطناعي تائهة في الوثائق الطويلة

الذكاء الاصطناعي

أفضل نماذج الذكاء الاصطناعي تائهة في الوثائق الطويلة

mm

دراسة جديدة من قبل باحثين في LMU Munich و Munich Center for Machine Learning و Adobe Research كشفت عن نقطة ضعف في نماذج لغة الذكاء الاصطناعي: أنها تواجه صعوبات في فهم الوثائق الطويلة بطرق قد تفاجئك. تظهر نتائج فريق البحث أن حتى النماذج الأكثر تقدمًا تعاني من مشاكل في ربط المعلومات عندما لا يمكنها الاعتماد على مطابقة الكلمات البسيطة.

المشكلة الخفية في مهارات القراءة للذكاء الاصطناعي

تخيل محاولة العثور على تفاصيل محددة في ورقة بحثية طويلة. قد تتصفح خلالها ، مما يخلق روابط عقلية بين أقسام مختلفة لتحقيق المعلومات التي تحتاجها. يبدو أن العديد من نماذج الذكاء الاصطناعي لا تعمل بهذا الشكل على الإطلاق. بدلاً من ذلك ، تعتمد بشكل كبير على العثور على مطابقات دقيقة للكلمات ، مشابهة لاستخدام Ctrl + F على جهاز الكمبيوتر.

طور فريق البحث معيارًا جديدًا يسمى NOLIMA (لا يتم المطابقة الحرفية) لاختبار نماذج الذكاء الاصطناعي المختلفة. أظهرت النتائج أن أداء نماذج الذكاء الاصطناعي ينخفضض بشكل كبير عند التعامل مع نصوص أطول من 2000 كلمة. عند الوصول إلى 32000 كلمة – حوالي طول كتاب قصير – يؤدي معظم النماذج بأداء نصف القدرة المعتادة. وشمل ذلك اختبار نماذج رئيسية مثل GPT-4o و Gemini 1.5 Pro و Llama 3.3 70B.

فكر في باحث طبي يستخدم الذكاء الاصطناعي لتحليل سجلات المرضى ، أو فريق قانوني يستخدم الذكاء الاصطناعي لمراجعة وثائق القضايا. إذا فاتت الذكاء الاصطناعي الاتصالات الحاسمة لأن المعلومات ذات الصلة تستخدم كلمات مختلفة عن استعلام البحث ، فإن العواقب يمكن أن تكون كبيرة.

لماذا لا تكفي المطابقة الكلمة?

تعالج نماذج الذكاء الاصطناعي الحالية النص باستخدام شيء يسمى آلية الانتباه. يساعد هذا النظام الذكاء الاصطناعي على التركيز على أجزاء مختلفة من النص لفهم العلاقات بين الكلمات والأفكار. عند العمل مع نصوص أقصر ، يعمل هذا جيدًا. ومع ذلك ، يظهر البحث أن هذا الآلية تصبح محمومة عند طول النص ، خاصة عندما لا يمكنها الاعتماد على مطابقات دقيقة للكلمات.

كشفت اختبار NOLIMA عن هذا القصور من خلال سؤال نماذج الذكاء الاصطناعي أسئلة تتطلب فهم السياق بدلاً من العثور على كلمات مطابقة. كانت النتائج واضحة. في حين أدت النماذج أداء جيدًا مع نصوص قصيرة ، انخفضت قدرتهم على إجراء هذه الاتصالات بشكل كبير مع زيادة طول النص. حتى النماذج المتخصصة المصممة لمهام الاستدلال سجلت أقل من 50٪ دقة عند التعامل مع وثائق أطول.

بدون عكازة المطابقة الكلمة ، عانت نماذج الذكاء الاصطناعي من:

  • ربط المفاهيم المرتبطة التي تستخدم مصطلحات مختلفة
  • متابعة مسارات الاستدلال متعددة الخطوات
  • العثور على المعلومات ذات الصلة عندما تظهر بعد السياق الرئيسي
  • تجاهل مطابقات الكلمات الخادعة في الأقسام غير ذات الصلة

الأرقام تحكي القصة

تظهر نتائج البحث صورة قاتمة حول كيفية تعامل نماذج الذكاء الاصطناعي مع النصوص الأطول. أظهر GPT-4o أداء أقوى ، وحافظ على الفعالية حتى حوالي 8000 رمز (حوالي 6000 كلمة). ومع ذلك ، حتى هذا الأداء القوي أظهر انخفاضًا كبيرًا مع نصوص أطول. انخفض أداء معظم النماذج الأخرى ، بما في ذلك Gemini 1.5 Pro و Llama 3.3 70B ، بشكل حاد بين 2000 و 8000 رمز.

أصبح انخفاض الأداء أكثر وضوحًا عندما تتطلب المهام خطوات متعددة من الاستدلال. على سبيل المثال ، إذا كان النموذج يحتاج إلى إجراء اتصالين منطقيين – مثل فهم أن الشخص يعيش بالقرب من معلم ، وأن هذا المعلم يقع في مدينة معينة – انخفضت نسبة النجاح بشكل كبير. أظهر البحث أن هذا النوع من الاستدلال المتعدد الخطوات أصبح تحديًا خاصًا في النصوص التي تتجاوز 16000 رمز ، حتى عند استخدام تقنيات مصممة لتحسين الاستدلال ، مثل Chain-of-Thought prompting.

ما يجعل هذه النتائج ملحوظة بشكل خاص هو أنها ت挑ل المطالبات بخصوص قدرة نماذج الذكاء الاصطناعي على التعامل مع السياقات الطويلة. في حين يعلن العديد من النماذج عن دعمها لنوافذ سياق موسعة ، يظهر معيار NOLIMA أن الفهم الفعال ينخفضض قبل الوصول إلى هذه الحدود النظرية.

Source: Modarressi et al.

عندما يفقد الذكاء الاصطناعي الغابة من أجل الأشجار

تملك هذه القيود عواقب خطيرة لاستخدامنا للذكاء الاصطناعي في التطبيقات العملية. فكر في نظام قانوني يستخدم الذكاء الاصطناعي للبحث في قانون القضايا. قد يفقد السبق القانوني ذا الصلة ببساطة لأنها تستخدم مصطلحات مختلفة عن استعلام البحث. بدلاً من ذلك ، قد يركز النظام على قضايا أقل صلة التي تحمل كلمات متشابهة مع مصطلحات البحث.

تكون الأثر على البحث وتحليل الوثائق قلقًا بشكل خاص. تعتمد أنظمة البحث التي تعمل بالذكاء الاصطناعي على تقنية تسمى Retrieval-Augmented Generation (RAG). حتى عندما تنجح هذه الأنظمة في استرجاع وثيقة تحتوي على المعلومات الصحيحة ، قد تفشل الذكاء الاصطناعي في التعرف على صلتها إذا كانت الكلمات تختلف عن الاستعلام. بدلاً من ذلك ، قد تنجرف الذكاء الاصطناعي نحو وثائق أقل صلة تحتوي على تشابهات سطحية مع مصطلحات البحث.

للمستخدمين الذكاء الاصطناعي ، تشير هذه النتائج إلى عدة اعتبارات مهمة:

أولا ، من المرجح أن تؤدي الاستعلامات والوثائق القصيرة إلى نتائج أكثر موثوقية. عند العمل مع نصوص أطول ، قد يساعد كسرها إلى مقاطع صغيرة وموجزة في الحفاظ على أداء الذكاء الاصطناعي.

ثانيًا ، يجب على المستخدمين أن يكونوا حذرين بشكل خاص عند طلبهم من الذكاء الاصطناعي إجراء اتصالات عبر أجزاء مختلفة من وثيقة طويلة. تظهر الأبحاث أن نماذج الذكاء الاصطناعي تعاني أكثر عندما تحتاج إلى تجميع المعلومات من أقسام مختلفة ، خاصة عندما لا تكون العلاقة واضحة من خلال مصطلحات مشتركة.

أخيرًا ، تسلط هذه القيود الضوء على أهمية الرقابة البشرية المستمرة. في حين يمكن أن تكون أدوات الذكاء الاصطناعي أداة قوية لمعالجة وتحليل النص ، لا ينبغي الاعتماد عليها كبديل كامل للتحليل البشري للوثائق المعقدة. لا يزال القدرة البشرية على الحفاظ على السياق وإجراء الاتصالات المفاهيمية عبر النصوص الطويلة تفوق قدرات الذكاء الاصطناعي الحالية.

تخدم هذه النتائج كتذكير بأن تقنيات الذكاء الاصطناعي ، على الرغم من التقدم السريع ، لا تزال تعالج المعلومات بطريقة مختلفة جدًا عن البشر. فهم هذه القيود ضروري لاستخدام أدوات الذكاء الاصطناعي بشكل فعال ومعرفة متى يبقى الحكم البشري ضروريًا.

ما يأتي بعد ذلك

فهم قيود قدرة نماذج الذكاء الاصطناعي الحالية على معالجة النصوص الطويلة يفتح أسئلة مهمة حول مستقبل تطوير الذكاء الاصطناعي. كشفت الأبحاث التي تقف وراء معيار NOLIMA أن نهجنا الحالي لمعالجة النص بالذكاء الاصطناعي قد يحتاج إلى تحسين كبير ، خاصة في كيفية تعامل النماذج مع المعلومات عبر مقاطع أطول.

أظهرت الحلول الحالية نجاحًا جزئيًا فقط. تعزز التوجيه المتسلسل للتفكير ، الذي يشجع نماذج الذكاء الاصطناعي على كسر استدلالها إلى خطوات ، الأداء قليلاً. على سبيل المثال ، عند استخدام هذه التقنية ، أظهر Llama 3.3 70B قدرة أفضل على التعامل مع السياقات الأطول. ومع ذلك ، لا يزال هذا النهج يفتقر إلى الكفاية عند التعامل مع نصوص تتجاوز 16000 رمز ، مما يشير إلى أننا بحاجة إلى حلول أكثر جوهرية.

يتطلب آلية الانتباه ، التي تشكل العمود الفقري لمعالجة النص الحالية ، إعادة التفكير. فكر في محاولة إجراء محادثة في غرفة مزدحمة – كلما طالت المحادثة ، أصبح من الصعب الحفاظ على جميع النقاط المهمة التي تم ذكرها في وقت سابق. تواجه نماذج الذكاء الاصطناعي الحالية تحديًا مشابهًا ، ولكن على نطاق أكبر.

ينظر الباحثون في المستقبل إلى عدة اتجاهات واعدة. يركز أحد النهوج على تطوير طرق جديدة للذكاء الاصطناعي لتنظيم وتحديد الأولويات للمعلومات في النصوص الطويلة ، متجاوزًا المطابقة الكلمة البسيطة لفهم الاتصالات المفاهيمية الأعمق. قد يعمل هذا بشكل مشابه لطريقة إنشاء البشر لخرائط عقلية للمعلومات ، ويربط الأفكار بناءً على المعنى بدلاً من المصطلحات المشتركة فقط.

يركز مجال آخر من التطوير على تحسين كيفية تعامل نماذج الذكاء الاصطناعي مع ما يسمى “القفزات الكامنة” – الخطوات المنطقية اللازمة لربط قطع مختلفة من المعلومات. تعاني النماذج الحالية من هذه الاتصالات ، خاصة في النصوص الأطول ، لكن قد تساعدها هياكل جديدة على جسر هذه الفجوة.

لأولئك الذين يعملون مع أدوات الذكاء الاصطناعي اليوم ، تشير هذه النتائج إلى عدة نهوج عملي:

فكر في كسر الوثائق الأطول إلى مقاطع ذات معنى عند العمل مع الذكاء الاصطناعي. يساعد هذا في إنشاء أقسام منطقية تحافظ على السياق المهم. على سبيل المثال ، عند تحليل ورقة بحثية ، قد تحتفظ بفصول الطرق والنتائج معًا لأنها غالبًا ما تحتوي على معلومات متعلقة.

عندما تطلب من الذكاء الاصطناعي تحليل نصوص أطول ، كن محددًا حول الاتصالات التي تريد إجرائها. بدلاً من طرح أسئلة عامة ، اشر إلى الذكاء الاصطناعي نحو العلاقات المحددة التي تريد استكشافها. هذا يساعد على تعويض قيود النموذج الحالية في إجراء هذه الاتصالات بشكل مستقل.

أهم شيء ، احتفظ بتوقعات واقعية حول قدرات الذكاء الاصطناعي مع النصوص الطويلة. في حين يمكن أن تكون هذه الأدوات أداة قوية للعديد من المهام ، لا ينبغي اعتبارها بديلًا كاملًا للتحليل البشري للوثائق المعقدة. لا يزال القدرة البشرية على الحفاظ على السياق وإجراء الاتصالات المفاهيمية عبر النصوص الطويلة تفوق قدرات الذكاء الاصطناعي الحالية.

تفتح الطريق أمام تطوير الذكاء الاصطناعي في هذا المجال ، وهو تحدي ومثير. مع فهم هذه القيود بشكل أفضل ، يمكننا العمل نحو أنظمة ذكاء اصطناعي تفهم حقًا النصوص الطويلة بدلاً من مجرد معالجتها. حتى ذلك الحين ، استخدام الذكاء الاصطناعي بشكل فعال يعني العمل مع قيوده الحالية مع تقدير نقاط قوته.

Alex McFarland هو صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في الذكاء الاصطناعي. وقد تعاون مع العديد من الشركات الناشئة في مجال الذكاء الاصطناعي والمنشورات في جميع أنحاء العالم.