الذكاء الاصطناعي

معيار ميشيلانجلو من ديب مايند: كشف حدود النماذج اللغوية الكبيرة ذات السياق الطويل

Published October 17, 2024

Updated April 27, 2026

Dr. Assad Abbas

DeepMind Michelangelo Benchmark LLM limits

مع استمرار تقدم الذكاء الاصطناعي (AI)، أصبحت القدرة على معالجة وفهم تسلسلات المعلومات الطويلة أكثر أهمية. يتم استخدام أنظمة الذكاء الاصطناعي الآن لمهام معقدة مثل تحليل المستندات الطويلة، ومواكبة المحادثات الممتدة، ومعالجة كميات كبيرة من البيانات. ومع ذلك، يعاني العديد من النماذج الحالية من صعوبات في الاستدلال بالسياق الطويل. عند طول المدخلات، غالبًا ما تفقد تفاصيل مهمة، مما يؤدي إلى نتائج أقل دقة أو انسجامًا.

هذه القضية مشكلة خاصة في قطاعات الرعاية الصحية والخدمات القانونية والمالية، حيث يجب على أدوات الذكاء الاصطناعي التعامل مع مستندات مفصلة أو مناقشات طويلة أثناء تقديم استجابات دقيقة وواعية بالسياق. تحدي شائع هو انجراف السياق، حيث تفقد النماذج رؤية المعلومات السابقة عند معالجة مدخلات جديدة، مما يؤدي إلى نتائج أقل صلة.

لمعالجة هذه القيود، طوّر ديب مايند معيار ميشيلانجلو. هذا الأداة تختبر بدقة كيف تدير نماذج الذكاء الاصطناعي الاستدلال بالسياق الطويل. مستوحى من الفنان ميشيلانجلو، المعروف بكشفه النحت المعقد من كتلة رخامية، يساعد المعيار على اكتشاف كيف يمكن لنماذج الذكاء الاصطناعي استخراج أنماط معنوية من مجموعات بيانات كبيرة. من خلال تحديد أين تفشل النماذج الحالية، يؤدي معيار ميشيلانجلو إلى تحسينات مستقبلية في قدرة الذكاء الاصطناعي على الاستدلال عبر سياقات طويلة.

فهم الاستدلال بالسياق الطويل في الذكاء الاصطناعي

الاستدلال بالسياق الطويل يتعلق بقدرة نموذج الذكاء الاصطناعي على البقاء متسقًا ودقيقًا عبر تسلسلات نصية أو برمجية أو محادثات طويلة. تعمل نماذج مثل GPT-4 وPaLM-2 بشكل جيد مع مدخلات قصيرة أو متوسطة الطول. ومع ذلك، تواجه صعوبات مع سياقات أطول. عند زيادة طول المدخلات، غالبًا ما تفقد هذه النماذج رؤية التفاصيل الأساسية من الأجزاء السابقة. هذا يؤدي إلى أخطاء في الفهم أو تلخيص أو اتخاذ القرارات. تعرف هذه القضية باسم قيود نافذة السياق. تقل قدرة النموذج على الاحتفاظ بمعلومات ومعالجتها مع نمو السياق.

هذه مشكلة كبيرة في التطبيقات العملية. على سبيل المثال، في الخدمات القانونية، تحليل نماذج الذكاء الاصطناعي العقود أو الدراسات القضائية أو اللوائح التي يمكن أن تكون مئات الصفحات طويلة. إذا كانت هذه النماذج لا تستطيع الاحتفاظ وفهم هذه الوثائق الطويلة، فقد تفقد شروطًا أساسية أو تفسر المصطلحات القانونية بشكل خاطئ. هذا يمكن أن يؤدي إلى نصائح أو تحليلات غير دقيقة. في مجال الرعاية الصحية، تحتاج أنظمة الذكاء الاصطناعي إلى تحليل سجلات المرضى وتأريخها الطبي وخطط العلاج التي تمتد لسنوات أو حتى عقود. إذا لم يكن النموذج قادرًا على استدعاء المعلومات الحيوية من السجلات السابقة بدقة، فقد يوصي بعلاجات غير مناسبة أو يخطئ في تشخيص المرضى.

على الرغم من الجهود المبذولة لتحسين حدود الرموز (مثل GPT-4 التي تتعامل مع ما يصل إلى 32,000 رمز، حوالي 50 صفحة من النص)، يبقى الاستدلال بالسياق الطويل تحديًا. مشكلة نافذة السياق تقيد كمية المدخلات التي يمكن للنموذج التعامل معها وتؤثر على قدرته على الحفاظ على الفهم الدقيق على طول تسلسل المدخلات. هذا يؤدي إلى انجراف السياق، حيث يتذكر النموذج تدريجيًا تفاصيل سابقة مع تقديم معلومات جديدة. هذا يقلل من قدرته على توليد مخرجات متسقة ومرتبطة.

معيار ميشيلانجلو: المفهوم والمنهج

يستهدف معيار ميشيلانجلو تحديات الاستدلال بالسياق الطويل من خلال اختبار نماذج الذكاء الاصطناعي على مهام تتطلب منها الاحتفاظ ومعالجة المعلومات عبر تسلسلات بيانات ممتدة. على عكس المعايير السابقة، التي تركز على مهام السياق القصير مثل استكمال الجملة أو الإجابة الأساسية على الأسئلة، يركز معيار ميشيلانجلو على مهام تتحدي النماذج للاستدلال عبر تسلسلات بيانات طويلة، غالبًا مع معلومات غير相关 أو مضلة.

يستخدم معيار ميشيلانجلو إطار استفسارات الهياكل الكامنة (LSQ) لتحدي نماذج الذكاء الاصطناعي. يتطلب هذا الأسلوب من النماذج العثور على أنماط معنوية في مجموعات بيانات كبيرة مع تصفية المعلومات غير المرتبطة، مشابهة لما يفعله البشر عند فرز البيانات المعقدة للتركيز على ما هو مهم. يركز المعيار على两个 مجال رئيسي: اللغة الطبيعية والبرمجة، ويقدم مهام تختبر أكثر من مجرد استرجاع البيانات.

واحدة من المهام المهمة هي مهمة القائمة الكامنة. في هذه المهمة، يُمنح النموذج تسلسل من عمليات قائمة بايثون، مثل إضافة أو إزالة أو فرز عناصر، ثم يُطلب منه إنتاج القائمة النهائية الصحيحة. لجعل المهمة أكثر صعوبة، تتضمن المهمة عمليات غير相关ة، مثل عكس القائمة أو إلغاء الخطوات السابقة. هذا يختبر قدرة النموذج على التركيز على العمليات الحيوية، مما ي模ّل كيفية تعامل أنظمة الذكاء الاصطناعي مع مجموعات بيانات كبيرة ذات صلة متغيرة.

مهمة أخرى حاسمة هي حل المراجع المتعددة الجولة (MRCR). تقيس هذه المهمة مدى قدرة النموذج على تتبع المراجع في محادثات طويلة مع مواضيع متداخلة أو غير واضحة. التحدي هو ربط المراجع التي تُجرى في نهاية المحادثة بالنقاط السابقة، حتى عندما تكون هذه المراجع مخفية تحت تفاصيل غير相关ة. ت反映 هذه المهمة المناقشات في العالم الواقعي، حيث غالبًا ما تتغير المواضيع، ويجب على الذكاء الاصطناعي تتبع المراجع بدقة للحفاظ على التواصل المنسق.

بالإضافة إلى ذلك، يحتوي ميشيلانجلو على مهمة IDK، التي تختبر قدرة النموذج على التعرف على عندما لا يمتلك معلومات كافية للإجابة على سؤال. في هذه المهمة، يُقدم النموذج نصًا قد لا يحتوي على المعلومات ذات الصلة للإجابة على استفسار معين. التحدي هو أن يحدد النموذج الحالات التي يكون فيها الاستجابة الصحيحة “أنا لا أعرف” بدلاً من تقديم إجابة مقبولة ولكن خاطئة. ت反映 هذه المهمة جانبًا حاسمًا من موثوقية الذكاء الاصطناعي – التعرف على عدم اليقين.

من خلال مهام مثل هذه، يتجاوز ميشيلانجلو المعالجة البسيطة لاختبار قدرة النموذج على الاستدلال والتوليف وإدارة المدخلات ذات السياق الطويل. يقدم معيارًا قابلًا للتطوير واصطناعيًا غير مسرب للاستدلال بالسياق الطويل، مما يوفر مقياسًا أكثر دقة لحالة النماذج اللغوية الكبيرة الحالية و потенسيالها المستقبلي.

الآثار على أبحاث وتطوير الذكاء الاصطناعي

النتائج من معيار ميشيلانجلو لها آثار كبيرة على كيفية تطوير الذكاء الاصطناعي. يُظهر المعيار أن النماذج اللغوية الكبيرة الحالية تحتاج إلى هندسة أفضل، خاصة في آليات الانتباه وأنظمة الذاكرة. حاليًا، تعتمد معظم النماذج اللغوية الكبيرة على آليات الانتباه الذاتي. هذه الآليات فعالة للمهام القصيرة ولكنها تواجه صعوبات عند نمو السياق. هنا نرى مشكلة انجراف السياق، حيث ينسى النموذج أو يخلط بين التفاصيل السابقة. ل解决 هذا، يبحث الباحثون في نماذج مدعمة بالذاكرة. هذه النماذج يمكنها تخزين المعلومات الهامة من أجزاء سابقة من المحادثة أو المستند، مما يسمح للذكاء الاصطناعي بالتذكر واستخدامها عند الحاجة.

منهج واعد آخر هو المعالجة الهرمية. يسمح هذا الأسلوب للذكاء الاصطناعي بتقسيم المدخلات الطويلة إلى أجزاء صغيرة قابلة للإدارة، مما يساعده على التركيز على التفاصيل الأكثر صلة في كل خطوة. بهذه الطريقة، يمكن للنموذج التعامل مع المهام المعقدة بشكل أفضل دون أن يُغمر بمعلومات زائدة في نفس الوقت.

سوف يؤدي تحسين الاستدلال بالسياق الطويل إلى تأثير كبير. في مجال الرعاية الصحية، يمكن أن يعني هذا تحليلًا أفضل لسجلات المرضى، حيث يمكن للذكاء الاصطناعي تتبع تاريخ المريض بمرور الوقت وطرح توصيات علاجية أكثر دقة. في الخدمات القانونية، يمكن أن تؤدي هذه التطورات إلى أنظمة ذكاء اصطناعي قادرة على تحليل العقود الطويلة أو التشريعات بدرجة أعلى من الدقة، مما يوفر رؤى أكثر موثوقية للمحامين والمهنيين القانونيين.

然而، مع هذه التطورات تأتي مخاوف إثارية حاسمة. مع تحسن الذكاء الاصطناعي في الاحتفاظ والاستدلال بالسياقات الطويلة، هناك خطر كشف المعلومات الحساسة أو الخاصة. هذا قلق حقيقي لقطاعات مثل الرعاية الصحية وخدمة العملاء، حيث تكون السرية حاسمة.

إذا احتفظت نماذج الذكاء الاصطناعي بمعلومات زائدة من التفاعلات السابقة، فقد تكشف عن تفاصيل شخصية في المحادثات المستقبلية. بالإضافة إلى ذلك، مع تحسن الذكاء الاصطناعي في توليد المحتوى الطويل المتقن، هناك خطر استخدامها لإنشاء معلومات خاطئة أو مضللة أكثر تطورًا، مما يزيد من تعقيد تحديات تنظيم الذكاء الاصطناعي.

الخلاصة

كشف معيار ميشيلانجلو عن رؤى حول كيفية تعامل نماذج الذكاء الاصطناعي مع المهام المعقدة ذات السياق الطويل، مع التركيز على نقاط القوة والضعف. هذا المعيار ي推د الابتكار مع تطور الذكاء الاصطناعي، مما يشجع على تحسين هندسة النموذج وأنظمة الذاكرة. الإمكانات المتاحة لتحويل قطاعات مثل الرعاية الصحية والخدمات القانونية مثيرة.

然而، يجب معالجة مخاوف الخصوصية ومعلومات الخاطئة والعدالة مع تحسن الذكاء الاصطناعي في التعامل مع كميات هائلة من المعلومات. يجب أن يظل نمو الذكاء الاصطناعي مرتكزًا على المنفعة المجتمعية بوعي و مسؤولية.

Dr. Assad Abbas

الدكتور أسعد عباس، أستاذ مساعد متفرغ في جامعة كومساطس إسلام آباد، باكستان، حصل على دكتوراه من جامعة نورث داكوتا الحكومية، الولايات المتحدة الأمريكية. يركز بحثه على التكنولوجيا المتقدمة، بما في ذلك الحوسبة السحابية، وحوسبة الضباب، وحوسبة الحافة، وتحليل البيانات الكبيرة، والذكاء الاصطناعي. قدم الدكتور عباس مساهمات كبيرة من خلال المنشورات في المجلات العلمية والمؤتمرات ذات السمعة الطيبة. وهو أيضًا مؤسس MyFastingBuddy.

Unite.AI

معيار ميشيلانجلو من ديب مايند: كشف حدود النماذج اللغوية الكبيرة ذات السياق الطويل

فهم الاستدلال بالسياق الطويل في الذكاء الاصطناعي

معيار ميشيلانجلو: المفهوم والمنهج

الآثار على أبحاث وتطوير الذكاء الاصطناعي

الخلاصة

You may like