قادة الفكر
كيف يمكن أن يreason LLMs بشكل فعلي عبر مشاكل معقدة؟
تم تقديم وتطور الذكاء الاصطناعي التوليدي بسرعة وانتشار كبيرين لدرجة أنه من الصعب حقًا تقدير التأثير الكبير الذي أحدثته هذه التقنية على حياتنا.
التراجع إلى ثلاث سنوات فقط. نعم، كان الذكاء الاصطناعي يصبح أكثر انتشارًا، على الأقل في النظرية. كان أكثر الناس يعرفون بعض الأشياء التي يمكنه القيام بها، على الرغم من أن هناك سوء فهم كبير حول قدرات الذكاء الاصطناعي. بطريقة ما، تم إعطاء التكنولوجيا في نفس الوقت لا يكفي ولا يكفي من الائتمان لما يمكن أن تحققه بالفعل. ومع ذلك، يمكن للشخص العادي أن يشير إلى منطقة أو منطقة واحدة على الأقل حيث يعمل الذكاء الاصطناعي، ويؤدي مهام متخصصة للغاية بشكل جيد، في بيئات خاضعة للرقابة. أي شيء آخر كان إما لا يزال في مختبر البحث، أو ببساطة لم يكن موجودًا.
قارن ذلك باليوم. مع مهارات لا تزيد على القدرة على كتابة جملة أو طرح سؤال، العالم في أمتنا. يمكننا توليد صور وموسيقى وأفلام فريدة ومرئية، ولديها القدرة على تعطيل صناعات كاملة. يمكننا تعزيز عملية محرك البحث، وطرح سؤال بسيط إذا تم صياغته بشكل صحيح، يمكن أن يولد صفحات من المحتوى المخصص جيدًا بما يكفي لتمريره كعالم من جامعة مدربة … أو طالب دراسات أولية إذا قمنا بتحديد نقطة الظر. بينما أصبحت هذه القدرات في غضون سنة أو سنتين شائعة، كانت تعتبر مستحيلة تمامًا قبل بضع سنوات فقط. كان مجال الذكاء الاصطناعي التوليدي موجودًا ولكن لم يأخذ بعين الاعتبار.
اليوم، قام العديد من الأشخاص بتجربة الذكاء الاصطناعي التوليدي مثل ChatGPT أو Midjourney أو أدوات أخرى. قام آخرون بتضمينهم في حياتهم اليومية. سرعة تطورهم هي سريعة لدرجة أن تكون قريبة من أن تكون مخيفة. ونظرًا للتقدم الذي تم إحرازه خلال الأشهر الستة الماضية، من دون شك سنكون مدحوكة، مرة بعد مرة، في السنوات القليلة القادمة.
أداة محددة في اللعب داخل الذكاء الاصطناعي التوليدي هي أداء أنظمة التوليد المعزز بالاسترجاع (RAG)، وقدرتهم على التفكير من خلال استعلامات معقدة بشكل خاص. تقديم مجموعة بيانات FRAMES، كما هو موضح في التفاصيل في مقال حول كيفية عمل مجموعة البيانات للتقييم، يظهر كل من حالة الفن الحالية وأين تتجه. حتى منذ تقديم FRAMES في أواخر عام 2024، قام عدد من المنصات بتحطيم سجلات جديدة علىقدرتهم على التفكير من خلال استعلامات صعبة ومعقدة.
دعونا نغوص في ما تم تصميم FRAMES لتقييمه وكيف يؤدي نماذج الذكاء الاصطناعي التوليدي بشكل جيد. يمكننا رؤية كيف تتيح لنا المنصات اللامركزية والمنفتحة على المصدر للمستخدمين الحصول على نظرة واضحة على التفكير المذهل الذي يمكن أن تحققه بعض نماذج الذكاء الاصطناعي.
FRAMES كمنفذ إلى دماغ GenAI
تركز مجموعة بيانات FRAMES وعملية التقييم على 824 سؤال “متعدد القفزات” مصمم ليتطلب الاستدلال والاتصال المنطقي، واستخدام عدة مصادر مختلفة لاسترجاع المعلومات الرئيسية، والقدرة على ربطها منطقيًا ل回答 السؤال. تحتاج الأسئلة إلى ما بين وثائق 2 و 15 ل回答ها بشكل صحيح، وتتضمن أيضًا قيودًا وعمليات رياضية واستدلالات، بالإضافة إلى القدرة على معالجة المنطق الزمني. بعبارة أخرى، هذه الأسئلة صعبة للغاية وت представ حقيقيًا لمهام البحث التي قد يقوم بها الإنسان على الإنترنت. نحن نتعامل مع هذه التحديات دائمًا، ويجب أن نبحث عن القطع الرئيسية للمعلومات المبعثرة في بحر مصادر الإنترنت، وربط المعلومات معًا بناءً على مواقع مختلفة، وإنشاء معلومات جديدة من خلال الحساب والاستدلال، وفهم كيفية توحيد هذه الحقائق في إجابة صحيحة للسؤال.
ما وجدته الباحثون عند إطلاق مجموعة البيانات لأول مرة واختبارها هو أن أفضل نماذج GenAI كانت قادرة على أن تكون دقيقة إلى حد ما (حوالي 40٪) عندما كان عليهم الإجابة باستخدام طرق واحدة، ولكن يمكنهم تحقيق دقة 73٪ إذا سمح لهم بجمع جميع الوثائق اللازمة للإجابة على السؤال. نعم، قد لا يبدو 73٪ مثل الثورة. ولكن إذا كنت تفهم بالضبط ما يجب الإجابة عليه، يصبح الرقم أكثر إثارة للإعجاب.
على سبيل المثال، أحد الأسئلة هو: “في أي سنة ولد قائد الفرقة التي أدت الأغنية الأصلية التي عينت في أغنية كيني ويست “القوة”؟” كيف سيتعامل الإنسان مع حل هذه المشكلة؟ قد يرى الشخص أنهم بحاجة إلى جمع عناصر معلومات مختلفة، مثل كلمات أغنية كيني ويست “القوة”، ثم القدرة على النظر إلى الكلمات وتحديد النقطة في الأغنية التي عينت فعلا أغنية أخرى. يمكننا كبشر أن نستمع إلى الأغنية (حتى لو كنا غير مألوفين بها) ونكون قادرين على معرفة متى يتم عينة أغنية أخرى.
ولكن فكر في الأمر: ما الذي يجب على GenAI أن ينجزه لاكتشاف أغنية أخرى غير الأصلية أثناء “استماع” لها؟ هذا هو المكان الذي يصبح فيه السؤال البسيط اختبارًا ممتازًا للذكاء الاصطناعي الحقيقي. وإذا كنا قادرين على العثور على الأغنية، والاستماع إليها، وتحديد الكلمات التي تمت عينتها، فهذا只是 الخطوة 1. لا نزال بحاجة إلى معرفة ما هي اسم الأغنية، وما هي الفرقة، ومن هو قائد الفرقة، ثم ما هي سنة ميلاد هذا الشخص.
تظهر FRAMES أن ل回答 الأسئلة الواقعية، هناك حاجة إلى كمية هائلة من معالجة الفكر. هناك أمران يأتيان إلى الذهن هنا.
أولاً، القدرة على الذكاء الاصطناعي اللامركزي GenAI منافسة، بل محتملة لتسيد النتائج، هو أمر رائع. هناك عدد متزايد من الشركات التي تستخدم الطريقة اللامركزية لتوسيع قدرات المعالجة، مع ضمان أن يمتلك المجتمع الكبير البرمجيات، وليس صندوق أسود مركزي لن يشارك تقدمه. الشركات مثل Perplexity و Sentient تقود هذه الاتجاه، كل منها بهذه النماذج القوية التي تؤدي بأكثر من دقة السجلات الأولى عند إطلاق FRAMES.
العنصر الثاني هو أن عددًا صغيرًا من هذه نماذج الذكاء الاصطناعي لا يزال لامركزيًا، بل مفتوح المصدر. على سبيل المثال، Sentient Chat هو كلاهما، وتبين الاختبارات المبكرة مدى تعقيد تفكيره، بفضل الوصول القيم إلى المصدر المفتوح. يتم الإجابة على سؤال FRAMES السابق باستخدام نفس عملية التفكير التي يستخدمها الإنسان، وتفاصيل التفكير متاحة للمراجعة. ربما يكون الأمر الأكثر إثارة للاهتمام هو أن منصة Sentient Chat مهيأة كعدد من النماذج التي يمكنها تعديل منظور ومؤشر أداء معين، حتى لو أدى عملية التعديل في بعض نماذج GenAI إلى تقليل الدقة. في حالة Sentient Chat، تم تطوير العديد من النماذج. على سبيل المثال، نموذج حديث يسمى “Dobby 8B” يمكنه أن يتفوق على معيار FRAMES، ويتطور إلى موقف متميز من دعم العملات الرقمية وحرية، مما يؤثر على منظور النموذج أثناء معالجة قطع المعلومات وتطوير إجابة.
على الأفق
المفتاح لجميع هذه الابتكارات الرائعة هو السرعة السريعة التي أتت إلينا. يجب أن ندرك أن هذه التكنولوجيا تطورت بسرعة كبيرة، وستتطور بسرعة أكبر في المستقبل القريب. سنكون قادرين على رؤية، خاصة مع نماذج GenAI اللامركزية ومفتوحة المصدر، العتبة الحاسمة حيث يبدأ ذكاء النظام في تجاوز ذكائنا أكثر فأكثر، وماذا يعني ذلك للمستقبل.












