قادة الفكر
عندما تفكر الذكاء الاصطناعي مثل البشر: استكشاف عقل LLMs والوكلاء

اليوم ، يتعلم LLMs والوكلاء ويحللون ويتخذون قرارات بطريقة يمكن أن تُبهم الخط الفاصل بين التفكير الخوارزمي و العقل البشري. النهج التي تم بناؤها عليها بالفعل تقلد عملياتنا الإدراكية ، ومقياس تدريبها يتجاوز الخبرة البشرية بأوامر من حيث الحجم. هذا يثير السؤال: هل نحن نخلق أداة توسع قدراتنا ، أو نحن ننشئ نوعًا جديدًا من العقل الذي لا تزال عواقبه غير قابلة للتنبؤ؟
كيف تفكر النماذج
من المهم التمييز بين مفاهيم LLMs والوكلاء. لتحديد تمثيلية مع جهاز كمبيوتر ، يمكن مقارنة LLM بواحدة من مكوناته ، على سبيل المثال ، المعالج. ومع ذلك ، فإن الوكيل هو النظام بأكمله ، “لوحة أم” يرتبط بها وحدات مختلفة: الذاكرة ، وكارت الرسومات ، والشبكة. وبالمثل ، فإن الوكيل هو نظام معقد يمكن أن يدمج واحدًا أو أكثر من LLMs ، مع آليات اتخاذ القرار وأدوات للتفاعل مع البيئة الخارجية.
إذا كنا ننظر إلى عمل LLM واحد ، فإن كل شيء ي归 إلى مطابقة الأنماط. ومع ذلك ، عندما يربط الوكيل عدة LLMs ، يمكننا القول إنه “يفكر” ، على الرغم من أن هذا العملية لا تزال مبنية على الأنماط. الوكيل يبني منطق التفاعل بين النماذج: على سبيل المثال ، يتحليل LLM واحد المهمة ، و根据 هذا التحليل ، يحدد الوكيل ما الإجراء الذي يجب على LLM آخر أداؤه.
العقل البشري يعمل بطريقة مماثلة: نعتمد على المعرفة والأنماط المتراكمة ، نختارها في اللحظة المناسبة ، نمتلكها ، ونصيغ الاستنتاجات. هذه العملية تسمى الاستدلال.
ChatGPT ، مثل الإنسان ، لديه نوعان من الذاكرة: قصيرة الأمد وطويلة الأمد. الفرق هو أن الوصول إلى مستويات الذاكرة هذه أكثر تعقيدًا في البشر وليس دائمًا خطيًا.
الذاكرة القصيرة الأمد هي المعلومات التي نعمل عليها الآن. لشخص ، قد تكون ما قلتها قبل خمس دقائق: قد يتذكرها أو لا. ومع ذلك ، ChatGPT دائمًا ما يأخذ في الاعتبار كل شيء داخل “نافذة السياق” – لا يمكنه تخطي أو تجاهل هذه البيانات.
الذاكرة طويلة الأمد في البشر تتكون من ذكريات ليست دائمًا نشطة وقد تظهر فقط مع محفزات محددة: ذكريات الطفولة ، أو صدمة ، أو ، على سبيل المثال ، العمل مع عالم نفس. ChatGPT لديه منطق مماثل: لا “يتذكر” المعلومات تلقائيًا إلا إذا تم تنشيطه بشكل محدد. على سبيل المثال ، تعليمات مثل “لا تسألني هذا السؤال مرة أخرى” أو “دائمًا خاطبي بشكل رسمي” يمكن تخزينها في الذاكرة طويلة الأمد وتطبيقها خلال كل جلسة.
مثال آخر للذاكرة طويلة الأمد هو المستندات المحفوظة. افترض أنك قمت بتحميل تعليمات إلى ChatGPT لconducting بحث تسويقي. يمكن للنموذج تخزينها في الذاكرة ، ولكن هذا لا يعني أنه سيرجع إلى ذلك المستند مع كل سؤال. إذا سألت ، “هل يمكنك توجيه ضوء على القمر؟” ChatGPT سيتجاهل التعليمات. ولكن إذا كان الطلب يحتوي على كلمات رئيسية تتوافق مع نص المستند ، يمكن للنموذج “تذكر” ذلك.
تتم تنفيذ هذه الآلية من خلال RAG (Retrieval-Augmented Generation) ، وهو نهج حيث يحصل النموذج على الوصول إلى المعلومات المحفوظة من خلال إشارات ذات صلة عبر قواعد بيانات متجهة.
لماذا يشعر الحوار مع الذكاء الاصطناعي أحيانًا بالتأثير العلاجي ، وأحيانًا باردًا وأليًا؟
النماذج اللغوية الحديثة ضخمة للغاية: فهي تحتوي على كمية هائلة من البيانات والمعرفة والسياق. يتم تنظيم كل هذه المعلومات في ما يسمى “المجموعات” ، المناطق المواضيعية والсемантиكية. تم تدريب النموذج على مصادر متنوعة ، من الخيال والمقالات العلمية إلى تعليقات يوتيوب.
عندما تتفاعل مع الذكاء الاصطناعي ، فإن استفسارك (الاستدعاء) يوجه النموذج بشكل فعال إلى مجموعة معينة.
على سبيل المثال ، إذا كتبت: “أنت محامي عقارات في نيويورك مع 20 عامًا من الخبرة ، ساعدني في شراء شقة” ، ينشط النموذج عدة مجموعات في نفس الوقت: محامي → نيويورك → عقارات. ونتيجة لذلك ، تحصل على رد متسق وملائم وواقعي ، كما لو كنت تستشير محترفًا مخضرمًا.
إذا كان الاستفسار يتعلق بمواضيع أكثر شخصنة أو فلسفية ، مثل التطوير الذاتي أو العواطف ، فإن النموذج “يتحرك” إلى مجموعات أخرى ، مثل علم النفس أو الفلسفة أو العمل الداخلي. في هذه الحالة ، قد تظهر إجاباته مفاجئة وذات طابع بشري و حتى علاجي.
ومع ذلك ، مع صياغة عامة أو غامضة ، يgets lost النموذج “يتحير” في هيكل المجموعة ويعطي ردًا افتراضيًا ، رسميًا ، ومحايدًا ، ويتصف بالافتقار إلى النبرة العاطفية.
نمط وعمق رد الذكاء الاصطناعي يعتمد على المجموعة التي توجيهه إليها باستدعائك.
فلسفة تدريب النموذج و RLHF
الذكاء الاصطناعي له نهج مختلف في التعلم. إنه ليس فلسفة بقدر ما هو استراتيجية.
الخيار الكلاسيكي هو التعلم الإشرافي ، حيث يتم إعطاء النموذج سؤال والإجابة الصحيحة. يتعلم من خلال ملاحظة ما يعتبر صحيحًا و ثم إعادة إنتاج حلول مشابهة في المستقبل.
ولكن هناك نهج آخر هو RLHF (Reinforcement Learning from Human Feedback). هذا هو أسلوب مختلف: يحاول النموذج شيئًا ، ويتلقى “مكافأة” على الإجراءات الناجحة ، ويتعديل سلوكه. تدريجيًا ، يطور استراتيجية فعالة.
RLHF يمكن مقارنته بعملية تحويل المادة الخام إلى منتج نهائي. لجعل نموذج يسهل استخدامه ، يتطلب كمية هائلة من العمل مع反馈 بشري.
تخيل أن أريك كائنًا بدون تسميته بشكل مباشر. تتردد: “هل هو حامل سيجارة؟ حامل بطاقات؟” أ 제공 فقط تلميحات مثل: “أقرب” ، “أبعد” ، “60% نعم”. بعد مئات من هذه التكرارات ، تتخمن: “آه ، إنه محفظة.”
LLMs يتم تدريبه بهذه الطريقة. البشر ، المُحَفِظون ، والمختصون بشكل عام ، يقيمون: هذه الإجابة جيدة ، هذه سيئة ، ويعينون درجات. الشركات مثل Keymakr ، والتي تختص في تحرير بيانات عالي الجودة والتحقق ، تلعب دورًا حاسمًا في هذا العملية. يأتي الرد أيضًا من المستخدمين العاديين: الإعجابات ، الشكاوى ، والتفاعلات. النموذج يفسر هذه الإشارات ، ويشكل أنماط سلوكية.
كيف يبدو تدريب النموذج في الممارسة
مثال حي هو تجربة OpenAI لتدريب الوكلاء باستخدام التعلم التعزيزي في لعبة “إخفاء والبحث”.
شاركت فيها فريقان: “الباحثون” (الأحمر) و “المخفيون” (الأزرق). كانت القواعد بسيطة: إذا أمسك باحث مخفيًا ، فإنه يكسب نقطة؛ إذا لم يفعل ، يفقد نقطة. في البداية ، كان الوكلاء يتصرفون بشكل عشوائي ، وكان الإمساك بالمخفيين يحدث بالصدفة. ولكن بعد ملايين التكرارات ، تطور سلوكهم. بدأ المخفيون باستخدام الأشياء المحيطة لمنع الأبواب وبناء الحواجز. هذه المهارات ظهرت بدون برمجة مباشرة ، فقط من خلال المحاولات المتكررة ومكافآت النجاح.
استجاب الباحثون باستخدام القفز ، وهي قدرة متاحة من البداية ولكن تم تجاهلها في السابق. بعد سلسلة من الفشل ، كشفت الاستخدام العشوائي للقفز عن قيمته التكتيكية. ثم جعل المخفيون دفاعاتهم أكثر تعقيدًا ، بإزالة الأشياء من خط رؤية الباحثين وبناء ملاجئ أكثر موثوقية.
أظهرت التجربة أن من خلال مليارات الدورات من المحاولة والخطأ والمكافآت والعقوبات ، يمكن أن تتكون سلوكيات تعاونية معقدة دون تدخل المطور. بالإضافة إلى ذلك ، بدأ الوكلاء في التصرف بالتنسيق ، حتى بدون آليات اتصال تم برمجتها ، ببساطة لأن العمل الجماعي أثبت نفسه أكثر فعالية.
هذا هو قيمة RLHF. بدونها ، يبقى LLM والوكلاء مجرد مكتبة من النصوص. معها ، يصبح شريكًا في المحادثة قادرًا على التكيف وتصحيح نفسه ، و في الأساس ، التطور.
ماذا يأتي بعد ذلك؟
كثير من الناس يتساءلون عما إذا كان تطور LLMs والوكلاء يمكن أن يؤدي إلى عواقب غير مرغوب فيها أو حتى خطيرة.
من المهم أن نفهم أن ما نراه اليوم ليس حتى MVP ، ولكن مجرد نموذج أولي.
الثورة الحقيقية لن تكون حول مساعدة كتابة رسالة جميلة أو ترجمتها إلى الفرنسية. هذه أشياء صغيرة. الاتجاه الرئيسي هو توفير المهام الصغيرة والعمليات الروتينية ، تاركًا البشر فقط المهام الإبداعية الحقيقية أو الفكرية أو وقت الراحة.
الابتكارات الحقيقية تركز حول الوكلاء ، الأنظمة التي يمكنها التفكير والتصرف واتخاذ القرارات بدلاً من شخص. هذا هو بالضبط حيث تركز الشركات مثل OpenAI و Google و Meta وغيرها جهودها اليوم.
النماذج اللغوية الكبيرة هي فقط الأساس. المستقبل الحقيقي يكمن في الوكلاء المدربين على العيش في عالم ديناميكي ، و Receipt من الردود وتكيف مع التغييرات.












