الذكاء الاصطناعي
OpenAgents: منصة مفتوحة لوكلاء اللغة في البرية

لقد أظهرت التطورات الأخيرة أن وكلاء اللغة، وخاصة تلك المبنية على نماذج لغوية كبيرة (LLMs)، لديهم القدرة على أداء مجموعة واسعة من المهام المعقدة في بيئات متنوعة باستخدام اللغة الطبيعية. ومع ذلك، فإن التركيز الأساسي لمعظم أطر عمل وكلاء اللغة حاليًا ينصب على تسهيل إنشاء وكلاء لغة لإثبات المفهوم. غالبًا ما يأتي هذا التركيز مع القليل من الاهتمام أو عدم الاهتمام بالتصميمات على مستوى التطبيق، وكثيرًا ما يهمل إمكانية الوصول إلى هذه العوامل للمستخدمين غير الخبراء.
لسد القيود الحالية التي يواجهها وكلاء اللغة، توصل المطورون إلى إطار عمل OpenAgents، عبارة عن منصة مفتوحة لاستضافة ونشر وكلاء اللغة في البرية، وعبر مجموعة من المهام اليومية. تم بناء إطار عمل OpenAgents حول ثلاثة وكلاء
- وكيل البيانات : يساعد في تحليل البيانات باستخدام أدوات البيانات ولغات الاستعلام مثل SQL أو لغات البرمجة مثل Python.
- وكلاء البرنامج المساعد: يساعد من خلال توفير الوصول إلى أكثر من 200 أداة API مفيدة للمهام اليومية.
- وكلاء الويب : يساعد في تصفح الويب مع الحفاظ على سرية هويتك.
يستخدم إطار عمل OpenAgents واجهة مستخدم ويب مُحسّنة لحالات الفشل الشائعة والاستجابات السريعة في محاولة للسماح للمستخدمين العامين بالتفاعل مع وظائف الوكيل، بينما يقدم في الوقت نفسه للباحثين والمطورين تجربة نشر سلسة على إعداداتهم المحلية. سيكون من الآمن أن نقول إن إطار عمل OpenAgents هو محاولة لتوفير أساس متين لتسهيل التقييمات في العالم الحقيقي، وصياغة وكلاء لغة مبتكرين وفعالين ومتقدمين.
في مقالة اليوم، سنتعمق أكثر في إطار عمل OpenAgents، ونتحدث عن إطار العمل بمزيد من التفصيل. سنتحدث عن عمل الإطار وبنيته، بينما نناقش أيضًا التحديات المشتركة التي نواجهها والنتائج. اذا هيا بنا نبدأ.
OpenAgents ووكلاء اللغة: مقدمة
وكلاء اللغة، في جوهرهم، مشتقون من وكلاء أذكياء. يتم تصور هؤلاء العملاء الأذكياء على أنهم يمتلكون قدرات مستقلة على حل المشكلات، إلى جانب القدرة على استشعار بيئتهم، واتخاذ القرارات، والتصرف وفقًا لذلك. ومع التقدم في النماذج اللغوية الكبيرة، استفاد مجتمع التنمية العالمي من مفهوم الوكلاء الأذكياء وحاملي شهادة الماجستير في القانون لإنشاء وكلاء اللغة. يستخدم هؤلاء الوكلاء برمجة اللغة الطبيعية (NLP) لأداء مجموعة واسعة من المهام المعقدة في بيئات متنوعة، وقد أظهروا مؤخرًا إمكانات ملحوظة.
توفر أطر عمل وكيل اللغة الحالية، مثل Gravitas وChase، في المقام الأول واجهة وحدة تحكم مصممة خصيصًا للمطورين، إلى جانب تطبيقات إثبات المفهوم. ومع ذلك، فإنها غالبًا ما تقيد إمكانية الوصول إلى جمهور أوسع، خاصة أولئك الذين لا يتقنون البرمجة. بالإضافة إلى ذلك، يتم إنشاء معايير الوكيل الحالية بواسطة المطورين بمتطلبات محددة للتقييم الحتمي، خاصة في السيناريوهات التي تتطلب تصفح الويب أو البرمجة أو استخدام الأدوات أو مزيجًا منها.
في محاولة لتطوير الوكلاء الأذكياء واللغويين الذين يدعمون LLM لقاعدة مستخدمين أوسع، قامت الجهات الفاعلة الراسخة مثل OpenAI وMicrosoft بنشر مجموعة من المنتجات المصممة جيدًا، بما في ذلك تحليل البيانات المتقدم، المعروف أيضًا باسم Code Interpreter، والمكونات الإضافية للمتصفح. وعلى الرغم من أن هؤلاء الوكلاء فعالون في وظائفهم، إلا أنهم يقدمون مساعدة محدودة لمجتمع التنمية. ينشأ هذا القيد لأن كود منطق الأعمال وتطبيقات النماذج لم تكن مفتوحة المصدر، مما يعيق فرص المطورين والباحثين في استكشافها بشكل أكبر، فضلاً عن تقييد الوصول المجاني للمستخدمين.
وفي محاولة لمعالجة هذه المشكلة، توصل المطورون إلى وكيل مفتوح، وهي منصة مفتوحة المصدر لاستضافة الوكلاء واستخدامهم، وهي مبنية حاليًا على أساس ثلاثة وكلاء داخليين
- وكيل البيانات : يساعد في تحليل البيانات باستخدام أدوات البيانات ولغات الاستعلام مثل SQL أو لغات البرمجة مثل Python.
- وكلاء البرنامج المساعد: يساعد من خلال توفير الوصول إلى أكثر من 200 أداة API مفيدة للمهام اليومية.
- وكلاء الويب : يساعد في تصفح الويب مع الحفاظ على سرية هويتك.
يوضح الشكل التالي منصة OpenAgents لعامة المستخدمين والمطورين والباحثين.
- بدلاً من استخدام حزمة أو وحدات تحكم موجهة للمبرمجين، يمكن للمستخدمين العامين التفاعل مع الوكلاء الثلاثة في إطار عمل OpenAgents باستخدام واجهة ويب عبر الإنترنت.
- يمكن للمطورين الاستفادة من منطق الأعمال وأكواد البحث التي يوفرها إطار عمل OpenAgents لنشر الواجهة الخلفية والواجهة الأمامية بسلاسة لمزيد من التطويرات.
- يتمتع الباحثون بالمرونة في إنشاء وكلاء لغة جدد من البداية، أو تنفيذ الأساليب المتعلقة بالوكيل باستخدام المكونات والأمثلة المشتركة، وتقييم أدائهم باستخدام واجهة مستخدم الويب.
لتلخيص ذلك، كان المقصود من إطار عمل OpenAgents في الأصل أن يكون منصة شاملة وواقعية لتقييم وكيل اللغة البشري في الحلقة والذي يسمح للمستخدمين بالتفاعل مع هؤلاء الوكلاء لإكمال مجموعة واسعة من المهام، وهؤلاء البشر يتم تخزين وتحليل تفاعلات الوكلاء بالإضافة إلى تعليقات المستخدمين لمزيد من التطوير والتقييم.
بالنسبة لأولئك الذين لا يعلمون ، مطالبة LLM هي عملية تسمح للمطورين بصياغة تعليمات تحمي من المدخلات العدائية أو الخاطئة، وتعزز جماليات المخرجات، وتلبي منطق الواجهة الخلفية. خلال مرحلة التطوير، يستخدم المطورون الذين يعملون على إطار عمل OpenAgents تقنية مطالبة LLM للتأكيد على أهمية تحديد متطلبات التطبيق بشكل فعال. ومع ذلك، لاحظ المطورون قريبًا أن تراكم هذه التعليمات أو مطالبات LLM يمكن أن يكون كبيرًا في بعض الأحيان مما قد يؤثر على قدرات التعامل مع السياق لأطر عمل LLM إلى جانب قيود الرمز المميز. لاحظ المطورون أيضًا أنه من أجل نشر هؤلاء الوكلاء بشكل فعال في العالم الحقيقي، يجب ألا تظهر نماذج الوكلاء أداءً استثنائيًا فحسب، بل يجب أن تكون أيضًا قادرة على معالجة مجموعة واسعة من السيناريوهات التفاعلية في الوقت الفعلي. بالرغم من أطر الوكيل الحالية لقد حصلوا على تغطية الأداء، فإنهم غالبًا ما يتجاهلون اعتبارات العالم الحقيقي خاصة في الوقت الفعلي والتي غالبًا ما تحجب الإمكانات الحقيقية لأطر عمل LLM من خلال مقايضة الاستجابة أو الدقة.
في الشكل التالي، نقوم بمقارنة إطار عمل OpenAgents مباشرة مع الأعمال الحالية المتعلقة بمعايير مفهوم الوكيل وبناء النماذج الأولية.
OpenAgents: تصميم المنصة وتنفيذها
يمكن تقسيم التصميم أو البنية المنهجية لمنصة OpenAgents إلى مكونين أساسيين: واجهة المستخدم، بما في ذلك كلاً من الواجهة الخلفية والواجهة الأمامية، و وكيل اللغة، بما في ذلك الأدوات ونماذج اللغة والبيئات. يوفر إطار عمل OpenAgents واجهة للتواصل بين المستخدمين والوكلاء. تدفق التفاعل في الإطار على النحو التالي.
يستخدم الوكلاء الأدوات المتاحة لهم للتخطيط واتخاذ الإجراءات المطلوبة في البيئات بمجرد تلقي المدخلات من المستخدمين. يتم توضيح البنية أو التصميم المنهجي للإطار في الصورة التالية.
واجهة المستخدم
لقد بذل مطورو إطار عمل OpenAgents الكثير من التفكير والجهد في تطوير ليس فقط واجهة مستخدم عالية الأداء ولكن أيضًا سهلة الاستخدام بعد التعامل مع عدد كبير من الوكلاء المضيفين ومنطق الأعمال القابل لإعادة الاستخدام. ونتيجة لذلك، يفتخر إطار عمل OpenAgents بتقديم الدعم لمجموعة واسعة من المهام الفنية بما في ذلك معالجة الأخطاء، وعمليات الخادم الخلفي، وتدفق البيانات، وأكثر من ذلك بكثير، مع الهدف الأساسي وهو جعل إطار عمل OpenAgents سهل الاستخدام، ولكنه فعال للغاية & صالحة للاستعمال في نفس الوقت.
وكيل اللغة
ضمن إطار عمل OpenAgents، يحتوي وكيل اللغة على ثلاثة مكونات أساسية: واجهة الأداة، ونموذج اللغة، والبيئة نفسها. تعمل طريقة المطالبة المطبقة في إطار عمل OpenAgents على إنشاء عملية تسلسلية ليتبعها الوكلاء والتي تبدأ بها الملاحظة -> المداولة -> العمل. يطالب إطار العمل أيضًا LLM بإنشاء نص قابل للتحليل بكفاءة محسنة، وتتكون واجهة الأداة من محللين يمكنهم ترجمة هذه النصوص القابلة للتحليل التي تم إنشاؤها بواسطة LLM إلى إجراءات قابلة للتنفيذ مثل إجراء مكالمات API أو إنشاء تعليمات برمجية. يتم بعد ذلك تنفيذ هذه الإجراءات بواسطة إطار العمل داخل حدود البيئة المقابلة.
وكلاء OpenAgents
يوجد في قلب OpenAgents ثلاثة وكلاء متميزين: وكيل البيانات التي تساعد في تحليل البيانات باستخدام أدوات البيانات، ولغات الاستعلام مثل SQL، أو لغات البرمجة مثل Python، وكلاء البرنامج المساعد أن يساعد من خلال توفير الوصول إلى أكثر من 200 أداة API مفيدة للمهام اليومية، و وكلاء الويب الذي يساعد في تصفح الويب مع الحفاظ على سرية هويتك. يتمتع هؤلاء الوكلاء بخبرة في المجال الفردي تشبه مكونات ChatGPT الإضافية، ولكن على عكس ChatGPT، يعتمد التنفيذ على OpenAgents بشكل كامل على واجهة برمجة التطبيقات ذات اللغة المفتوحة أو واجهات برمجة التطبيقات.
وكيل البيانات
تم تصميم وكيل البيانات في إطار عمل OpenAgents ونشره بطريقة للتعامل مع مجموعة واسعة من المهام المتعلقة بالبيانات التي يواجهها المستخدمون النهائيون بشكل منتظم. يدعم وكلاء البيانات إنشاء التعليمات البرمجية وتنفيذها بلغتين برمجة هما SQL وPython، ويمتلك الوكيل أيضًا العديد من أدوات البيانات تحت تصرفه بما في ذلك التنميط البيانات لتوفير معلومات البيانات الأساسية، بحث بيانات كاجل للبحث في مجموعات البيانات، و أداة الرسوم البيانية لتخطيط الرسوم البيانية التفاعلية. علاوة على ذلك، يطالب إطار عمل OpenAgents وكيل البيانات باستخدام هذه الأدوات بشكل استباقي للاستجابة بشكل فعال لطلبات المستخدمين النهائيين. بالإضافة إلى ذلك، نظرًا لمتطلبات الترميز الشاملة، يختار إطار عمل OpenAgents نماذج اللغة المضمنة لوكيل البيانات، وبدلاً من الوكيل الذي يقوم بإنشاء التعليمات البرمجية، فإن أدوات مثل Python وECharts وSQL هي التي تنشئ التعليمات البرمجية. باستخدام هذا النهج، يكون الإطار قادرًا على تسخير براعة برمجة نماذج اللغة بشكل كامل، وبالتالي تقليل الضغط على وكيل البيانات.
وبمساعدة أدوات البيانات هذه، يكون وكيل البيانات قادرًا على إدارة العديد من الطلبات التي تتمحور حول البيانات، ويقوم بتصور البيانات ومعالجتها والاستعلامات بكفاءة، وبالتالي يتجاوز حدود إنشاء التعليمات البرمجية والنص. يسلط الشكل التالي الضوء على وكيل البيانات أثناء العمل، والأدوات المتاحة للمستخدمين العاديين.
وكيل الإضافات
تم تصميم وكيل المكونات الإضافية في إطار عمل OpenAgents من قبل المطورين بدقة لتلبية متطلبات المستخدم متعددة الأوجه للمهام اليومية بما في ذلك البحث في الإنترنت أو التسوق عبر الإنترنت أو قراءة الأخبار أو إنشاء مواقع الويب والتطبيقات من خلال توفير الوصول إلى أكثر من 200 مكون إضافي، مع اهتمام خاص يتم الدفع على واجهة استدعاء الوظائف، وأصوات API، وأطوال استجابة API. تتضمن بعض المكونات الإضافية البارزة
- Google بحث
- ولفرام ألفا
- Zapier
- Klarna
- كورسيرا
- تظهر البيانات
- تحدث
- اسأل ملف PDF الخاص بك
- بيزتوك
- Klook
بناءً على احتياجاتهم ومتطلباتهم، يمكن للمستخدمين اختيار عدد المكونات الإضافية التي يريدون أن يستخدمها وكلاء المكونات الإضافية، ويتم توضيح العمل في الشكل أدناه.
علاوة على ذلك، لمساعدة المستخدمين في المواقف التي لا يكونون فيها متأكدين من البرنامج الإضافي الذي يناسب متطلباتهم بشكل أفضل، يوفر إطار عمل OpenAgents للمستخدمين ميزة تقوم تلقائيًا بتحديد المكونات الإضافية الأكثر صلة بتعليماتهم.
وكلاء الويب
يقدم إطار عمل OpenAgents وكيل الويب كأداة متخصصة مكلفة بتعزيز كفاءة وقدرات وكيل الدردشة. على الرغم من أن وكيل الدردشة لا يزال يضم واجهة التفاعل الرئيسية، إلا أنه يدمج وكيل الويب بسلاسة عند الضرورة. يتم بعد ذلك تسليم الرد النهائي إلى المستخدم النهائي بواسطة وكيل الويب، ويتم توضيح العملية في الشكل أدناه.
أثبتت استراتيجية التصميم المطبقة في وكلاء الويب هذه أنها ذات فائدة كبيرة حيث يقوم وكيل الدردشة بمعالجة المعلمات المهمة أو بدء عناوين URL بشكل منهجي، قبل نقلها إلى وكيل الويب، وبالتالي ضمان توافق أفضل بين متطلبات المستخدم والمخرجات التي تم إنشاؤها، وبالتالي مما أدى إلى اتصال واضح. علاوة على ذلك، تتيح الإستراتيجية أيضًا لوكلاء الويب استيعاب استعلامات المستخدم متعددة الطبقات والقابلة للتكيف من خلال استخدام التنقل الديناميكي عبر الويب متعدد المنعطفات إلى جانب حوارات الدردشة. لذلك، من خلال تحديد أدوار ومسؤوليات وكلاء الدردشة والتصفح المتعدد بشكل واضح، فإن إطار عمل OpenAgents يفسح المجال لتحسين وتطوير كل وحدة على حدة.
OpenAgents: التطبيقات العملية والنشر في العالم الحقيقي
في هذا القسم، سنتحدث عن مسار إطار عمل OpenAgents من التنظير إلى النشر في العالم الحقيقي جنبًا إلى جنب مع التحديات التي تمت مواجهتها والتعلم المكتسب جنبًا إلى جنب مع تعقيدات التقييم التي عالجها المطورون.
استخدام المطالبات لتحويل نماذج اللغات الكبيرة إلى تطبيقات واقعية
عند استخدام مطالبات LLM لإنشاء تطبيقات واقعية للمستخدمين النهائيين، يستخدم إطار عمل OpenAgents تعليمات سريعة لتحديد متطلبات معينة. الهدف من بعض التعليمات هو التأكد من أن المخرجات متوافقة مع تنسيق معين، وبالتالي السماح بمعالجة منطق الواجهة الخلفية، في حين أن الهدف من التعليمات الأخرى هو تعزيز المظهر الجمالي للمخرجات، في حين أن الباقي يحمي الإطار من احتمالات حدوث ذلك. الهجمات الخبيثة.
عوامل العالم الحقيقي التي لا يمكن السيطرة عليها
عندما قام المطورون بنشر إطار عمل OpenAgents في العالم الحقيقي، تم الترحيب بهم من خلال مجموعة من عوامل العالم الحقيقي التي لا يمكن السيطرة عليها والتي أثارتها البنية التحتية للإنترنت والمستخدمين ومنطق الأعمال والمزيد. أجبرت هذه العوامل التي لا يمكن السيطرة عليها المطورين على إعادة تقييم بعض الافتراضات وتجاوزها على أساس الأبحاث السابقة، ويمكن أن تؤدي في النهاية إلى مواقف قد لا يكون فيها المستخدمون النهائيون راضين عن الاستجابة التي يولدها إطار العمل.
تعقيد التقييم
على الرغم من أن الوكلاء المُصممين الذين يستهدفون التطبيقات بشكل مباشر قد يكون لديهم تطبيق أوسع، ويسهلون تقييمًا أفضل، إلا أنهم يزيدون من تعقيد بناء التطبيقات التي تعمل بنظام LLM مما يجعل من الصعب تحليل أداء التطبيقات. علاوة على ذلك، فإن هذا النهج يزيد أيضًا من عدم الاستقرار، ويوسع سلسلة النظام ماجستير مما يجعل من الصعب على الإطار التكيف مع المكونات المختلفة. وبالتالي فمن المنطقي تحسين تصميم النظام ومنطق التشغيل لهؤلاء الوكلاء لتبسيط الإجراءات، وضمان المخرجات الفعالة.
الخلاصة
تحدثنا في هذه المقالة عن إطار عمل OpenAgents، وهو عبارة عن منصة مفتوحة لاستضافة ونشر وكلاء اللغة في البرية، وعبر مجموعة من المهام اليومية. تم بناء إطار عمل OpenAgents حول ثلاثة وكلاء: وكيل البيانات، يساعد في تحليل البيانات باستخدام أدوات البيانات، ولغات الاستعلام مثل SQL، أو لغات البرمجة مثل Python، ويساعد Plugin Agents من خلال توفير الوصول إلى أكثر من 200 أداة API مفيدة للمهام اليومية، ويساعد Web Agents في تصفح الويب مع الحفاظ على سرية هويتك . يستخدم إطار عمل OpenAgents واجهة مستخدم ويب مُحسّنة لحالات الفشل الشائعة والاستجابات السريعة في محاولة للسماح للمستخدمين العامين بالتفاعل مع وظائف الوكيل، بينما يقدم في الوقت نفسه للباحثين والمطورين تجربة نشر سلسة على إعداداتهم المحلية. من خلال توفير منصة شفافة وشاملة وقابلة للنشر، يهدف OpenAgents إلى جعل إمكانات LLM متاحة لمجموعة واسعة من المستخدمين لا يقتصرون على الباحثين والمطورين، ولكن أيضًا المستخدمين النهائيين ذوي الخبرة التقنية المحدودة.