أدوات الذكاء الاصطناعي 101

نماذج الإجراء الكبيرة (LAMs): الحدود الجديدة في التفاعل الذي يعتمد على الذكاء الاصطناعي

mm

قبل عام تقريبا، تنبأ مصطفى سليمان، المؤسس المشارك لشركة DeepMind، بأن عصر الذكاء الاصطناعي التوليدي سوف يفسح المجال قريبا لم شيء أكثر تفاعلا: أنظمة قادرة على أداء المهام من خلال التفاعل مع تطبيقات البرامج والموارد البشرية. اليوم، نبدأ في رؤية هذا الرؤية تأخذ شكلها مع تطوير نظام التشغيل الجديد الذي تعمل به Rabbit AI، R1. هذا النظام أظهر القدرة المذهلة على مراقبة ومحاكاة التفاعلات البشرية مع التطبيقات. في قلب R1 يقع نموذج الإجراء الكبير (LAM)، مساعد ذكاء اصطناعي متقدم قادر على فهم نوايا المستخدمين وتنفيذ المهام نيابة عنهم. في حين كان معروفا في السابق باسماء أخرى مثل الذكاء الاصطناعي التفاعلي ونموذج الوكيل الكبير، فإن مفهوم LAMs يكتسب زخما كابتكار حاسم في التفاعلات التي تعتمد على الذكاء الاصطناعي. هذا المقال يبحث في تفاصيل LAMs، وكيف يختلفون عن نماذج اللغة الكبيرة التقليدية (LLMs)، ويقدم نظام R1 من Rabbit AI، وينظر في كيفية تحرك شركة Apple نحو نهج مشابه ل LAM. كما يناقش الاستخدامات المحتملة لـ LAMs والتحديات التي تواجههم.

فهم نماذج الإجراء الكبيرة أو الوكيل (LAMs)

نموذج LAM هو وكيل ذكاء اصطناعي متقدم مصمم لفهم نوايا الإنسان وتنفيذ أهداف محددة. هذه النماذج تتفوق في فهم احتياجات الإنسان وتخطيط المهام المعقدة والتفاعل مع نماذج أو تطبيقات أو أشخاص مختلفين لتنفيذ خططهم. تذهب LAMs إلى ما هو أبعد من المهام البسيطة مثل генерация الاستجابات أو الصور؛ فهي أنظمة كاملة مصممة لمعالجة أنشطة معقدة مثل تخطيط السفر وترتيب المواعيد وإدارة البريد الإلكتروني. على سبيل المثال، في تخطيط السفر، سيتعامل نموذج LAM مع تطبيق الطقس للحصول على توقعات، ويتفاعل مع خدمات حجز الطيران لإيجاد رحلات مناسبة، ويتفاعل مع أنظمة حجز الفنادق لتأمين الإقامة. على عكس العديد من نماذج الذكاء الاصطناعي التقليدية التي تعتمد على الشبكات العصبية فقط، تستخدم LAMs نهجًا هجينًا يجمع بين البرمجة العصبية والرمزية. هذا التكامل من البرمجة الرمزية يساعد في التفكير المنطقي والتخطيط، بينما تساهم الشبكات العصبية في التعرف على الأنماط الحسية المعقدة. يسمح هذا المزيج من LAMs بمعالجة طيف واسع من المهام، مما يجعلهم تطورًا دقيقًا في التفاعلات التي تعتمد على الذكاء الاصطناعي.

مقارنة LAMs مع LLMs

في مقابل LAMs، LLMs هي وكلاء ذكاء اصطناعي يتفوقون في تفسير الإشارات المستخدمة وإنشاء استجابات نصية، مما يساعد في المهام التي تتضمن معالجة اللغة. ومع ذلك، فإن نطاقهم عادة ما يكون مقصورًا على الأنشطة المرتبطة باللغة. من ناحية أخرى، توسع LAMs قدرات الذكاء الاصطناعي إلى ما هو أبعد من اللغة، مما يسمح لهم بتنفيذ إجراءات معقدة لتحقيق أهداف محددة. على سبيل المثال، بينما قد يdraft LLM بريدًا إلكترونيًا بناءً على تعليمات المستخدم، يذهب LAM إلى ما هو أبعد من ذلك ليس فقط بكتابة البريد الإلكتروني ولكن أيضًا بفهم السياق واختيار الاستجابة المناسبة وإدارة تسليم البريد الإلكتروني.

LAMs في العمل: Rabbit R1

Rabbit R1 هو مثال رئيسي على LAMs في الاستخدام العملي. هذا الجهاز الذي يعمل بالذكاء الاصطناعي يمكنه إدارة تطبيقات متعددة من خلال واجهة مستخدم واحدة سهلة الاستخدام. مجهز بشاشة تعمل باللمس مقاس 2.88 بوصة وكاميرا دوارة و عجلة التمرير، يتم وضع R1 في هيكل أنيق ومستدير تم تصميمه بالتعاون مع Teenage Engineering. يعمل على معالج MediaTek سعة 2.3 جيجاهرتز، مدعومًا بذاكرة وصول عشوائي سعة 4 جيجابايت وتخزين سعة 128 جيجابايت.

في قلب R1 يقع نموذج LAM، الذي يراقب بذكاء وظائف التطبيقات ويسهل المهام المعقدة مثل التحكم في الموسيقى وحجز النقل وطلب البقالة وإرسال الرسائل، كل ذلك من نقطة تفاعل واحدة. بهذه الطريقة، يلغي R1 متاعب التبديل بين تطبيقات متعددة أو تسجيل الدخول المتعدد لأداء هذه المهام.

تم تدريب نموذج LAM داخل R1 في البداية من خلال مراقبة التفاعلات البشرية مع تطبيقات شائعة مثل Spotify وUber. هذا التدريب قد مكّن LAM من التنقل في واجهات المستخدم، التعرف على الرموز، ومعالجة المعاملات. يسمح هذا التدريب الشامل لـ R1 بالتكيف بسلاسة مع أي تطبيق تقريبًا. بالإضافة إلى ذلك، يسمح وضع التدريب الخاص للمستخدمين بتقديم مهام جديدة وتأتميتها، مما يوسع باستمرار نطاق قدرات R1 وجعله أداة ديناميكية في مجال التفاعلات التي تعتمد على الذكاء الاصطناعي.

تقدم شركة Apple نحو قدرات مشابهة لـ LAM في Siri

شارك فريق البحث في شركة Apple مؤخرًا رؤى حول جهودهم لتحسين قدرات Siri من خلال مبادرة جديدة، تشبه تلك الموجودة في LAMs. تهدف المبادرة، المحددة في ورقة بحثية حول حل المرجع كنموذج لغة (ReALM)، إلى تحسين قدرة Siri على فهم السياق المحادثي ومعالجة المحتوى المرئي على الشاشة واكتشاف الأنشطة المحيطة. يُظهر النهج المتبع في ReALM في معالجة مدخلات واجهة المستخدم (UI) أوجه تشابه مع الوظائف الموجودة في نظام R1 من Rabbit AI، مما يظهر عزم شركة Apple على تحسين فهم Siri للتفاعلات المستخدم.

هذا التطور يُظهر أن شركة Apple تنظر في تبني تقنيات LAM لتحسين كيفية تفاعل المستخدمين مع أجهزتهم. على الرغم من عدم وجود إعلانات صريحة حول نشر ReALM، فإن إمكانية تحسين فهم Siri للتطبيقات بشكل كبير يُظهر تطورًا واعدًا في جعل المساعد أكثر ذكاءً واستجابة.

التطبيقات المحتملة لـ LAMs

LAMs لها القدرة على توسيع تأثيرها إلى ما هو أبعد من تعزيز التفاعلات بين المستخدمين والأجهزة؛ يمكنها تقديم فوائد كبيرة عبر مختلف الصناعات.   

  • خدمة العملاء: يمكن لـ LAMs تعزيز خدمة العملاء من خلال التعامل المستقل مع الاستفسارات والشكاوى عبر قنوات مختلفة. يمكن لهذه النماذج معالجة الاستفسارات باستخدام اللغة الطبيعية، وتأتميم الحلول، وإدارة جداول المواعيد، وتقديم خدمة شخصية بناءً على تاريخ العميل لتحسين الرضا.
  • الرعاية الصحية: في مجال الرعاية الصحية، يمكن لـ LAMs مساعدة إدارة الرعاية الصحية من خلال تنظيم المواعيد وإدارة الوصفات الطبية وتسهيل الاتصالات عبر الخدمات. كما أنها مفيدة للرصد عن بعد، وفهم البيانات الطبية، وتنبيه الموظفين في حالات الطوارئ، خاصةً لفئات الرعاية المزمنة والكبار في السن.
  • التمويل: يمكن لـ LAMs تقديم نصائح مالية شخصنة وإدارة المهام مثل توازن المحفظة واقتراح الاستثمارات. كما يمكنها مراقبة المعاملات لاكتشاف ومنع الاحتيال، والتكامل بشكل متساوٍ مع أنظمة البنوك لمعالجة النشاطات المشبوهة بسرعة.

تحديات LAMs

على الرغم من إمكانياتها الكبيرة، تواجه LAMs تحديات عديدة تحتاج إلى معالجة.

  • الخصوصية والأمان: نظرًا للوصول الواسع إلى المعلومات الشخصية والحساسة التي تحتاجها LAMs للعمل، فإن ضمان الخصوصية والأمان هو تحد كبير. تتفاعل LAMs مع البيانات الشخصية عبر تطبيقات ومنصات متعددة، مما يثير مخاوف حول التعامل الآمن والتخزين والمعالجة لهذه المعلومات.
  • الاهتمامات الأخلاقية والتنظيمية: مع اتخاذ LAMs أدوارًا أكثر استقلالية في اتخاذ القرارات والتفاعل مع البيئات البشرية، تصبح الاعتبارات الأخلاقية أكثر أهمية. تساؤلات حول المسؤولية والشفافية ومدى اتخاذ القرارات التي تتم تفويضها للماكينات هي أمور حاسمة. بالإضافة إلى ذلك، قد توجد تحديات تنظيمية في نشر هذه الأنظمة المتقدمة في مختلف الصناعات.
  • تعقيد التكامل: تحتاج LAMs إلى التكامل مع أنظمة برمجية وعتاد متعددة لأداء المهام بشكل فعال. يمكن أن يكون هذا التكامل معقدًا ويتطلب إدارة، خاصة عند تنسيق الإجراءات عبر منصات وخدمات مختلفة، مثل حجز الرحلات والفنادق وغيرها من التفاصيل اللوجستية في الوقت الفعلي.
  • التناسب والتعديل: بينما يتم تصميم LAMs للتكيف مع مجموعة واسعة من السيناريوهات والتطبيقات، يبقى تحديًا لتحقيق هذه الحلول لمواجهة بيئات العالم الحقيقي بشكل متساوٍ وفعال. من المهم ضمان أن LAMs يمكنها التكيف مع الظروف المتغيرة والحفاظ على الأداء عبر مهام ومستخدمين مختلفين.

النقطة الأساسية

نماذج الإجراء الكبيرة (LAMs) تظهر كابتكار مهم في الذكاء الاصطناعي، مما يؤثر ليس فقط على تفاعلات الأجهزة ولكن أيضًا على تطبيقات الصناعة الأوسع. كما هو موضح في نظام R1 من Rabbit AI والتقدم الذي أحرزته شركة Apple مع Siri، فإن LAMs تقوم بتحديد مسرح أكثر تفاعلاً وذكاءً لأنظمة الذكاء الاصطناعي. هذه النماذج على وشك تعزيز الكفاءة والشخصنة عبر قطاعات مثل خدمة العملاء والرعاية الصحية والتمويل.

然而، يأتي نشر LAMs مع تحديات، بما في ذلك مخاوف الخصوصية والأمان والقضايا الأخلاقية و複雑ية التكامل والتناسب. من الضروري معالجة هذه القضايا أثناء سيرنا نحو انتشار أوسع لتقنيات LAMs، مع الهدف من الاستفادة من قدراتهم بشكل مسؤول وفعال. مع استمرار تطور LAMs، يبقى إمكانيتهم لتحويل التفاعلات الرقمية كبيرًا، مما يؤكد أهميتهم في مستقبل الذكاء الاصطناعي.

الدكتور تيهسين زيا هو أستاذ مساعد دائم في جامعة كومساتس إسلام آباد، وحاصل على دكتوراه في الذكاء الاصطناعي من جامعة التكنولوجيا في فيينا، النمسا. يتخصص في الذكاء الاصطناعي وتعلم الآلة وعلوم البيانات ورؤية الكمبيوتر، وقدم مساهمات كبيرة من خلال منشورات في مجلات علمية مشهورة. كما قاد الدكتور تيهسين مشاريع صناعية مختلفة كمستслед رئيسي وقدم خدماته كمستشار في الذكاء الاصطناعي.