الروبوتات

Meta V-JEPA 2: نموذج الذكاء الاصطناعي الذي يُضفي الحس السليم على الروبوتات

تم النشر 17 يوليو، 2025

د. أسعد عباس

Meta V-JEPA 2: نموذج الذكاء الاصطناعي الذي يُضفي الحس السليم على الروبوتات

ميتا هندسة تنبؤية لتضمين وصلات الفيديو 2 (V-JEPA 2) يعد تقدما كبيرا في الذكاء الاصطناعي (AI)يساعد هذا النموذج الروبوتات على فهم التفاعلات المادية والتنبؤ بها. تم تدريب النموذج على أكثر من مليون ساعة من مقاطع الفيديو. هذا يُمكّن الروبوتات من التعلم وتوقع ما سيحدث لاحقًا. كما يُمكّنها من تخطيط أفعالها في بيئات جديدة، مما يسمح لها بالتفاعل مع الأشياء غير المألوفة بفعالية أكبر.

استخدامات V-JEPA 2 التعلم تحت الإشراف الذاتييتعلم مباشرةً من بيانات الفيديو، دون الحاجة إلى تعليقات بشرية. وهذا ما يجعله مختلفًا عن نماذج الذكاء الاصطناعي الأخرى التي تعتمد على البيانات المُصنّفة. تستطيع الروبوتات التنبؤ بالنتائج بناءً على السياق البصري، كما يمكنها التكيف وتخطيط الإجراءات حسب الحاجة. وهذا يُقرّبنا من تحقيق... الذكاء الآلي المتقدم (AMI).

بناءً على بنية ميتا التنبؤية للتضمين المشترك (JEPA)، يُحسّن V-JEPA 2 تنبؤات الأفعال ونمذجة العالم، مما يُمكّن الروبوتات من التعامل مع مهام جديدة في بيئات غير مألوفة. تُشارك ميتا هذا النموذج مع مجتمع البحث العلمي لتسريع تطور الذكاء الاصطناعي وتحسين قدرات الروبوتات.

لماذا كان الحس السليم في الروبوتات صعبًا دائمًا

الحس السليم هو القدرة على اتخاذ قرارات أساسية. على سبيل المثال، معرفة أن كوبًا سينسكب إذا انقلب، أو إدراك أن كرسيًا قد يسد الطريق. بالنسبة للبشر، تأتي هذه المعرفة فطريًا من خلال التجربة. ومع ذلك، تواجه الروبوتات تحديات في تطوير هذا الحدس نفسه.

تُبرمج معظم الروبوتات لأداء مهام محددة في بيئات مُتحكم بها. وتُبلي الروبوتات بلاءً حسنًا في هذه المهام. ولكن عندما تتغير الظروف أو تظهر عوامل غير متوقعة، تُواجه الروبوتات صعوبات. وغالبًا ما تفشل في إدراك السبب والنتيجة أو التنبؤ بعواقب الأفعال. على سبيل المثال، قد يعرف الروبوت كيفية وضع كوب على سطح مستوٍ، ولكنه قد لا يتوقع أن إمالة الكوب قد تُسبب انسكابًا.

نماذج الذكاء الاصطناعي الحالية، مثل تلك القائمة على التعلم التعزيزي (RL)تواجه قيودًا. يتطلب التعلم التعزيزي قدرًا كبيرًا من التعلّم بالتجربة والخطأ، مما يجعل العملية بطيئة وتستهلك موارد كثيرة. نماذج اللغات الكبيرة (LLMs) يتفوقون في اللغة لكنهم يفتقرون إلى الأساس في العالم المادي. غالبًا ما هلوسة الاستجابات التي تعتمد فقط على النص، مما يجعلها غير موثوقة في المواقف الديناميكية. التقليدية رؤية الكمبيوتر كما أن قدرات النماذج محدودة. فهي محددة المهام، ولا تتكيف مع السيناريوهات الجديدة أو غير المتوقعة.

لمعالجة هذه المشكلات، يوصي الخبراء باستخدام نماذج العالم. تُمكّن هذه النماذج الروبوتات من محاكاة الأفعال المستقبلية والتنبؤ بها بناءً على التجارب السابقة. تساعد هذه النماذج الروبوتات على فهم ديناميكيات العالم الفيزيائية، على سبيل المثال، التنبؤ بما سيحدث عند تحريك جسم أو عند اصطدام جسمين. يُعد نموذج V-JEPA 2 من Meta أول نموذج يدمج هذه المبادئ، حيث يتعلم مباشرةً من بيانات الفيديو الخام، مما يجعله قابلاً للتكيف مع بيئات العالم الحقيقي، مما يسمح للروبوتات بالتفكير والتخطيط بناءً على التفاعلات الفيزيائية الديناميكية.

فهم V-JEPA 2

V-JEPA 2 هو نموذج تعلم ذاتي الإشراف، طوّره فريق أبحاث الذكاء الاصطناعي الأساسي (FAIR) في ميتا. بخلاف نماذج الذكاء الاصطناعي التقليدية التي تتطلب بيانات مُصنّفة، يتعلم V-JEPA 2 من مقاطع الفيديو غير المُصنّفة من خلال التنبؤ بالأجزاء المفقودة من تسلسلات الفيديو. تُعرف هذه العملية بالتنبؤ على مستوى التمثيل. بدلاً من التركيز على كل بكسل، يعمل V-JEPA 2 مع تمثيلات مجردة تلتقط الديناميكيات والعلاقات الرئيسية بين الكائنات والأحداث في البيئة.

بُني النموذج على بنية ميتا التنبؤية للتضمين المشترك (JEPA)، المصممة لفهم الديناميكيات الفيزيائية. يتكون النموذج من مكونين رئيسيين: مُشفِّر، يُعالج الفيديو الخام لإنشاء تمثيلات مفيدة، ومتنبئ، يستخدم هذه التمثيلات للتنبؤ بالأحداث المستقبلية. تم تدريب V-JEPA 2 على أكثر من مليون ساعة فيديو، مما يُمكّنه من تعلم أنماط مُعقدة في العالم المادي. من خلال التعلم من الفيديو، يُمكن للنموذج التنبؤ بالأفعال والتفاعلات المستقبلية، مما يُحسّن كيفية تخطيط الروبوتات واتخاذها للقرارات.

يساعد V-JEPA 2 الروبوتات على التخطيط المسبق. هذا يعني أن الروبوتات قادرة على تنفيذ مهام في بيئات جديدة حتى بدون تدريب مسبق. بل يمكنها أداء مهام مثل التقاط الأشياء ووضعها في مواقع جديدة، حتى لو لم يسبق لها رؤيتها من قبل. هذا يجعل V-JEPA 2 تحسينًا ملحوظًا في التنبؤ بالأفعال ونمذجة العالم، مما يجعل الروبوتات أكثر قدرة على التكيف مع المواقف الجديدة.

يتعلم النموذج من بيانات الفيديو الخام، مما يُمكّن الروبوتات من التنبؤ بالأحداث المستقبلية. هذا يُعزز قدرة الروبوتات في المواقف الواقعية. يُقرّبنا V-JEPA 2 من روبوتات قادرة على تخطيط وتنفيذ المهام كالبشر. تُشارك Meta نموذج V-JEPA 2 مع مجتمع البحث لتسريع تطور الذكاء الاصطناعي. تستطيع الروبوتات التي تستخدم V-JEPA 2 العمل في بيئات ديناميكية، والتكيف بسرعة، وتخطيط المهام بكفاءة أكبر.

كيفية عمل V-JEPA 2: عملية من مرحلتين

يعمل V-JEPA 2 على مرحلتين متميزتين. تُمكّن كل مرحلة النموذج من التعلم من بيانات الفيديو الخام، ثم تطبيق هذه المعرفة لاتخاذ قرارات مدروسة في المهام الواقعية.

المرحلة 1: التعلم التمثيلي الخالي من الفعل

يبدأ V-JEPA 2 بتدريب مسبق واسع النطاق على أكثر من مليون ساعة فيديو ومليون صورة. يتعلم النموذج من خلال توقع الأجزاء المفقودة من تسلسلات الفيديو. يعالج الفيديو على شكل أنابيب ثلاثية الأبعاد، والتي تُمثل الرموز الأساسية للنموذج. يستخدم النموذج محول الرؤية (ViT) الهندسة المعمارية باستخدام تضمينات الوضع الدوراني ثلاثي الأبعاد (3D-RoPE) لالتقاط المعلومات المكانية والزمانية بشكل أكثر فعالية.

يعالج المُرمِّز الأنابيب الصغيرة لإنشاء متجهات سمات عالية الأبعاد. تُمثِّل هذه المتجهات كلاً من الديناميكيات المكانية والزمانية للفيديو. يستخدم النموذج عدسةً غرضيةً لإزالة الضوضاء بقناع، حيث تُخفى أجزاء كبيرة من الفيديو. ويحاول النموذج التنبؤ بالمحتوى المخفي باستخدام الأجزاء المرئية. يُساعد مُرمِّز هدف المتوسط المتحرك الأسّي (EMA) النموذج على تجنب الحلول البسيطة ويضمن تعلّمًا مستقرًا. تُقلِّل دالة الخسارة المسافة بين التنبؤات ومخرجات مُرمِّز هدف المتوسط المتحرك الأسّي، مُركِّزًا على مفاهيم أعلى مستوى مثل ثبات الكائن وحركته، بدلًا من تفاصيل مستوى البكسل.

المرحلة الثانية: التخطيط والتحكم المشروط بالعمل

في المرحلة الثانية، ينتقل النموذج إلى التدريب المشروط بالحركة. تُجمّد أوزان المُشفّر، ويُدرّب مُتنبئ جديد باستخدام بيانات من تفاعلات الروبوت. تتضمن هذه البيانات مُلاحظات الفيديو وإجراءات التحكم المُقابلة، عادةً من مجموعة بيانات DROID (حوالي 62 ساعة من بيانات الروبوت). الآن، يستطيع النموذج التنبؤ بالحالة المستقبلية للبيئة بناءً على الحالة الحالية والإجراءات المحتملة.

يُنشئ نموذج V-JEPA 2 مسألة تقليل الطاقة المشروطة بالهدف. يُشفّر كلاً من الملاحظة الحالية وصورة الهدف في خرائط خصائص. ثم يتنبأ النموذج بكيفية تغير الحالة مع تسلسلات أفعال مختلفة. يُحدَّد تسلسل الأفعال الأمثل بتقليل المسافة L1 بين الحالة المستقبلية المتوقعة وتمثيل الهدف. تُستخدم طريقة الإنتروبيا المتقاطعة (CEM) لتحسين المسار.

يتم تنفيذ الإجراء الأول فقط من التسلسل الأمثل، ثم تتكرر العملية في حلقة تحكم بأفق متراجع. هذا يُمكّن من التخطيط والتكيف في الوقت الفعلي. باستخدام معالجة الأنابيب ثلاثية الأبعاد، يلتقط V-JEPA 3 التبعيات المكانية والزمانية، مما يُمكّن الروبوتات من التفكير في الحركة وتفاعلات الأجسام وعواقب أفعالها في بيئات معقدة. هذا يُمكّن من التخطيط والتحكم الفوري، حتى في السيناريوهات الجديدة، دون الحاجة إلى عروض توضيحية خاصة بالمهام أو هندسة المكافآت.

تطبيقات V-JEPA 2 في الروبوتات

يُغيّر V-JEPA 2 طريقة تفاعل الروبوتات مع العالم. لا تزال العديد من التطبيقات قيد التطوير، إلا أن النموذج أظهر قدراتٍ قوية في بيئات مُتحكّم بها.

التلاعب بالاختيار والوضع

في المختبرات، مكّن نظام V-JEPA 2 الروبوتات من أداء مهام الالتقاط والوضع بأقل قدر من التدريب. فباستخدام 62 ساعة فقط من بيانات DROID، تستطيع الروبوتات التعامل مع أجسام متنوعة، بما في ذلك الأجسام الصلبة والقابلة للتشوه. تُعد هذه القدرة بالغة الأهمية في مجالات مثل اللوجستيات والتصنيع والروبوتات المنزلية، حيث تتفاوت الأجسام بشكل كبير في الحجم والتعقيد.

التنقل في البيئات الديناميكية

يستطيع نظام V-JEPA 2 نمذجة الديناميكيات الزمنية، مما يجعله مفيدًا للملاحة الآنية في البيئات التي تشهد حركة الأشخاص أو الحيوانات أو العوائق. ورغم أنه لم يُستخدم بعد في المركبات ذاتية القيادة أو الطائرات بدون طيار، إلا أن قدراته التنبؤية تساعد الروبوتات على توقع التغيرات وتعديل مساراتها. وهذا أمر بالغ الأهمية للسلامة والكفاءة في البيئات المزدحمة.

التفاعل بين الإنسان والروبوت

من خلال تعلم التنبؤ بالأفعال البشرية، يُمكن لـ V-JEPA 2 تحسين التعاون بين الإنسان والروبوت. تستطيع الروبوتات الاستجابة بشكل طبيعي وآمن في الأماكن المشتركة، مثل المستشفيات والمنازل والمباني الصناعية. ورغم أن هذه القدرة لا تزال قيد التطوير، إلا أنها تُمثل خطوة نحو روبوتات واعية اجتماعيًا وقادرة على التكيف مع محيطها.

التعميم والتخطيط من الصفر

يُمكن لـ V-JEPA 2 تعميم البيانات على مختلف المهام والبيئات. تستطيع الروبوتات استخدام التمثيلات المُكتسبة في مواقف جديدة دون الحاجة إلى تدريب إضافي. يُمكّن هذا التخطيط المُباشر الروبوتات من التكيف بسرعة مع المهام الجديدة، مما يُقلل الحاجة إلى جمع بيانات جديدة أو إعادة تدريبها.

اتخاذ القرارات والكفاءة في الوقت الفعلي

بفضل تصميمه الفعّال، يدعم V-JEPA 2 التخطيط والتحكم الفوري. أفادت ميتا أن V-JEPA 2 30x أسرع من نموذج Cosmos من Nvidia في بعض الاختبارات. هذه السرعة ضرورية للمهام التي تتطلب قرارات سريعة، مثل التعامل مع الروبوتات أو التنقل في بيئات متغيرة.

التحديات والقيود العملية

على الرغم من أن V-JEPA 2 قد أحرز تقدمًا ملحوظًا في التعلم الذاتي الإشراف والتخطيط الروبوتي، إلا أنه لا تزال هناك تحديات يجب معالجتها قبل نشره على نطاق واسع. وفيما يلي أبرز القيود:

الاعتماد على البيانات البصرية وحدها

تم تدريب V-JEPA 2 فقط على بيانات الفيديو والصور. هذا يجعله فعالاً في المهام البصرية، ولكنه يحد من قدرته على أداء مهام متعددة الحواس، مثل التلاعب باللمس أو استخدام الإشارات السمعية. تعتمد الروبوتات الواقعية على مُدخلات حسية متعددة.

الحساسية لموضع الكاميرا والمعايرة

يعتمد النموذج على مدخل RGB أحادي العين، مما قد يُضعف الأداء إذا لم تكن قاعدة الروبوت أو إطاره المرجعي مرئيين. قد يلزم إجراء تعديلات يدوية على إعدادات الكاميرا لضمان ثبات الأداء.

القيود في التخطيط طويل الأمد ومتعدد الخطوات

يُظهر نظام V-JEPA 2 أداءً جيدًا في المهام قصيرة المدى، ولكنه يواجه صعوبات في التخطيط طويل المدى. فتراكم الأخطاء في التنبؤات وتوسع مساحات العمل يُصعّب العمليات المعقدة متعددة الخطوات.

متطلبات حسابية عالية

على الرغم من أن V-JEPA 2 أسرع من نماذج مثل Cosmos من Nvidia، إلا أنه يحتوي على أكثر من 1.2 مليار معلمة. يتطلب هذا موارد حاسوبية ضخمة، مما قد يُشكل تحديًا للمختبرات الصغيرة أو المؤسسات ذات البنية التحتية المحدودة.

التعميم في البيئات غير المنظمة

يعمل V-JEPA 2 بشكل جيد في البيئات المُتحكم بها، ولكنه قد يواجه مشاكل في البيئات غير المألوفة أو غير المُهيكلة. تبلغ نسبة نجاحه في مهام الالتقاط والوضع حوالي 80%، ولكنه قد يفشل في الحالات الطارئة.

التكامل مع مجموعات الروبوتات الكاملة

لكي يكون نظام V-JEPA 2 مفيدًا، يجب أن يتكامل مع وحدات تحكم المحركات، وأجهزة الاستشعار الآنية، ومخططات المهام. ولا يزال تحقيق التوافق السلس في البيئات الديناميكية يمثل تحديًا.

الاعتبارات الأخلاقية والتحيز

كما هو الحال مع جميع النماذج الكبيرة، قد يرث نموذج V-JEPA 2 انحيازات من بيانات تدريبه. في التطبيقات العملية، وخاصةً تلك التي تتضمن تفاعلًا بشريًا، قد تؤدي هذه الانحيازات إلى نتائج غير مقصودة. لذا، يُعدّ الإشراف الأخلاقي أمرًا بالغ الأهمية.

الخط السفلي

يُمثل نموذج V-JEPA 2 تقدمًا ملحوظًا في مجال الذكاء الاصطناعي والروبوتات. فهو يُمكّن الروبوتات من فهم العالم المادي والتفاعل معه، تمامًا مثل السلوك البشري. ورغم أن النموذج أظهر أداءً قويًا في التنبؤ بالأفعال وفهم العالم والتخطيط دون تدريب مسبق، إلا أنه لا يزال يواجه العديد من التحديات.

يعتمد V-JEPA 2 على البيانات البصرية، وله بعض القيود في المهام متعددة الحواس، والتخطيط طويل المدى، والتكامل مع أنظمة روبوتية متكاملة. ومع ذلك، فإن قدرته على اتخاذ قرارات آنية والتكيف مع البيئات الجديدة تجعله مفيدًا للغاية في المواقف الواقعية المعقدة.

تواصل ميتا تطوير V-JEPA 2، مما سيساهم في تطوير الذكاء الاصطناعي وجعل الروبوتات أكثر ذكاءً. سيكون هذا التقدم قيّمًا لقطاعات مثل الرعاية الصحية والخدمات اللوجستية والمركبات ذاتية القيادة. يتمتع V-JEPA 2 بإمكانيات هائلة، وسيلعب دورًا محوريًا في مستقبل الروبوتات.

د. أسعد عباس

حصل الدكتور أسعد عباس، الأستاذ المشارك الدائم في جامعة كومساتس بإسلام آباد، باكستان، على درجة الدكتوراه من جامعة ولاية داكوتا الشمالية، الولايات المتحدة الأمريكية. يركز بحثه على التقنيات المتقدمة، بما في ذلك الحوسبة السحابية، والحوسبة الضبابية، والحوسبة الطرفية، وتحليلات البيانات الضخمة، والذكاء الاصطناعي. وقدّم الدكتور عباس إسهاماتٍ جليلة من خلال منشوراته في مجلات ومؤتمرات علمية مرموقة. وهو أيضاً مؤسس ماي فاستينغ بادي.