الذكاء الاصطناعي

كشف النقاب عن SAM 2: نموذج أساسي مفتوح المصدر جديد من Meta للتحليل الفوري للكائنات في الفيديوهات والصور

Published August 1, 2024

Updated April 27, 2026

Dr. Tehseen Zia

في السنوات القليلة الماضية، شهد العالم المتعلق بالذكاء الاصطناعي خطوات كبيرة في مجال الذكاء الاصطناعي الأساسي لمعالجة النص، مع تقدمات قامت بتحويل الصناعات من خدمة العملاء إلى التحليل القانوني. ومع ذلك، عندما يتعلق الأمر بمعالجة الصور، نحن فقط نكشط السطح. تعقيد البيانات البصرية و挑جات تدريب النماذج لتحليل وتفسير الصور بدقة قد قدمت عقبات كبيرة. مع استمرار الباحثين في استكشاف الذكاء الاصطناعي الأساسي للصور والفيديوهات، يحمل مستقبل معالجة الصور في الذكاء الاصطناعي إمكانيات للابتكارات في مجالات الرعاية الصحية والمركبات ذاتية القيادة وغيرها.

التنقيب عن الكائنات، الذي يتضمن تحديد البكسل الدقيق في الصورة الذي يتوافق مع كائن interes، هو مهمة حرجة في رؤية الكمبيوتر. تقليدياً، هذا يتضمن إنشاء نماذج ذكاء اصطناعي متخصصة، والتي تتطلب بنية تحتية واسعة ونوعيات كبيرة من البيانات المُحَددة. في العام الماضي، قدمت Meta نموذج Segment Anything (SAM)، وهو نموذج ذكاء اصطناعي أساسي يبسط هذه العملية من خلال السماح للمستخدمين بتحليل الصور باستخدام سؤال بسيط. هذا الابتكار قلل من الحاجة إلى خبرة متخصصة وموارد حاسوبية واسعة، مما يجعل تحليل الصور أكثر سهولة.

الآن، تأخذ Meta خطوة إلى الأمام مع SAM 2. هذا التكرار الجديد لا يزيد فقط من قدرات SAM الحالية لتحليل الصور، بل يمتد أيضًا إلى معالجة الفيديو. يمكن لـ SAM 2 تحليل أي كائن في الصور والفيديوهات، حتى تلك التي لم يتعامل معها من قبل. هذا التقدّم هو قفزة إلى الأمام في مجال رؤية الكمبيوتر ومعالجة الصور، مما يوفر أداة أكثر مرونة وقوة لتحليل المحتوى البصري. فيما يلي، نستكشف التقدّمات المثيرة لSAM 2 وإمكاناته لإعادة تعريف مجال رؤية الكمبيوتر.

تقديم نموذج Segment Anything (SAM)

الأساليب التقليدية للتنقيب إما تتطلب تعديل يدوي، المعروف باسم التنقيب التفاعلي، أو بيانات مُحَددة واسعة للتنقيب التلقائي إلى فئات محددة مسبقاً. SAM هو نموذج ذكاء اصطناعي أساسي يدعم التنقيب التفاعلي باستخدام أسئلة مرنة مثل النقرات أو الصندوق أو مدخلات النص. يمكن أيضًا تعديله ببيانات و موارد حاسوبية محدودة للتنقيب التلقائي. تم تدريبه على أكثر من مليار تعليق صورة متنوع، يمكن لـ SAM التعامل مع كائنات جديدة وصور بدون الحاجة إلى جمع بيانات مخصصة أو تعديل.

SAM يعمل مع مكونين رئيسيين: مشفر الصورة الذي يعالج الصورة ومشفر السؤال الذي يعالج مدخلات مثل النقرات أو النص. هذه المكونات تأتي معًا مع مشفر خفيف لتنبؤ أقنعة التنقيب. مرة واحدة يتم معالجة الصورة، يمكن لـ SAM إنشاء قسم في غضون 50 مللي ثانية في متصفح الويب، مما يجعله أداة قوية للمهام التفاعلية في الوقت الفعلي. لإنشاء SAM، طور الباحثون عملية جمع بيانات ثلاثية: تعليق مساعد بالنموذج، مزيج من التعليق التلقائي والمساعد، وإنشاء أقنعة تلقائي كامل. هذه العملية أدت إلى مجموعة بيانات SA-1B، التي تتضمن أكثر من 1.1 مليار قناع على 11 مليون صورة مرخصة ومحافظة على الخصوصية – مما يجعلها 400 مرة أكبر من أي مجموعة بيانات موجودة. الأداء المثير لـ SAM يأتي من هذه المجموعة الواسعة والمتنوعة من البيانات، مما يضمن تمثيلاً أفضل عبر المناطق الجغرافية المختلفة مقارنة بالمواضيع السابقة.

كشف النقاب عن SAM 2: قفزة من تحليل الصور إلى تحليل الفيديو

بناءً على أساس SAM، تم تصميم SAM 2 للتنقيب الفوري القابل للتشغيل في الصور والفيديوهات. على عكس SAM، الذي يركز فقط على الصور الثابتة، يعالج SAM 2 الفيديوهات من خلال معاملته كجزء من تسلسل مستمر. هذا يسمح لـ SAM 2 بالتعامل مع المشاهد الديناميكية والمحتوى المتغير بشكل أكثر فعالية. لتحليل الصور، لا يزيد SAM 2 فقط من قدرات SAM، بل يعمل أيضًا ثلاث مرات أسرع في المهام التفاعلية.

SAM 2 يحتفظ بنفس الهيكل مثل SAM، ولكنه يقدم آلية ذاكرة لمعالجة الفيديو. هذه الميزة تسمح لـ SAM 2 بالاحتفاظ بمعلومات من الإطارات السابقة، مما يضمن تنقيباً متسقاً للكائنات على الرغم من التغييرات في الحركة أو الإضاءة أو الغطاء. من خلال الرجوع إلى الإطارات السابقة، يمكن لـ SAM 2 تحسين تنبؤاته لأقنعة التنقيب على مدار الفيديو.

النموذج مدرب على مجموعة بيانات جديدة، مجموعة بيانات SA-V، التي تتضمن أكثر من 600,000 تعليق أقنعة على 51,000 فيديو من 47 دولة. هذه المجموعة الواسعة تغطي كائنات كاملة وأجزاء منها، مما يعزز دقة SAM 2 في تنقيب الفيديو في العالم الحقيقي.

SAM 2 متاح كنموذج مفتوح المصدر تحت رخصة Apache 2.0، مما يجعله متاحًا للاستخدامات المختلفة. كما قامت Meta بمشاركة المجموعة المستخدمة لSAM 2 تحت رخصة CC BY 4.0. بالإضافة إلى ذلك، هناك عرض توضيحي على الويب يسمح للمستخدمين باستكشاف النموذج ومشاهدة أدائه.

حالات استخدام محتملة

قدرات SAM 2 في التنقيب الفوري القابل للتشغيل للصور والفيديوهات أطلقت تطبيقات مبتكرة عديدة عبر مجالات مختلفة. على سبيل المثال، بعض هذه التطبيقات هي كما يلي:

تشخيص الصحة: يمكن لـ SAM 2 تحسين المساعدة الجراحية في الوقت الفعلي من خلال تحليل الهياكل التشريحية وتحديد الشذوذ خلال البث المباشر في غرفة العمليات. يمكنه أيضًا تحسين تحليل التصوير الطبي من خلال تقديم تنقيب دقيق للأعضاء أو الأورام في الماسح الطبي.
المركبات ذاتية القيادة: يمكن لـ SAM 2 تحسين أنظمة المركبات ذاتية القيادة من خلال تحسين دقة الكشف عن الكائنات من خلال التنقيب المستمر وتحليل الأشخاص والمركبات واللافتات على الطريق عبر إطارات الفيديو. قدرته على التعامل مع المشاهد الديناميكية تدعم أيضًا أنظمة الملاحة التكيفية وتجنب الاصطدام من خلال التعرف على الاستجابة للتغييرات البيئية في الوقت الفعلي.
الإعلام التفاعلي والترفيه: يمكن لـ SAM 2 تحسين تطبيقات الواقع المعزز من خلال تحليل الكائنات في الوقت الفعلي، مما يجعل من السهل مزج العناصر الافتراضية مع العالم الحقيقي. كما أنه يفيد تحرير الفيديو من خلال تلقين تنقيب الكائنات في اللقطات، مما يبسط العمليات مثل إزالة الخلفية واستبدال الكائنات.
مراقبة البيئة: يمكن لـ SAM 2 مساعدة مراقبة الحياة البرية من خلال تحليل وتحليل الكائنات في لقطات الفيديو، مما يدعم أبحاث الأنواع ودراسات المواطن. في استجابة الكوارث، يمكنه تقييم الأضرار وتوجيه الجهود الاستجابة من خلال تحليل المناطق والكائنات المتأثرة في لقطات الفيديو بدقة.
التجزئة والتجارة الإلكترونية: يمكن لـ SAM 2 تحسين تجسيد المنتجات في التجارة الإلكترونية من خلال تمكين التنقيب التفاعلي للصور والفيديوهات. هذا يمكن أن يمنح العملاء القدرة على مشاهدة المنتجات من زوايا ومواقف مختلفة. بالنسبة لإدارة المخزون، يساعد التجار على تتبع المنتجات وتحليلها على الرفوف في الوقت الفعلي، مما يبسط عمليات الجرد ويعزز التحكم في المخزون بشكل عام.

تجاوز قيود SAM 2: حلول عملية وتحسينات مستقبلية

尽管 SAM 2 يؤدي بشكل جيد مع الصور والفيديوهات القصيرة، إلا أنه يوجد بعض القيود التي يجب مراعاتها للاستخدام العملي. قد يجد صعوبة في تتبع الكائنات عبر تغييرات كبيرة في الزاوية أو الغطاء أو في المشاهد المزدحمة، خاصة في الفيديوهات الممتدة. يمكن أن يساعد التعديل اليدوي باستخدام النقرات التفاعلية في معالجة هذه القضايا.

في البيئات المزدحمة مع كائنات متشابهة، قد يخلط SAM 2 بين الأهداف في بعض الأحيان، ولكن الأسئلة الإضافية في الإطارات اللاحقة يمكن أن تحل هذه القضية. على الرغم من أن SAM 2 يمكنه تحليل كائنات متعددة، فإن كفاءته تتناقص لأنها تعالج كل كائن بشكل منفصل. قد تفيد التحديثات المستقبلية من خلال دمج المعلومات السياقية المشتركة لتعزيز الأداء.

SAM 2 يمكن أن يفقد تفاصيل دقيقة مع الكائنات المتحركة بسرعة، ويمكن أن تكون التنبؤات غير مستقرة عبر الإطارات. ومع ذلك، يمكن أن يعالج هذا القيد من خلال التدريب الإضافي. على الرغم من أن التوليد التلقائي للتعليقات قد تحسن، لا تزال هناك حاجة إلى معلمين بشريين لعمليات الفحص الجودة واختيار الإطارات، ويمكن أن يعزز التutomatisation الكفاءة بشكل أكبر.

النتيجة

ي представляет SAM 2 قفزة كبيرة إلى الأمام في التنقيب الفوري للكائنات في الصور والفيديوهات، مبنيًا على الأساس الذي وضعه سابقه. من خلال تعزيز القدرات وتمديد الوظائف إلى محتوى الفيديو الديناميكي، يعد SAM 2 بوضع تحولات في مجالات متعددة، من الرعاية الصحية والمركبات ذاتية القيادة إلى الإعلام التفاعلي والتجزئة. على الرغم من أن التحديات لا تزال موجودة، لا سيما في معالجة المشاهد المعقدة والمزدحمة، فإن الطبيعة المفتوحة المصدر لSAM 2 تشجع على التحسين المستمر والتكيف. مع أدائه القوي وسهولة الوصول، يعد SAM 2 على وشك دفع الابتكار وتوسيع الإمكانيات في رؤية الكمبيوتر وما بعدها.