Connect with us

DINOv3 و مستقبل الرؤية الحاسوبية: التعلم الذاتي الإشرافي على نطاق واسع

الذكاء الاصطناعي

DINOv3 و مستقبل الرؤية الحاسوبية: التعلم الذاتي الإشرافي على نطاق واسع

mm
DINOv3 and the Future of Computer Vision: Self-Supervised Learning at Scale

يعتبر تعليم الصور عملية مكلفة وبطيئة في العديد من مشاريع الرؤية الحاسوبية. غالباً ما ي introduce يُدخل هذا التعلم الانحياز ويقلل من القدرة على تحسين مجموعات البيانات الكبيرة. لذلك، كان الباحثون يبحثون عن طرق تقلل من الحاجة إلى التسمية اليدوية الثقيلة. في الاستجابة لهذه التحدي، قدمت Meta AI DINOv3 في عام 2025. وهو نموذج أساسي للرؤية الذاتية الإشرافية الذي يمكنه التعلم مباشرة من 1.7 مليار صورة غير مُصنفة.

يتم تدريب النموذج باستخدام شبكة معلم واسعة تضم 7 مليارات معامل. من خلال هذا الإعداد، ينتج ميزات عالمية وثقيلة عالية الجودة من هيكل متجمد واحد. ونتيجة لذلك، يمكن للنموذج التقاط التفاصيل الدقيقة في الصور والمعلومات السياقية الأوسع.

علاوة على ذلك، يُظهر DINOv3 أداءً قويًا عبر العديد من مهام الرؤية دون الحاجة إلى تعديل مكلف. هذا يعني أنه ليس فقط قوي من الناحية الفنية ولكن أيضًا عمليًا للباحثين والمهندسين والقادة الصناعيين الذين يواجهون قيود الموارد والزمن.

بهذه الطريقة، يمثل DINOv3 تقدمًا كبيرًا في مجال الرؤية الحاسوبية. إنه يجمع بين التعلم على نطاق واسع والكفاءة والاستخدام الواسع، مما يجعله نموذجًا أساسيًا له потенسيال قوي لكل من البحث الأكاديمي والتطبيقات الصناعية.

تطور التعلم الذاتي الإشرافي في الرؤية

لقد اعتمدت الرؤية الحاسوبية التقليدية لفترة طويلة على التعلم الإشرافي. يتطلب هذا الأسلوب مجموعات بيانات كبيرة ومُصنفة يُقوم البشر بتعليمها بدقة. هذه العملية مكلفة وبطيئة وأحيانًا غير عملية في المجالات حيث تكون التسميات نادرة أو مكلفة، مثل التصوير الطبي. لهذا السبب، أصبح التعلم الذاتي الإشرافي (SSL) نهجًا حاسمًا. إنه يسمح للنماذج بالتعلم من الميزات البصرية المفيدة مباشرة من البيانات غير المُصنفة الخام عن طريق العثور على الأنماط المخفية في الصور.

أثبتت طرق SSL المبكرة، مثل Momentum Contrast (MoCo) و Bootstrap Your Own Latent (BYOL)، أن النماذج يمكنها التعلم من الميزات البصرية القوية دون بيانات مُصنفة. أثبتت هذه الطرق قيمة الإشراف الذاتي وفتحت الطريق لنهج أكثر تقدمًا.

في عام 2021، قدمت Meta DINO. كان هذا خطوة مهمة لأنها حققت أداءً تنافسيًا باستخدام فقط تدريب ذاتي إشرافي. في وقت لاحق، قام DINOv2 بتعزيز هذا التقدم من خلال تحسين التدريب وتعزيز قابلية نقل الميزات المُتعلمة إلى مهام مختلفة.

أدت هذه التحسينات إلى إنشاء الأساس لـ DINOv3، الذي تم إصداره في عام 2025. استخدم DINOv3 نموذجًا أكبر بشكل كبير ومجموعة بيانات ضخمة، مما مكنه من إنشاء معايير أداء جديدة.

بحلول عام 2025، لم يعد SSL اختياريًا. أصبح نهجًا ضروريًا لأنه ermöglicht تدريبًا على مليارات الصور دون تسمية بشرية. هذا جعل من الممكن بناء نماذج أساسية تُعمم عبر العديد من المهام. توفر هيكلها المُسبق ميزات مرنة، والتي يمكن تعديلها بإضافة رؤوس محددة للمهمة صغيرة. هذا الأسلوب يقلل التكلفة ويسرع تطوير أنظمة الرؤية الحاسوبية.

علاوة على ذلك، يقلل SSL من دورات البحث. يمكن للفرق إعادة استخدام النماذج المُسبقة للاختبار السريع والتقييم، مما يساعد في التطوير السريع. هذا الاتجاه نحو التعلم على نطاق واسع والكفاءة في التسمية يغير كيفية بناء أنظمة الرؤية الحاسوبية وتطبيقها عبر العديد من الصناعات.

كيف يُعيد DINOv3 تعريف الرؤية الحاسوبية الذاتية الإشرافية

DINOv3 هو نموذج أساسي للرؤية الذاتية الإشرافية الأكثر تقدمًا من Meta AI. يمثل مرحلة جديدة في التدريب على نطاق واسع للرؤية الحاسوبية. على عكس الإصدارات السابقة، يجمع بين شبكة معلم واسعة تضم 7 مليارات معامل مع تدريب على 1.7 مليار صورة غير مُصنفة. هذا النطاق يسمح للنموذج بالتعلم من الميزات الأقوى والأكثر مرونة.

تحسين كبير في DINOv3 هو استقرار التعلم الكثيف للميزات. غالبًا ما خسرت النماذج السابقة، مثل DINOv2، التفاصيل في ميزات المستوى التقطيعي خلال التدريب الطويل. هذا جعل المهام مثل التجزئة وتقدير العمق أقل موثوقية. يُقدم DINOv3 طريقة تسمى Gram Anchoring للتعامل مع هذه القضية. يحافظ على هيكل الشبه بين التقطيعات ثابتًا خلال التدريب، مما يمنع انهيار الميزات ويحافظ على التفاصيل الدقيقة.

خطوة تقنية أخرى هي استخدام المحاصيل الصورية عالية الدقة. من خلال العمل مع أقسام صورة أكبر، يلتقط النموذج الهيكل المحلي بدقة أكبر. هذا يؤدي إلى خريطة ميزات كثيفة أكثر تفصيلاً ودقة. مثل هذه الخريطة تعزز الأداء في التطبيقات التي يكون فيها الدقة على مستوى البكسل حاسمة، مثل الكشف عن الكائنات أو التجزئة الدلالية.

يستفيد النموذج أيضًا من التضمين الموضعي الدوراني (RoPE). هذه التضمينات، بالاشتراك مع استراتيجيات الدقة والتقليم، تمكن النموذج من التعامل مع الصور بأحجام وأشكال مختلفة. هذا يجعل DINOv3 أكثر استقرارًا في السيناريوهات الواقعية، حيث تختلف الصور الإدخالية غالبًا في الجودة والتنسيق.

لدعم احتياجات النشر المختلفة، قامت Meta AI بتحويل DINOv3 إلى عائلة من النماذج الأصغر. تشمل هذه عدة أحجام من Vision Transformer (ViT) وأحجام ConvNeXt. النماذج الأصغر أكثر ملاءمة للأجهزة الحوافز، في حين أن النماذج الأكبر أكثر ملاءمة للبحث أو الخواديم. هذه المرونة تسمح لـ DINOv3 بالتطبيق في بيئات مختلفة دون فقدان كبير في الأداء.

تؤكد النتائج قوة هذا النهج. يحقق DINOv3 نتائج رائدة في أكثر من ستين معيارًا. يؤدي أداءً جيدًا في التصنيف والتجزئة وتقدير العمق والمهام الثلاثية الأبعاد. تم تحقيق العديد من هذه النتائج مع الحفاظ على هيكل متجمد، مما يعني أنه لم يكن هناك حاجة إلى تعديل إضافي.

تفوق الأداء والمعيار

لقد أثبت DINOv3 نفسه كنموذج أساسي موثوق للرؤية. حقق نتائج قوية عبر العديد من مهام الرؤية الحاسوبية. قوة واحدة ضرورية هي أن هيكله المتجمد قد ألقى بالفعل ميزات غنية. ونتيجة لذلك، تتطلب معظم التطبيقات فقط مسبارًا خطيًا أو محولًا خفيفًا. هذا يجعل النقل أسرع وأقل تكلفة وأسهل من التعديل الكامل.

على ImageNet-1K للتصنيف، حقق DINOv3 حوالي 84.5% من الدقة الأعلى مع ميزات متجمدة. كان هذا أعلى من العديد من النماذج الذاتية الإشرافية السابقة وأيضًا أفضل من بعض الأسس الإشرافية التقليدية. للتصنيف الدلالي على ADE20K، حقق مIoU يبلغ حوالي 63.0 باستخدام هيكل ViT-L. تُظهر هذه النتائج أن النموذج يحافظ على المعلومات المكانية الدقيقة دون تدريب محدد للمهمة.

في الكشف عن الكائنات على COCO، حقق DINOv3 مAP يبلغ حوالي 66.1 مع ميزات متجمدة. هذا يُظهر قوة تمثيلاته الكثيفة في تحديد الكائنات في المشاهد المعقدة. أدى النموذج أيضًا أداءً جيدًا في تقدير العمق، على سبيل المثال، على NYU-Depth V2، حيث أنتج تنبؤات أكثر دقة من العديد من الطرق الإشرافية والذاتية الإشرافية القديمة.

خلال التجربة، كان الفائدة الواضحة هي التكلفة المنخفضة للنقل. تم حل معظم المهام مع تدريب إضافي قليل فقط. هذا قلل الحساب و缩ر زمن النشر.

أثبتت Meta AI وآخرون DINOv3 على أكثر من 60 معيارًا. وشملت هذه التصنيف والتجزئة والكشف والتقدير والاسترجاع والتعادل الهندسي. عبر هذه النطاق الواسع من التقييمات، قدم النموذج باستمرار نتائج رائدة أو قريبة من الرائدة. هذا يؤكد دوره ككودر مرئي مرن وموثوق.

كيف قام DINOv3 بتحويل سلاسل عمل الرؤية الحاسوبية

في سلاسل العمل القديمة، كان على الفرق تدريب العديد من النماذج المحددة للمهمة. كل مهمة تحتاج إلى مجموعة بياناتها الخاصة وضبطها. هذا رفع التكلفة والجهد الصيانة.

مع DINOv3، يمكن للفرق الآن معايير هيكل واحد. يدعم نفس الهيكل المتجمد رؤوسًا محددة للمهمة مختلفة. هذا يقلل من عدد النماذج الأساسية في الاستخدام. كما يبسط خطوط الأنابيب للتكامل وي缩ر دورات الإصدار لميزات الرؤية.

للمطورين، يوفر DINOv3 موارد عملية. توفر Meta AI نقاط التحكم وبرامج التدريب و بطاقات النموذج على GitHub. كما يستضيف Hugging Face متغيرات منقولة مع ملاحظات مثال. هذه الموارد تجعل من السهل تجربة النموذج واعتباره في المشاريع الفعلية.

طريقة شائعة يستخدمها المطورون هذه الموارد هي استخراج الميزات. يوفر نموذج DINOv3 المتجمد تضمينات تعمل كمدخلات للمهام الناتجة. يمكن للمطورين ثم ربط رأس خطي أو محول صغير لمعالجة الاحتياجات المحددة. عند الحاجة إلى تعديل إضافي، تجعل الأساليب الفعالة للمعاملات، مثل LoRA أو المحولات الخفيفة، التعديل ممكنًا دون الحصول على عبء حسابي كبير.

تلعب المتغيرات المنقولة دورًا حاسمًا في هذه السلسلة. يمكن تشغيل الإصدارات الأصغر على أجهزة ذات سعة محدودة، في حين أن الإصدارات الأكبر لا تزال مناسبة للمعامل البحثية والخواديم الإنتاجية. توفر هذه المرونة للفرق مرونة لبدء الاختبار بسرعة وتوسيعها إلى إعدادات أكثر صعوبة حسب الحاجة.

من خلال الجمع بين نقاط التحكم القابلة لإعادة الاستخدام، ورؤوس التدريب البسيطة، وأحجام النموذج القابلة للتوسيع، يُغير DINOv3 سلاسل عمل الرؤية الحاسوبية. يقلل التكلفة وي缩ر دورات التدريب ويجعل استخدام نماذج الأساس أكثر عمليًا عبر الصناعات.

التطبيقات المحددة للنطاق من DINOv3

هناك عدة مجالات يمكن استخدام DINOv3 فيها:

التصوير الطبي

غالبًا ما تفتقر البيانات الطبية إلى تسميات واضحة، وتكون التسمية الخبيرة وقتية ومكلفة. يمكن أن يساعد DINOv3 من خلال إنتاج ميزات كثيفة تنقل جيدًا إلى مهام علم الأمراض والتصوير الإشعاعي. على سبيل المثال، دراسة قامت بتعديل DINOv3 مع محولات منخفضة الرتبة لتصنيف الشكل الميوزي، وحققت دقة متوازنة تبلغ 0.8871 مع عدد قليل من المعاملات القابلة للتدريب. هذا أظهر أن النتائج الجيدة ممكنة حتى مع بيانات مُصنفة محدودة. يمكن استخدام رؤوس أبسط للكشف عن الشذوذ، مما يقلل من الحاجة إلى مجموعات بيانات سريرية كبيرة المُصنفة. ومع ذلك، يتطلب النشر السريري التحقق الصارم.

الصور الفضائية والجغرافية المكانية

قامت Meta بتدريب متغيرات DINOv3 على مجموعة كبيرة من حوالي 493 مليون قطعة صورة فضائية. حسنت هذه النماذج تقدير ارتفاع الغطاء وتasks التجزئة. في بعض الحالات، متبوعة متغير فضائي من ViT-L حتى متابعتها أو تفوقت على المعلم الكامل 7B. هذا أكد قيمة التدريب الذاتي الإشرافي المحدد للنطاق. يمكن للممارسين أيضًا إعداد DINOv3 على بيانات النطاق أو تعديل متغيرات منقولة لخفض تكاليف التسمية في الاستشعار عن بعد.

المركبات المستقلة والروبوتات

تعزز ميزات DINOv3 وحدات الإدراك للمركبات والروبوتات. تحسن الكشف والتعرف في ظروف جوية واضحة مختلفة. أظهر البحث أن هيكل DINOv3 يدعم سياسات البصر والتحكم بالانتشار، مما يؤدي إلى كفاءة عينة أفضل وارتفاع معدلات النجاح في مهام المناولة الروبوتية. يمكن لفريق الروبوتات تطبيق DINOv3 للاستشعار، ولكن يجب الجمع بينه وبين بيانات النطاق والتعديل الدقيق لنظم الحماية الحرجة.

التجزئة واللوجستيات

في الإعدادات التجارية، يمكن أن يدعم DINOv3 أنظمة الجودة والجرد المرئي. يُعدل عبر خطوط المنتجات المختلفة وإعدادات الكاميرا، مما يقلل من الحاجة إلى إعادة التدريب لكل منتج. هذا يجعل من العملي لصناعات سريعة الحركة ذات البيئات المرئية المختلفة.

التحديات والانحياز والمسار الأمامي

يتطلب تدريب نماذج الأساس للرؤية، مثل DINOv3، على نطاق 7B معامل موارد حسابية واسعة. هذا يحد من التدريب الكامل إلى عدد قليل من المنظمات المموَّلة جيدًا. تقلل التقطير من تكلفة الاستدلال ويسمح للنماذج الطلابية الأصغر بالنشر. ومع ذلك، لا يزيل ذلك التكلفة الأصلية للتدريب. لذلك، يعتمد معظم الباحثين والمهندسين على نقاط التحكم المنشورة علنًا بدلاً من تدريب مثل هذه النماذج من الصفر.

تحدي آخر حاسم هو انحياز مجموعة البيانات. غالبًا ما تعكس مجموعات الصور الكبيرة المجمعة من الويب عدم توازن إقليمي وثقافي واجتماعي. قد يرث النماذج مدربة عليها أو يزيد من هذه الانحيازات. حتى عند استخدام هيكل متجمد، يمكن أن يعيد التعديل إدخال عدم المساواة عبر المجموعات. لذلك، يُعد فحص مجموعة البيانات واختبارات العدالة والتقييم الدقيق ضروريًا قبل النشر. تطبيق القضايا الأخلاقية أيضًا على ممارسات الترخيص والإصدار. يجب توفير النماذج المفتوحة مع إرشادات استخدام واضحة وملاحظات أمان وتقييمات قانونية للخطر لدعم تبني مسؤول.

النتيجة

بسبب نقل ميزاته المتجمدة جيدًا، يدعم مهام مثل التصنيف والتجزئة والكشف وتقدير العمق مع تدريب إضافي قليل. في نفس الوقت، تجعل المتغيرات المنقولة النموذج مرنًا đủ للتشغيل عبر الأجهزة الخفيفة والخواديم القوية. هذه القوة تطبيقات عملية في العديد من المجالات، بما في ذلك الرعاية الصحية والرصد الجغرافي المكاني والروبوتات والتجزئة.

ومع ذلك، يبقى الحساب الشديد المطلوب للتدريب والخطر من انحياز مجموعة البيانات تحديات مستمرة. لذلك، يعتمد التقدم المستمر على الجمع بين قدرات DINOv3 مع التحقق الدقيق ومراقبة العدالة والنشر المسؤول، مما يضمن الاستخدام الموثوق في البحث والصناعة.

الدكتور أسعد عباس، أستاذ مساعد متفرغ في جامعة كومساطس إسلام آباد، باكستان، حصل على دكتوراه من جامعة نورث داكوتا الحكومية، الولايات المتحدة الأمريكية. يركز بحثه على التكنولوجيا المتقدمة، بما في ذلك الحوسبة السحابية، وحوسبة الضباب، وحوسبة الحافة، وتحليل البيانات الكبيرة، والذكاء الاصطناعي. قدم الدكتور عباس مساهمات كبيرة من خلال المنشورات في المجلات العلمية والمؤتمرات ذات السمعة الطيبة. وهو أيضًا مؤسس MyFastingBuddy.