الذكاء الاصطناعي

سابينز: اختراق في نماذج الرؤية البشرية

mm
Sapiens: Foundation for Human Vision Models

النجاح الملحوظ للتدريب المسبق على نطاق كبير متبوعًا بتعديل مهمة محددة للنمذجة اللغوية قد جعل هذا النهج ممارسة قياسية. وبالمثل ، فإن أساليب الرؤية الحاسوبية تتبنى تدريجيًا نطاقات بيانات واسعة للتدريب المسبق. ظهور مجموعات بيانات كبيرة ، مثل LAION5B و Instagram-3.5B و JFT-300M و LVD142M و Visual Genome و YFCC100M ، قد ermöglicht استكشاف مجموعة بيانات تتجاوز نطاق البنود التقليدية. تشمل الأعمال البارزة في هذا المجال DINOv2 و MAWS و AIM. يحقق DINOv2 أداءً على مستوى الدولة في توليد ميزات ذاتية الإشراف عن طريق توسيع طريقة iBot التباينية على مجموعة بيانات LDV-142M. يدرس MAWS توسيع المضغوطات التلقائية (MAE) على مليار صورة. يبحث AIM في قابليتها للتوسيع للتدريب المسبق البصري التلقائي类似 إلى BERT للتحويلات البصرية. على عكس هذه الطرق ، التي تركز بشكل رئيسي على التدريب المسبق العام للصورة أو تصنيف الصور بدون صفر ، يتبنى سابينز نهجًا بشريًا متميزًا: يستفيد نماذج سابينز من مجموعة واسعة من الصور البشرية للتدريب المسبق ، ثم التعديل اللاحق لمجموعة من المهام المرتبطة بالبشر.

تم إحراز تقدم كبير في مجال الرؤية الحاسوبية في البيئات المسيطرة أو الاستوديوهات ، ومع ذلك ، لا تزال هناك تحديات في توسيع هذه الطرق إلى بيئات غير مقيدة. لمواجهة هذه التحديات ، من المهم تطوير نماذج متعددة الاستخدام قادرة على مهام أساسية متعددة ، مثل تقدير النقاط الرئيسية ، وتقسيم الأجزاء الجسدية ، وتقدير العمق ، وتقدير السطح الطبيعي من الصور في الإعدادات الطبيعية. يهدف سابينز إلى تطوير نماذج لهذه المهام الأساسية المرتبطة بالرؤية البشرية التي يمكن تعميمها إلى إعدادات في البرية.

يقدم سابينز عائلة من النماذج لأربعة مهام أساسية مرتبطة بالرؤية البشرية: تقدير الموضع二 البعدي ، وتقسيم الأجزاء الجسدية ، وتقدير العمق ، وتقدير السطح الطبيعي. تدعم نماذج سابينز أصلاً استدلالًا عالي الدقة عند 1K ويمكن تعديلها بسهولة لمهام فردية عن طريق التعديل فقط للنماذج المُتدربة مسبقًا على أكثر من 300 مليون صورة بشرية في البرية. يلاحظ سابينز أن ، مع نفس الميزانية الحاسوبية ، يزيد التدريب المسبق الذاتي الإشراف على مجموعة بيانات منضبطة من الصور البشرية بشكل كبير الأداء لمجموعة متنوعة من المهام المرتبطة بالبشر.

تظهر النماذج الناتجة قابليتها للتعميم على بيانات البرية ، حتى عندما تكون البيانات المُ标نة نادرة أو اصطناعية بالكامل. يُظهر التصميم البسيط للنموذج أيضًا قابليته للتوسيع – يتحسن أداء النموذج عبر المهام مع زيادة عدد المعلمات من 0.3 إلى 2 مليار. يتجاوز سابينز باستمرار خطوط الأساس الحالية عبر مجموعة متنوعة من البنود المرتبطة بالبشر ، يحقق تحسينات كبيرة على النتائج السابقة على مستوى الدولة: 7.6 ماب على Humans-5K (موضع) ، 17.1 مآي أو على Humans-2K (تقسيم الأجزاء) ، 22.4٪ خطأ مطلق نسبي على Hi4D (عمق) ، و 53.5٪ خطأ زاوي نسبي على THuman2 (سطح طبيعي).

سابينز: اختراق في نماذج الرؤية البشرية

شهد السنوات الأخيرة خطوات كبيرة نحو توليد صور بشرية فوتوغرافية في 2D و 3D. يُعزى نجاح هذه الطرق إلى حد كبير إلى تقدير موثوق و دقيق لعناصر مختلفة مثل النقاط الرئيسية 2D ، وتقسيم الأجزاء الجسدية الدقيقة ، والعمق ، والسطح الطبيعي. ومع ذلك ، يظل تقدير هذه العناصر بدقة و دقة مجالًا نشطًا للبحث ، وغالبًا ما تعيق الأنظمة المعقدة لتعزيز الأداء لمهام فردية انتشارًا أوسع.

يهدف سابينز إلى تقديم إطار موحد و نماذج لاستدلال هذه العناصر في البرية ، مما يفتح مجموعة واسعة من التطبيقات المرتبطة بالبشر للجميع.

يجادل سابينز بأن النماذج المرتبطة بالبشر يجب أن ت满ي ثلاثة معايير: التعميم ، والتطبيق الواسع ، والدقة العالية. يضمن التعميم متانة في ظروف غير موصوفة ، مما يسمح للنموذج بالعمل باستمرار عبر بيئات مختلفة. يشير التطبيق الواسع إلى مرونة النموذج ، مما يجعله مناسبًا لمجموعة واسعة من المهام مع تعديلات طفيفة. تشير الدقة العالية إلى القدرة على إنتاج مخرجات دقيقة وعالية الدقة ، أمر ضروري لمهام توليد البشر الموثوق.

بعد هذه الأفكار ، يستفيد سابينز من مجموعات بيانات كبيرة وعمليات بناء نموذج قابلة للتوسيع ، وهما مفتاحان للتعميم. من أجل التطبيق الواسع ، يتبنى سابينز نهج التدريب المسبق ثم التعديل ، مما يسمح بالتعديل بعد التدريب المسبق لمهام محددة مع تعديلات طفيفة. يثير هذا النهج سؤالًا حاسمًا: ما هو نوع البيانات الأكثر فعالية للتدريب المسبق؟ مع القيود الحاسوبية ، يجب التركيز على جمع أكبر عدد من الصور البشرية ، أو من الأفضل التدريب المسبق على مجموعة أقل تحضيرًا لتعكس تباين العالم الحقيقي بشكل أفضل؟ غالبًا ما يتجاهل الأساليب الحالية توزيع بيانات التدريب المسبق في سياق المهام التنازلية.

لدراسة تأثير توزيع بيانات التدريب المسبق على المهام المحددة للبشر ، يجمع سابينز مجموعة بيانات Humans-300M ، التي تضم 300 مليون صورة بشرية متنوعة. يتم استخدام هذه الصور غير المُ标نة لتدريب عائلة من تحويلات الرؤية من الصفر ، مع عدد معلمات يتراوح من 300M إلى 2B.

من بين مختلف أساليب الإشراف الذاتي لتعلم الميزات البصرية العامة من مجموعات بيانات كبيرة ، يختار سابينز نهج المضغوط التلقائي (MAE) لبساطته و كفاءته في التدريب المسبق. يسمح MAE ، الذي يحتوي على نموذج استدلال ذي مرور واحد مقارنة بالاستراتيجيات التباينية أو الاستدلال المتعدد ، بمعالجة حجم أكبر من الصور مع نفس الموارد الحاسوبية.

يتوافق سابينز مع الدراسات السابقة في التأكيد على التأثير الحاسم لجودة التسمية على أداء النموذج في البرية. غالبًا ما تحتوي البنود العامة على تسميات ضجيجية ، مما يوفر إشارات إشرافية غير متسقة خلال تعديل النموذج. في الوقت نفسه ، من المهم استخدام تسميات دقيقة و متقنة لتعزيز التعميم في البرية.

سابينز: الطريقة والهيكل

يتبع سابينز نهج المضغوط التلقائي (MAE) للتدريب المسبق. يتم تدريب النموذج على إعادة بناء الصورة الأصلية مع مراعاة ملاحظته الجزئية. مثل جميع المضغوطات التلقائية ، يحتوي نموذج سابينز على محول يخلق تمثيلًا كامنًا للصورة المرئية و محول يعادة بناء الصورة الأصلية من هذا التمثيل الكامن.

يتضمن مجموعة بيانات التدريب المسبق صورًا فردية ومتعددة للأشخاص ، مع تحجيم كل صورة إلى حجم ثابت مع نسبة جانب مربعة. يشبه ذلك ViT ، حيث يتم تقسيم الصورة إلى قطع غير متداخلة منتظمة مع حجم قطعة ثابت.

تقدير الموضع二 البعدي

يعدل إطار سابينز المحول و المحول عبر مهام متعددة ، بما في ذلك الهياكل العظمية K = 17 و K = 133 و هيكل عظمي جديد مفصل ، مع K = 308 ، كما هو موضح في الشكل التالي.

يتم تقدير الموضع二 البعدي باستخدام هيكل عظمي مفصل يحتوي على 308 نقطة رئيسية ، بما في ذلك نقاط ممثلة حول العينين والشفتين والأنف والأذنين. هذا التصميم مخصص لالتقاط دقيق للتفاصيل الدقيقة للتعابير الوجهية في العالم الحقيقي.

سابين: التجربة والنتائج

يتم تدريب سابينز-2B باستخدام 1024 جهازًا من نوع A100 GPU لمدة 18 يومًا مع PyTorch. يستخدم سابينز محسن AdamW لجميع التجارب. يتضمن جدول التعلم فترة تسخين خطية قصيرة ، يليها تقليل كوزيني للاستدلال المسبق و انخفاض خطي للتعديل.

تُظهر النتائج أن سابينز يتجاوز بشكل مستمر خطوط الأساس الحالية عبر مجموعة متنوعة من البنود المرتبطة بالبشر ، يحقق تحسينات كبيرة على النتائج السابقة على مستوى الدولة.

يتم تعديل سابينز وتقييمه باستخدام مفردات تقسيم الأجزاء الجسدية التي تضم 28 فئة. يتكون مجموعة التدريب من 100 ألف صورة ، بينما يتكون مجموعة الاختبار ، Humans-2K ، من 2000 صورة.

يُظهر سابينز التعميم في التقسيم ، كما هو موضح في الجدول التالي.

يُظهر سابينز-0.3B أداءً أفضل من الأساليب الحالية لتقسيم الأجزاء الجسدية ، مثل Mask2Former و DeepLabV3+ ، بسبب دقته العالية والتدريب المسبق البشري الكبير.

الختام

يمثل سابينز خطوة كبيرة نحو تقدم نماذج الرؤية المرتبطة بالبشر إلى مجال النماذج الأساسية. تُظهر نماذج سابينز قابليتها للتعميم القوية عبر مجموعة متنوعة من المهام المرتبطة بالبشر. يُعزى الأداء على مستوى الدولة إلى: (i) التدريب المسبق على نطاق كبير على مجموعة بيانات منضبطة مخصصة لفهم البشر ، (ii) تحويلات الرؤية عالية الدقة و القدرة على التوسيع ، و (iii) تسميات عالية الجودة على بيانات الاستوديو والبيانات الاصطناعية. تتمتع نماذج سابينز بال潜عة لتصبح حجر أساس لمجموعة من المهام التنازلية وتوفر وصولًا إلى خلفيات رؤية عالية الجودة لفئة أوسع من المجتمع.

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.