الذكاء الاصطناعي

Sapiens: أساس لنمذجة الرؤية البشرية

Published September 9, 2024

Updated April 27, 2026

Kunal Kejriwal

Sapiens: Foundation for Human Vision Models

النجاح المذهل للتدريب المسبق على نطاق كبير متبوعًا بتعدين دقيق لمهمة محددة للنمذجة اللغوية قد أرسى هذا النهج كمنهجية قياسية. وبالمثل ، تتجه طرق الرؤية الحاسوبية بشكل متزايد إلى اعتماد مصادر بيانات واسعة النطاق للتدريب المسبق. وقد أدى ظهور مجموعات بيانات كبيرة ، مثل LAION5B و Instagram-3.5B و JFT-300M و LVD142M و Visual Genome و YFCC100M ، إلى تمكين استكشاف مجموعة بيانات تتجاوز نطاق البنود التقليدية. وتشمل الأعمال البارزة في هذا المجال DINOv2 و MAWS و AIM. يصل DINOv2 إلى أداء على مستوى الدولة في توليد ميزات خود-الإشراف عن طريق تحسين طريقة iBot التباينية على مجموعة بيانات LDV-142M. يدرس MAWS توسيع المُشَفِّر التلقائي المasked (MAE) على مليار صورة. يبحث AIM في قابلية التوسع للتدريب المسبق التلقائي الشبيه بBERT للتحويلات البصرية. على عكس هذه الطرق ، التي تركز بشكل رئيسي على التدريب المسبق للصورة العامة أو تصنيف الصورة بدون إطلاق ، يتبنى Sapiens نهجًا مركزًا على البشر: يستفيد نماذج Sapiens من مجموعة واسعة من الصور البشرية للتدريب المسبق ، ثم التعدين الدقيق لمجموعة من المهام المرتبطة بالبشر. يبقى سعي التأثير الكبير على رقمية البشر ثلاثية الأبعاد هدفًا حاسمًا في الرؤية الحاسوبية.

تم إحراز تقدم كبير داخل البيئات الخاضعة للرقابة أو الاستوديو ، ومع ذلك ، تواجه تحديات في توسيع هذه الطرق إلى بيئات غير مقيدة. لمواجهة هذه التحديات ، من المهم تطوير نماذج متعددة الاستخدامات قادرة على مهام أساسية متعددة ، مثل تقدير النقاط الرئيسية ، وتقسيم الأجزاء الجسدية ، وتقدير العمق ، والتنبؤ بالسطح العادي من الصور في الإعدادات الطبيعية. يهدف Sapiens في هذا العمل إلى تطوير نماذج لهذه المهام الأساسية المرتبطة بالرؤية البشرية التي تتمتع بقدرة عامة على الإعدادات البرية. حاليًا ، تحتوي أكبر النماذج اللغوية العامة على أكثر من 100 مليار معامل ، بينما تحتوي النماذج اللغوية الأكثر استخدامًا على حوالي 7 مليارات معامل. في المقابل ، لم يتم توسيع نماذج Transformer البصرية (ViT) ، على الرغم من مشاركتها بنفس الهيكل ، إلى هذا الحد بنجاح. بينما هناك جهود ملحوظة في هذا الاتجاه ، بما في ذلك تطوير ViT-4B الكثيف المدرب على النص والصورة ، وتنسيق تقنيات للتدريب المستقر لنموذج ViT-22B ، لا تزال الهياكل البصرية الشائعة المستخدمة تتراوح بين 300 مليون إلى 600 مليون معامل وتتم تدريبها بشكل رئيسي على دقة صورة حوالي 224 بكسل. وبالمثل ، تستخدم نماذج التوليد البصرية القائمة على Transformer ، مثل DiT ، أقل من 700 مليون معامل وتعمل على فضاء 潜منضغمة للغاية. لمواجهة هذا الفجوة ، يقدم Sapiens مجموعة من نماذج ViT الكبيرة بدقة عالية تم تدريبها بشكل أصلي على دقة صورة 1024 بكسل على ملايين الصور البشرية.

يقدم Sapiens عائلة من النماذج لأربعة مهام أساسية مركزية على البشر: تقدير الموضع二 البعدي ، وتقسيم الأجزاء الجسدية ، وتقدير العمق ، والتنبؤ بالسطح العادي. تدعم نماذج Sapiens بشكل أصلي الاستدلال بدقة عالية 1K وتعتبر سهلة التكيف للغاية للمهام الفردية من خلال التعدين الدقيق البسيط للنماذج المدربة مسبقًا على أكثر من 300 مليون صورة برية. يلاحظ Sapiens أنه ، مع نفس الميزانية الحاسوبية ، يزيد التدريب المسبق الذاتي على مجموعة بيانات منضبطة من الصور البشرية بشكل كبير الأداء لمجموعة متنوعة من المهام المرتبطة بالبشر. تظهر النماذج الناتجة قابليتها العامة للبيئات البرية ، حتى عندما تكون البيانات المُ etiquetted نادرة أو اصطناعية بالكامل. يأتي التصميم البسيط للنموذج أيضًا مع القابلية للتوسيع – يتحسن أداء النموذج عبر المهام مع زيادة عدد المعاملات من 0.3 إلى 2 مليار. يتفوق Sapiens باستمرار على البنود القائمة عبر مختلف البنود المرتبطة بالبشر ، يحقق تحسينات كبيرة على النتائج السابقة على مستوى الدولة: 7.6 ماب على Humans-5K (موضع) ، 17.1 م IoU على Humans-2K (تقسيم الجزء) ، 22.4٪ относительная RMSE على Hi4D (العمق) ، و 53.5٪ относительная خطأ زاوي على THuman2 (عادي).

Sapiens : اختراق في نماذج الرؤية البشرية

شهد السنوات الأخيرة خطوات كبيرة نحو توليد صور بشرية واقعية في الأبعاد二 وثلاثية. يُعزى نجاح هذه الطرق إلى حد كبير إلى تقدير دقيق لعناصر مثل النقاط الرئيسية二 البعدية ، وتقسيم الأجزاء الجسدية الدقيقة ، والعمق ، والسطح العادي. ومع ذلك ، يبقى التقدير الدقيق لهذه العناصر مجالًا بحثيًا نشطًا ، وتعقيد الأنظمة لتعزيز الأداء لمهام فردية يمنع تبنيها على نطاق أوسع. بالإضافة إلى ذلك ، يُعد الحصول على تعليقات دقيقة في البيئات البرية مشكلة صعبة للتوسيع. يهدف Sapiens إلى تقديم إطار موحد ونموذج لاستدلال هذه العناصر في البيئات البرية ، مما يفتح مجموعة واسعة من التطبيقات المرتبطة بالبشر للجميع.

يجادل Sapiens بأن مثل هذه النماذج المرتبطة بالبشر يجب أن ت满ى ثلاثة معايير: القابلية العامة ، والتطبيق الواسع ، والدقة العالية. تضمن القابلية العامة متانة النموذج في ظل ظروف غير موجهة ، مما يسمح للنموذج بالعمل بشكل متسق عبر بيئات مختلفة. يشير التطبيق الواسع إلى مرونة النموذج ، مما يجعله مناسبًا لمجموعة واسعة من المهام مع تعديلات طفيفة. تشير الدقة العالية إلى قدرة النموذج على إنتاج مخرجات دقيقة وذات دقة عالية ، مما هو ضروري لمهام توليد البشر الموثوقة. يصف هذا المستند تطوير نماذج تمثل هذه السمات ، ويُشار إليها بشكل جماعي باسم Sapiens.

بعد هذه الاكتشافات ، يستفيد Sapiens من مجموعات بيانات كبيرة وهياكل نموذجية قابلة للتوسيع ، وهما مفتاحان للقابلية العامة. من أجل التطبيق الواسع ، يتبنى Sapiens نهج التدريب المسبق ثم التعدين الدقيق ، مما يسمح بالتعدين الدقيق بعد التدريب المسبق لمهام محددة مع تعديلات طفيفة. يثير هذا النهج سؤالاً حاسمًا: ما نوع البيانات الأكثر فعالية للتدريب المسبق؟ مع قيود الحوسبة ، يجب أن يكون التركيز على جمع أكبر عدد ممكن من الصور البشرية ، أو ما إذا كان من الأفضل التدريب المسبق على مجموعة أقل تنسيقًا لتعكس تنوع العالم الحقيقي بشكل أفضل. غالبًا ما تتجاهل الطرق الحالية توزيع بيانات التدريب المسبق في سياق المهام التنازلية. لدراسة تأثير توزيع بيانات التدريب المسبق على المهام الخاصة بالبشر ، يجمع Sapiens مجموعة بيانات Humans-300M ، التي تضم 300 مليون صورة بشرية متنوعة. يتم استخدام هذه الصور غير المُ etiquetted لتدريب عائلة من نماذج Transformer البصرية من الصفر ، مع عدد معاملات يتراوح من 300 مليون إلى 2 مليار.

من بين مختلف طرق الإشراف الذاتي لتعلم الميزات البصرية العامة من مجموعات بيانات كبيرة ، يختار Sapiens نهج المُشَفِّر التلقائي المasked (MAE) لبساطته وفعاليته في التدريب المسبق. يسمح MAE ، الذي يتمتع بنموذج استدلال ذي مرور واحد مقارنة بالاستراتيجيات التباينية أو متعددة الاستدلال ، بمعالجة حجم أكبر من الصور بنفس الموارد الحاسوبية. من أجل دقة أعلى ، على عكس الطرق السابقة ، يزيد Sapiens من دقة الإدخال الأصلية للتدريب المسبق إلى 1024 بكسل ، مما يؤدي إلى زيادة تقريبية بنسبة 4 أضعاف في FLOPs مقارنة بأكبر هيكل بصرية موجود. يتم تدريب كل نموذج على 1.2 تريليون رمز. للتعدين الدقيق على مهام بشرية ، يستخدم Sapiens هيكلاً متسقًا لمُشَفِّر و مُفَسِّر. يتم 초기ه المُشَفِّر مع أوزان من التدريب المسبق ، بينما يتم 초기ه المُفَسِّر ، وهو رأس خفيف ومتخصص في المهمة ، بشكل عشوائي. يتم التعدين الدقيق لكلا المكونين بشكل متسق. يركز Sapiens على أربعة مهام رئيسية: تقدير الموضع二 البعدي ، وتقسيم الأجزاء الجسدية ، والعمق ، والتنبؤ بالسطح العادي ، كما هو موضح في الشكل التالي.

يتوافق Sapiens مع الدراسات السابقة ، ويؤكد التأثير الحاسم لجودة التصنيف على أداء النموذج في البيئات البرية. تحتوي البنود العامة على تسميات ضجيجية ، مما يوفر إشارات إشرافية غير متسقة خلال تعدين النموذج الدقيق. وفي الوقت نفسه ، من المهم استخدام تسميات دقيقة ومتفصلة لتحقيق التوافق الوثيق مع الهدف الرئيسي ل Sapiens وهو رقمية البشر ثلاثية الأبعاد. بهذا الهدف ، يقترح Sapiens مجموعة أكثر كثافة من النقاط الرئيسية二 البعدية للتقدير الموضعي ، ومفردات فئوية مفصلة لتقسيم الأجزاء الجسدية ، تتجاوز نطاق مجموعات البيانات السابقة. على وجه التحديد ، يقدم Sapiens مجموعة شاملة تضم 308 نقطة رئيسية تشمل الجسم واليدين والقدمين والسطح والوجه. بالإضافة إلى ذلك ، يوسع Sapiens مفردات فئوية التقسيم إلى 28 فئة ، تشمل أجزاء جسدية مثل الشعر واللسان والأسنان والشفتين العليا والسفلى والصدر. لضمان جودة التسميات وتسلسلها ، يستخدم Sapiens إعدادًا لالتقاط متعدد الزوايا لجمع تسميات الموضع وتقسيم الأجزاء. كما يستخدم Sapiens بيانات اصطناعية بشرية لتقدير العمق والتنبؤ بالسطح ، مستفيدًا من 600 مسح مفصل من RenderPeople لتوليد خرائط عمق وصور سطح عالية الدقة. يثبت Sapiens أن الجمع بين التدريب المسبق على نطاق كبير مع تسميات محدودة ولكن دقيقة يؤدي إلى تعميم قوي في البيئات البرية.

Sapiens : الطريقة والهيكل

يتبع Sapiens نهج المُشَفِّر التلقائي المasked (MAE) للتدريب المسبق. يتم تدريب النموذج على إعادة بناء الصورة البشرية الأصلية مع مراعاة ملاحظتها الجزئية. مثل جميع المُشَفِّرات ، يحتوي نموذج Sapiens على مُشَفِّر ي ánhة الصورة المرئية إلى تمثيل 潜منضغمة و مُفَسِّر يبني الصورة الأصلية من هذا التمثيل. يتكون مجموعة بيانات التدريب المسبق من صور فردية ومتعددة للأشخاص ، مع تحجيم كل صورة إلى حجم ثابت مع نسبة جانبية مربعة. مشابه ل ViT ، يتم تقسيم الصورة إلى قطع غير متداخلة منتظمة مع حجم قطعة ثابت. يتم اختيار جزء من هذه القطع بشكل عشوائي وتخفيفه ، تاركًا الباقي مرئيًا. يبقى نسبة القطع المخفية إلى القطع المرئية ، المعروفة باسم نسبة التخفيض ، ثابتة خلال التدريب.

يظهر نماذج Sapiens قابليته العامة عبر مجموعة متنوعة من سمات الصورة ، بما في ذلك المقاييس والقصاصات وعمر وعرق الأفراد وعدد الأفراد. لكل رمز قطعة في النموذج ، يحتسب 0.02٪ من مساحة الصورة مقارنة بـ 0.4٪ في ViTs القياسية ، مما يوفر استدلالًا متقنًا بين القطع للنماذج. حتى مع نسبة تخفيض تبلغ 95٪ ، يصل نموذج Sapiens إلى بناء مقبول للتشريح البشري في العينات المحجوزة. يُظهر إعادة بناء نموذج Sapiens المُدرب مسبقًا على صور بشرية غير موجهة في الصورة التالية.

علاوة على ذلك ، يستخدم Sapiens مجموعة بيانات كبيرة مملوكة لتدريب مسبق ، تتكون من حوالي 1 مليار صورة برية ، تركز حصريًا على الصور البشرية. يتضمن المعالجة الأولية إزالة الصور التي تحتوي على علامات مائية أو نص أو تمثيلات فنية أو عناصر غير طبيعية. ثم يستخدم Sapiens كاشفًا للصندوق البصري لتصفية الصور ، مع الحفاظ على تلك التي تتمتع بنتيجة كشف أعلى من 0.9 وأبعاد صندوق أكبر من 300 بكسل. يحتوي أكثر من 248 مليون صورة في مجموعة البيانات على عدة أشخاص.

تقدير الموضع二 البعدي

يعدل إطار Sapien المُشَفِّر و المُفَسِّر عبر هيكلات عديدة ، بما في ذلك K = 17 [67] و K = 133 [55] وهيكل جديد مفصل ، مع K = 308 ، كما هو موضح في الشكل التالي.

مقارنة بالتنسيقات الحالية التي تحتوي على ما يصل إلى 68 نقطة رئيسية للوجه ، تتكون تسميات Sapien من 243 نقطة رئيسية للوجه ، بما في ذلك نقاط ممثلة حول العيون والشفتين والأنف والأذنين. يتم تصميم هذا لالتقاط دقيق للتفاصيل الدقيقة للتعبيرات الوجهية في العالم الحقيقي. مع هذه النقاط الرئيسية ، يُشفر إطار Sapien 1 مليون صورة بدقة 4K من إعداد داخلي. بشكل مماثل للمهام السابقة ، يتم تعيين قنوات مخرج المُفَسِّر لتقدير السطح العادي N ليكون 3 ، مما يتوافق مع مكونات xyz ل벡تور السطح في كل بكسل. يتم استخدام البيانات الاصطناعية المولدة أيضًا كإشراف لتقدير السطح العادي.

Sapien : التجربة والنتائج

يتم تدريب Sapiens-2B باستخدام 1024 من وحدات معالجة الرسومات A100 لمدة 18 يومًا مع PyTorch. يستخدم Sapiens محسّن AdamW لجميع التجارب. يتضمن جدول التعلم فترة تسخين خطية قصيرة ، يليها تهدئة جيبوسية للتدريب المسبق وتدهور خطي للتعدين الدقيق. يتم تدريب جميع النماذج من الصفر بدقة 1024 × 1024 مع حجم قطعة 16. للتعدين الدقيق ، يتم تحجيم الصورة الإدخالية إلى نسبة جانبية 4:3 ، أي 1024 × 768. يتم تطبيق تعديلات قياسية مثل القص والتحجيم والقلب والتشويه الضوئي. يتم إضافة خلفية عشوائية من صور COCO غير بشرية لمهام التقسيم والعمق والتنبؤ بالسطح. يتم استخدام معدلات تعلم تفاضلية للحفاظ على القابلية العامة ، مع معدلات تعلم أقل للطبقات الأولى ومعدلات تقدمية أعلى للطبقات اللاحقة. يتم تعيين انخفاض معدل التعلم الطبقي إلى 0.85 مع انخفاض وزن 0.1 للمُشَفِّر.

تُفصّل مواصفات تصميم Sapiens في الجدول التالي. يتبع نهجًا محددًا ، يُفضل Sapiens توسيع النماذج بالعرض بدلاً من العمق. يُلاحظ أن نموذج Sapiens-0.3B ، على الرغم من تشابهه الهيكلي مع ViT-Large التقليدية ، يتكون من 20 ضعفًا أكثر من FLOPs بسبب دقته الأعلى.

يتم تعدين Sapiens لتقدير موضع الوجه والجسم والقدم واليد (K = 308) باستخدام تسميات دقيقة. لتدريب ، يستخدم Sapiens مجموعة التدريب مع 1 مليون صورة ، وللتقييم ، يستخدم مجموعة الاختبار ، تسمى Humans5K ، مع 5 آلاف صورة. يتم تقييمه باستخدام نهج من الأعلى إلى الأسفل ، حيث يستخدم Sapiens كاشفًا للصندوق البصري للصندوق وتجرى استدلال موضع بشري فردي. تُظهر الجدول 3 مقارنة بين نماذج Sapiens والطرق الحالية لتقدير موضع الجسم الكامل. يتم تقييم جميع الطرق على 114 نقطة رئيسية مشتركة بين مفردات 308 نقطة من Sapiens ومفردات 133 نقطة من COCO-WholeBody. يتفوق Sapiens-0.6B على الطريقة الحالية على مستوى الدولة ، DWPose-l ، بـ +2.8 AP. على عكس DWPose ، الذي يستخدم إطارًا معلمًا-طالبًا مع استخلاص ميزات مخصصة للمهمة ، يتبنى Sapiens هيكلاً عامًا لمُشَفِّر و مُفَسِّر مع تدريب مسبق كبير على الصور البشرية.

من المثير للاهتمام أن نماذج Sapiens تُظهر أداءً متفوقًا مقارنة بنماذجها المقابلة حتى مع نفس عدد المعاملات. على سبيل المثال ، يتفوق Sapiens-0.3B على VitPose+-L بـ +5.6 AP ، ويُظهر Sapiens-0.6B أداءً أفضل من VitPose+-H بـ +7.9 AP. داخل عائلة Sapiens ، تشير النتائج إلى علاقة مباشرة بين حجم النموذج والأداء. يُحدد Sapiens-2B سجلًا جديدًا على مستوى الدولة ب 61.1 AP ، وهو تحسين كبير بـ +7.6 AP على النتائج السابقة. على الرغم من التعدين الدقيق مع تسميات من إعداد استوديو داخلي ، يُظهر Sapiens قابليته العامة للبيئات البرية ، كما هو موضح في الشكل التالي.

يتم تعدين Sapiens وتقييمه باستخدام مفردة تقسيم 28 فئة. تتكون مجموعة التدريب من 100 ألف صورة ، بينما تتكون مجموعة الاختبار ، Humans-2K ، من 2 ألف صورة. يتم مقارنة Sapiens مع طرق تقسيم الأجزاء الجسدية الحالية التي تم تعدينها على مجموعة التدريب نفسها ، باستخدام نقاط التحكم المُقترحة لكل طريقة كتأهيل. بشكل مماثل لتقدير الموضع ، يُظهر Sapiens قابليته العامة في التقسيم ، كما هو موضح في الجدول التالي.

من المثير للاهتمام أن النموذج الأصغر ، Sapiens-0.3B ، يتفوق على طرق تقسيم الأجزاء الجسدية الحالية مثل Mask2Former و DeepLabV3+ بـ 12.6 م IoU بسبب دقته الأعلى و التدريب المسبق الكبير على الصور البشرية. بالإضافة إلى ذلك ، يُحسن زيادة حجم النموذج الأداء التقسيمي. يصل Sapiens-2B إلى أفضل أداء ، مع 81.2 م IoU و 89.4 م Acc على مجموعة الاختبار ، كما هو موضح في الشكل التالي.

الاستنتاج

يمثل Sapiens خطوة كبيرة نحو دفع نماذج الرؤية المرتبطة بالبشر إلى مجال نماذج الأساس. تُظهر نماذج Sapiens قابليتها العامة القوية عبر مجموعة متنوعة من المهام المرتبطة بالبشر. يُعزى الأداء على مستوى الدولة إلى: (i) التدريب المسبق على نطاق كبير على مجموعة بيانات منضبطة مخصصة لفهم البشر ، (ii) توسيع هياكل Transformer البصرية بدقة عالية وواسعة السعة ، و (iii) تسميات دقيقة على بيانات استوديو وبيانات اصطناعية معززة. تملك نماذج Sapiens إمكانية أن تصبح حجر أساسي للعديد من المهام التنازلية وتوفر وصولًا إلى هياكل بصرية عالية الجودة لجزء أكبر من المجتمع.

Kunal Kejriwal

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.