اتصل بنا للحصول على مزيد من المعلومات

TinySAM: دفع الحدود لنموذج أي شيء

الذكاء الاصطناعي

TinySAM: دفع الحدود لنموذج أي شيء

mm
TinySAM: دفع الحدود لنموذج أي شيء

يعد تجزئة الكائنات مجالًا أساسيًا ومهمًا للغاية في رؤية الكمبيوتر الحديثة. إنه يلعب دورًا حيويًا في التطبيقات التي تتطلب مكونات مرئية واسعة النطاق، مثل تحديد موقع الكائنات وتحديد هويتها، ويتطلب تجزئة سريعة ودقيقة في الوقت الفعلي. هذه الأهمية جعلت من تجزئة الكائنات موضوعًا بحثيًا ساخنًا باستمرار، مع إنجاز عمل كبير في مجالات مثل تجزئة المثيلات، والتجزئة الدلالية، والتجزئة الشاملة.

مع تطور تجزئة الكائنات، برز نموذج التجزئة لأي شيء (SAM) كأداة مميزة، إذ أظهر قدرات تجزئة متميزة، وسرعان ما تم اعتماده في مختلف تطبيقات الرؤية الحاسوبية. وقد حققت الأطر التي تستخدم بنية SAM المُدرَّبة مسبقًا أداءً مذهلاً في مهام الرؤية اللاحقة. ومع ذلك، على الرغم من قدراته ودقته العالية في مهام التجزئة، فإن بنيته المعقدة والثقيلة تتطلب قوة حسابية هائلة، مما يعيق تطبيقه على الأجهزة المقيدة حاسوبيًا.

لمعالجة التحديات الحسابية لـ SAM، طوّر الباحثون نموذج Tiny Segment Anything (TinySAM)، الذي يحافظ على أداء الإطار الأصلي دون أي أخطاء، مع الحفاظ على خفة وزنه. يستخدم TinySAM أسلوبًا متكاملًا لتقطير المعرفة، مع توجيهات فورية عبر الإنترنت، لإنشاء نموذج طلابي أكثر كفاءة. كما أن التكميم بعد التدريب، المُكيّف مع مهام التجزئة القابلة للتوجيه، يُقلّل من الاحتياجات الحسابية بشكل أكبر. بالإضافة إلى ذلك، يهدف تصميم TinySAM إلى التجزئة الهرمية، مما يُضاعف سرعة الاستدلال تقريبًا دون المساس بالأداء.

تتعمق هذه المقالة في إطار عمل TinySAM، وتستكشف مبادئه الأساسية وبنيته وأدائه مقارنةً بأطر التجزئة الحديثة الأخرى. دعونا نستكشف هذه الجوانب بمزيد من التفصيل.

TinySAM: نموذج أي شيء للقطاع الفعال

ساعد نموذج Segment Anything Model في التقدم السريع للعديد من تطبيقات رؤية الكمبيوتر نظرًا لقدراته الجديرة بالثناء إلى جانب مجموعة بيانات التجزئة الضخمة التي تحتوي على أكثر من 11 مليون صورة وأكثر من مليار قناع صورة. نظرًا لأدائه الاستثنائي في مهام تقسيم الكائنات إلى فئات وأشكال عشوائية، فهو بمثابة الأساس للأطر التي تؤدي المهام النهائية مثل رسم الصور وتتبع الكائنات والرؤية ثلاثية الأبعاد والمزيد. علاوة على ذلك، فإن نموذج Segment Anything Model يقدم أيضًا عرضًا رائعًا تجزئة صفر النار وقد أفاد الأداء الصناعات الحساسة التي تعمل مع كمية محدودة من البيانات بما في ذلك صناعات البحوث الطبية والتصوير الطبي. 

على الرغم من أنه لا يمكن للمرء أن يشكك في قدرات التجزئة الرائعة التي يوفرها نموذج Segment Anything Model على مجموعة واسعة من مهام الرؤية النهائية، إلا أن له جانبًا سلبيًا من حيث الحمل الزائد المعماري المعقد، والمتطلبات الحسابية العالية، والتكاليف التشغيلية الكبيرة. بالنسبة لنظام يعمل على وحدة معالجة رسومات حديثة، يمكن أن يصل وقت الاستدلال لنموذج SAM إلى ثانيتين لصورة بدقة 2×1024. ونتيجة لذلك، يعد تنفيذ تطبيقات SAM على الأجهزة ذات القدرات الحسابية المحدودة مهمة صعبة للغاية. للتغلب على هذه العقبة، حاولت الأعمال الحديثة مثل MobileSAM وFastSAM تطوير نموذج SAM بمزيد من الكفاءة الحسابية. يحاول إطار عمل MobileSAM استبدال المكون الثقيل في أداة تشفير الصور ببنية إطار عمل TinyViT بينما ينقل نموذج FastSAM مهمة المقطع إلى مهمة تجزئة المثيل مع فئة واحدة فقط مع يولو في 8 نموذج. على الرغم من أن هذه الأساليب كانت قادرة على تحقيق مستوى معين من النجاح من حيث تقليل المتطلبات الحسابية، إلا أنها لم تتمكن من الحفاظ على الأداء خاصة في المهام النهائية. 

TinySAM أو Tiny Segment Anything Model هو محاولة لتقليل المتطلبات الحسابية لنموذج SAM الحالي دون إعاقة الأداء في المهام النهائية التي لا يتم إطلاقها. علاوة على ذلك، يقترح إطار عمل TinySAM تنفيذ طريقة لتقطير المعرفة كاملة المرحلة في بنيته بهدف تحسين قدرة شبكة الطلاب المدمجة. يقوم إطار عمل TinySAM بتقطير شبكة الطلاب بطريقة شاملة تحت إشراف شبكة المعلمين من مراحل مختلفة. لتعزيز الأداء بشكل أكبر، يسمح الإطار لعملية التقطير بحضور المزيد من الأمثلة الصعبة من خلال تنفيذ استراتيجية إضافية لأخذ العينات السريعة عبر الإنترنت. علاوة على ذلك، ومن أجل تقليل التكاليف الحسابية بشكل إضافي، يعرض إطار عمل TinySAM مهام التجزئة السريعة لمكونات التكميم بعد التدريب. 

الجزء الرئيسي من متطلبات الحساب لنموذج أي شيء مقطعي هو أن النموذج يولد أقنعة ضخمة من نقاط موجه الشبكة لتقسيم كل شيء في الصورة. للتغلب على المتطلبات الحسابية لاستراتيجية التجزئة هذه، يستخدم إطار عمل TinySAM استراتيجية هرمية لكل شيء تقريبًا تضاعف سرعة الاستدلال دون المساس بالأداء. من خلال هذه الأساليب المستخدمة في بنيته، يوفر إطار عمل TinySAM تخفيضًا كبيرًا في المتطلبات الحسابية، ويضع حدودًا جديدة لمهام أي شيء قطاعي فعال. 

TinySAM: الهندسة المعمارية والمنهجية

قبل أن نتحدث عن بنية ومنهجية إطار عمل TinySAM، من المهم أولاً إلقاء نظرة على سابقه، إطار عمل SAM. منذ تقديمه، أظهر نموذج Segment Anything Model أداءً رائعًا وتنوعًا وقدرات تعميمية عبر مجموعة من مهام الرؤية النهائية وتجزئة الكائنات. 

يتكون نموذج SAM في جوهره من ثلاث شبكات فرعية: جهاز التشفير السريع، وجهاز تشفير الصور، وجهاز فك تشفير القناع. الهدف الأساسي من برنامج التشفير الفوري هو تشفير الأقنعة ذات الشكل العشوائي ونقاط ومربعات الإدخال والنص الحر مع المعلومات الموضعية. أداة تشفير الصور عبارة عن شبكة تعتمد على ViT أو محولات الرؤية الثقيلة والتي تستخرج الصورة المدخلة إلى التضمينات. يستخدم النموذج شبكات مختلفة لمعالجة المطالبات الهندسية والنصية. وأخيرًا، يحتوي جهاز فك تشفير القناع على محول ثنائي الاتجاه يستقبل إخراج الموجه وجهاز تشفير الصورة لإنشاء التنبؤ النهائي للقناع. باستخدام مجموعة البيانات، يُظهر إطار عمل SAM قدرات ملحوظة عالية الجودة لتجزئة الكائنات بغض النظر عن شكلها وفئتها. علاوة على ذلك، نموذج الجزء أي شيء يوضح الأداء الرائع والكفاءة عبر مهام الرؤية النهائية بدون إطلاق النار بما في ذلك اقتراح الكائن، واكتشاف الحافة، والتنبؤ بالنص إلى القناع، وتجزئة المثيلات. نظرًا لقدرات التجزئة عالية الجودة والعروض السريعة المرنة، تشكل أطر عمل SAM الأساس لتطبيقات الرؤية. ومع ذلك، لا يمكن للمرء أن يتجاهل المتطلبات الحسابية العالية لبنية SAM التقليدية مع عدد كبير من المعلمات مما يجعل من المستحيل تقريبًا على المطورين نشر التطبيقات المستندة إلى SAM على الأجهزة ذات الموارد المحدودة. 

تقطير المعرفة

يعد تقطير المعرفة أسلوبًا مهمًا لتعزيز أداء الشبكات المدمجة أثناء مرحلة التدريب. طريقة تقطير المعرفة التي تستخدم مخرجات شبكة المعلمين للإشراف على تدريب شبكة الطلاب خفيفة الوزن. يمكن تقسيم طريقة تقطير المعرفة إلى فئتين فرعيتين: التقطير للميزات الوسيطة، والتقطير لمخرجات الشبكة، مع تركيز غالبية الأعمال البحثية حول تقطير المعرفة على مهام تصنيف الصور. 

مع ما قيل، يوضح الشكل التالي البنية العامة لإطار عمل TinySAM بالإضافة إلى نظرة عامة على الأداء في مهام تجزئة المثيلات بدون إطلاق. 

في المرحلة الأولى، يقوم إطار عمل TinySAM بتنفيذ عملية تقطير المعرفة المصممة خصيصًا لإطار عمل SAM، ولتفعيل عملية التقطير بشكل أكبر، يستخدم النموذج أخذ عينات سريعة عبر الإنترنت لاستخراج المعرفة الصلبة إلى شبكة الطلاب من شبكة المعلمين. في المرحلة الثانية، يقوم إطار عمل TinySAM بتكييف طريقة التكميم بعد التدريب مع مهام التجزئة السريعة وتنفيذها على شبكة الطلاب خفيفة الوزن. أخيرًا، يطبق النموذج وضع الاستدلال الهرمي لكل شيء المصمم لمهام التجزئة مما يؤدي إلى مضاعفة سرعة الاستدلال مع فقدان دقة لا يُذكر. 

مرحلة كاملة للتقطير المعرفي

كما ذكرنا سابقًا، يتكون نموذج Segment Anything من ثلاث شبكات فرعية في جوهره: المشفر الفوري، ومشفر الصور، ومفكك تشفير القناع، مع مكون تشفير الصور المبني على محول الرؤية، وله متطلبات حسابية عالية. لمعالجة هذه المشكلة، استبدل إطار عمل MobileSAM محول الرؤية بمحول TinyViT أو Tiny Vision، على الرغم من أن الاستبدال لم يكن فعالًا نظرًا للانخفاض الكبير في الأداء. ولضمان عدم تدهور الأداء، يطبق إطار عمل TinySAM طريقة تقطير المعرفة بمرحلة كاملة والتي توجه أداة تشفير الصور خفيفة الوزن من مستوى التعلم إلى مستوى المعرفة المتعددة. بالإضافة إلى الخسارة التقليدية بين ملصقات الحقيقة الأرضية والنتائج المتوقعة، يقدم إطار عمل TinySAM العديد من خسائر التقطير خلال مراحل مختلفة كما هو موضح في الشكل التالي. 

توضيح

يعد تكميم النموذج أسلوبًا شائعًا في أطر رؤية الكمبيوتر، ويستخدم لضغط النموذج عن طريق تكميم الأوزان أو التنشيط من عرض النطاق الترددي الأعلى إلى الأدنى في محاولة لتقليل التعقيد الحسابي ومتطلبات التخزين دون تدهور جودة المخرجات بشكل كبير. 

الهدف الأساسي من التكميم في TinySAM هو عرض موتر النقطة العائمة على موتر العدد الصحيح باستخدام عامل القياس مع المقياس لقياس المسافة بين مضاعفة المصفوفة والمصفوفة الكمية التي تلعب دورًا حيويًا في تحسين عامل القياس. 

الجزء الهرمي أي شيء

يقترح نموذج تقسيم أي شيء استخدام مولد قناع تلقائي يقوم بتجميع النقاط كشبكة لتقسيم كل شيء في الصورة. ومع ذلك، فقد تمت الإشارة إلى أن استخدام شبكة النقاط الكثيفة يؤدي إلى مخرجات تجزئة حبيبية مفرطة الدقة وتتطلب العملية متطلبات حسابية ضخمة وتتحمل تكاليف تشغيلية عالية. علاوة على ذلك، من جهة، قد يؤدي وجود عدد كبير جدًا من نقاط أخذ العينات لكائن كامل إلى تقسيم أقسام مختلفة من الكائن بشكل غير صحيح كأقنعة منفصلة بينما على الطرف الآخر، فإن تكلفة الوقت لاستدلال وضع كل شيء ترجع في المقام الأول إلى السبب التالي: لقد تم تقليص برنامج تشفير الصور بشكل كبير. لتقليل التكلفة التشغيلية لوضع كل شيء، يستخدم إطار عمل TinySAM نهجًا هرميًا لإنشاء القناع، مع الاختلاف في الإستراتيجية عن إطار عمل SAM الأصلي الموضح في الصورة التالية. 

يختلف نموذج TinySAM عن النهج المطبق في إطار عمل SAM الأصلي، حيث يستخدم 25% فقط من النقاط على كل جانب، وبالتالي يستخدم 1/16 فقط من النقاط المتاحة في الإعداد الأصلي. يستنتج النموذج بعد ذلك وحدة فك ترميز القناع ووحدة تشفير المطالبة باستخدام هذه المطالبات ويحصل على المخرجات. يقوم النموذج بعد ذلك بتصفية بعض الأقنعة التي تتجاوز الثقة حدًا معينًا، ويخفي المواقع المقابلة كمناطق للتنبؤات النهائية المحتملة. وبما أن النموذج يعامل هذه المناطق على أنها نتيجة تجزئة للمثيلات بثقة عالية، فإنه لا يحتاج إلى إنشاء مطالبات نقطية. لا تساعد هذه الإستراتيجية في منع التجزئة الدقيقة للكائن فحسب، بل تساعد أيضًا في خفض تكاليف التشغيل والمتطلبات الحسابية بشكل كبير. يقوم الإطار بعد ذلك بدمج نتائج هاتين الجولتين ومعالجتها لاحقًا للحصول على الأقنعة النهائية. 

TinySAM: التجارب والنتائج

لتسريع عملية التقطير، يقوم إطار عمل TinySAM بحساب وتخزين الصور المضمنة من شبكة المعلمين مسبقًا، ولهذا السبب لم يعد من الضروري للنموذج حساب برنامج تشفير الصور الثقيل لشبكة المعلمين بشكل متكرر أثناء مرحلة التدريب بعد الآن. بالنسبة لتكميم ما بعد التدريب، يقوم إطار عمل TinySAM بتكميم جميع طبقات مضاعفة المصفوفة، وطبقات الالتواء، وطبقات تفكيك الالتفاف، والطبقات الخطية، مع استخدام النموذج لعوامل التحجيم لكل من طبقتي الالتواء وتفكيك الالتفاف. بالنسبة لطبقات المصفوفة المضاعفة، يطبق النموذج عوامل القياس الرأسية بينما بالنسبة للطبقات الخطية، يطبق النموذج عوامل القياس الخطية. يجري النموذج أيضًا تقييمًا للمهام النهائية التي لا يتم إطلاقها. 

على سبيل المثال، مهام التجزئة في إعداد صفري اللقطة، يتبع إطار عمل TinySAM الإعدادات التجريبية لسابقه، نموذج Segment Anything، ويستخدم نتائج اكتشاف الكائنات لإطار Vision Transformer Det-H أو VitDet-H لتجزئة المثال. كما هو موضح في الصورة التالية، يتفوق إطار عمل TinySAM على الأساليب الحالية من حيث دقة تجزئة المثيلات ونقاط FLOPs. 

علاوة على ذلك، يتم توضيح الأداء النوعي لنموذج TinySAM في الصورة التالية لتجزئة مثيل اللقطة الصفرية مع المربع الأخضر الذي يمثل المطالبات المربعة. 

فيما يتعلق بتقييم القناع الصالح لنقاط اللقطة الصفرية، يتفوق نموذج TinySAM على إطار عمل MobileSAM بشكل كبير في مجموعات البيانات المختلفة، ويقدم نتائج أفضل بكثير عندما يتم استخدام عدد أقل من النقاط كمطالبات بواسطة إطار العمل. 

علاوة على ذلك، يلخص الجدول التالي نتائج التسارع والانخفاض في المتطلبات الحسابية التي تم تحقيقها نتيجة لاستراتيجية وضع كل شيء الهرمي. يطبق النموذج نفس درجة الاستقرار وقيمة العتبة مع استراتيجيات مختلفة لإجراء مقارنة عادلة، ويتم تلخيص النتائج أدناه. 

الخلاصة

تحدثنا في هذه المقالة عن TinySAM، وهو إطار عمل مقترح يدفع بحدود تجزئة أي مهمة، ويحصل على بنية نموذجية فعالة مع متطلبات حسابية أقل ودقة على قدم المساواة مع إطار عمل SAM الأصلي. TinySAM أو Tiny Segment Anything Model الذي يحافظ على الأداء الصفري للإطار الأصلي ويقدمه. ينفذ إطار عمل TinySAM أولاً طريقة لتقطير المعرفة كاملة المرحلة التي تستخدم المطالبات الثابتة عبر الإنترنت لتقطير نموذج طالب خفيف الوزن. يقوم إطار عمل TinySAM بعد ذلك بتكييف القياس الكمي بعد التدريب لمهام التجزئة السريعة التي تساعد بشكل أكبر في تقليل المتطلبات الحسابية. علاوة على ذلك، يهدف الإطار أيضًا إلى تقسيم كل شيء بشكل هرمي مما يؤدي إلى مضاعفة سرعة الاستدلال تقريبًا دون التأثير على الأداء. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.