رطم DiffSeg: تجزئة اللقطة الصفرية غير الخاضعة للرقابة باستخدام التوزيع المستقر - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

DiffSeg: تجزئة اللقطة الصفرية غير الخاضعة للرقابة باستخدام الانتشار المستقر

mm

تم النشر

 on

DiffSeg: تجزئة اللقطة الصفرية غير الخاضعة للرقابة باستخدام الانتشار المستقر

أحد التحديات الأساسية في النماذج القائمة على رؤية الكمبيوتر هو إنشاء أقنعة تجزئة عالية الجودة. أتاحت التطورات الأخيرة في التدريب الخاضع للإشراف واسع النطاق إمكانية التجزئة الصفرية عبر أنماط الصور المختلفة. بالإضافة إلى ذلك، أدى التدريب غير الخاضع للرقابة إلى تبسيط التجزئة دون الحاجة إلى تعليقات توضيحية موسعة. على الرغم من هذه التطورات، فإن إنشاء إطار رؤية حاسوبي قادر على تجزئة أي شيء في وضع صفر بدون تعليقات توضيحية يظل مهمة معقدة. يتضمن التجزئة الدلالية، وهو مفهوم أساسي في نماذج الرؤية الحاسوبية، تقسيم الصورة إلى مناطق أصغر ذات دلالات موحدة. تضع هذه التقنية الأساس للعديد من المهام النهائية، مثل التصوير الطبي وتحرير الصور والقيادة الذاتية والمزيد.

لتعزيز تطوير نماذج الرؤية الحاسوبية، من المهم ألا يقتصر تجزئة الصور على مجموعة بيانات ثابتة ذات فئات محدودة. بدلاً من ذلك، ينبغي أن يكون بمثابة مهمة تأسيسية متعددة الاستخدامات لمختلف التطبيقات الأخرى. ومع ذلك، فإن التكلفة العالية لجمع التسميات على أساس كل بكسل تمثل تحديًا كبيرًا، مما يحد من التقدم في أساليب اللقطة الصفرية والتجزئة الخاضعة للإشراف التي لا تتطلب أي تعليقات توضيحية وتفتقر إلى الوصول المسبق إلى الهدف. ستناقش هذه المقالة كيفية ظهور طبقات الاهتمام الذاتي نماذج الانتشار المستقرة يمكن أن يسهل إنشاء نموذج قادر على تجزئة أي مدخلات في وضع الصفر، حتى بدون التعليقات التوضيحية المناسبة. تفهم طبقات الاهتمام الذاتي هذه بطبيعتها مفاهيم الكائنات التي تعلمها نموذج الانتشار المستقر المدرب مسبقًا.

DiffSeg: خوارزمية تجزئة صفرية محسنة

التجزئة الدلالية هي عملية تقسم الصورة إلى أقسام مختلفة، حيث يتشارك كل قسم في دلالات مماثلة. تشكل هذه التقنية الأساس للعديد من المهام النهائية. تقليديًا، اعتمدت مهام الرؤية الحاسوبية الصفرية على التجزئة الدلالية الخاضعة للإشراف، وذلك باستخدام مجموعات بيانات كبيرة ذات فئات مشروحة ومُصنفة. ومع ذلك، فإن تنفيذ التجزئة الدلالية غير الخاضعة للرقابة في بيئة صفرية لا يزال يمثل تحديًا. في حين أن الأساليب التقليدية الخاضعة للإشراف فعالة، فإن تكلفة وضع العلامات لكل بكسل غالبًا ما تكون باهظة، مما يسلط الضوء على الحاجة إلى تطوير أساليب تجزئة غير خاضعة للرقابة في إعداد صفر أقل تقييدًا، حيث لا يتطلب النموذج بيانات مشروحة ولا معرفة مسبقة بالبيانات.

ولمعالجة هذا القيد، تقدم DiffSeg إستراتيجية جديدة لمرحلة ما بعد المعالجة، مستفيدة من قدرات إطار Stable Diffusion لبناء نموذج تجزئة عام قادر على النقل بدون لقطة على أي صورة. أثبتت أطر الانتشار المستقر كفاءتها في إنشاء صور عالية الدقة بناءً على الظروف السريعة. بالنسبة للصور التي تم إنشاؤها، يمكن لهذه الأطر إنتاج أقنعة تجزئة باستخدام المطالبات النصية المقابلة، والتي تتضمن عادةً الكائنات الأمامية السائدة فقط.

على النقيض من ذلك، DiffSeg هي طريقة مبتكرة لمرحلة ما بعد المعالجة تقوم بإنشاء أقنعة تجزئة من خلال استخدام موترات الانتباه من طبقات الاهتمام الذاتي في نموذج الانتشار. تتكون خوارزمية DiffSeg من ثلاثة مكونات رئيسية: دمج الانتباه التكراري، وتجميع الانتباه، والقمع غير الأقصى، كما هو موضح في الصورة التالية.

تحافظ خوارزمية DiffSeg على المعلومات المرئية عبر دقة متعددة من خلال تجميع موترات الانتباه رباعية الأبعاد مع الاتساق المكاني، واستخدام عملية دمج متكررة عن طريق أخذ عينات من نقاط الربط. تعمل هذه المراسي بمثابة نقطة انطلاق لأقنعة الانتباه المدمجة مع نفس مثبتات الكائن التي يتم امتصاصها في النهاية. يتحكم إطار عمل DiffSeg في عملية الدمج بمساعدة طريقة التباعد KL لقياس التشابه بين خريطتين للانتباه. 

عند مقارنتها بطرق التجزئة غير الخاضعة للرقابة القائمة على المجموعات، لا يتعين على المطورين تحديد عدد المجموعات مسبقًا في خوارزمية DiffSeg، وحتى بدون أي معرفة مسبقة، يمكن لخوارزمية DiffSeg إنتاج التجزئة دون استخدام موارد إضافية. بشكل عام، خوارزمية DiffSeg هي "طريقة تجزئة جديدة غير خاضعة للرقابة وبدون طلقة تستخدم نموذج نشر مستقر مُدرب مسبقًا، ويمكنها تقسيم الصور دون أي موارد إضافية أو معرفة مسبقة.

DiffSeg: المفاهيم التأسيسية

DiffSeg هي خوارزمية جديدة تعتمد على ما تعلمته من نماذج الانتشار، والتجزئة غير الخاضعة للرقابة، والتجزئة الصفرية. 

نماذج الانتشار

تعتمد خوارزمية DiffSeg على الدروس المستفادة من نماذج الانتشار المدربة مسبقًا. تعد نماذج الانتشار واحدة من أكثر الأطر التوليدية شيوعًا لنماذج الرؤية الحاسوبية، وهي تتعلم عملية الانتشار الأمامية والعكسية من عينة من صورة ضوضاء غاوسية متناحية لتوليد صورة. يعد الانتشار المستقر هو البديل الأكثر شيوعًا لنماذج الانتشار، ويتم استخدامه لتنفيذ مجموعة واسعة من المهام بما في ذلك التجزئة الخاضعة للإشراف، والتصنيف الصفري، ومطابقة المراسلات الدلالية، والتجزئة الفعالة للتسمية، وتجزئة المفردات المفتوحة. ومع ذلك، فإن المشكلة الوحيدة في نماذج الانتشار هي أنها تعتمد على ميزات مرئية عالية الأبعاد لأداء هذه المهام، وغالبًا ما تتطلب تدريبًا إضافيًا للاستفادة الكاملة من هذه الميزات. 

تجزئة غير خاضعة للرقابة

ترتبط خوارزمية DiffSeg ارتباطًا وثيقًا بالتجزئة غير الخاضعة للرقابة، وهي ممارسة حديثة للذكاء الاصطناعي تهدف إلى إنشاء أقنعة تجزئة كثيفة دون استخدام أي تعليقات توضيحية. ومع ذلك، لتقديم أداء جيد، تحتاج نماذج التجزئة غير الخاضعة للرقابة إلى بعض التدريب المسبق غير الخاضع للرقابة على مجموعة البيانات المستهدفة. يمكن تصنيف أطر الذكاء الاصطناعي القائمة على التجزئة غير الخاضعة للرقابة إلى فئتين: التجميع باستخدام نماذج مدربة مسبقًا، والتجمع على أساس الثبات. في الفئة الأولى، تستفيد الأطر من الميزات التمييزية التي تعلمتها النماذج المدربة مسبقًا لإنشاء أقنعة تجزئة بينما تجد الأطر نفسها في الفئة الثانية تستخدم خوارزمية تجميع عامة تعمل على تحسين المعلومات المتبادلة بين صورتين لتقسيم الصور إلى مجموعات دلالية وتجنب التجزئة المنحطة. 

تجزئة صفر النار

ترتبط خوارزمية DiffSeg ارتباطًا وثيقًا بأطر التجزئة الصفرية، وهي طريقة تتمتع بالقدرة على تقسيم أي شيء دون أي تدريب مسبق أو معرفة بالبيانات. أظهرت نماذج التجزئة ذات اللقطة الصفرية قدرات نقل صفرية استثنائية في الآونة الأخيرة على الرغم من أنها تتطلب بعض إدخال النص والمطالبات. في المقابل، تستخدم خوارزمية DiffSeg نموذج نشر لإنشاء التجزئة دون الاستعلام عن صور متعددة وتوليفها ودون معرفة محتويات الكائن. 

DiffSeg: الطريقة والهندسة المعمارية

تستفيد خوارزمية DiffSeg من طبقات الاهتمام الذاتي في نموذج نشر مستقر مُدرب مسبقًا لإنشاء مهام تجزئة عالية الجودة. 

نموذج الانتشار المستقر

يعد الانتشار المستقر أحد المفاهيم الأساسية في إطار عمل DiffSeg. Stable Diffusion هو إطار عمل توليدي للذكاء الاصطناعي، وأحد نماذج الانتشار الأكثر شيوعًا. إحدى الخصائص الرئيسية لنموذج الانتشار هي التمريرة الأمامية والخلفية. في التمرير الأمامي، تتم إضافة كمية صغيرة من الضوضاء الغوسية إلى الصورة بشكل متكرر في كل خطوة زمنية حتى تصبح الصورة صورة ضوضاء غاوسية متناحية. من ناحية أخرى، في التمرير العكسي، يقوم نموذج الانتشار بشكل متكرر بإزالة الضوضاء في صورة الضوضاء الغوسية المتناحية لاستعادة الصورة الأصلية دون أي ضوضاء غاوسية. 

يستخدم إطار عمل Stable Diffusion جهاز تشفير وفك تشفير وتصميم U-Net مع طبقة انتباه حيث يستخدم برنامج تشفير لضغط الصورة أولاً في مساحة كامنة بأبعاد مكانية أصغر، ويستخدم وحدة فك التشفير لفك ضغط الصورة. تتكون بنية U-Net من مجموعة من الكتل المعيارية، حيث تتكون كل كتلة من أي من المكونين التاليين: طبقة المحولات وطبقة ResNet. 

المكونات والهندسة المعمارية

تقوم طبقات الانتباه الذاتي في نماذج الانتشار بتجميع معلومات الكائنات المتأصلة في شكل خرائط اهتمام مكانية، وتعد DiffSeg طريقة جديدة لمرحلة ما بعد المعالجة لدمج موترات الانتباه في قناع تجزئة صالح مع خط أنابيب يتكون من ثلاثة مكونات رئيسية: تجميع الانتباه، القمع غير الأقصى، والاهتمام التكراري.

تجميع الانتباه

بالنسبة لصورة مدخلة تمر عبر طبقات U-Net وجهاز التشفير، يقوم نموذج Stable Diffusion بإنشاء إجمالي 16 موتر انتباه، مع 5 موترات لكل بعد. الهدف الأساسي من توليد 16 موترًا هو تجميع موترات الانتباه ذات دقة مختلفة في موتر بأعلى دقة ممكنة. ولتحقيق ذلك، تتعامل خوارزمية DiffSeg مع الأبعاد الأربعة بشكل مختلف عن بعضها البعض. 

من بين الأبعاد الأربعة، فإن البعدين الأخيرين في مستشعرات الانتباه لهما دقة مختلفة ومع ذلك فهما متسقان مكانيًا نظرًا لأن الخريطة المكانية ثنائية الأبعاد لإطار DiffSeg تتوافق مع الارتباط بين المواقع والمواقع المكانية. ونتيجة لذلك، يقوم إطار عمل DiffSeg باختبار هذين البعدين لجميع خرائط الانتباه بأعلى دقة على الإطلاق، 2 × 2. ومن ناحية أخرى، يشير البعدان الأولان إلى مرجع الموقع لخرائط الانتباه كما هو موضح في الصورة التالية. 

وبما أن هذه الأبعاد تشير إلى موقع خرائط الانتباه، فيجب تجميع خرائط الانتباه وفقًا لذلك. بالإضافة إلى ذلك، للتأكد من أن خريطة الانتباه المجمعة لها توزيع صالح، يقوم الإطار بتطبيع التوزيع بعد التجميع مع تعيين وزن لكل خريطة انتباه يتناسب مع دقتها. 

دمج الاهتمام التكراري

في حين أن الهدف الأساسي لتجميع الانتباه هو حساب موتر الانتباه، فإن الهدف الأساسي هو دمج خرائط الانتباه في الموتر في مجموعة من مقترحات الكائنات حيث يحتوي كل مقترح فردي إما على فئة الأشياء أو تنشيط كائن واحد. الحل المقترح لتحقيق ذلك هو من خلال تطبيق خوارزمية K-Means على التوزيع الصحيح للموترات للعثور على مجموعات الكائنات. ومع ذلك، فإن استخدام K-Means ليس هو الحل الأمثل لأن تجميع K-Means يتطلب من المستخدمين تحديد عدد المجموعات مسبقًا. علاوة على ذلك، قد يؤدي تطبيق خوارزمية K-Means إلى نتائج مختلفة لنفس الصورة نظرًا لأنها تعتمد بشكل عشوائي على التهيئة. للتغلب على هذه العقبة، يقترح إطار عمل DiffSeg إنشاء شبكة أخذ العينات لإنشاء المقترحات من خلال دمج خرائط الانتباه بشكل متكرر. 

عدم الحد الأقصى للقمع

تنتج الخطوة السابقة لدمج الاهتمام التكراري قائمة بمقترحات الكائنات في شكل خرائط احتمالية للانتباه حيث يحتوي كل مقترح كائن على تنشيط الكائن. يستخدم الإطار القمع غير الأقصى لتحويل قائمة مقترحات الكائنات إلى قناع تجزئة صالح، وتعد العملية بمثابة نهج فعال لأن كل عنصر في القائمة هو بالفعل خريطة لتوزيع الاحتمالات. بالنسبة لكل موقع مكاني عبر جميع الخرائط، تأخذ الخوارزمية الفهرس ذو الاحتمالية الأكبر، وتقوم بتعيين العضوية على أساس فهرس الخريطة المقابلة. 

DiffSeg: التجارب والنتائج

تستفيد الأطر التي تعمل على التجزئة غير الخاضعة للرقابة من معيارين للتجزئة هما Cityscapes وCOCO-stuff-27. معيار Cityscapes عبارة عن مجموعة بيانات ذاتية التوجيه تضم 27 فئة متوسطة المستوى، في حين أن معيار COCO-stuff-27 هو نسخة منسقة من مجموعة بيانات COCO-stuff الأصلية التي تدمج 80 شيئًا و91 فئة في 27 فئة. علاوة على ذلك، لتحليل أداء التجزئة، يستخدم إطار DiffSeg متوسط ​​التقاطع عبر الاتحاد أو mIoU ودقة البكسل أو ACC، وبما أن خوارزمية DiffSeg غير قادرة على توفير تسمية دلالية، فإنها تستخدم خوارزمية المطابقة المجرية لتعيين قناع الحقيقة الأرضية مع كل قناع متوقع. في حالة تجاوز عدد الأقنعة المتوقعة عدد أقنعة الحقيقة الأرضية، سيأخذ الإطار في الاعتبار المهام المتوقعة غير المتطابقة باعتبارها سلبيات كاذبة. 

بالإضافة إلى ذلك، يركز إطار عمل DiffSeg أيضًا على الأعمال الثلاثة التالية لتشغيل التداخل: تبعية اللغة أو LD، والتكيف غير الخاضع للرقابة أو UA، والصورة المساعدة أو AX. يعني الاعتماد على اللغة أن الطريقة تحتاج إلى مدخلات نصية وصفية لتسهيل تجزئة الصورة، ويشير التكيف غير الخاضع للرقابة إلى متطلبات الطريقة لاستخدام تدريب غير خاضع للرقابة على مجموعة البيانات المستهدفة بينما تشير الصورة المساعدة إلى أن الطريقة تحتاج إلى مدخلات إضافية إما كصور تركيبية، أو كمجموعة من الصور المرجعية. 

النتائج

في معيار COCO، يتضمن إطار DiffSeg خطي أساس للمتوسطات K، K-Means-S وK-Means-C. يتضمن معيار K-Means-C 6 مجموعات تم حسابها عن طريق حساب متوسط ​​عدد الكائنات في الصور التي يقيمها، بينما يستخدم معيار K-Means-S عددًا محددًا من المجموعات لكل صورة على أساس عدد الكائنات الموجودة في الحقيقة الأساسية للصورة، ويتم عرض النتائج على كلا المعيارين في الصورة التالية. 

كما هو واضح، يتفوق خط الأساس K-Means على الأساليب الحالية، مما يدل على فائدة استخدام موترات الانتباه الذاتي. الأمر المثير للاهتمام هو أن معيار K-Means-S يتفوق على معيار K-Means-C الذي يشير إلى أن عدد المجموعات هو معلمة مفرطة أساسية، وضبطه مهم لكل صورة. علاوة على ذلك، حتى عند الاعتماد على نفس موترات الاهتمام، يتفوق إطار DiffSeg على خطوط الأساس K-Means التي تثبت قدرة إطار DiffSeg ليس فقط على توفير تجزئة أفضل، ولكن أيضًا تجنب العيوب التي يفرضها استخدام خطوط الأساس K-Means. 

في مجموعة بيانات Cityscapes، يقدم إطار DiffSeg نتائج مشابهة للأطر التي تستخدم المدخلات بدقة أقل 320 بينما تتفوق في الأداء على الأطر التي تأخذ مدخلات بدقة 512 أعلى عبر الدقة وmIoU. 

كما ذكرنا سابقًا، يستخدم إطار عمل DiffSeg العديد من المعلمات الفائقة كما هو موضح في الصورة التالية. 

يعد تجميع الانتباه أحد المفاهيم الأساسية المستخدمة في إطار عمل DiffSeg، ويتم توضيح تأثيرات استخدام أوزان التجميع المختلفة في الصورة التالية مع ثبات دقة الصورة. 

كما يمكن ملاحظته، فإن الخرائط عالية الدقة في الشكل (ب) التي تحتوي على 64 × 64 خريطة تسفر عن التجزئة الأكثر تفصيلاً على الرغم من أن التجزئة تحتوي على بعض الكسور المرئية بينما تميل الخرائط ذات الدقة المنخفضة 32 × 32 إلى الإفراط في تفاصيل المقطع على الرغم من أنها تؤدي إلى تعزيز تجزئة متماسكة. في الشكل (د)، تفشل الخرائط ذات الدقة المنخفضة في إنشاء أي تجزئة حيث يتم دمج الصورة بأكملها في كائن مفرد مع إعدادات المعلمة الفائقة الموجودة. وأخيرًا، يؤدي الشكل (أ) الذي يستخدم استراتيجية التجميع التناسبي إلى تحسين التفاصيل والاتساق المتوازن. 

افكار اخيرة

لا يزال التجزئة غير الخاضعة للرقابة بدون طلقة أحد أكبر العقبات التي تواجه أطر رؤية الكمبيوتر، وتعتمد النماذج الحالية إما على التكيف غير الخاضع للرقابة بدون طلقة أو على موارد خارجية. للتغلب على هذه العقبة، تحدثنا عن كيف يمكن لطبقات الاهتمام الذاتي في نماذج الانتشار المستقرة أن تمكن من بناء نموذج قادر على تجزئة أي مدخلات في إعداد صفر بدون تعليقات توضيحية مناسبة لأن طبقات الاهتمام الذاتي هذه تحمل المفاهيم المتأصلة لـ الكائن الذي يتعلمه نموذج الانتشار المستقر المدرب مسبقًا. لقد تحدثنا أيضًا عن DiffSeg، وهي استراتيجية جديدة لما بعد الضغط، تهدف إلى تسخير إمكانات إطار Stable Diffusion لبناء نموذج تجزئة عام يمكنه تنفيذ النقل بدون لقطة على أي صورة. تعتمد الخوارزمية على التشابه بين الانتباه والتشابه داخل الانتباه لدمج خرائط الانتباه بشكل متكرر في أقنعة تجزئة صالحة لتحقيق أداء متطور وفقًا للمعايير الشائعة. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.