رطم InstructIR: استعادة الصور عالية الجودة باتباع التعليمات البشرية - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

InstructIR: استعادة الصور عالية الجودة باتباع التعليمات البشرية

mm

تم النشر

 on

استعادة الصور عالية الجودة باتباع التعليمات البشرية

يمكن أن تنقل الصورة الكثير، إلا أنها قد تشوبها أيضًا مشكلات مختلفة مثل ضبابية الحركة والضباب والضوضاء والنطاق الديناميكي المنخفض. يمكن أن تنشأ هذه المشكلات، والتي يشار إليها عادة باسم تدهور رؤية الكمبيوتر منخفضة المستوى، من الظروف البيئية الصعبة مثل الحرارة أو المطر أو من القيود المفروضة على الكاميرا نفسها. تمثل استعادة الصور تحديًا أساسيًا في رؤية الكمبيوتر، حيث تسعى جاهدة لاستعادة صورة نظيفة وعالية الجودة من صورة تظهر مثل هذه التدهورات. تعد استعادة الصور أمرًا معقدًا لأنه قد تكون هناك حلول متعددة لاستعادة أي صورة معينة. تستهدف بعض الأساليب تدهورًا محددًا، مثل تقليل الضوضاء أو إزالة الضبابية أو الضباب.

في حين أن هذه الأساليب يمكن أن تسفر عن نتائج جيدة لقضايا معينة، فإنها غالبا ما تكافح من أجل التعميم عبر أنواع مختلفة من التدهور. تستخدم العديد من أطر العمل شبكة عصبية عامة لمجموعة واسعة من مهام استعادة الصور، ولكن يتم تدريب كل من هذه الشبكات بشكل منفصل. إن الحاجة إلى نماذج مختلفة لكل نوع من أنواع التدهور تجعل هذا النهج مكلفًا من الناحية الحسابية ويستغرق وقتًا طويلاً، مما يؤدي إلى التركيز على نماذج الاستعادة الشاملة في التطورات الأخيرة. تستخدم هذه النماذج نموذج استعادة أعمى واحد عميق يعالج مستويات وأنواع متعددة من التدهور، وغالبًا ما يستخدم مطالبات خاصة بالتدهور أو ناقلات توجيه لتحسين الأداء. على الرغم من أن نماذج All-In-One تظهر عادةً نتائج واعدة، إلا أنها لا تزال تواجه تحديات ذات مشكلات عكسية.

يمثل InstructIR نهجا رائدا في هذا المجال، كونه الأول استعادة الصورة إطار عمل مصمم لتوجيه نموذج الاستعادة من خلال التعليمات المكتوبة بواسطة الإنسان. يمكنه معالجة مطالبات اللغة الطبيعية لاستعادة الصور عالية الجودة من الصور المتدهورة، مع الأخذ في الاعتبار أنواع التدهور المختلفة. يضع InstructIR معيارًا جديدًا في الأداء لمجموعة واسعة من مهام استعادة الصور، بما في ذلك إزالة الصورة وتقليل الضوضاء وإزالة الضبابية وإزالة التشويش وتحسين الصور منخفضة الإضاءة.

تهدف هذه المقالة إلى تغطية إطار عمل InstructIR بعمق، ونستكشف الآلية والمنهجية وبنية الإطار إلى جانب مقارنته بأحدث أطر إنشاء الصور والفيديو. اذا هيا بنا نبدأ.

InstructIR: استعادة الصور عالية الجودة

تعد استعادة الصور مشكلة أساسية في رؤية الكمبيوتر لأنها تهدف إلى استعادة صورة نظيفة عالية الجودة من صورة توضح التدهور. في رؤية الكمبيوتر منخفضة المستوى، يعد الانحطاط مصطلحًا يستخدم لتمثيل التأثيرات غير السارة التي يتم ملاحظتها داخل الصورة مثل ضبابية الحركة والضباب والضوضاء والنطاق الديناميكي المنخفض والمزيد. السبب وراء كون استعادة الصور تحديًا عكسيًا معقدًا هو أنه قد يكون هناك العديد من الحلول المختلفة لاستعادة أي صورة. تركز بعض أطر العمل على حالات تدهور محددة مثل تقليل تشويش المثال أو تقليل تشويش الصورة، بينما قد يركز البعض الآخر بشكل أكبر على إزالة التمويه أو إزالة التشويش، أو إزالة الضباب أو إزالة الضباب. 

أظهرت أساليب التعلم العميق الحديثة أداءً أقوى وأكثر اتساقًا عند مقارنتها بطرق استعادة الصور التقليدية. تقترح نماذج استعادة الصور للتعلم العميق استخدام الشبكات العصبية القائمة على المحولات والشبكات العصبية التلافيفية. يمكن تدريب هذه النماذج بشكل مستقل على مهام استعادة الصور المتنوعة، كما أنها تمتلك القدرة على التقاط تفاعلات الميزات المحلية والعالمية وتعزيزها، مما يؤدي إلى أداء مرضي ومتسق. على الرغم من أن بعض هذه الأساليب قد تعمل بشكل مناسب لأنواع معينة من التحلل، إلا أنها عادة لا تستقرئ بشكل جيد على أنواع مختلفة من التدهور. علاوة على ذلك، في حين أن العديد من الأطر الحالية تستخدم نفس الشبكة العصبية للعديد من مهام استعادة الصور، يتم تدريب كل تركيبة شبكة عصبية بشكل منفصل. ومن ثم، فمن الواضح أن استخدام نموذج عصبي منفصل لكل تدهور يمكن تصوره هو أمر غير عملي ويستغرق وقتًا طويلاً، ولهذا السبب ركزت أطر استعادة الصور الحديثة على وكلاء الاستعادة متعدد الإمكانات.

تكتسب نماذج استعادة الصور متعددة الإمكانات أو متعددة الإمكانات أو متعددة المهام شعبية في مجال رؤية الكمبيوتر لأنها قادرة على استعادة أنواع ومستويات متعددة من الانحطاط في الصورة دون الحاجة إلى تدريب النماذج بشكل مستقل لكل تدهور . تستخدم نماذج استعادة الصور متعددة الإمكانات نموذجًا واحدًا لاستعادة الصور العمياء لمعالجة أنواع ومستويات مختلفة من تدهور الصورة. تطبق نماذج الكل في واحد المختلفة أساليب مختلفة لتوجيه النموذج الأعمى لاستعادة الصورة المتدهورة، على سبيل المثال، نموذج مساعد لتصنيف التدهور أو ناقلات التوجيه متعددة الأبعاد أو المطالبات لمساعدة النموذج على استعادة أنواع مختلفة من التدهور داخل صورة. 

مع ما يقال، وصلنا إلى معالجة الصور القائمة على النص حيث تم تنفيذها من قبل العديد من الأطر في السنوات القليلة الماضية لإنشاء نص إلى صورة، ومهام تحرير الصور القائمة على النص. غالبًا ما تستخدم هذه النماذج مطالبات نصية لوصف الإجراءات أو الصور جنبًا إلى جنب مع النماذج القائمة على الانتشار لتوليد الصور المقابلة. الإلهام الرئيسي لإطار عمل InstructIR هو إطار عمل InstructPix2Pix الذي يمكّن النموذج من تحرير الصورة باستخدام تعليمات المستخدم التي ترشد النموذج إلى الإجراء الذي يجب تنفيذه بدلاً من التسميات النصية أو الأوصاف أو التسميات التوضيحية لصورة الإدخال. ونتيجة لذلك، يمكن للمستخدمين استخدام النصوص المكتوبة الطبيعية لإرشاد النموذج بشأن الإجراء الذي يجب تنفيذه دون الحاجة إلى تقديم نماذج صور أو أوصاف إضافية للصور. 

بناءً على هذه الأساسيات، يعد إطار عمل InstructIR أول نموذج رؤية حاسوبية على الإطلاق يستخدم تعليمات مكتوبة بواسطة الإنسان لتحقيق استعادة الصورة وحل المشكلات العكسية. بالنسبة لمطالبات اللغة الطبيعية، يمكن لنموذج InstructIR استرداد صور عالية الجودة من نظيراتها المتدهورة ويأخذ في الاعتبار أيضًا أنواع التحلل المتعددة. يستطيع إطار عمل InstructIR تقديم أداء متطور في مجموعة واسعة من مهام استعادة الصور، بما في ذلك إزالة تشويش الصورة، وتقليل الضوضاء، وإزالة الضبابية، وإزالة التشويش، وتحسين الصورة في الإضاءة المنخفضة. على النقيض من الأعمال الحالية التي تحقق استعادة الصور باستخدام موجهات التوجيه المستفادة أو عمليات التضمين الفوري، يستخدم إطار عمل InstructIR مطالبات المستخدم الأولية في شكل نص. يستطيع إطار عمل InstructIR التعميم على استعادة الصور باستخدام تعليمات مكتوبة بواسطة الإنسان، ويغطي النموذج الفردي الشامل الذي تنفذه InstructIR مهام استعادة أكثر من النماذج السابقة. يوضح الشكل التالي عينات الاستعادة المتنوعة لإطار عمل InstructIR. 

InstructIR: الطريقة والهندسة المعمارية

يتكون إطار عمل InstructIR في جوهره من برنامج تشفير النص ونموذج الصورة. يستخدم النموذج إطار عمل NAFNet، وهو نموذج فعال لاستعادة الصور يتبع بنية U-Net كنموذج للصورة. علاوة على ذلك، يطبق النموذج تقنيات توجيه المهام لتعلم مهام متعددة باستخدام نموذج واحد بنجاح. يوضح الشكل التالي أسلوب التدريب والتقييم لإطار عمل InstructIR. 

مستوحى من نموذج InstructPix2Pix، يعتمد إطار عمل InstructIR تعليمات مكتوبة بشرية كآلية تحكم حيث لا توجد حاجة للمستخدم لتقديم معلومات إضافية. توفر هذه التعليمات طريقة معبرة وواضحة للتفاعل مما يسمح للمستخدمين بالإشارة إلى الموقع الدقيق ونوع التدهور في الصورة. علاوة على ذلك، فإن استخدام مطالبات المستخدم بدلاً من المطالبات المحددة للتدهور الثابت يعزز قابلية استخدام النموذج وتطبيقاته حيث يمكن استخدامه أيضًا من قبل المستخدمين الذين يفتقرون إلى الخبرة المطلوبة في المجال. لتزويد إطار عمل InstructIR بالقدرة على فهم المطالبات المتنوعة، يستخدم النموذج GPT-4، وهو نموذج لغة كبير لإنشاء طلبات متنوعة، مع إزالة المطالبات الغامضة وغير الواضحة بعد عملية التصفية. 

تشفير النص

يتم استخدام أداة تشفير النص بواسطة نماذج اللغة لتعيين مطالبات المستخدم لتضمين النص أو تمثيل متجه ذي حجم ثابت. تقليديا، برنامج تشفير النص ل نموذج كليب يعد مكونًا حيويًا لإنشاء الصور المستندة إلى النص، ونماذج معالجة الصور المستندة إلى النص لتشفير مطالبات المستخدم نظرًا لأن إطار عمل CLIP يتفوق في المطالبات المرئية. ومع ذلك، في أغلب الأحيان، تتميز مطالبات المستخدم بالتدهور بوجود محتوى مرئي قليل أو معدوم، وبالتالي، تجعل أجهزة تشفير CLIP الكبيرة عديمة الفائدة لمثل هذه المهام لأنها ستعيق الكفاءة بشكل كبير. لمعالجة هذه المشكلة، يختار إطار عمل InstructIR برنامج تشفير الجملة القائم على النص والذي تم تدريبه على تشفير الجمل في مساحة تضمين ذات معنى. يتم تدريب برامج تشفير الجملة مسبقًا على ملايين الأمثلة، ومع ذلك فهي مدمجة وفعالة مقارنة ببرامج تشفير النصوص التقليدية المستندة إلى CLIP مع القدرة على تشفير دلالات مطالبات المستخدم المتنوعة. 

إرشاد النص

أحد الجوانب الرئيسية لإطار عمل InstructIR هو تنفيذ التعليمات المشفرة كآلية تحكم لنموذج الصورة. بناءً على ذلك، واستلهامًا في توجيه المهام للعديد من تعلم المهام، يقترح إطار عمل InstructIR كتلة إنشاء التعليمات أو ICB لتمكين التحولات الخاصة بالمهمة داخل النموذج. يطبق توجيه المهام التقليدي أقنعة ثنائية خاصة بالمهمة على ميزات القناة. ومع ذلك، نظرًا لأن إطار عمل InstructIR لا يعرف التدهور، فلا يتم تنفيذ هذه التقنية مباشرة. علاوة على ذلك، بالنسبة لميزات الصورة والتعليمات المشفرة، يطبق إطار عمل InstructIR توجيه المهام، وينتج القناع باستخدام طبقة خطية يتم تنشيطها باستخدام وظيفة Sigmoid لإنتاج مجموعة من الأوزان اعتمادًا على تضمينات النص، وبالتالي الحصول على أبعاد c لكل قناع القناة الثنائية يعمل النموذج أيضًا على تحسين الميزات المشروطة باستخدام NAFBlock، ويستخدم NAFBlock وInstruction Conditioned Block لتكييف الميزات في كل من كتلة التشفير وكتلة وحدة فك التشفير. 

على الرغم من أن إطار عمل InstructIR لا يحدد مرشحات الشبكة العصبية بشكل صريح، إلا أن القناع يسهل النموذج لتحديد القنوات الأكثر صلة على أساس تعليمات الصورة والمعلومات. 

InstructIR: التنفيذ والنتائج

نموذج InstructIR قابل للتدريب من البداية إلى النهاية، ولا يتطلب نموذج الصورة تدريبًا مسبقًا. إن الإسقاطات التي تتضمن النص ورأس التصنيف فقط هي التي تحتاج إلى التدريب. تتم تهيئة برنامج تشفير النص باستخدام برنامج تشفير BGE، وهو برنامج تشفير يشبه BERT تم تدريبه مسبقًا على كمية هائلة من البيانات الخاضعة للإشراف وغير الخاضعة للإشراف لترميز الجملة للأغراض العامة. يستخدم إطار عمل InstructIR نموذج NAFNet كنموذج صورة، وتتكون بنية NAFNet من وحدة فك تشفير من 4 مستويات مع عدد متفاوت من الكتل في كل مستوى. يضيف النموذج أيضًا 4 كتل وسطية بين جهاز التشفير وجهاز فك التشفير لتعزيز الميزات. علاوة على ذلك، بدلاً من تسلسل اتصالات التخطي، ينفذ جهاز فك التشفير عملية الإضافة، وينفذ نموذج InstructIR فقط ICB أو كتلة التعليمات الشرطية لتوجيه المهام فقط في جهاز التشفير ووحدة فك التشفير. بالمضي قدمًا، تم تحسين نموذج InstructIR باستخدام الخسارة بين الصورة المستعادة والصورة النظيفة للحقيقة الأرضية، ويتم استخدام الخسارة المتقاطعة للإنتروبيا لرأس تصنيف الغرض الخاص بتشفير النص. يستخدم نموذج InstructIR مُحسِّن AdamW بحجم دفعة يبلغ 32، ومعدل تعلم يبلغ 5e-4 لما يقرب من 500 حقبة، وينفذ أيضًا اضمحلال معدل التعلم الصلب لجيب التمام. نظرًا لأن نموذج الصورة في إطار عمل InstructIR يشتمل على 16 مليون معلمة فقط، ولا يوجد سوى 100 ألف معلمة إسقاط نص مكتسبة، يمكن تدريب إطار عمل InstructIR بسهولة على وحدات معالجة الرسومات القياسية، وبالتالي تقليل التكاليف الحسابية وزيادة قابلية التطبيق. 

نتائج التدهور المتعددة

بالنسبة لعمليات التدهور المتعددة وعمليات الاستعادة متعددة المهام، يحدد إطار عمل InstructIR إعدادين أوليين:

  1. ثلاثي الأبعاد لنماذج التحلل الثلاثي لمعالجة مشكلات التحلل مثل إزالة الضباب وتقليل الضوضاء والصرف. 
  2. 5D لخمسة نماذج تحلل لمعالجة مشكلات التدهور مثل تقليل تشويش الصورة وتحسينات الإضاءة المنخفضة وإزالة الضبابية وتقليل التشويش والصرف. 

يتم عرض أداء النماذج 5D في الجدول التالي، ويتم مقارنتها بأحدث نماذج استعادة الصور والنماذج الشاملة. 

كما هو واضح، يمكن لإطار عمل InstructIR الذي يحتوي على نموذج صورة بسيط و16 مليون معلمة فقط التعامل مع خمس مهام مختلفة لاستعادة الصور بنجاح بفضل التوجيهات القائمة على التعليمات، وتحقيق نتائج تنافسية. ويوضح الجدول التالي أداء الإطار على النماذج ثلاثية الأبعاد، والنتائج قابلة للمقارنة مع النتائج المذكورة أعلاه. 

أهم ما يميز إطار عمل InstructIR هو استعادة الصور القائمة على التعليمات، ويوضح الشكل التالي القدرات المذهلة لنموذج InstructIR لفهم مجموعة واسعة من التعليمات لمهمة معينة. أيضًا، بالنسبة للتعليمات المتعارضة، يقوم نموذج InstructIR بتنفيذ هوية غير مفروضة. 

افكار اخيرة

تعد استعادة الصور مشكلة أساسية في رؤية الكمبيوتر لأنها تهدف إلى استعادة صورة نظيفة عالية الجودة من صورة توضح التدهور. في رؤية الكمبيوتر منخفضة المستوى، يعد الانحطاط مصطلحًا يستخدم لتمثيل التأثيرات غير السارة التي يتم ملاحظتها داخل الصورة مثل ضبابية الحركة والضباب والضوضاء والنطاق الديناميكي المنخفض والمزيد. تحدثنا في هذه المقالة عن InstructIR، وهو أول إطار عمل لاستعادة الصور في العالم يهدف إلى توجيه نموذج استعادة الصور باستخدام تعليمات مكتوبة بواسطة الإنسان. بالنسبة لمطالبات اللغة الطبيعية، يمكن لنموذج InstructIR استرداد صور عالية الجودة من نظيراتها المتدهورة ويأخذ في الاعتبار أيضًا أنواع التحلل المتعددة. يستطيع إطار عمل InstructIR تقديم أداء متطور في مجموعة واسعة من مهام استعادة الصور، بما في ذلك إزالة تشويش الصورة، وتقليل الضوضاء، وإزالة الضبابية، وإزالة التشويش، وتحسين الصورة في الإضاءة المنخفضة.