Connect with us

InstructIR: استعادة الصور عالية الجودة بعد توجيهات الإنسان

الذكاء الاصطناعي

InstructIR: استعادة الصور عالية الجودة بعد توجيهات الإنسان

mm
High-Quality Image Restoration Following Human Instructions

يمكن للصورة نقل الكثير ، ولكنها قد تكون أيضًا متأثرة بمشاكل مختلفة مثل التمويه الحركي ، الضباب ، الضوضاء ، ومدى الديناميكية المنخفض. هذه المشاكل ، التي يطلق عليها عادةً تدهور في رؤية الكمبيوتر منخفضة المستوى ، يمكن أن تنشأ من ظروف بيئية صعبة مثل الحرارة أو المطر أو من قيود الكاميرا نفسها. تمثل استعادة الصورة تحديًا أساسيًا في رؤية الكمبيوتر ، حيث تسعى إلى استعادة صورة نظيفة عالية الجودة من تلك التي تظهر مثل هذه التدهورات. استعادة الصورة معقدة لأن هناك قد يكون هناك حلول متعددة لاستعادة أي صورة معينة. بعض النهج تستهدف تدهورات محددة ، مثل تقليل الضوضاء أو إزالة التمويه أو الضباب. في حين أن هذه الطرق يمكن أن تؤدي إلى نتائج جيدة لمشاكل معينة ، فإنها غالبًا ما تعاني من صعوبة في التعميم عبر أنواع مختلفة من التدهور. تستخدم العديد من الإطارات شبكة عصبية عامة لمدى واسع من مهام استعادة الصور ، ولكن يتم تدريب هذه الشبكات بشكل منفصل. الحاجة إلى نماذج مختلفة لكل نوع من أنواع التدهور يجعل هذا النهج مكلفًا ومستهلكًا للوقت ، مما يؤدي إلى التركيز على نماذج الاستعادة كلها في التطورات الحديثة. تستخدم هذه النماذج نموذج استعادة عمياء عميق واحد يعالج مستويات و أنواع تدهور متعددة ، وغالبًا ما يستخدم توجيهات أو متجهات إرشادية محددة للتدهور لتعزيز الأداء. على الرغم من أن نماذج كلها عادةً ما تظهر نتائج واعدة ، إلا أنها لا تزال تواجه تحديات مع المشاكل العكسية. يعتبر InstructIR نهجًا رائدًا في هذا المجال ، حيث أنه الإطار الأول لاستعادة الصور مصمم لتحديد مسار نموذج الاستعادة من خلال توجيهات الإنسان. يمكنه معالجة توجيهات اللغة الطبيعية لاستعادة صور عالية الجودة من الصور المتدهورة ، مع مراعاة أنواع تدهور مختلفة. يحدد InstructIR معيارًا جديدًا في الأداء لمجموعة واسعة من مهام استعادة الصور ، بما في ذلك إزالة المطر ، وازالة الضوضاء ، وإزالة الضباب ، وتقليل التمويه ، وتحسين الصور منخفضة الإضاءة. يهدف هذا المقال إلى تغطية إطار InstructIR بالتفصيل ، ونستكشف الآلية والمنهجية وهيكل الإطار جنبًا إلى جنب مع مقارنته بالإطارات الأخرى لاستعادة الصور وأفلام الفيديو.

InstructIR: استعادة الصور عالية الجودة

استعادة الصورة هي مشكلة أساسية في رؤية الكمبيوتر منذ أن تهدف إلى استعادة صورة نظيفة عالية الجودة من صورة تظهر تدهورات. في رؤية الكمبيوتر منخفضة المستوى ، التدهور هو مصطلح يستخدم لتمثيل الآثار غير السارة الملاحظة في الصورة مثل التمويه الحركي ، الضباب ، الضوضاء ، ومدى الديناميكية المنخفض ، وغيرها. السبب في أن استعادة الصورة هي تحدي عكسي معقد هو أن هناك قد يكون هناك حلول متعددة لاستعادة أي صورة. بعض الإطارات تركز على تدهورات محددة مثل تقليل الضوضاء أو إزالة التمويه أو إزالة الضباب. الأساليب الحديثة في التعلم العميق أظهرت أداء أقوى وأكثر ثباتًا مقارنة بالأساليب التقليدية لاستعادة الصور. تقترح نماذج استعادة الصور هذه استخدام الشبكات العصبية التي تعتمد على المتحولات والشبكات العصبية التلافوية. يمكن تدريب هذه النماذج بشكل مستقل لمهام استعادة صور متعددة ، كما أنها تمتلك القدرة على التقاط التفاعلات المحلية والعالمية للميزات وتعزيزها ، مما يؤدي إلى أداء مرضٍ وثابت. على الرغم من أن بعض هذه الطرق قد تعمل بشكل جيد لمشاكل معينة ، إلا أنها عادةً ما لا تتمكن من التعميم عبر أنواع مختلفة من التدهور. بالإضافة إلى ذلك ، في حين أن العديد من الإطارات الحالية تستخدم نفس الشبكة العصبية لمدى واسع من مهام استعادة الصور ، يتم تدريب كل صياغة شبكة عصبية بشكل منفصل. ومن الواضح أن استخدام نموذج عصبي منفصل لكل تدهور متصور هو أمر غير عملي ومستهلك للوقت ، لذلك ركزت إطارات استعادة الصور الحديثة على نماذج الاستعادة كلها. نماذج كلها أو تدهور متعدد أو استعادة الصور متعددة المهام تكتسب شعبية في مجال رؤية الكمبيوتر لأنها قادرة على استعادة أنواع و مستويات متعددة من التدهور في الصورة دون الحاجة إلى تدريب النماذج بشكل مستقل لكل تدهور. تستخدم نماذج كلها نموذج استعادة عمياء عميق واحد لتعامل مع أنواع و مستويات مختلفة من تدهور الصورة. تطبق نماذج كلها مختلفة نهجًا لتحديد نموذج العمياء لاستعادة الصورة المتدهورة ، على سبيل المثال ، نموذج مساعد لتصنيف التدهور أو متجهات توجيه متعددة الأبعاد أو توجيهات لتعزيز أداء النموذج. مع ذلك ، نصل إلى تحرير الصور القائم على النص لأنها تم تنفيذها من قبل عدة إطارات في السنوات القليلة الماضية لتحويل النص إلى صورة ، ومهام تحرير الصور القائمة على النص. غالبًا ما تستخدم هذه النماذج توجيهات نصية لوصف الإجراءات أو الصور جنبًا إلى جنب مع نماذج انتشار ل生成 الصور المقابلة. الإلهام الرئيسي لإطار InstructIR هو إطار InstructPix2Pix الذي يسمح للنموذج بتحرير الصورة باستخدام توجيهات المستخدم التي توجيه النموذج حول الإجراء الذي يجب تنفيذه بدلاً من علامات النص أو وصف أو عناوين الصورة الإدخال. ونتيجة لذلك ، يمكن للمستخدمين استخدام نصوص مكتوبة طبيعية لتوجيه النموذج حول الإجراء الذي يجب تنفيذه دون الحاجة إلى تقديم صور عينة أو وصف صورة إضافي. بناءً على هذه الأساسيات ، إطار InstructIR هو أول نموذج رؤية كمبيوتر يستخدم توجيهات مكتوبة من قبل الإنسان لتحقيق استعادة الصور وحل المشاكل العكسية.对于 توجيهات اللغة الطبيعية ، يمكن لنموذج InstructIR استعادة صور عالية الجودة من نظيراتها المتدهورة ويتعامل أيضًا مع أنواع تدهور متعددة. إطار InstructIR قادر على تقديم أداء على مستوى الدولة من حيث الجودة لمجموعة واسعة من مهام استعادة الصور ، بما في ذلك إزالة المطر ، وازالة الضوضاء ، وإزالة الضباب ، وتقليل التمويه ، وتحسين الصور منخفضة الإضاءة.

InstructIR : الطريقة والهيكل

في جوهره ، يتكون إطار InstructIR من مشفر نصي ونموذج صورة. يستخدم النموذج إطار NAFNet ، وهو نموذج استعادة صورة فعال يتبع هيكل U-Net كنموذج الصورة. بالإضافة إلى ذلك ، يطبق النموذج تقنيات التوجيه للمهام لتعلم مهام متعددة باستخدام نموذج واحد بنجاح. يُظهر الشكل التالي نهج التدريب والتقييم لإطار InstructIR. مستوحى من نموذج InstructPix2Pix ، يعتمد إطار InstructIR على توجيهات مكتوبة من قبل الإنسان كآلية تحكم لأن هناك keine حاجة للمستخدم إلى تقديم معلومات إضافية. توفر هذه التوجيهات طريقة واضحة وواضحة للتفاعل ، مما يسمح للمستخدمين بتحديد الموقع الدقيق ونوع التدهور في الصورة. بالإضافة إلى ذلك ، استخدام توجيهات المستخدم بدلاً من توجيهات محددة للتدهور تحسن من إمكانية استخدام النموذج وتطبيقاته لأنها يمكن أن تستخدم أيضًا من قبل المستخدمين الذين يفتقرون إلى الخبرة الفنية المطلوبة. لتجهيز إطار InstructIR بقدرة فهم توجيهات متنوعة ، يستخدم النموذج GPT-4 ، وهو نموذج لغة كبير لإنشاء طلبات متنوعة ، مع توجيهات غامضة وغير واضحة تم إزالتها بعد عملية تصفية.

مشفر النص

يستخدم مشفر النص من قبل نماذج اللغة لتحويل توجيهات المستخدم إلى تمثيل متجهي نصي أو تمثيل متجهي بحجم ثابت. تقليديًا ، مشفر النص لنموذج CLIP هو مكون حيوي لتحويل النص إلى صورة ، ونمذجة تحرير الصور القائمة على النص لأن نموذج CLIP يمتاز في التوجيهات البصرية. ومع ذلك ، في معظم الأحيان ، توجيهات المستخدم لتدهور الصور تحتوي على القليل من المحتوى البصري أو لا تحتوي على أي محتوى ، مما يجعل مشفرات CLIP الكبيرة غير مفيدة لهذه المهام لأنها ستؤثر على الكفاءة بشكل كبير. لمواجهة هذه القضية ، يختار إطار InstructIR مشفر جملة نصية تم تدريبه لتحويل الجمل إلى فضاء تمثيل متجهي ذي معنى. تم تدريب مشفرات الجمل على ملايين الأمثلة وهي مدمجة وفعالة مقارنة بمشفرات CLIP التقليدية ، مع القدرة على تحويل معاني توجيهات المستخدم المتنوعة.

توجيه النص

جانب مهم من إطار InstructIR هو تطبيق التوجيه المشفر كآلية تحكم لنموذج الصورة. بناءً على هذا ، ومستوحى من توجيه المهام لتعلم العديد من المهام ، ي提تر إطار InstructIR كتلة بناء التوجيه أو ICB لتمكين التحويلات المحددة للمهام داخل النموذج. التوجيه التقليدي للمهام يطبق أقنعة ثنائية محددة للمهام على ميزات القناة. ومع ذلك ، لأن إطار InstructIR لا يعرف التدهور ، لا يتم تطبيق هذه التقنية بشكل مباشر. بالإضافة إلى ذلك ،对于 ميزات الصورة و التوجيهات المشفرة ، يطبق إطار InstructIR توجيه المهام ، وينتج القناع باستخدام طبقة خطية تنشط باستخدام دالة السجما لتحديد مجموعة من الأوزان اعتمادًا على التمثيلات النصية ، وبالتالي الحصول على قناع ثنائي ب بعدی لكل قناة. يُعزز النموذج الميزات المشروطة باستخدام NAFBlock ، ويستخدم NAFBlock وكتلة التوجيه المشروطة لتشغيل الميزات في كلا البلوكين المشفر والفك. على الرغم من أن إطار InstructIR لا يشترط بشكل صريح مرشحات الشبكة العصبية ، فإن القناع يسهل على النموذج اختيار القنوات الأكثر صلة بناءً على توجيهات الصورة والمعلومات.

InstructIR: التنفيذ والنتائج

نموذج InstructIR قابل للتدريب من النهاية إلى النهاية ، ونموذج الصورة لا يتطلب التدريب المسبق. فقط مشاريع التمثيل النصي ورأس التصنيف يحتاجان إلى التدريب. يتم 초기ته مشفر النص باستخدام مشفر BGE ، وهو مشفر شبيه ب BERT تم تدريبه على كمية هائلة من البيانات الخاضعة للإشراف والغير خاضعة للإشراف لتحويل الجمل العامة. يستخدم إطار InstructIR نموذج NAFNet كنموذج صورة ، ويتكون هيكل NAFNet من محول فك ترميز ذي 4 مستويات مع عدد متغير من الكتلة في كل مستوى. يضيف النموذج 4 كتل وسطى بين المحول والفك لتعزيز الميزات بشكل أكبر. بالإضافة إلى ذلك ، بدلاً من التماس لاتصال القفز ، يطبق الفك الإضافة ، وينفذ نموذج InstructIR فقط كتلة التوجيه المشروطة أو ICB لتوجيه المهام فقط في المحول والفك.

نتائج التدهور المتعدد

للتدهورات المتعددة و استعادة المهام المتعددة ، يحدد إطار InstructIR إعدادين đầu tiên:

  1. 3D لنموذج ثلاثي التدهور لمعالجة مشاكل مثل إزالة الضباب ، وازالة الضوضاء ، وإزالة المطر.
  2. 5D لنموذج خماسي التدهور لمعالجة مشاكل مثل تحسين الصور منخفضة الإضاءة ، وإزالة الضباب ، وازالة الضوضاء ، وإزالة المطر.

تُظهر أداء نموذج 5D في الجدول التالي ، ويقارنها مع نماذج استعادة الصور وكلها على مستوى الدولة. كما يمكن ملاحظة ، إطار InstructIR مع نموذج صورة بسيط و 16 مليون معامل فقط يمكنه التعامل مع خمس مهام استعادة صور مختلفة بنجاح بفضل التوجيه القائم على التوجيه ، ويقدم نتائج تنافسية. يُظهر الجدول التالي أداء الإطار على نموذج 3D ، ونتائج مماثلة للنتائج السابقة. النقطة الرئيسية لإطار InstructIR هي استعادة الصور القائمة على التوجيه ، ويُظهر الشكل التالي القدرة الرائعة لنموذج InstructIR على فهم مجموعة واسعة من التوجيهات لمهمة معينة. كما أنه ،对于 توجيه معادي ، يقوم نموذج InstructIR بتشغيل الهوية التي لا يتم فرضها.

أفكار نهائية

استعادة الصورة هي مشكلة أساسية في رؤية الكمبيوتر منذ أن تهدف إلى استعادة صورة نظيفة عالية الجودة من صورة تظهر تدهورات. في رؤية الكمبيوتر منخفضة المستوى ، التدهور هو مصطلح يستخدم لتمثيل الآثار غير السارة الملاحظة في الصورة مثل التمويه الحركي ، الضباب ، الضوضاء ، ومدى الديناميكية المنخفض ، وغيرها. في هذا المقال ، تحدثنا عن InstructIR ، أول إطار لاستعادة الصور في العالم يهدف إلى توجيه نموذج استعادة الصورة باستخدام توجيهات مكتوبة من قبل الإنسان.对于 توجيهات اللغة الطبيعية ، يمكن لنموذج InstructIR استعادة صور عالية الجودة من نظيراتها المتدهورة ويتعامل أيضًا مع أنواع تدهور متعددة. إطار InstructIR قادر على تقديم أداء على مستوى الدولة من حيث الجودة لمجموعة واسعة من مهام استعادة الصور ، بما في ذلك إزالة المطر ، وازالة الضوضاء ، وإزالة الضباب ، وتقليل التمويه ، وتحسين الصور منخفضة الإضاءة.

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.