الذكاء الاصطناعي

InstructIR: استعادة الصور عالية الجودة

mm
High-Quality Image Restoration Following Human Instructions

يمكن للصورة نقل الكثير، ولكنها قد تكون أيضًا مصحوبة بمشاكل مختلفة مثل التمويه الحركي، الضباب، الضوضاء، ومعدل الديناميكية المنخفض. هذه المشاكل، التي يُطلق عليها عادةً تدهور في الرؤية الحاسوبية منخفضة المستوى، يمكن أن تنشأ من ظروف بيئية صعبة مثل الحرارة أو المطر أو من قيود الكاميرا نفسها. تمثل استعادة الصورة تحديًا أساسيًا في الرؤية الحاسوبية، حيث تهدف إلى استعادة صورة عالية الجودة ونظيفة من صورة تظهر مثل هذه التدهورات. استعادة الصورة معقدة لأن هناك قد يكون هناك حلول متعددة لاستعادة أي صورة. بعض النهج تستهدف تدهورات محددة، مثل تقليل الضوضاء أو إزالة التمويه أو الضباب.

في حين أن هذه الطرق يمكن أن تؤدي إلى نتائج جيدة لمشاكل معينة، غالبًا ما تعاني من صعوبة في التعميم عبر أنواع تدهور مختلفة. تستخدم العديد من الإطارات شبكة عصبونية عامة لعدد كبير من مهام استعادة الصورة، ولكن هذه الشبكات يتم تدريبها بشكل منفصل. هناك حاجة لطرق جديدة يمكنها التعامل مع تدهورات متعددة في الصورة، دون الحاجة إلى تدريب النماذج بشكل منفصل لكل تدهور.

تمثل إطار InstructIR نهجًا رائدًا في هذا المجال، حيث أنه الإطار الأول لاستعادة الصور الذي يعتمد على تعليمات مكتوبة من قبل الإنسان. يمكنه معالجة النصوص الطبيعية لاستعادة الصور عالية الجودة من الصور المتدهورة، مع الأخذ في الاعتبار أنواع تدهور متعددة. يُعد إطار InstructIR قادرًا على تقديم أداء على مستوى الدولة الفنية لمجموعة واسعة من مهام استعادة الصورة، بما في ذلك إزالة المطر، تقليل الضوضاء، إزالة الضباب، إزالة التمويه، وتحسين الصور منخفضة الإضاءة.

يهدف هذا المقال إلى تغطية إطار InstructIR بالتفصيل، وسنستكشف آليته وطريقة عمله وهيكله بالإضافة إلى مقارنته بالإطارات الأخرى لاستعادة الصور والفيديو.

InstructIR: استعادة الصور عالية الجودة

استعادة الصورة هي مشكلة أساسية في الرؤية الحاسوبية لأنها تهدف إلى استعادة صورة عالية الجودة ونظيفة من صورة تظهر تدهورات. في الرؤية الحاسوبية منخفضة المستوى، يُطلق على التدهورات مصطلحًا يُستخدم لتمثيل الآثار غير السارة الموجودة في الصورة مثل التمويه الحركي، الضباب، الضوضاء، معدل الديناميكية المنخفض، وغيرها.

أظهرت الطرق الحديثة في التعلم العميق أداءً أقوى وأكثر ثباتًا مقارنة بالطرق التقليدية لاستعادة الصور. هذه النماذج لاستعادة الصور باستخدام التعلم العميق تقترح استخدام الشبكات العصبونية التي تعتمد على المحولات والشبكات العصبونية التلافية. يمكن تدريب هذه النماذج بشكل مستقل لمهام استعادة صور متعددة، كما أنها تتمتع بالقدرة على التقاط التفاعلات المحلية والعالمية للميزات وتعزيزها، مما يؤدي إلى أداء مرضٍ ومستمر.

تتجه الإطارات الحديثة لاستعادة الصور نحو نماذج كل في واحد أو نماذج تدهور متعددة أو نماذج مهام متعددة لأنها قادرة على استعادة أنواع و مستويات متعددة من التدهور في الصورة دون الحاجة إلى تدريب النماذج بشكل منفصل لكل تدهور.

تستخدم نماذج كل في واحد لاستعادة الصور نموذج استعادة صورة عمياء عميق لتعامل مع أنواع و مستويات مختلفة من تدهور الصورة. تطبق نماذج كل في واحد مختلفة نهجًا مختلفًا لتوجيه النموذج العمياء لاستعادة الصورة المتدهورة، مثل نموذج مساعد لتصنيف التدهور أو متجهات توجيه متعددة الأبعاد أو نصوص توجيهية لمساعدة النموذج على استعادة أنواع مختلفة من التدهور في الصورة.

من الجدير بالذكر أن إطار InstructIR يعتمد على التوجيه النصي لاستعادة الصور، وهو نهج جديد في هذا المجال. يمكن للمستخدمين كتابة تعليمات نصية لاستعادة الصور، مما يسمح لهم بتحديد الموقع الدقيق ونوع التدهور في الصورة.

InstructIR: الطريقة والهيكل

يتكون إطار InstructIR من مشفر نصي ونموذج صورة. يستخدم النموذج إطار NAFNet، نموذج استعادة صورة كفء يتبع هيكل U-Net كنموذج الصورة.

مشفر النص

يستخدم مشفر النص لتمثيل النصوص في فضاء متجهي ثابت الحجم. يتم تدريب مشفر الجملة على ملايين الأمثلة، وهو مدمج وفعّال مقارنةً بمشفرات النص التقليدية.

توجيه النص

يُعد توجيه النص جانبًا مهمًا من إطار InstructIR. يُستخدم التوجيه النصي كميكانيزم تحكم للنموذج الصوري.

InstructIR: التنفيذ والنتائج

يمكن تدريب نموذج InstructIR من النهاية إلى النهاية، ولا يتطلب النموذج الصوري تدريبًا مسبقًا.

نتائج التدهور المتعدد

للتدهورات المتعددة ومهام الاستعادة المتعددة، يعرّف إطار InstructIR إعدادين أوليين:

  1. 3D لنموذج ثلاثي الأبعاد لتعامل مع مشاكل التدهور مثل إزالة الضباب، تقليل الضوضاء، وإزالة المطر.
  2. 5D لنموذج خماسي الأبعاد لتعامل مع مشاكل التدهور مثل تقليل الضوضاء، تحسين الإضاءة المنخفضة، إزالة الضباب، تقليل الضوضاء، وإزالة المطر.

أفكار ختامية

استعادة الصورة هي مشكلة أساسية في الرؤية الحاسوبية لأنها تهدف إلى استعادة صورة عالية الجودة ونظيفة من صورة تظهر تدهورات. في هذا المقال، تحدثنا عن إطار InstructIR، أول إطار لاستعادة الصور يعتمد على تعليمات مكتوبة من قبل الإنسان.

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.