مصنوعی ذہانت
InstructIR: انسانی ہدایات کے بعد اعلیٰ معیار کی تصویر کی بحالی

ایک تصویر بہت زیادہ اظہار کر سکتی ہے، لیکن اس کے باوجود یہ مختلف مسائل جیسے حرکت دھندلا، کہرا، شور، اور کم متحرک حد سے بھی متاثر ہو سکتی ہے۔ یہ مسائل، جنہیں عام طور پر کمپیوٹر کے نچلے درجے کے وژن میں انحطاط کہا جاتا ہے، مشکل ماحولیاتی حالات جیسے گرمی یا بارش یا خود کیمرے کی حدود سے پیدا ہو سکتے ہیں۔ تصویر کی بحالی کمپیوٹر وژن میں ایک بنیادی چیلنج کی نمائندگی کرتی ہے، جو اس طرح کے انحطاط کو ظاہر کرنے والے سے ایک اعلیٰ معیار کی، صاف تصویر کو بحال کرنے کی کوشش کرتی ہے۔ تصویر کی بحالی پیچیدہ ہے کیونکہ کسی بھی تصویر کو بحال کرنے کے متعدد حل ہوسکتے ہیں۔ کچھ نقطہ نظر مخصوص انحطاط کو نشانہ بناتے ہیں، جیسے شور کو کم کرنا یا دھندلا پن یا کہرا ہٹانا۔
اگرچہ یہ طریقے خاص مسائل کے لیے اچھے نتائج دے سکتے ہیں، لیکن وہ اکثر مختلف قسم کے انحطاط کو عام کرنے کے لیے جدوجہد کرتے ہیں۔ بہت سے فریم ورک تصویر کی بحالی کے کاموں کی ایک وسیع رینج کے لیے ایک عام عصبی نیٹ ورک کو ملازمت دیتے ہیں، لیکن یہ نیٹ ورک ہر ایک کو الگ سے تربیت دی جاتی ہے۔ ہر قسم کے انحطاط کے لیے مختلف ماڈلز کی ضرورت اس نقطہ نظر کو کمپیوٹیشنل طور پر مہنگا اور وقت طلب بناتی ہے، جس کی وجہ سے حالیہ پیش رفت میں آل ان ون بحالی ماڈلز پر توجہ دی جاتی ہے۔ یہ ماڈل ایک واحد، گہرے اندھے بحالی کے ماڈل کا استعمال کرتے ہیں جو متعدد سطحوں اور انحطاط کی اقسام کو حل کرتا ہے، اکثر کارکردگی کو بڑھانے کے لیے انحطاط سے متعلق مخصوص اشارے یا رہنمائی ویکٹر استعمال کرتے ہیں۔ اگرچہ آل ان ون ماڈلز عام طور پر امید افزا نتائج دکھاتے ہیں، پھر بھی انہیں الٹا مسائل کے ساتھ چیلنجوں کا سامنا کرنا پڑتا ہے۔
InstructIR میدان میں ایک اہم نقطہ نظر کی نمائندگی کرتا ہے، پہلے ہونے کی وجہ سے تصویر کی بحالی انسانی تحریری ہدایات کے ذریعے بحالی کے ماڈل کی رہنمائی کے لیے ڈیزائن کیا گیا فریم ورک۔ یہ مختلف انحطاط کی اقسام کو مدنظر رکھتے ہوئے، انحطاط شدہ تصاویر سے اعلیٰ معیار کی تصاویر کو بازیافت کرنے کے لیے قدرتی زبان کے اشارے پر کارروائی کر سکتا ہے۔ InstructIR تصویر کی بحالی کے کاموں کے وسیع میدان عمل کے لیے کارکردگی میں ایک نیا معیار طے کرتا ہے، بشمول کم روشنی والی تصویروں کو ڈیریننگ، ڈینوائزنگ، ڈیہزنگ، ڈی بلرنگ، اور بڑھانا۔
اس مضمون کا مقصد InstructIR کے فریم ورک کو گہرائی میں ڈھانپنا ہے، اور ہم میکانزم، طریقہ کار، فریم ورک کے فن تعمیر کے ساتھ ساتھ جدید ترین امیج اور ویڈیو جنریشن فریم ورک کے ساتھ موازنہ کرتے ہیں۔ تو آئیے شروع کرتے ہیں۔
InstructIR: اعلی معیار کی تصویر کی بحالی
تصویر کی بحالی کمپیوٹر وژن میں ایک بنیادی مسئلہ ہے کیونکہ اس کا مقصد کسی ایسی تصویر سے ایک اعلیٰ معیار کی صاف تصویر کو بازیافت کرنا ہے جو انحطاط کو ظاہر کرتی ہے۔ نچلے درجے کے کمپیوٹر ویژن میں، Degradations ایک ایسی اصطلاح ہے جو کسی تصویر کے اندر مشاہدہ کیے جانے والے ناخوشگوار اثرات کی نمائندگی کرنے کے لیے استعمال ہوتی ہے جیسے حرکت دھندلا، کہرا، شور، کم متحرک حد، اور بہت کچھ۔ تصویر کی بحالی ایک پیچیدہ الٹا چیلنج ہونے کی وجہ یہ ہے کہ کسی بھی تصویر کو بحال کرنے کے لیے متعدد مختلف حل ہو سکتے ہیں۔ کچھ فریم ورک مخصوص انحطاط پر توجہ مرکوز کرتے ہیں جیسے مثال کے شور کو کم کرنا یا تصویر کو مسترد کرنا، جب کہ دوسرے دھندلا پن یا دھندلا پن دور کرنے، یا کہر یا ڈیہزنگ کو صاف کرنے پر زیادہ توجہ مرکوز کر سکتے ہیں۔
حالیہ گہری سیکھنے کے طریقوں نے تصویر کی بحالی کے روایتی طریقوں کے مقابلے میں مضبوط اور زیادہ مستقل کارکردگی دکھائی ہے۔ یہ گہری سیکھنے والی تصویر کی بحالی کے ماڈلز ٹرانسفارمرز اور Convolutional Neural Networks پر مبنی عصبی نیٹ ورک استعمال کرنے کی تجویز پیش کرتے ہیں۔ ان ماڈلز کو مختلف تصویروں کی بحالی کے کاموں کے لیے آزادانہ طور پر تربیت دی جا سکتی ہے، اور وہ مقامی اور عالمی فیچر کے تعاملات کو پکڑنے اور ان میں اضافہ کرنے کی صلاحیت بھی رکھتے ہیں، جس کے نتیجے میں تسلی بخش اور مستقل کارکردگی ہوتی ہے۔ اگرچہ ان میں سے کچھ طریقے انحطاط کی مخصوص اقسام کے لیے مناسب طور پر کام کر سکتے ہیں، لیکن وہ عام طور پر مختلف قسم کے انحطاط کے لیے اچھی طرح سے نہیں نکلتے۔ مزید برآں، جب کہ بہت سے موجودہ فریم ورک تصویر کی بحالی کے کاموں کے لیے ایک ہی نیورل نیٹ ورک کا استعمال کرتے ہیں، ہر نیورل نیٹ ورک کی تشکیل کو الگ سے تربیت دی جاتی ہے۔ لہذا، یہ ظاہر ہے کہ ہر قابل فہم انحطاط کے لیے علیحدہ عصبی ماڈل کا استعمال ناقابل عمل اور وقت طلب ہے، یہی وجہ ہے کہ حالیہ تصویری بحالی کے فریم ورکس نے آل ان ون بحالی پراکسیز پر توجہ مرکوز کی ہے۔
آل ان ون یا ملٹی ڈیگریڈیشن یا ملٹی ٹاسک امیج ریسٹوریشن ماڈلز کمپیوٹر ویژن فیلڈ میں مقبولیت حاصل کر رہے ہیں کیونکہ وہ ہر انحطاط کے لیے ماڈلز کو آزادانہ طور پر تربیت دینے کی ضرورت کے بغیر کسی تصویر میں متعدد اقسام اور انحطاط کی سطح کو بحال کرنے کی صلاحیت رکھتے ہیں۔ . آل ان ون امیج ریسٹوریشن ماڈلز مختلف اقسام اور امیج کے انحطاط کی سطحوں سے نمٹنے کے لیے ایک ہی گہری بلائنڈ امیج ریسٹوریشن ماڈل کا استعمال کرتے ہیں۔ مختلف آل ان ون ماڈل انحطاط شدہ تصویر کو بحال کرنے کے لیے نابینا ماڈل کی رہنمائی کے لیے مختلف طریقوں پر عمل درآمد کرتے ہیں، مثال کے طور پر، انحطاط یا کثیر جہتی رہنمائی ویکٹر کی درجہ بندی کرنے کے لیے ایک معاون ماڈل یا ماڈل کو مختلف قسم کے انحطاط کو بحال کرنے میں مدد کرنے کے لیے اشارہ کرتا ہے۔ تصویر.
اس کے کہنے کے ساتھ ہی، ہم ٹیکسٹ پر مبنی تصویری ہیرا پھیری پر پہنچتے ہیں کیونکہ اسے ٹیکسٹ ٹو امیج جنریشن، اور ٹیکسٹ بیسڈ امیج ایڈیٹنگ کے کاموں کے لیے پچھلے کچھ سالوں میں کئی فریم ورکس کے ذریعے لاگو کیا گیا ہے۔ یہ ماڈل اکثر ٹیکسٹ پرامپٹس کے ساتھ ساتھ اعمال یا تصاویر کو بیان کرنے کے لیے استعمال کرتے ہیں۔ بازی پر مبنی ماڈلز متعلقہ تصاویر بنانے کے لیے۔ InstructIR فریم ورک کے لیے بنیادی تحریک InstructPix2Pix فریم ورک ہے جو ماڈل کو صارف کی ہدایات کا استعمال کرتے ہوئے تصویر میں ترمیم کرنے کے قابل بناتا ہے جو ماڈل کو ہدایت کرتی ہے کہ ان پٹ امیج کے ٹیکسٹ لیبلز، تفصیل، یا کیپشن کے بجائے کیا عمل کرنا ہے۔ نتیجے کے طور پر، صارفین نمونہ کی تصاویر یا اضافی تصویری تفصیل فراہم کرنے کی ضرورت کے بغیر ماڈل کو یہ ہدایت دینے کے لیے قدرتی تحریری متن کا استعمال کر سکتے ہیں کہ کون سا عمل کرنا ہے۔
ان بنیادی باتوں پر استوار، InstructIR فریم ورک پہلا کمپیوٹر ویژن ماڈل ہے جو تصویر کی بحالی اور الٹا مسائل کو حل کرنے کے لیے انسانی تحریری ہدایات کو استعمال کرتا ہے۔ فطری زبان کے اشارے کے لیے، InstructIR ماڈل ان کے انحطاط شدہ ہم منصبوں سے اعلیٰ معیار کی تصاویر بازیافت کر سکتا ہے اور انحطاط کی متعدد اقسام کو بھی مدنظر رکھتا ہے۔ InstructIR فریم ورک تصویر کی بحالی کے کاموں کی ایک وسیع صف پر جدید ترین کارکردگی پیش کرنے کے قابل ہے جس میں امیج ڈیریننگ، ڈینوائزنگ، ڈی ہیزنگ، ڈی بلرنگ، اور کم روشنی والی تصویر کو بڑھانا شامل ہے۔ موجودہ کاموں کے برعکس جو سیکھے ہوئے گائیڈنس ویکٹرز یا پرامپٹ ایمبیڈنگز کا استعمال کرتے ہوئے تصویر کی بحالی حاصل کرتے ہیں، InstructIR فریم ورک ٹیکسٹ فارم میں خام صارف کے اشارے استعمال کرتا ہے۔ InstructIR فریم ورک انسانی تحریری ہدایات کا استعمال کرتے ہوئے تصاویر کو بحال کرنے کے لیے عام کرنے کے قابل ہے، اور InstructIR کے ذریعے لاگو کردہ واحد آل ان ون ماڈل پہلے کے ماڈلز سے زیادہ بحالی کے کاموں کا احاطہ کرتا ہے۔ مندرجہ ذیل اعداد و شمار InstructIR فریم ورک کے متنوع بحالی کے نمونوں کو ظاہر کرتا ہے۔
انسٹرکٹر: طریقہ اور فن تعمیر
اس کے بنیادی طور پر، InstructIR فریم ورک ایک ٹیکسٹ انکوڈر اور ایک تصویری ماڈل پر مشتمل ہوتا ہے۔ ماڈل NAFNet فریم ورک کا استعمال کرتا ہے، تصویر کی بحالی کا ایک موثر ماڈل جو تصویری ماڈل کے طور پر U-Net فن تعمیر کی پیروی کرتا ہے۔ مزید برآں، ماڈل ٹاسک روٹنگ تکنیک کو لاگو کرتا ہے تاکہ ایک ماڈل کو کامیابی کے ساتھ استعمال کرتے ہوئے متعدد کاموں کو سیکھ سکے۔ مندرجہ ذیل اعداد و شمار InstructIR فریم ورک کے لیے تربیت اور تشخیص کے طریقہ کار کو واضح کرتا ہے۔
InstructPix2Pix ماڈل سے متاثر ہوکر، InstructIR فریم ورک انسانی تحریری ہدایات کو کنٹرول میکانزم کے طور پر اپناتا ہے کیونکہ صارف کو اضافی معلومات فراہم کرنے کی ضرورت نہیں ہے۔ یہ ہدایات آپس میں بات چیت کرنے کا ایک واضح اور واضح طریقہ پیش کرتی ہیں جس سے صارفین تصویر میں درست مقام اور انحطاط کی قسم کی نشاندہی کر سکتے ہیں۔ مزید برآں، فکسڈ گراڈیشن مخصوص پرامپٹس کے بجائے صارف کے اشارے استعمال کرنے سے ماڈل کے استعمال اور ایپلیکیشنز میں اضافہ ہوتا ہے کیونکہ یہ وہ صارفین بھی استعمال کر سکتے ہیں جن کے پاس مطلوبہ ڈومین مہارت کی کمی ہے۔ InstructIR فریم ورک کو متنوع اشارے کو سمجھنے کی صلاحیت سے آراستہ کرنے کے لیے، ماڈل GPT-4 کا استعمال کرتا ہے، متنوع درخواستیں بنانے کے لیے ایک بڑی زبان کا ماڈل، فلٹرنگ کے عمل کے بعد مبہم اور غیر واضح پرامپٹس کو ہٹا دیا جاتا ہے۔
ٹیکسٹ انکوڈر
ایک ٹیکسٹ انکوڈر کا استعمال زبان کے ماڈلز کے ذریعے صارف کے اشارے کو ٹیکسٹ ایمبیڈنگ یا فکسڈ سائز ویکٹر کی نمائندگی کے لیے نقشہ بنانے کے لیے کیا جاتا ہے۔ روایتی طور پر، a کا ٹیکسٹ انکوڈر CLIP ماڈل ٹیکسٹ پر مبنی امیج جنریشن کے لیے ایک اہم جز ہے، اور ٹیکسٹ بیسڈ امیج مینیپولیشن ماڈلز صارف کے پرامپٹس کو انکوڈ کرنے کے لیے ہیں کیونکہ CLIP فریم ورک بصری اشارے میں بہترین ہے۔ تاہم، اکثر اوقات، صارف انحطاط کے لیے اشارہ کرتا ہے جس میں کوئی بصری مواد نہیں ہوتا، اس لیے، بڑے CLIP انکوڈرز کو ایسے کاموں کے لیے بیکار کر دیتا ہے کیونکہ یہ کارکردگی کو نمایاں طور پر متاثر کرے گا۔ اس مسئلے سے نمٹنے کے لیے، InstructIR فریم ورک ٹیکسٹ پر مبنی جملے کے انکوڈر کا انتخاب کرتا ہے جسے ایک بامعنی سرایت کرنے کی جگہ میں جملوں کو انکوڈ کرنے کی تربیت دی جاتی ہے۔ جملہ انکوڈرز لاکھوں مثالوں پر پہلے سے تربیت یافتہ ہیں اور پھر بھی، روایتی CLIP پر مبنی ٹیکسٹ انکوڈرز کے مقابلے میں کمپیکٹ اور موثر ہیں جبکہ متنوع صارف کے اشارے کے سیمنٹکس کو انکوڈ کرنے کی صلاحیت رکھتے ہیں۔
ٹیکسٹ گائیڈنس
InstructIR فریم ورک کا ایک بڑا پہلو تصویری ماڈل کے لیے ایک کنٹرول میکانزم کے طور پر انکوڈ شدہ ہدایات کا نفاذ ہے۔ اس کی بنیاد پر، اور بہت سے ٹاسک لرننگ کے لیے ٹاسک روٹنگ میں حوصلہ افزائی کرتے ہوئے، InstructIR فریم ورک ایک انسٹرکشن کنسٹرکشن بلاک یا ICB تجویز کرتا ہے تاکہ ماڈل کے اندر کام کے لیے مخصوص تبدیلیوں کو فعال کیا جا سکے۔ روایتی ٹاسک روٹنگ چینل کی خصوصیات پر ٹاسک مخصوص بائنری ماسک کا اطلاق کرتی ہے۔ تاہم، چونکہ InstructIR فریم ورک کو انحطاط کا علم نہیں ہے، اس لیے اس تکنیک کو براہ راست لاگو نہیں کیا جاتا ہے۔ مزید برآں، تصویری خصوصیات اور انکوڈ شدہ ہدایات کے لیے، InstructIR فریم ورک ٹاسک روٹنگ کو لاگو کرتا ہے، اور ٹیکسٹ ایمبیڈنگز کے لحاظ سے وزن کا ایک سیٹ تیار کرنے کے لیے سگمائڈ فنکشن کا استعمال کرتے ہوئے ایکٹیویٹڈ لکیری لیئر کا استعمال کرتے ہوئے ماسک تیار کرتا ہے، اس طرح ایک c-جہتی فی حاصل ہوتا ہے۔ چینل بائنری ماسک۔ ماڈل این اے ایف بلاک کا استعمال کرتے ہوئے کنڈیشنڈ فیچرز کو مزید بڑھاتا ہے، اور این اے ایف بلاک اور انسٹرکشن کنڈیشنڈ بلاک کا استعمال کرتا ہے تاکہ انکوڈر بلاک اور ڈیکوڈر بلاک دونوں کی خصوصیات کو کنڈیشن کیا جاسکے۔
اگرچہ InstructIR فریم ورک عصبی نیٹ ورک کے فلٹرز کو واضح طور پر کنڈیشن نہیں کرتا، لیکن ماسک ماڈل کو سہولت فراہم کرتا ہے کہ وہ تصویری ہدایات اور معلومات کی بنیاد پر سب سے زیادہ متعلقہ چینلز کو منتخب کر سکے۔
InstructIR: نفاذ اور نتائج
InstructIR ماڈل آخر سے آخر تک قابل تربیت ہے، اور تصویری ماڈل کو پری ٹریننگ کی ضرورت نہیں ہے۔ یہ صرف ٹیکسٹ ایمبیڈنگ پروجیکشنز اور درجہ بندی کے سر کو تربیت دینے کی ضرورت ہے۔ ٹیکسٹ انکوڈر کو ایک BGE انکوڈر کا استعمال کرتے ہوئے شروع کیا جاتا ہے، ایک BERT جیسا انکوڈر جو عام مقصد کے جملہ انکوڈنگ کے لیے زیر نگرانی اور غیر زیر نگرانی ڈیٹا کی ایک بڑی مقدار پر پہلے سے تربیت یافتہ ہوتا ہے۔ InstructIR فریم ورک NAFNet ماڈل کو تصویری ماڈل کے طور پر استعمال کرتا ہے، اور NAFNet کا فن تعمیر 4 سطح کے انکوڈر ڈیکوڈر پر مشتمل ہوتا ہے جس میں ہر سطح پر بلاکس کی مختلف تعداد ہوتی ہے۔ ماڈل خصوصیات کو مزید بڑھانے کے لیے انکوڈر اور ڈیکوڈر کے درمیان 4 درمیانی بلاکس بھی شامل کرتا ہے۔ مزید برآں، اسکپ کنکشنز کے لیے کنکٹینٹ کرنے کے بجائے، ڈیکوڈر اضافہ کو لاگو کرتا ہے، اور انسٹرکٹر آئی آر ماڈل صرف انکوڈر اور ڈیکوڈر میں ٹاسک روٹنگ کے لیے صرف ICB یا انسٹرکشن کنڈیشنڈ بلاک کو لاگو کرتا ہے۔ آگے بڑھتے ہوئے، InstructIR ماڈل کو بحال شدہ تصویر، اور زمینی سچائی کی صاف تصویر کے درمیان نقصان کا استعمال کرتے ہوئے بہتر بنایا جاتا ہے، اور کراس اینٹروپی نقصان کو ٹیکسٹ انکوڈر کے ارادے کی درجہ بندی کے ہیڈ کے لیے استعمال کیا جاتا ہے۔ InstructIR ماڈل ایڈم ڈبلیو آپٹیمائزر کا استعمال کرتا ہے جس کا بیچ سائز 32 ہے، اور تقریباً 5 عہدوں کے لیے سیکھنے کی شرح 4e-500، اور کوزائن اینیلنگ لرننگ ریٹ ڈے کو بھی لاگو کرتا ہے۔ چونکہ InstructIR فریم ورک میں تصویری ماڈل صرف 16 ملین پیرامیٹرز پر مشتمل ہے، اور صرف 100 ہزار سیکھے ہوئے ٹیکسٹ پروجیکشن پیرامیٹرز ہیں، اس لیے InstructIR فریم ورک کو معیاری GPUs پر آسانی سے تربیت دی جا سکتی ہے، اس طرح کمپیوٹیشنل اخراجات میں کمی، اور لاگو ہونے میں اضافہ ہوتا ہے۔
متعدد انحطاط کے نتائج
متعدد انحطاط اور کثیر کام کی بحالی کے لیے، InstructIR فریم ورک دو ابتدائی سیٹ اپ کی وضاحت کرتا ہے:
- انحطاط کے مسائل سے نمٹنے کے لیے تھری ڈی ڈی گریڈیشن ماڈلز جیسے ڈیہزنگ، ڈینوائزنگ اور ڈیریننگ۔
- پانچ انحطاطی ماڈلز کے لیے 5D انحطاط کے مسائل سے نمٹنے کے لیے جیسے امیج ڈینوائزنگ، کم روشنی میں اضافہ، dehazing، denoising، اور deraining.
5D ماڈلز کی کارکردگی کو مندرجہ ذیل جدول میں دکھایا گیا ہے، اور اس کا موازنہ اسٹیٹ آف دی آرٹ امیج ریسٹوریشن اور آل ان ون ماڈلز سے کیا گیا ہے۔
جیسا کہ یہ دیکھا جا سکتا ہے، ایک سادہ تصویری ماڈل اور صرف 16 ملین پیرامیٹرز کے ساتھ InstructIR فریم ورک ہدایات پر مبنی رہنمائی کی بدولت تصویر کی بحالی کے پانچ مختلف کاموں کو کامیابی کے ساتھ سنبھال سکتا ہے، اور مسابقتی نتائج فراہم کرتا ہے۔ مندرجہ ذیل جدول 3D ماڈلز پر فریم ورک کی کارکردگی کو ظاہر کرتا ہے، اور نتائج کا موازنہ اوپر کے نتائج سے کیا جا سکتا ہے۔
InstructIR فریم ورک کی خاص بات ہدایات پر مبنی تصویر کی بحالی ہے، اور مندرجہ ذیل اعداد و شمار انسٹرکٹر ماڈل کی ناقابل یقین صلاحیتوں کو ظاہر کرتا ہے تاکہ کسی کام کے لیے ہدایات کی ایک وسیع رینج کو سمجھ سکے۔ اس کے علاوہ، مخالفانہ ہدایات کے لیے، InstructIR ماڈل ایک ایسی شناخت انجام دیتا ہے جسے زبردستی نہیں بنایا جاتا ہے۔
فائنل خیالات
تصویر کی بحالی کمپیوٹر وژن میں ایک بنیادی مسئلہ ہے کیونکہ اس کا مقصد کسی ایسی تصویر سے ایک اعلیٰ معیار کی صاف تصویر کو بازیافت کرنا ہے جو انحطاط کو ظاہر کرتی ہے۔ نچلے درجے کے کمپیوٹر ویژن میں، Degradations ایک ایسی اصطلاح ہے جو کسی تصویر کے اندر مشاہدہ کیے جانے والے ناخوشگوار اثرات کی نمائندگی کرنے کے لیے استعمال ہوتی ہے جیسے حرکت دھندلا، کہرا، شور، کم متحرک حد، اور بہت کچھ۔ اس مضمون میں، ہم نے InstructIR کے بارے میں بات کی ہے، دنیا کا پہلا تصویری بحالی فریم ورک جس کا مقصد انسانی تحریری ہدایات کا استعمال کرتے ہوئے تصویر کی بحالی کے ماڈل کی رہنمائی کرنا ہے۔ فطری زبان کے اشارے کے لیے، InstructIR ماڈل ان کے انحطاط شدہ ہم منصبوں سے اعلیٰ معیار کی تصاویر بازیافت کر سکتا ہے اور انحطاط کی متعدد اقسام کو بھی مدنظر رکھتا ہے۔ InstructIR فریم ورک تصویر کی بحالی کے کاموں کی ایک وسیع صف پر جدید ترین کارکردگی پیش کرنے کے قابل ہے جس میں امیج ڈیریننگ، ڈینوائزنگ، ڈی ہیزنگ، ڈی بلرنگ، اور کم روشنی والی تصویر کو بڑھانا شامل ہے۔