مصنوعی ذہانت
کمپیوٹر وژن ڈیٹاسیٹس کے لیے براؤزر پر مبنی تصویری تشریح کا ٹول

فن لینڈ کے محققین نے ایک براؤزر پر مبنی تصویری لیبلنگ ٹول تیار کیا ہے جس کا مقصد کمپیوٹر ویژن ڈیٹاسیٹس کے لیے تصویری تشریح کے تکلیف دہ عمل کی آسانی اور رفتار کو بہتر بنانا ہے۔ سب سے مشہور براؤزر انجنوں کے لیے OS-agnostic ایکسٹینشن کے طور پر انسٹال کیا گیا، نیا ٹول صارفین کو 'آزادانہ طور پر براؤزنگ کرتے ہوئے تشریح' کرنے کے قابل بناتا ہے، بجائے اس کے کہ کسی وقف شدہ سیٹ اپ کے تناظر میں لیبلنگ سیشن ڈالنے، یا کلائنٹ سائیڈ کوڈ اور دیگر خاص حالات کو چلانے کی ضرورت ہو۔
عنوان برما (لو اوور ہیڈ براؤزر صرف امیج اینوٹیشن ٹول)، یہ نظام Jyväskylä یونیورسٹی میں تیار کیا گیا تھا۔ یہ مقامی یا ریموٹ ڈائریکٹریز میں ڈیٹاسیٹس کو کھرچنے اور مرتب کرنے کی ضرورت کو دور کرتا ہے، اور کسی بھی عوامی سطح پر موجود پلیٹ فارم پر دستیاب مختلف ڈیٹا پیرامیٹرز سے مفید ڈیٹا حاصل کرنے کے لیے ترتیب دیا جا سکتا ہے۔

BRIMA ایکشن میں ہے۔ ماخذ: https://arxiv.org/pdf/2107.06351.pdf
اس طرح BRIMA (جو پیش کیا جائے گا۔ آئی سی آئی پی 2021، جب کوڈ کو بھی دستیاب کرایا جائے گا) ان ممکنہ رکاوٹوں کو دور کرتا ہے جو اس وقت پیدا ہو سکتی ہیں جب خودکار ویب سکریپنگ سسٹمز کو IP رینجز یا دیگر طریقوں کے ذریعے بلاک کیا جاتا ہے، اور ڈیٹا اکٹھا کرنے سے روکا جاتا ہے - ایک ایسا منظر نامہ جو زیادہ عام ہو جائے گا کیونکہ IP تحفظ تیزی سے توجہ میں آتا ہے۔ ، جیسا کہ اس کے پاس ہے۔ حال ہی میں کیا مائیکروسافٹ کے AI سے چلنے والے کوڈ جنریشن ٹول، Copilot کے ساتھ۔
چونکہ BRIMA کا مقصد صرف اور صرف انسانی بنیادوں پر تشریح کے لیے ہے، اس لیے اس کے استعمال سے دیگر قسم کے روڈ بلاکس، جیسے کیپچا چیلنجز، یا ڈیٹا اکٹھا کرنے والے الگورتھم کو روکنے کے لیے دیگر خودکار نظاموں کو متحرک کرنے کا امکان بھی کم ہے۔
انکولی ڈیٹا اکٹھا کرنے کی صلاحیتیں۔
BRIMA کو Windows، OSX یا Linux پر فائر فاکس ایڈ آن یا کروم ایکسٹینشن کے ذریعے لاگو کیا جاتا ہے، اور اسے ڈیٹا پوائنٹس کی بنیاد پر نمایاں ڈیٹا داخل کرنے کے لیے کنفیگر کیا جا سکتا ہے جنہیں کوئی خاص پلیٹ فارم بے نقاب کرنے کا انتخاب کر سکتا ہے۔ مثال کے طور پر، Google Street View میں تصاویر کی تشریح کرتے وقت، نظام لینس کی واقفیت اور نقطہ نظر کا حساب لگا سکتا ہے، اور صارف کی طرف سے توجہ کے تحت مخصوص کردہ آبجیکٹ کے عین مطابق جغرافیائی محل وقوع کو رجسٹر کر سکتا ہے۔
BRIMA کا ستمبر 2020 میں اس کے تخلیق کاروں کے ذریعے تجربہ کیا گیا، CCTV آبجیکٹ کے لیے آبجیکٹ کا پتہ لگانے والے ڈیٹاسیٹ (عوامی جگہوں پر نصب ویڈیو سرویلنس کیمرے، یا عوامی جگہوں سے دیکھنے کے قابل) کے لیے ایک کراؤڈ سورسڈ اقدام پر تعاون کے دوران۔
یہ نظام براؤزر ایکسٹینشن کی شکل میں ہلکے وزن والے JavaScript کلائنٹ سائیڈ انسٹالیشن پر مشتمل ہے، اور سرور سائیڈ پہلو جو تشریحی ڈیٹا کو وصول اور مرتب کرتا ہے۔ سرور سائیڈ انسٹالیشن کے حوالہ جات کو Python اور PHP میں Flask اور Swagger/OpenAPI کے ساتھ لکھا گیا تھا، لیکن محققین اس بات پر زور دیتے ہیں کہ سنٹرل پروسیسنگ فن تعمیر کو آسانی سے دوسری زبانوں اور کنفیگریشنز میں پورٹ کیا جا سکتا ہے۔
براؤزر ایکسٹینشن اور سرور RESTful API درخواستوں اور HTTP/XHR کے ذریعے مواصلت کرتے ہیں، کلائنٹ سائیڈ ڈیٹا کے ساتھ JSON فارمیٹ میں گھر بھیجا جاتا ہے جو MS COCO کے ساتھ مطابقت رکھتا ہے۔ اس کا مطلب یہ ہے کہ ڈیٹا مختلف قسم کے مقبول ترین آبجیکٹ ڈیٹیکشن فریم ورک کے ساتھ فوری طور پر قابل استعمال ہے، بشمول TensorFlow کے متنوع بیک اینڈز، جیسے کہ Facebook ڈیٹیکٹرون 2، اور سینٹر ماسک 2.
پروجیکٹ کے لیے مخصوص ٹولنگ
BRIMA کی عمومی نوعیت کے باوجود، اسے انتہائی مخصوص ڈیٹا اکٹھا کرنے والی ترتیبوں میں ترتیب دیا جا سکتا ہے، بشمول ڈراپ ڈاؤن مینوز اور کسی خاص ڈومین سے متعلق دیگر قسم کے متعلقہ ان پٹ کا نفاذ۔ نیچے دی گئی تصویر میں ہم دیکھتے ہیں کہ کیمرے کی معلومات سے متعلق ایک ڈراپ ڈاؤن مینو BRIMA میں لکھا گیا ہے، تاکہ تشریح کرنے والوں کا ایک گروپ تفصیلی اور پروجیکٹ سے متعلق معلومات فراہم کر سکے۔
یہ اضافی ٹولنگ مقامی طور پر ترتیب دی جا سکتی ہے۔ ایکسٹینشن میں کلر کوڈڈ UI عناصر کے ساتھ آسان انسٹالیشن اور قابل ترتیب کی بورڈ شارٹ کٹس بھی شامل ہیں۔
یہ کام حالیہ برسوں میں ویب سے حاصل کردہ یا عوام کا سامنا کرنے والے ڈیٹا کے لیے تصویری تشریح کی سہولت کو بہتر بنانے کی متعدد کوششوں پر مبنی ہے۔ فوٹو اسٹف ٹول، DARPA کے ذریعے تعاون یافتہ، ایک وقف شدہ ویب پورٹل کے ذریعے آن لائن تشریح پیش کرتا ہے، اور اسے سیمنٹک ویب پر یا اسٹینڈ اسٹون ایپلی کیشن کے طور پر چلایا جا سکتا ہے۔ 2004 میں یو سی برکلے نے تجویز کیا۔ کیمرہ فون پر تصویر کی تشریح، جس نے نیٹ ورک کوریج کی حدود اور اس دور کی ویو پورٹ کی حدود کی وجہ سے میٹا ڈیٹا کا بہت زیادہ فائدہ اٹھایا۔ ایم آئی ٹی 2005 لیبل می پروجیکٹ نے براؤزر پر مبنی تشریح سے بھی رابطہ کیا، MATLAB ٹولز پر انحصار کرتے ہوئے؛
2015 میں ریلیز ہونے کے بعد سے، FOSS Python/QT فریم ورک لیبل آئی ایم جی ایک وقف شدہ مقامی تنصیب کے ساتھ، کراؤڈ سورس تشریحی کوششوں میں مقبولیت حاصل کی ہے۔ تاہم، BRIMA کے محققین کا مشاہدہ ہے کہ LabelImg مرکز PascalVOC اور YOLO معیارات پر ہے، MS COCO JSON فارمیٹ کو سپورٹ نہیں کرتا ہے، اور سادہ مستطیل کیپچر والے علاقوں کے حق میں کثیرالاضلاع آؤٹ لائننگ ٹولز کو روکتا ہے (جس کے لیے بعد میں سیگمنٹیشن کی ضرورت ہوگی)۔