الذكاء الاصطناعي

أداة شرح الصور المستندة إلى المستعرض لمجموعات بيانات رؤية الكمبيوتر

تحديث on 9 كانون الأول، 2022

طور باحثون من فنلندا أداة لتصنيف الصور قائمة على المتصفح تهدف إلى تحسين سهولة وسرعة عمليات التعليقات التوضيحية المملة للصور لمجموعات بيانات رؤية الكمبيوتر. تم تثبيت الأداة الجديدة كملحق غير متوافق مع نظام التشغيل لمحركات المتصفح الأكثر شيوعًا، وهي تتيح للمستخدمين "التعليق أثناء التصفح بحرية"، بدلاً من الحاجة إلى وضع جلسة تصنيف في سياق إعداد مخصص، أو تشغيل العميل- الرمز الجانبي والظروف الخاصة الأخرى.

بعنوان بريما (أداة التعليق التوضيحي IMage لـ BRowser-only منخفضة النفقات) ، تم تطوير النظام في جامعة Jyväskylä. يزيل الحاجة إلى كشط مجموعات البيانات وتجميعها في أدلة محلية أو بعيدة ، ويمكن تهيئتها لاستخلاص بيانات مفيدة من معلمات البيانات المختلفة المتاحة على أي منصة عامة.

بريما في العمل. المصدر: https://arxiv.org/pdf/2107.06351.pdf

بهذه الطريقة BRIMA (التي سيتم تقديمها في آي سي آي بي 2021، عندما الكود سيتم توفيره أيضًا) يتجنب العقبات المحتملة التي يمكن أن تنشأ عندما يتم حظر أنظمة تجريف الويب الآلية عبر نطاقات IP أو طرق أخرى ، ويتم إعاقتها من جمع البيانات - وهو سيناريو من المقرر أن يصبح أكثر شيوعًا مع زيادة التركيز على حماية IP ، كما فعلت تم عمله مؤخرًا باستخدام أداة إنشاء التعليمات البرمجية التي تعتمد على الذكاء الاصطناعي من Microsoft ، Copilot.

نظرًا لأن BRIMA مخصص فقط للتعليقات التوضيحية المستندة إلى الإنسان ، فمن غير المرجح أن يؤدي استخدامه أيضًا إلى إطلاق أنواع أخرى من حواجز الطرق ، مثل تحديات CAPTCHA أو الأنظمة الآلية الأخرى التي تهدف إلى حظر خوارزميات جمع البيانات.

قدرات جمع البيانات التكيفية

يتم تنفيذ BRIMA عبر إضافة Firefox أو امتداد Chrome على أنظمة التشغيل Windows أو OSX أو Linux ، ويمكن تهيئتها لاستيعاب البيانات البارزة بناءً على نقاط البيانات التي قد تختار منصة معينة عرضها. على سبيل المثال ، عند التعليق على الصور في Google Street View ، يمكن للنظام حساب اتجاه العدسة ووجهة نظرها ، وتسجيل الموقع الجغرافي الدقيق للكائن المحدد تحت اهتمام المستخدم.

تم اختبار BRIMA في سبتمبر من عام 2020 من قبل المبدعين ، خلال التعاون في مبادرة التعهيد الجماعي لإنشاء مجموعة بيانات للكشف عن الكائنات لكائنات الدوائر التلفزيونية المغلقة (كاميرات مراقبة بالفيديو مثبتة في الأماكن العامة ، أو يمكن عرضها من الأماكن العامة).

يتكون النظام من تثبيت JavaScript خفيف الوزن من جانب العميل في شكل امتداد للمتصفح ، وجانب من جانب الخادم يستقبل ويجمع بيانات التعليقات التوضيحية. تمت كتابة التطبيقات المرجعية للتثبيت من جانب الخادم بلغة Python و PHP باستخدام Flask و Swagger / OpenAPI ، لكن الباحثين يؤكدون أن بنية المعالجة المركزية يمكن نقلها بسهولة إلى لغات وتكوينات أخرى.

يتواصل امتداد المتصفح والخادم عبر طلبات RESTful API و HTTP / XHR ، مع إرسال البيانات من جانب العميل إلى المنزل بتنسيق JSON المتوافق مع MS COCO. هذا يعني أن البيانات يمكن استخدامها على الفور مع مجموعة متنوعة من أكثر أطر عمل اكتشاف الكائنات شيوعًا ، بما في ذلك الواجهات الخلفية المتنوعة لـ TensorFlow ، مثل Facebook الكاشف2و CenterMask2.

الأدوات الخاصة بالمشروع

على الرغم من الطبيعة العامة لـ BRIMA ، يمكن تهيئتها في تكوينات خاصة للغاية لجمع البيانات ، بما في ذلك فرض القوائم المنسدلة وأنواع أخرى من المدخلات السياقية المتعلقة بمجال معين. في الصورة أدناه ، نرى أن القائمة المنسدلة المتعلقة بمعلومات الكاميرا قد تمت كتابتها في BRIMA ، بحيث يمكن لمجموعة من المعلقين تقديم معلومات مفصلة وذات صلة بالمشروع.

يمكن تكوين هذه الأدوات الإضافية محليًا. يتميز الامتداد أيضًا بسهولة التثبيت واختصارات لوحة المفاتيح القابلة للتكوين ، إلى جانب عناصر واجهة المستخدم المرمزة بالألوان.

يعتمد العمل على عدد من المحاولات في السنوات الأخيرة لتحسين إمكانية التعليق التوضيحي للصور للبيانات التي تم الحصول عليها من الويب أو البيانات التي تواجه الجمهور. تقدم أداة PhotoStuff ، المدعومة من DARPA ، شرحًا توضيحيًا عبر الإنترنت عبر بوابة ويب مخصصة ، ويمكن تشغيلها على الويب الدلالي أو كتطبيق مستقل ؛ في عام 2004 اقترح جامعة كاليفورنيا في بيركلي تعليق توضيحي للصور على هاتف مزود بكاميرا، والتي استفادت بشكل كبير من البيانات الوصفية ، بسبب قيود تغطية الشبكة وقيود منفذ العرض في تلك الحقبة ؛ 2005 معهد ماساتشوستس للتكنولوجيا تسمية لي اقترب المشروع أيضًا من التعليقات التوضيحية المستندة إلى المستعرض ، مع الاعتماد على أدوات MATLAB ؛

منذ إطلاقه في عام 2015 ، إطار عمل FOSS Python / QT LabelImg اكتسب شعبية في جهود التعهيد الجماعي لتقديم التعليقات التوضيحية ، من خلال التثبيت المحلي المخصص. ومع ذلك ، لاحظ باحثو BRIMA أن مراكز LabelImg على معايير PascalVOC و YOLO ، لا تدعم تنسيق MS COCO JSON ، وتتجنب أدوات التخطيط متعددة الأضلاع لصالح مناطق الالتقاط المستطيلة البسيطة (والتي ستتطلب تجزئة لاحقة).