Umělá inteligence
Prohlížečový nástroj pro anotaci obrazů pro datové sady počítačového vidění

Výzkumníci z Finska vyvinuli prohlížečový nástroj pro anotaci obrazů, který má zlepšit snadnost a rychlost zdlouhavých procesů anotace obrazů pro datové sady počítačového vidění. Nainstalován jako rozšíření pro nejoblíbenější prohlížečové motory, nový nástroj umožňuje uživatelům “anotovat při prohlížení”, místo aby museli umístit relační sezení do kontextu speciálního nastavení nebo spustit klientský kód a další speciální okolnosti.
Nazvaný BRIMA (nástroj pro anotaci obrazů s nízkými nároky na prohlížeč), byl systém vyvinut na Univerzitě v Jyväskylä. Odstraňuje potřebu skrípat a kompilovat datové sady do místních nebo vzdálených adresářů a lze jej nakonfigurovat tak, aby odvodil užitečné údaje z různých datových parametrů dostupných na jakékoli veřejné platformě.

BRIMA v akci. Source: https://arxiv.org/pdf/2107.06351.pdf
Tímto způsobem BRIMA (který bude prezentován na ICIP 2021, kdy bude kód také zpřístupněn) odstraňuje potenciální překážky, které mohou nastat, když jsou automatické systémy pro sběr dat z webu zablokovány prostřednictvím IP rozsahů nebo jiných metod a brání jim ve sběru dat – scénář, který se má stát častějším, protože ochrana IP se stále více dostává do popředí, jako se to nedávno stalo s nástrojem Microsoftu pro generování kódu s umělou inteligencí, Copilot.
Pоскольку BRIMA je určen výhradně pro anotaci založenou na lidské činnosti, jeho použití je také méně pravděpodobné, že spustí další typy překážek, jako jsou výzvy CAPTCHA nebo jiné automatické systémy určené k blokování algoritmů pro sběr dat.
Adaptivní schopnosti sběru dat
BRIMA je implementován jako rozšíření prohlížeče Firefox nebo Chrome na Windows, OSX nebo Linux a lze jej nakonfigurovat tak, aby přijímal relevantní údaje na základě datových bodů, které určitá platforma může zvolit pro zveřejnění. Například při anotaci obrazů v Google Street View může systém zohlednit orientaci a úhel pohledu objektivu a zaregistrovat přesnou geografickou polohu objektu, na který uživatel upozorňuje.

BRIMA byl testován v září 2020 svými tvůrci během spolupráce na crowdsourcovém projektu pro generování datové sady pro detekci objektů CCTV (kamer pro video dohled umístěných ve veřejných prostorech nebo viditelných z veřejných prostor).
Systém se skládá z lehké instalace klienta ve formě prohlížečového rozšíření a serverové části, která přijímá a kompiluje anotační údaje. Referenční implementace serverové části byly napsány v Pythonu a PHP s Flask a Swagger/OpenAPI, ale výzkumníci zdůrazňují, že centrální architektura zpracování může být snadno portována do jiných jazyků a konfigurací.
Prohlížečové rozšíření a server komunikují prostřednictvím požadavků RESTful API a HTTP/XHR, přičemž klientští údaje jsou odesíláni ve formátu JSON, který je kompatibilní s MS COCO. To znamená, že údaje jsou okamžitě použitelné s různými frameworky pro detekci objektů, včetně různých backendů pro TensorFlow, jako je Facebookův Detectron2 a CenterMask2.
Nástroje specifické pro projekt
Přes obecnou povahu BRIMA lze jej nakonfigurovat do vysoce specifických konfigurací pro sběr dat, včetně zavedení roletových menu a dalších typů kontextové vstupní informace související s určitou doménou. Na obrázku níže vidíme, že roletové menu související s informací o kameras byl napsán do BRIMA, aby skupina anotátorů mohla poskytnout podrobné a projektové relevantní informace.

Tato další nástroje lze nakonfigurovat místně. Rozšíření také nabízí snadnou instalaci a nakonfigurovatelné klávesové zkratky, spolu s barevně kódovanými prvky uživatelského rozhraní.
Práce vychází z řady pokusů v posledních letech o zlepšení anotace obrazů pro data získaná z webu nebo veřejně přístupná data. Nástroj PhotoStuff, podporovaný DARPA, nabízí online anotaci prostřednictvím speciálního webového portálu a lze jej spustit na semantickém webu nebo jako samostatnou aplikaci; v roce 2004 navrhl UC Berkeley Photo Annotation on a Camera Phone, který silně využíval metadata, kvůli omezením pokrytí sítě a omezením zobrazení dané éry; Projekt MIT z roku 2005 LabelMe také přistupoval k anotaci založené na prohlížeči, s závislostí na nástrojích MATLAB;
Od jeho vydání v roce 2015 získal framework FOSS Python/QT LabelImg popularitu v crowdsourcových snahách o anotaci, s věnovanou místní instalací. Nicméně, výzkumníci BRIMA pozorují, že LabelImg se zaměřuje na standardy PascalVOC a YOLO, nepodporuje formát MS COCO JSON a upouští od nástrojů pro polygonální obrysování ve prospěch jednoduchých obdélníkových oblastí zachycení (které budou vyžadovat následné segmentování).












