stub Naršyklės vaizdo komentarų įrankis, skirtas kompiuterinės vizijos duomenų rinkiniams – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

Naršyklės vaizdo komentarų įrankis, skirtas kompiuterio matymo duomenų rinkiniams

mm
Atnaujinta on

Mokslininkai iš Suomijos sukūrė naršyklėje pagrįstą vaizdų ženklinimo įrankį, skirtą palengvinti ir pagreitinti varginančius vaizdo anotavimo procesus kompiuterinės regos duomenų rinkiniuose. Įdiegtas kaip OS agnostinis plėtinys populiariausiems naršyklių varikliams, naujasis įrankis leidžia vartotojams laisvai naršyti komentuoti, o ne priskirti ženklinimo seansą tam skirtos sąrankos kontekste ar paleisti kliento šalutinis kodas ir kitos ypatingos aplinkybės.

teisę BRIMA (Low-Overhead BRrowser-only IMage Annotation tool), sistema buvo sukurta Jyväskylä universitete. Tai pašalina poreikį rinkti ir kompiliuoti duomenų rinkinius į vietinius ar nuotolinius katalogus ir gali būti sukonfigūruotas taip, kad gautų naudingų duomenų iš įvairių duomenų parametrų, prieinamų bet kurioje viešai prieinamoje platformoje.

BRIMA veikia. Šaltinis: https://arxiv.org/pdf/2107.06351.pdf

BRIMA veikia. Šaltinis: https://arxiv.org/pdf/2107.06351.pdf

Tokiu būdu BRIMA (kuris bus pristatytas š ICIP 2021, kai kodas taip pat bus prieinama) pašalina galimas kliūtis, kurios gali kilti, kai automatinės žiniatinklio duomenų rinkimo sistemos blokuojamos IP diapazonais ar kitais metodais ir trukdo rinkti duomenis – toks scenarijus taps vis dažnesnis, nes vis daugiau dėmesio bus skiriama IP apsaugai. , kaip turi neseniai atlikta su Microsoft AI valdomu kodų generavimo įrankiu Copilot.

Kadangi BRIMA skirta tik žmonėms pagrįstoms anotacijoms, jos naudojimas taip pat mažiau tikėtina, kad sukels kitų rūšių kliūtis, pvz., CAPTCHA iššūkius arba kitas automatizuotas sistemas, skirtas blokuoti duomenų rinkimo algoritmus.

Prisitaikančios duomenų rinkimo galimybės

BRIMA įdiegta naudojant „Firefox“ priedą arba „Chrome“ plėtinį „Windows“, OSX arba „Linux“ operacinėse sistemose ir gali būti sukonfigūruotas taip, kad gautų svarbiausius duomenis pagal duomenų taškus, kuriuos tam tikra platforma gali pasirinkti atskleisti. Pavyzdžiui, komentuodama vaizdus „Google Street View“, sistema gali atsižvelgti į objektyvo orientaciją ir žiūrėjimo tašką bei užregistruoti tikslią vartotojo nurodyto objekto geografinę vietą.

BRIMA buvo išbandytas 2020 m. rugsėjį jos kūrėjų, bendradarbiaudami pagal sutelktinio šaltinio iniciatyvą, skirtą sukurti objektų aptikimo duomenų rinkinį CCTV objektams (viešose erdvėse sumontuotos vaizdo stebėjimo kameros arba matomos iš viešųjų erdvių).

Sistemą sudaro lengvas „JavaScript“ kliento pusėje įdiegtas naršyklės plėtinys ir serverio pusės aspektas, kuris gauna ir kaupia anotacijų duomenis. Serverio pusės diegimo nuorodos buvo parašytos Python ir PHP su Flask ir Swagger / OpenAPI, tačiau mokslininkai pabrėžia, kad centrinio apdorojimo architektūrą galima lengvai perkelti į kitas kalbas ir konfigūracijas.

Naršyklės plėtinys ir serveris bendrauja naudodami RESTful API užklausas ir HTTP / XHR, o kliento duomenys siunčiami į namus JSON formatu, suderinamu su MS COCO. Tai reiškia, kad duomenis galima iš karto naudoti su įvairiomis populiariausiomis objektų aptikimo sistemomis, įskaitant įvairias „TensorFlow“ programas, tokias kaip „Facebook“ Detectron2ir Centro kaukė2.

Projektui būdingi įrankiai

Nepaisant bendro BRIMA pobūdžio, jį galima sukonfigūruoti į labai specifines duomenų rinkimo konfigūracijas, įskaitant išskleidžiamuosius meniu ir kitokio pobūdžio kontekstinę įvestį, susijusį su konkrečiu domenu. Žemiau esančiame paveikslėlyje matome, kad į BRIMA buvo įrašytas išskleidžiamasis meniu, susijęs su fotoaparato informacija, kad grupė anotatorių galėtų pateikti išsamią ir su projektu susijusią informaciją.

Šį papildomą įrankį galima konfigūruoti vietoje. Plėtinyje taip pat yra lengvas diegimas ir konfigūruojami spartieji klavišai, taip pat spalviniai vartotojo sąsajos elementai.

Darbas grindžiamas keletu pastarųjų metų bandymų patobulinti žiniatinklio gautų arba viešai prieinamų duomenų vaizdo anotavimo funkciją. „PhotoStuff“ įrankis, palaikomas DARPA, siūlo internetines anotacijas per tam skirtą interneto portalą ir gali būti paleistas semantiniame žiniatinklyje arba kaip atskira programa; 2004 m. UC Berkeley pasiūlė Nuotraukų anotacija telefone su fotoaparatu, kuris labai panaudojo metaduomenis dėl tinklo aprėpties ir epochos peržiūros srities apribojimų; MIT 2005 m LabelMe projektas taip pat priartėjo prie naršyklės anotacijos, pasikliaudamas MATLAB įrankiais;

Nuo 2015 m. išleidimo FOSS Python/QT sistema EtiketėImg išpopuliarėjo pasitelkiant anotacijas, kurios buvo teikiamos naudojant specialią vietinę instaliaciją. Tačiau BRIMA tyrėjai pastebi, kad „LabelImg“ orientuojasi į PascalVOC ir YOLO standartus, nepalaiko MS COCO JSON formato ir vengia daugiakampio kontūro įrankių, kad būtų naudingi paprasti stačiakampiai fiksavimo regionai (kuriam reikės vėlesnio segmentavimo).