Kecerdasan Buatan
Alat Anotasi Gambar Berbasis Browser untuk Kumpulan Data Computer Vision

Para peneliti dari Finlandia telah mengembangkan alat pelabelan gambar berbasis peramban yang dirancang untuk meningkatkan kemudahan dan kecepatan proses anotasi gambar yang rumit untuk kumpulan data visi komputer. Diinstal sebagai ekstensi yang tidak bergantung pada OS untuk mesin peramban terpopuler, alat baru ini memungkinkan pengguna untuk 'memberi anotasi sambil menjelajah dengan bebas', alih-alih perlu menempatkan sesi pelabelan dalam konteks pengaturan khusus, atau menjalankan kode sisi klien dan keadaan khusus lainnya.
Berjudul BRIMA (alat Anotasi IMage Khusus Browser Rendah-Overhead), sistem ini dikembangkan di Universitas Jyvรคskylรค. Ini menghilangkan kebutuhan untuk mengikis dan mengkompilasi kumpulan data ke dalam direktori lokal atau jarak jauh, dan dapat dikonfigurasi untuk memperoleh data yang berguna dari berbagai parameter data yang tersedia di setiap platform yang menghadap publik.

BRIMA beraksi. Sumber: https://arxiv.org/pdf/2107.06351.pdf
Dengan cara ini BRIMA (yang akan dipresentasikan di ICIP 2021, ketika kode juga akan tersedia) meniadakan hambatan potensial yang dapat muncul ketika sistem pengikisan web otomatis diblokir melalui rentang IP atau metode lain, dan terhalang untuk mengumpulkan data โ sebuah skenario yang diatur untuk menjadi lebih umum karena perlindungan IP semakin menjadi fokus , seperti yang dimilikinya baru-baru ini dilakukan dengan alat pembuat kode berbasis AI milik Microsoft, Copilot.
Karena BRIMA ditujukan semata-mata untuk anotasi berbasis manusia, penggunaannya juga kecil kemungkinannya untuk memicu hambatan jenis lain, seperti tantangan CAPTCHA, atau sistem otomatis lainnya yang ditujukan untuk memblokir algoritme pengumpulan data.
Kemampuan Pengumpulan Data Adaptif
BRIMA diimplementasikan melalui add-on Firefox atau ekstensi Chrome di Windows, OSX atau Linux, dan dapat dikonfigurasi untuk menyerap data penting berdasarkan poin data yang mungkin dipilih oleh platform tertentu untuk diekspos. Misalnya, saat menganotasi gambar di Google Street View, sistem dapat memperhitungkan orientasi dan sudut pandang lensa, serta mendaftarkan lokasi geografis yang tepat dari objek yang ditentukan yang diperhatikan oleh pengguna.
BRIMA diuji pada bulan September 2020 oleh penciptanya, selama kolaborasi pada inisiatif crowdsourced untuk menghasilkan kumpulan data deteksi objek untuk objek CCTV (kamera pengawasan video yang dipasang di ruang publik, atau dapat dilihat dari ruang publik).
Sistem ini terdiri dari penginstalan sisi klien JavaScript ringan dalam bentuk ekstensi browser, dan aspek sisi server yang menerima dan mengkompilasi data anotasi. Implementasi referensi dari instalasi sisi server ditulis dalam Python dan PHP dengan Flask dan Swagger/OpenAPI, tetapi para peneliti menekankan bahwa arsitektur pemrosesan pusat dapat dengan mudah dipindahkan ke bahasa dan konfigurasi lain.
Ekstensi peramban dan server berkomunikasi melalui permintaan API RESTful dan HTTP/XHR, dengan data sisi klien dikirim dalam format JSON yang kompatibel dengan MS COCO. Ini berarti data tersebut dapat langsung digunakan dengan berbagai framework deteksi objek terpopuler, termasuk berbagai back-end TensorFlow, seperti Facebook. Detektor2, dan CenterMask2.
Perkakas Khusus Proyek
Terlepas dari sifat umum BRIMA, ini dapat dikonfigurasikan menjadi konfigurasi pengumpulan data yang sangat spesifik, termasuk pengenaan menu drop-down dan jenis input kontekstual lainnya yang terkait dengan domain tertentu. Pada gambar di bawah ini kita melihat bahwa menu drop-down yang berkaitan dengan informasi kamera telah ditulis ke dalam BRIMA, sehingga sekelompok annotator dapat memberikan informasi yang detail dan relevan dengan proyek.
Perkakas tambahan ini dapat dikonfigurasi secara lokal. Ekstensi ini juga menampilkan pemasangan yang mudah dan pintasan keyboard yang dapat dikonfigurasi, bersama dengan elemen UI berkode warna.
Pekerjaan dibangun di atas sejumlah upaya dalam beberapa tahun terakhir untuk meningkatkan fasilitas anotasi gambar untuk data yang diperoleh dari web atau yang dilihat publik. Alat PhotoStuff, didukung oleh DARPA, menawarkan anotasi online melalui portal web khusus, dan dapat dijalankan di web semantik atau sebagai aplikasi mandiri; pada tahun 2004 UC Berkeley mengusulkan Anotasi Foto di Ponsel Kamera, yang sangat memanfaatkan metadata, karena keterbatasan jangkauan jaringan dan keterbatasan viewport pada era tersebut; MIT 2005 LabelSaya proyek juga mendekati anotasi berbasis browser, dengan mengandalkan alat MATLAB;
Sejak dirilis pada tahun 2015, kerangka kerja FOSS Python/QT LabelImg telah mendapatkan popularitas dalam upaya anotasi crowdsourced, dengan instalasi lokal khusus. Namun, para peneliti BRIMA mengamati bahwa LabelImg berpusat pada standar PascalVOC dan YOLO, tidak mendukung format MS COCO JSON, dan menghindari alat garis poligonal yang mendukung wilayah penangkapan persegi panjang sederhana (yang akan memerlukan segmentasi selanjutnya).