Vernetzen Sie sich mit uns

Künstliche Intelligenz

Ein browserbasiertes Bildanmerkungstool für Computer Vision-Datensätze

mm

Forscher aus Finnland haben ein browserbasiertes Bildbeschriftungstool entwickelt, das mühsame Bildannotationsprozesse für Computer Vision-Datensätze vereinfachen und beschleunigen soll. Das neue Tool wird als betriebssystemunabhängige Erweiterung für die gängigsten Browser installiert und ermöglicht es Nutzern, „beim freien Surfen zu kommentieren“, ohne eine Beschriftungssitzung in den Kontext einer dedizierten Konfiguration stellen oder clientseitigen Code ausführen oder andere spezielle Bedingungen erfüllen zu müssen.

Berechtigt BRIMA (Low-Overhead BRowser-only IMage Annotation Tool), das System wurde an der Universität Jyväskylä entwickelt. Es macht das Scrapen und Kompilieren von Datensätzen in lokalen oder Remote-Verzeichnissen überflüssig und kann so konfiguriert werden, dass nützliche Daten aus den verschiedenen Datenparametern abgeleitet werden, die auf jeder öffentlich zugänglichen Plattform verfügbar sind.

BRIMA im Einsatz. Quelle: https://arxiv.org/pdf/2107.06351.pdf

BRIMA im Einsatz. Quelle: https://arxiv.org/pdf/2107.06351.pdf

Auf diese Weise BRIMA (das auf vorgestellt wird ICIP 2021, wenn der Code wird ebenfalls zur Verfügung gestellt) umgeht die potenziellen Hindernisse, die entstehen können, wenn automatisierte Web-Scraping-Systeme über IP-Bereiche oder andere Methoden blockiert und an der Datenerfassung gehindert werden – ein Szenario, das immer häufiger auftreten wird, da der Schutz des geistigen Eigentums zunehmend in den Fokus rückt , wie es ist vor kurzem erledigt mit dem KI-gesteuerten Codegenerierungstool Copilot von Microsoft.

Da BRIMA ausschließlich für menschliche Anmerkungen gedacht ist, ist es auch weniger wahrscheinlich, dass seine Verwendung andere Arten von Hindernissen auslöst, wie etwa CAPTCHA-Herausforderungen oder andere automatisierte Systeme, die Datenerfassungsalgorithmen blockieren sollen.

Adaptive Datenerfassungsfunktionen

BRIMA wird über ein Firefox-Add-on oder eine Chrome-Erweiterung unter Windows, OSX oder Linux implementiert und kann so konfiguriert werden, dass wichtige Daten basierend auf Datenpunkten erfasst werden, die eine bestimmte Plattform möglicherweise offenlegen möchte. Wenn beispielsweise Bilder in Google Street View mit Anmerkungen versehen werden, kann das System die Ausrichtung und den Blickwinkel des Objektivs berücksichtigen und den genauen geografischen Standort des vom Benutzer angegebenen Objekts registrieren.

BRIMA wurde im September 2020 von seinen Entwicklern im Rahmen einer Crowdsourcing-Initiative getestet, um einen Objekterkennungsdatensatz für CCTV-Objekte (in öffentlichen Räumen montierte oder von öffentlichen Räumen aus sichtbare Videoüberwachungskameras) zu erstellen.

Das System besteht aus einer leichten clientseitigen JavaScript-Installation in Form der Browsererweiterung und einem serverseitigen Aspekt, der die Anmerkungsdaten empfängt und kompiliert. Referenzimplementierungen der serverseitigen Installation wurden in Python und PHP mit Flask und Swagger/OpenAPI geschrieben, die Forscher betonen jedoch, dass die zentrale Verarbeitungsarchitektur problemlos auf andere Sprachen und Konfigurationen portiert werden kann.

Die Browsererweiterung und der Server kommunizieren über RESTful-API-Anfragen und HTTP/XHR, wobei die clientseitigen Daten in einem MS COCO-kompatiblen JSON-Format übermittelt werden. Das bedeutet, dass die Daten sofort mit einer Vielzahl der gängigsten Objekterkennungs-Frameworks nutzbar sind, darunter auch diverse Backends für TensorFlow, wie beispielsweise Facebooks Detektor2 und CenterMask2.

Projektspezifische Werkzeuge

Trotz der generischen Natur von BRIMA kann es in hochspezifische Datenerfassungskonfigurationen konfiguriert werden, einschließlich der Einführung von Dropdown-Menüs und anderen Arten kontextbezogener Eingaben im Zusammenhang mit einer bestimmten Domäne. Im Bild unten sehen wir, dass in BRIMA ein Dropdown-Menü zu Kamerainformationen geschrieben wurde, damit eine Gruppe von Annotatoren detaillierte und projektrelevante Informationen bereitstellen kann.

Diese zusätzlichen Tools können lokal konfiguriert werden. Die Erweiterung bietet außerdem eine einfache Installation und konfigurierbare Tastaturkürzel sowie farbcodierte Benutzeroberflächenelemente.

Die Arbeit baut auf einer Reihe von Versuchen der letzten Jahre auf, die Möglichkeit der Bildannotation für im Internet gewonnene oder öffentlich zugängliche Daten zu verbessern. Das von DARPA unterstützte PhotoStuff-Tool bietet Online-Anmerkungen über ein spezielles Webportal und kann im Semantic Web oder als eigenständige Anwendung ausgeführt werden; im Jahr 2004 schlug die UC Berkeley vor Fotoanmerkung auf einem Kamerahandy, das aufgrund der begrenzten Netzwerkabdeckung und der eingeschränkten Ansichtsfenster der damaligen Zeit stark auf Metadaten setzte; MITs 2005 LabelMe Das Projekt befasste sich auch mit der browserbasierten Annotation und stützte sich dabei auf MATLAB-Tools.

Seit seiner Veröffentlichung im Jahr 2015 ist das FOSS Python/QT-Framework LabelImg hat bei Crowdsourcing-Annotationsbemühungen mit einer speziellen lokalen Installation an Popularität gewonnen. Die BRIMA-Forscher stellen jedoch fest, dass sich LabelImg auf PascalVOC- und YOLO-Standards konzentriert, das MS COCO JSON-Format nicht unterstützt und auf polygonale Umrisswerkzeuge zugunsten einfacher rechteckiger Erfassungsbereiche verzichtet (die eine anschließende Segmentierung erfordern).

 

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai