Vordenker
Lokalisierung von Benutzern in Innenräumen mithilfe visueller Ortserkennung

Die visuelle Ortserkennung ist einer der Grundpfeiler von Entwicklung von Computer Vision und Robotik. Die Aufgabe der VPR-Algorithmen besteht darin, untersuchte Standorte anhand von Bildern zu identifizieren. Die Technologie kann autonome Roboter und menschliche Arbeitskräfte gleichermaßen unterstützen, indem sie die Umgebung identifiziert und die Ausführung gewünschter Aktionen erleichtert.
Wissenschaftler:innen bei NeuroSYS nutzen Computer-Vision-Algorithmen als Teil der entwickelten AR-Plattform, NsflowDies ermöglicht interaktive Arbeitsanweisungen und praktische Schulungen zur Identifizierung der Benutzerpositionen während der Schulung vor Ort. In diesem Fall führt der Einsatz von VPR zu einer deutlichen Beschleunigung von Onboarding- und Lernprozessen aufgrund eines geringeren Bedarfs an vorheriger Schulung und Supervision.
Eine Person zu lokalisieren oder den gewünschten Ort mithilfe von GPS zu finden, ist längst kein Thema mehr. Doch was tun, wenn das satellitengestützte Navigationssystem nicht funktionsfähig ist? Abhilfe schaffen Indoor-Positionierungssysteme (IPS).
Bei der Suche nach der Nadel im Heuhaufen können Sie verschiedene Techniken nutzen, darunter Beacons, magnetische Positionierung, Trägheitsmesseinheiten (IMU) mit Beschleunigungsmessern und Gyroskopen, Bewegungsmessung vom letzten bekannten Punkt, WLAN-basierte Positionierung usw Ganz einfach – nutzen Sie visuelle Markierungen.
Alle oben genannten Methoden haben ihre Nachteile (z. B. die Notwendigkeit, Markierungen oder Beacons zu installieren, IMU erhöht den Messfehler mit der Zeit und erfordert eine Neupositionierung), die ihre Vorteile überwiegen. Die Lösung des entscheidenden Problems – der allgemeine Aufenthaltsort des Benutzers mit einer Genauigkeit auf wenige Meter – liegt offenbar im Bereich der Algorithmen.
Die Prozess der Ortserkennung basiert auf einem zweistufigen Verfahren, bei dem zwei Datenbanken erstellt werden. Zunächst wird der Zielort fotografiert und bestimmte Elemente, Schlüsselpunkte, mit einem Merkmalsdetektor markiert, um charakteristische Elemente des Gebiets zu identifizieren. Anschließend werden die beschrifteten Punkte mit einem Referenzbild verglichen. Sobald die bewerteten Schlüsselpunkte von einem Feature-Matcher als ähnlich genug eingestuft werden, gilt das Bild als die gleiche Stelle zeigend.
Die Bilddatenbank kombiniert Bilder von Zielorten, in diesem Fall Arbeitsbereichen, und eine Reihe ihrer Eigenschaften, einschließlich eindeutiger Kennungen, gefolgt von lokalen und globalen Deskriptoren. Das andere Set, das Raumdatenbankordnet einzelne Schlüsselpunkte bestimmten Bereichen im betrachteten Raum zu.
Mithilfe der neuronalen Netze SuperPoint, SuperGlue und netVLAD aus dem Bereich der visuellen Ortserkennung nutzten die Forscher den oben genannten Prozess zur Benutzerlokalisierung. Die tiefen neuronalen Netze SuperPoint und SuperGlue arbeiten bei der Merkmalserkennung und dem Abgleich zusammen und extrahieren Informationen aus den Datenbanken.
Die globalen Deskriptoren betreten die Bühne
Der Prozess erfordert globale Deskriptoren, die als Vektoren zur Unterscheidung des Ortes dienen und Bereiche so identifizieren, dass keine Mehrdeutigkeiten entstehen. Um ihre Rolle zu erfüllen, sollten die Vektoren unabhängig von der Beleuchtung und dem Blickwinkel sein – unabhängig von der Perspektive und den Lichtverhältnissen sollten die globalen Deskriptoren keinen Zweifel bei der Unterscheidung von Orten in verschiedenen Bildern lassen.
Darüber hinaus sollten im interessierenden Bereich vorhandene variable Objekte nicht durch globale Deskriptoren als Merkmale zur Unterscheidung von Orten gebunden sein. Gegenstände wie Möbel und Geräte sind anfällig für Veränderungen (Renovierung, Abbau), das heißt, sie können durch ihre Anwesenheit keine Bereiche definieren.
Computer-Vision-gestützt Ortserkennung setzt auf dauerhafte Elemente untersuchter Orte, wie Türen, Fenster, Treppen und andere charakteristische Elemente langlebiger Natur. Im Rahmen der betreffenden Forschung wurde für Berechnungen das tiefe neuronale Netzwerk NetVLAD verwendet, das im Ergebnis Vektoren lieferte, die den gestellten Anforderungen entsprachen. Beim globalen Deskriptor-Matching werden Bilder der ähnlichsten Vektoren verarbeitet und anschließend der Abstand zwischen den einzelnen charakteristischen Ankerpunkten berechnet.
Bei der Verarbeitung zweier Datenbanken – der Raumdatenbank und der anderen, die Schlüsselpunkte und globale Deskriptoren enthalten – befasst sich das System mit Bildattributen. Nach der Durchführung der Schätzung der Ähnlichkeiten und der kürzesten Entfernungen identifiziert das zweite neuronale Netzwerk, SuperGlue, Standortbilder. Das System, das VPR verwendet, ermöglicht eine Benutzerlokalisierung, kurz gesagt, auf der Grundlage der Anzahl übereinstimmender Schlüsselpunkte.
Die Algorithmen fanden Anwendung in der KI- und AR-Plattform, und unterstützt Benutzer bei der Durchführung von Schulungen mit Smart Glasses. VPR ermöglicht die Lokalisierung der Auszubildenden am Arbeitsplatz, startet entsprechende Tutorials und Anleitungen, die bestimmten Stellen zugewiesen sind, verbessert die Sicherheit und reduziert den Bedarf an direkter Aufsicht.
Das Projekt wird aus Mitteln der Europäischen Union im Rahmen des Europäischen Fonds für regionale Entwicklung im Rahmen des Operationellen Programms „Smart Growth“ kofinanziert. Projekt umgesetzt im Rahmen des Nationalen Zentrums für Forschung und Entwicklung: Fast Track.












