Künstliche Intelligenz
Erstellen von Satellitenbildern aus Vektorkarten
Forscher im Vereinigten Königreich haben ein KI-basiertes Bildsynthesesystem entwickelt, das vektorbasierte Karten im Handumdrehen in Bilder im Satellitenstil umwandeln kann.
Die neuronale Architektur heißt Nahtlose Satellitenbildsynthese (SSS) und bietet die Aussicht auf realistische virtuelle Umgebungen und Navigationslösungen mit einer besseren Auflösung als Satellitenbilder; sind aktueller (da kartografische Kartensysteme live aktualisiert werden können); und kann realistische orbitale Ansichten in Gebieten ermöglichen, in denen die Auflösung des Satellitensensors begrenzt oder aus anderen Gründen nicht verfügbar ist.
Um die Leistungsfähigkeit des Systems zu demonstrieren, haben die Forscher eine interaktive Umgebung im Google Earth-Stil geschaffen, in der der Betrachter hineinzoomen und die generierten Satellitenbilder in verschiedenen Rendermaßstäben und Details betrachten kann, wobei die Kacheln im Wesentlichen live aktualisiert werden wie herkömmliche interaktive Systeme für Satellitenbilder:
Da das System außerdem Satellitenbilder aus jeder vektorbasierten Karte erzeugen kann, könnte es theoretisch zum Aufbau historischer, projizierter oder fiktiver Welten zur Integration in Flugsimulatoren und virtuelle Umgebungen verwendet werden. Darüber hinaus gehen die Forscher davon aus, mithilfe von Transformatoren vollständig virtuelle 3D-Umgebungen aus kartografischen Daten zu synthetisieren.
Kurzfristig glauben die Autoren, dass ihr Framework für eine Reihe realer Anwendungen verwendet werden könnte, einschließlich interaktiver Stadtplanung und prozeduraler Modellierung, und stellen sich ein Szenario vor, in dem Stakeholder eine Karte interaktiv bearbeiten und Bilder aus der Vogelperspektive betrachten können das projizierte Gelände innerhalb von Sekunden.
The new Krepppapier stammt von zwei Forschern der University of Leeds und trägt den Titel Nahtlose Satellitenbildsynthese.
Architektur und Quelltrainingsdaten
Das neue System nutzt UCL Berkeleys 2017 Pix2Pix und NVIDIAs SPATEN Bildsynthesearchitektur. Das Framework enthält zwei neuartige Faltungs-Neuronale Netze – map2sat, das die Konvertierung von vektorbasierten in pixelbasierte Bilder durchführt; Und Naht2cont, das nicht nur eine nahtlose Methode zum Zusammenstellen der 256×256 Kacheln berechnet, sondern auch eine interaktive Erkundungsumgebung bietet.
Das System lernt, Satellitenansichten zu synthetisieren, indem es Vektoransichten und ihre realen Satellitenäquivalente trainiert und so ein allgemeines Verständnis dafür entwickelt, wie Vektorfacetten in fotorealistische Interpretationen interpretiert werden.
Die im Datensatz verwendeten vektorbasierten Bilder werden aus GeoPackage-Dateien (.geo) gerastert, die bis zu 13 Klassenbezeichnungen enthalten, z verfolgen sind , natürlichen Umwelt, Gebäude und Straße, die bei der Entscheidung über die Art der Bilder, die in die Satellitenansicht eingefügt werden sollen, genutzt werden.
Die gerasterten .geo-Satellitenbilder enthalten auch Metadaten des lokalen Koordinatenreferenzsystems, die verwendet werden, um sie in den Kontext des breiteren Kartenrahmens einzuordnen und dem Benutzer die interaktive Navigation in den erstellten Karten zu ermöglichen.
Nahtlose Fliesen unter harten Bedingungen
Die Erstellung erkundbarer Kartenumgebungen ist eine Herausforderung, da die Hardwarebeschränkungen im Projekt die Kacheln auf eine Größe von nur 256 x 256 Pixel beschränken. Daher ist es wichtig, dass entweder beim Rendering oder beim Kompositionsprozess das „Gesamtbild“ berücksichtigt wird, anstatt sich ausschließlich auf die jeweilige Kachel zu konzentrieren, was beim Zusammenstellen der Kacheln zu störenden Gegenüberstellungen führen würde, bei denen Straßen plötzlich ihre Farbe ändern und andere nicht -Realistische Rendering-Artefakte.
Daher verwendet SSS eine Skalenraumhierarchie von Generatornetzwerken, um Variationen von Inhalten in verschiedenen Maßstäben zu erzeugen, und das System ist in der Lage, Kacheln in jedem Zwischenmaßstab, den der Betrachter möglicherweise benötigt, willkürlich auszuwerten.
Der Abschnitt „seat2cont“ der Architektur verwendet zwei überlappende und unabhängige Ebenen der Map2sat-Ausgabe und berechnet einen geeigneten Rand im Kontext des breiteren Bildes, das dargestellt werden soll:
Das map2sat-Netzwerk ist eine optimierte Adaption eines vollwertigen SPADE-Netzwerks, das ausschließlich auf 256×256 Pixel trainiert wurde. Die Autoren weisen darauf hin, dass es sich hierbei um eine leichte und spritzige Implementierung handelt, die zu Gewichten von nur 31.5 MB im Vergleich zu 436.9 MB in einem vollständigen SPADE-Netzwerk führt.
3000 echte Satellitenbilder wurden verwendet, um die beiden Teilnetze über 70 Trainingszeiträume zu trainieren; Alle Bilder enthalten äquivalente semantische Informationen (dh ein konzeptionelles Verständnis abgebildeter Objekte wie „Straßen“ auf niedriger Ebene) und geobasierte Positionierungsmetadaten.
Weitere Materialien sowie ein Begleitvideo (unten eingebettet) sind auf der Projektseite verfügbar.