Künstliche Intelligenz
Forscher verwenden Deep Learning, um Fotos von Wahrzeichen in 4D umzuwandeln

Forscher an der Cornell University haben eine neue Methode entwickelt, die Deep Learning verwendet, um Fotos von Wahrzeichen in 4D umzuwandeln. Das Team stützte sich auf öffentlich zugängliche Touristenfotos von bedeutenden Punkten wie dem Trevi-Brunnen in Rom, und die Ergebnisse sind 3D-Bilder, die manövrierbar sind und Veränderungen im Erscheinungsbild über die Zeit hinweg zeigen können.
Die neu entwickelte Methode nimmt und synthetisiert Zehntausende von unmarkierten und undatierten Fotos, und sie ist ein großer Schritt vorwärts für die Computer-Vision.
Die Arbeit ist betitelt „Crowdsampling the Plenoptic Function“, und sie wurde auf der virtuellen European Conference on Computer Vision präsentiert, die zwischen dem 23. und 28. August stattfand.
Noah Snavely ist Associate Professor für Informatik an der Cornell Tech und Senior-Autor des Papiers. Weitere Mitwirkende sind der Cornell-Doktorand Zhengqi Li, Erstautor des Papiers, sowie Abe Davis, Assistant Professor für Informatik in der Fakultät für Informatik und Informationssysteme, und der Cornell-Tech-Doktorand Wenqi Xian.
„Es ist eine neue Art, eine Szene zu modellieren, die es nicht nur ermöglicht, den Kopf zu bewegen und den Brunnen aus verschiedenen Perspektiven zu sehen, sondern auch Steuerungen für die Änderung der Zeit bereitstellt“, sagte Snavely.
„Wenn Sie wirklich zum Trevi-Brunnen auf Ihrer Reise gingen, würde das Aussehen davon abhängen, zu welcher Zeit Sie gingen – nachts würde es von Flutlichtern von unten beleuchtet werden. Am Nachmittag würde es von der Sonne beleuchtet werden, es sei denn, Sie gingen an einem bewölkten Tag“, fuhr er fort. „Wir haben den gesamten Bereich der Erscheinungsbilder auf der Grundlage von Tageszeit und Wetter aus diesen unorganisierten Fotocollektionen gelernt, so dass Sie den gesamten Bereich erkunden und gleichzeitig durch die Szene navigieren können.“
Einschränkungen der traditionellen Computer-Vision
Da es so viele verschiedene Texturen gibt, die reproduziert werden müssen, ist es für die traditionelle Computer-Vision schwierig, Orte genau durch Fotos darzustellen.
„Die reale Welt ist so vielfältig in ihrem Aussehen und hat verschiedene Arten von Materialien – glänzende Dinge, Wasser, dünne Strukturen“, sagte Snavely.
Neben diesen Barrieren kämpft die traditionelle Computer-Vision auch mit inkonsistenten Daten. Die Plenoptische Funktion ist, wie etwas aus jeder möglichen Perspektive im Raum und in der Zeit erscheint, aber um dies zu reproduzieren, wären Hunderte von Webcams am Ort erforderlich. Nicht nur das, sondern sie müssten auch den ganzen Tag und die ganze Nacht aufzeichnen. Dies könnte gemacht werden, aber es ist eine extrem ressourcenintensive Aufgabe, wenn man die Anzahl der Szenen betrachtet, in denen diese Methode erforderlich wäre.
Von anderen Fotos lernen
Um dies zu umgehen, entwickelte das Team von Forschern die neue Methode.
„Es gibt vielleicht kein Foto, das um 16 Uhr von diesem exakten Standpunkt in der Datenmenge aufgenommen wurde. Also müssen wir von einem Foto lernen, das um 21 Uhr an einem Ort und einem Foto, das um 16:03 Uhr an einem anderen Ort aufgenommen wurde“, sagte Snavely. „Und wir wissen nicht, wie genau diese Fotos aufgenommen wurden. Aber durch Deep Learning können wir ableiten, wie die Szene zu jedem gegebenen Zeitpunkt und Ort ausgesehen hätte.“
Eine neue Szenen-Darstellung namens Deep Multiplane Images wurde von den Forschern eingeführt, um das Aussehen in vier Dimensionen zu interpolieren, also 3D und Veränderungen über die Zeit hinweg.
Laut Snavely „wir verwenden die gleiche Idee, die für die Erstellung von 3D-Effekten in 2D-Animationen erfunden wurde, um 3D-Effekte in realen Szenen zu erstellen, um dieses Deep-Multilayer-Bild durch Anpassen an all diese disparaten Messungen aus den Touristenfotos zu erstellen. Es ist interessant, dass es sich aus dieser sehr alten, klassischen Technik ableitet, die in der Animation verwendet wird.“
Die Studie zeigte, dass das trainierte Modell eine Szene mit 50.000 öffentlich zugänglichen Bildern von verschiedenen Standorten erstellen konnte. Das Team glaubt, dass es Auswirkungen auf viele Bereiche haben könnte, einschließlich Computer-Vision-Forschung und virtuellem Tourismus.
„Man kann das Gefühl haben, wirklich dort zu sein“, sagte Snavely. „Es funktioniert erstaunlich gut für eine Vielzahl von Szenen.“
Das Projekt erhielt Unterstützung von dem ehemaligen Google-CEO und Philanthropen Eric Schmidt sowie von Wendt Schmidt.
https://www.youtube.com/watch?v=MAVFKWX8LYo&feature=emb_title












