Artificial Intelligence

Forscher nutzen Deep Learning, um Wahrzeichenfotos in 4D umzuwandeln

Aktualisiert on 9. Dezember 2022

Forscher der Cornell University haben eine neue Methode entwickelt, die Deep Learning nutzt, um Fotos von Wahrzeichen der Welt in 4D umzuwandeln. Das Team stützte sich auf öffentlich verfügbare Touristenfotos wichtiger Sehenswürdigkeiten wie des Trevi-Brunnens in Rom. Das Endergebnis sind 3D-Bilder, die manövrierbar sind und Veränderungen im Erscheinungsbild im Laufe der Zeit zeigen können.

Die neu entwickelte Methode erfasst und synthetisiert Zehntausende nicht markierte und undatierte Fotos und ist ein großer Fortschritt für Computer Vision.

Die Arbeit trägt den Titel „Crowdsampling der plenoptischen Funktion„Und es wurde auf der virtuellen Europäischen Konferenz für Computer Vision vorgestellt, die vom 23. bis 28. August stattfand.

Noah Snavely ist außerordentlicher Professor für Informatik an der Cornell Tech und leitender Autor des Artikels. Weitere Mitwirkende sind der Cornell-Doktorand Zhengqi Li, Erstautor des Artikels, sowie Abe Davis, Assistenzprofessor für Informatik an der Fakultät für Informatik und Informationswissenschaft, und der Cornell Tech-Doktorand Wenqi Xian.

„Es handelt sich um eine neue Art der Szenenmodellierung, die es einem nicht nur ermöglicht, den Kopf zu bewegen und beispielsweise den Brunnen aus verschiedenen Blickwinkeln zu betrachten, sondern auch Steuerelemente zum Ändern der Zeit bietet“, sagte Snavely.

„Wenn Sie in Ihrem Urlaub wirklich zum Trevi-Brunnen gingen, würde die Art und Weise, wie er aussehen würde, von der Uhrzeit abhängen, zu der Sie dort waren – nachts würde er von unten durch Flutlicht beleuchtet. Am Nachmittag würde es sonnig sein, es sei denn, Sie waren an einem bewölkten Tag unterwegs“, fuhr er fort. „Aus diesen unorganisierten Fotosammlungen haben wir die gesamte Bandbreite an Erscheinungsbildern, basierend auf Tageszeit und Wetter, gelernt, sodass man die gesamte Bandbreite erkunden und sich gleichzeitig in der Szene bewegen kann.“

Traditionelle Computer-Vision-Einschränkungen

Da so viele verschiedene Texturen vorhanden sein können, die reproduziert werden müssen, ist es für herkömmliche Computer-Vision schwierig, Orte durch Fotos genau darzustellen.

„Die reale Welt ist in ihrer Erscheinung so vielfältig und hat verschiedene Arten von Materialien – glänzende Dinge, Wasser, dünne Strukturen“, sagte Snavely.

Abgesehen von diesen Hürden hat die herkömmliche Bildverarbeitung auch mit inkonsistenten Daten zu kämpfen. Unter der plenoptischen Funktion versteht man die Art und Weise, wie etwas aus jedem möglichen Blickwinkel in Raum und Zeit erscheint. Um dies jedoch zu reproduzieren, sind Hunderte von Webcams vor Ort erforderlich. Darüber hinaus mussten sie Tag und Nacht Aufnahmen machen. Dies wäre machbar, aber angesichts der Anzahl der Szenen, in denen diese Methode erforderlich wäre, ist dies eine äußerst ressourcenintensive Aufgabe.

Von anderen Fotos lernen

Um dies zu umgehen, entwickelte das Forscherteam die neue Methode.

„Möglicherweise gibt es im Datensatz kein Foto, das um 4 Uhr genau aus diesem Blickwinkel aufgenommen wurde. Wir müssen also aus einem Foto lernen, das um 9 Uhr an einem Ort aufgenommen wurde, und einem Foto, das um 4:03 Uhr an einem anderen Ort aufgenommen wurde“, sagte Snavely. „Und wir wissen nicht, wann diese Fotos im Detail aufgenommen wurden. Mithilfe von Deep Learning können wir jedoch ableiten, wie die Szene zu einem bestimmten Zeitpunkt und an einem bestimmten Ort ausgesehen hätte.“

Eine neue Szenendarstellung namens Deep Multiplane Images wurde von den Forschern eingeführt, um das Erscheinungsbild in vier Dimensionen zu interpolieren, die 3D sind und sich im Laufe der Zeit ändern.

Snavely erklärt: „Wir verwenden dieselbe Idee, die für die Erstellung von 3D-Effekten in 2D-Animationen erfunden wurde, um 3D-Effekte in realen Szenen zu erzeugen, um dieses tiefe, mehrschichtige Bild zu erstellen, indem wir es an all diese unterschiedlichen Maße aus den Fotos der Touristen anpassen.“ Es ist interessant, dass es irgendwie auf diese sehr alte, klassische Technik der Animation zurückzuführen ist.“

Die Studie zeigte, dass das trainierte Modell eine Szene mit 50,000 öffentlich verfügbaren Bildern von verschiedenen Standorten erstellen konnte. Das Team glaubt, dass dies Auswirkungen auf viele Bereiche haben könnte, einschließlich der Computer-Vision-Forschung und des virtuellen Tourismus.

„Man kann das Gefühl bekommen, wirklich dort zu sein“, sagte Snavely. „Es funktioniert überraschend gut für eine Reihe von Szenen.“

Das Projekt wurde vom ehemaligen Google-CEO und Philanthrop Eric Schmidt sowie Wendt Schmidt unterstützt.

Crowdsampling Die plenoptische Funktion

Watch this video on YouTube

Verwandte Themen:AI künstliche Intelligenz tiefe Lernen

Als nächstes

Künstliches Intelligenzsystem, das einzelne Moleküle bewegen kann

Verpassen Sie nicht

Das KI-Startup Diffbot liest das gesamte öffentliche Internet, um eine faktenbasierte Textgenerierung zu verfolgen

Alex McFarland

Alex McFarland ist ein KI-Journalist und Autor, der sich mit den neuesten Entwicklungen in der künstlichen Intelligenz beschäftigt. Er hat mit zahlreichen KI-Startups und Publikationen weltweit zusammengearbeitet.