Intelligence artificielle

Les chercheurs utilisent l’apprentissage profond pour transformer les photos de monuments emblématiques en 4D

Published September 10, 2020

Updated April 28, 2026

Alex McFarland

Les chercheurs de l’Université Cornell ont développé une nouvelle méthode qui utilise l’apprentissage profond pour transformer les photos de monuments emblématiques du monde en 4D. L’équipe s’est appuyée sur des photos de touristes publiques de points importants comme la fontaine de Trevi à Rome, et les résultats finaux sont des images 3D qui peuvent être manipulées et montrer des changements d’apparence au fil du temps.

La méthode nouvellement développée prend en compte et synthétise des dizaines de milliers de photos non étiquetées et non datées, et il s’agit d’un grand pas en avant pour la vision par ordinateur.

Le travail est intitulé “Crowdsampling the Plenoptic Function”, et il a été présenté à la conférence virtuelle européenne sur la vision par ordinateur, qui a eu lieu entre le 23 et le 28 août.

Noah Snavely est professeur associé d’informatique à Cornell Tech et auteur principal de l’article. Les autres contributeurs incluent l’étudiant doctoral de Cornell Zhengqi Li, auteur principal de l’article, ainsi qu’Abe Davis, professeur assistant d’informatique à la Faculté d’informatique et de science de l’information, et l’étudiant doctoral de Cornell Tech Wenqi Xian.

“C’est une nouvelle façon de modéliser une scène qui vous permet non seulement de bouger la tête et de voir, disons, la fontaine de différents points de vue, mais également de contrôler les changements de temps”, a déclaré Snavely.

“Si vous êtes vraiment allé à la fontaine de Trevi pendant vos vacances, l’apparence de celle-ci dépendrait de l’heure à laquelle vous y êtes allé – la nuit, elle serait éclairée par des projecteurs du bas. L’après-midi, elle serait éclairée par le soleil, à moins que vous ne soyez allé un jour nuageux”, a-t-il continué. “Nous avons appris toute la gamme d’apparences, en fonction de l’heure du jour et de la météo, à partir de ces collections de photos non organisées, de telle sorte que vous pouvez explorer toute la gamme et vous déplacer simultanément dans la scène.”

Limitations de la vision par ordinateur traditionnelle

Puisqu’il peut y avoir autant de textures différentes à reproduire, il est difficile pour la vision par ordinateur traditionnelle de représenter les lieux avec précision à partir de photos.

“Le monde réel est si diversifié dans son apparence et comporte différents types de matériaux – des choses brillantes, de l’eau, des structures minces”, a déclaré Snavely.

En plus de ces barrières, la vision par ordinateur traditionnelle a également du mal avec les données incohérentes. La fonction plénoptique est la façon dont quelque chose apparaît de tous les points de vue possibles dans l’espace et le temps, mais pour reproduire cela, des centaines de webcams sont nécessaires sur le site. Non seulement cela, mais elles devraient également enregistrer tout au long de la journée et de la nuit. Cela pourrait être fait, mais c’est une tâche extrêmement gourmande en ressources lorsqu’on regarde le nombre de scènes où cette méthode serait requise.

Apprendre à partir d’autres photos

Pour contourner cela, l’équipe de chercheurs a développé la nouvelle méthode.

“Il n’y a peut-être pas de photo prise à 16 heures de ce point de vue exact dans l’ensemble de données. Nous devons donc apprendre à partir d’une photo prise à 21 heures à un endroit et d’une photo prise à 16h03 à un autre endroit”, a déclaré Snavely. “Et nous ne connaissons pas la granularité de quando ces photos ont été prises. Mais l’utilisation de l’apprentissage profond nous permet d’inférer à quoi la scène ressemblerait à un moment et un endroit donnés.”

Une nouvelle représentation de scène appelée Deep Multiplane Images a été introduite par les chercheurs afin d’interpoler l’apparence en quatre dimensions, qui sont 3D et les changements au fil du temps.

Selon Snavely, “Nous utilisons la même idée inventée pour créer des effets 3D dans l’animation 2D pour créer des effets 3D dans les scènes du monde réel, pour créer cette image multilayer profonde en l’ajustant à toutes ces mesures disparates à partir des photos de touristes. Il est intéressant que cela provienne de cette très ancienne technique classique utilisée dans l’animation.”

L’étude a démontré que le modèle formé pouvait créer une scène avec 50 000 images publiques provenant de divers sites. L’équipe croit qu’il pourrait avoir des implications dans de nombreux domaines, notamment la recherche en vision par ordinateur et le tourisme virtuel.

“Vous pouvez avoir l’impression d’être vraiment là”, a déclaré Snavely. “Ça fonctionne étonnamment bien pour une gamme de scènes.”

Le projet a reçu le soutien de l’ancien PDG de Google et philanthrope Eric Schmidt, ainsi que de Wendt Schmidt.

https://www.youtube.com/watch?v=MAVFKWX8LYo&feature=emb_title

Alex McFarland

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.

Unite.AI

Les chercheurs utilisent l’apprentissage profond pour transformer les photos de monuments emblématiques en 4D

Limitations de la vision par ordinateur traditionnelle

Apprendre à partir d’autres photos

You may like