Yapay Zekâ
Araştırmacılar Derin Öğrenmeyi Kullanarak Tarihi Yerlerin Fotoğraflarını 4D’ye Dönüştürüyor

Cornell Üniversitesi’ndeki araştırmacılar, derin öğrenmeyi kullanarak dünya çapındaki tarihi yerlerin fotoğraflarını 4D’ye dönüştürmek için yeni bir yöntem geliştirdiler. Takım, Roma’daki Trevi Çeşmesi gibi önemli noktaların halka açık turist fotoğraflarına güveniyor ve sonuçlar, manevra yapabileceğiniz ve zaman içinde görünümdeki değişiklikleri gösterebilen 3D görüntülerdir.
Yeni geliştirilen yöntem, etiketsiz ve tarih verilmemiş on binlerce fotoğrafı alır ve sentezler ve bu, bilgisayar görüşü için büyük bir adım forward.
Çalışma “Crowdsampling the Plenoptic Function” olarak adlandırıldı ve 23-28 Ağustos tarihleri arasında gerçekleşen sanal Avrupa Bilgisayar Görüşü Konferansı’nda sunuldu.
Noah Snavely, Cornell Tech’te bilgisayar bilimi yardımcı profesörü ve makalenin kıdemli yazarı. Diğer katkıda bulunanlar arasında Cornell doktora öğrencisi Zhengqi Li, makalenin ilk yazarı, Abe Davis, Bilgisayar ve Bilgi Bilimi Fakültesi’ndeki bilgisayar bilimi yardımcı profesörü ve Cornell Tech doktora öğrencisi Wenqi Xian yer alıyor.
“Bu, sahneyi modellemenin yeni bir yolu, sadece başınızı hareket ettirmenize ve diyelim ki çeşmeyi farklı açılardan görmeye izin vermiyor, aynı zamanda zamanı değiştirmek için kontroller sunuyor” dedi Snavely.
“Gerçekten Trevi Çeşmesi’ne tatilinizde gittiniz, görünümü gittiğiniz saatle ilgili olacaktı – gece, alttan sel floodlights tarafından aydınlatılacaktı. Öğleden sonra, güneşli olacaktı, trừ ki bulutlu bir günde gittiniz” diye devam etti. “Tüm görünüm aralığını, günün saati ve hava durumuna bağlı olarak, bu düzenlenmemiş fotoğraf koleksiyonlarından öğrendik, böylece tüm aralığı keşfedebilir ve aynı zamanda sahne etrafında hareket edebilirsiniz.”
Geleneksel Bilgisayar Görüşü Sınırlamaları
Geleneksel bilgisayar görüşü, birçok farklı dokunun yeniden üretilmesi gerektiği için, fotoğraflar aracılığıyla yerleri doğru bir şekilde temsil etmesi zordur.
“Gerçek dünya, görünümü ve çeşitli malzemeleri – parlak şeyler, su, ince yapılar – çok çeşitli” dedi Snavely.
Bunun yanı sıra, geleneksel bilgisayar görüşü, tutarlı olmayan verilerle de mücadele ediyor. Plenoptik fonksiyon, bir şeyin uzay ve zaman中的 her возможn görüş açısında nasıl göründüğüdür, ancak bunu yeniden üretmek için yüzlerce web kamerasına sahne cần. Sadece bu değil, aynı zamanda gün boyunca ve gece boyunca kayıt yapıyor olmalılar. Bu yapılabilir, ancak bu yöntemin gerekli olduğu sahne sayısına baktığınızda çok kaynak yoğun bir görevdir.
Diğer Fotoğraflardan Öğrenme
Bunu aşmak için, araştırmacılar ekibi yeni bir yöntem geliştirdi.
“Buexact görüş açısında 16:00’da çekilen bir fotoğraf olmayabilir. Bu nedenle, 21:00’de bir konumda ve 16:03’te başka bir konumda çekilen bir fotoğraftan öğrenmeliyiz” dedi Snavely. “Ve bu fotoğrafların ne zaman çekildiğini bilmiyoruz. Ancak derin öğrenmeyi kullanmak, sahnenin herhangi bir zamanda ve yerde nasıl görüneceğini çıkarsamamız sağlar.”
Araştırmacılar, dört boyutlu görünümü.interpolate etmek için yeni bir sahne temsili olan Deep Multiplane Images’i tanıttı, bunlar 3D ve zaman içindeki değişikliklerdir.
Snavely’ye göre, “2B animasyonda 3B efektler oluşturmak için icat edilen aynı fikir, gerçek dünya sahnelerinde 3B efektler oluşturmak, bu derin çok katmanlı görüntüyü tüm bu farklı ölçümlere uydurmak için kullanıyoruz. Bu, çok eski, klasik bir teknikten kaynaklanıyor.”
Çalışma, eğitilen modelin çeşitli sitelerden 50.000 halka açık görüntü ile bir sahne oluşturabileceğini gösterdi. Takım, bunun bilgisayar görüşü araştırması ve sanal turizm dahil birçok alanda sonuçları olabileceğine inanıyor.
“Gerçekten orada olduğunuzu hissedebilirsiniz” dedi Snavely. “Çok çeşitli sahneler için şaşırtıcı bir şekilde iyi çalışıyor.”
Proje, eski Google CEO’su ve filantropist Eric Schmidt ve Wendt Schmidt’ten destek aldı.
https://www.youtube.com/watch?v=MAVFKWX8LYo&feature=emb_title












