Yapay Zekâ

LiDAR’ı Fotoğrafçı Gerçeklikli Görüntülere Bir Generative Adversarial Network ile Dönüştürme

Published December 23, 2021

Updated April 28, 2026

Martin Anderson

Geçtiğimiz hafta, Haziran 2021’de bir otoyolda duran bir araca Tesla’nın otomatik pilot sistemi doğrudan çarpmasını gösteren bir video yayımlandı. Aracın karanlık ve zor ayırt edilebiliyor olması, otonom sürüş senaryolarında bilgisayar görüşüne güvenmenin sınırları hakkında tartışmalara neden oldu.

Aralık 2021’de yayımlanan video, çarpma anını gösteriyor. Kaynak: https://twitter.com/greentheonly/status/1473307236952940548

Genel olarak paylaşılan videodaki video sıkıştırması, bu olayda sürücünün nasıl突然 bir şekilde duran kamyonete yaklaştığını biraz abartmış olsa da, aynı olayın daha yüksek kaliteli bir videosu, tam olarak uyanık bir sürücünün de ancak geç bir dönüş veya kısmen etkili frenleme ile tepki verebileceğini gösteriyor.

Videonun yayımlanması, Tesla’nın Mayıs 2021’de Otomatik Pilot için radar sensörlerini kaldırma kararını ve LiDAR gibi diğer yankı konumlandırma teknolojilerine kıyasla görüş tabanlı sistemleri tercih etme tutumunu daha da tartışmalı hale getirdi.

İsrail’den bu hafta yayımlanan bir yeni araştırma makalesi, LiDAR ve bilgisayar görüşü alanlarını, bir Generative Adversarial Network (GAN) kullanarak LiDAR nokta bulutlarını fotoğraf gerçeklikli görüntülere dönüştürme yaklaşımı sunuyor.

İsrail’den yeni projede, LiDAR görüntülerinde tanımlanan siyah arabalar, Tesla’nın Otomatik Pilot sistemi geliştirme yaklaşımına benzer şekilde ‘gündüz’ senaryosuna dönüştürülüyor. Kaynak: https://arxiv.org/pdf/2112.11245.pdf

Yazarlar şunları belirtiyorlar:

‘Modellerimiz, sadece nokta bulutu verisinden gerçekçi görünen görüntüleri tahmin etmeyi öğrendi, hatta siyah arabalı görüntüleri bile.

‘Siyah arabalar, düşük yansıtma seviyeleri nedeniyle nokta bulutlarından doğrudan tespit edilmeleri zor olduğu için bu yaklaşım, gelecekte LiDAR nokta bulutlarından üretilen fotoğraf gerçeklikli görüntüler üzerinde görsel nesne tanıma gerçekleştirmek için kullanılabilir.’

Fotoğrafçı Gerçeklikli, LiDAR Tabanlı Görüntü Akışları

Yeni makale, LiDAR Nokta Bulutlarından Generative Adversarial Ağlar ile Fotoğrafçı Gerçeklikli Görüntü Oluşturma başlığını taşıyor ve İsrail’deki üç akademik fakültenin yedi araştırmacısı ile İsrail merkezli Innoviz Technologies’in altı araştırmacısı tarafından yayımlandı.

Araştırmacılar, GAN tabanlı sentetik görüntülerin LiDAR sistemleri tarafından üretilen nokta bulutlarından uygun bir oranda üretilebileceğini ve ardından oluşan görüntü akışının nesne tanıma ve anlamsal segmentasyon iş akışlarında kullanılabileceğini keşfetmek için çalıştılar.

Veri

Merkezi fikir, birçok yeni [x] > [x] görüntü transliterasyon projesinde olduğu gibi, algoritmaları, LiDAR nokta bulutu görüntüleri (cihazdan yayılan ışıkla çalışan) ile eşleşen bir kameradan alınan bir çerçeve karşıtı olarak eğitmektir.

Görüntüler gündüz saatlerinde çekildiğinden, bir bilgisayar görüşü sistemi daha kolay bir şekilde otherwise-elusive tüm siyah bir aracı (Haziran ayında Tesla’nın çarptığı gibi) ayırt edebiliyor, bu eğitim central ground truth daha karanlık koşullara karşı daha dayanıklı olmalı.

Veriler, 10fps veya 15fps yakalama hızına sahip olan InnovizOne LiDAR sensörüyle toplandı.

Innoviz cihazı tarafından yakalanan LiDAR verileri. Kaynak: https://www.youtube.com/watch?v=wmcaf_VpsQI

Sonuçlanan veri kümesi yaklaşık 30.000 görüntü ve 200.000 topladığımız 3D noktasını içeriyordu. Araştırmacılar iki test gerçekleştirdi: birincisi, nokta bulutu verisinin sadece yansıtma bilgisi taşıdığı bir test ve ikincisi, nokta bulutu verisinin yansıtma ve mesafe için iki kanal içeren bir test.

İlk deney için GAN, 50 epoch’a kadar eğitildi, bunun ötesinde aşırı uyarlama sorunu görüldü.

İlk deneyden GAN tarafından oluşturulan görüntüler. Solda, nokta bulutu verileri; ortada, gerçek frames from captured footage, used as ground truth; sağda, Generative Adversarial Network tarafından oluşturulan sentetik temsiller.

Yazarlar şunları belirtiyorlar:

‘Test kümesi, GAN’lerin daha önce hiç görmediği tamamen yeni bir kayıt. Bu, sadece nokta bulutundan yansıtma bilgisi kullanılarak tahmin edildi.

‘Siyah arabalı çerçeveleri göstermeyi seçtik çünkü siyah arabalar genellikle LiDAR’dan tespit edilmeleri zordur. GAN’in siyah arabaları, muhtemelen bağlamsal bilgilerden dolayı ürettiğini görebiliyoruz, çünkü predicted görüntülerdeki renkler ve nesnelerin şekilleri gerçek görüntülerdekiyle aynı değil.’

İkinci deney için yazarlar, GAN’i 40 epoch’a kadar, parti boyutu 1 ile eğitti ve benzer bir şekilde ‘temsil edilen’ siyah arabaları, büyük ölçüde bağlamsal bilgilerden elde etti. Bu yapılandırma, ayrıca video oluşturmak için kullanıldı ve bu, GAN tarafından oluşturulan görüntüleri (yukarıdaki örnek görüntüde gösterildiği gibi) gerçek görüntülerle birlikte gösterdi.

Değerlendirme

Bu projenin benzersiz doğası nedeniyle, mevcut durumun en iyisi ile karşılaştırma ve değerlendirme süreci mümkün olmadı. Bunun yerine araştırmacılar, çıktı görüntülerindeki araçların kaynak görüntülerindeki araçlara oranını ölçen özel bir ölçek geliştirdiler.

Her iki kümeden de 100 çift LiDAR / Oluşturulan görüntüleri seçtiler ve kaynak görüntülerindeki araç görüntü sayısını sentetik verideki araç görüntü sayısına böldüler, 0 ila 1 arasında bir ölçek oluşturdular.

Yazarlar şunları belirtiyorlar:

‘Her iki deneydeki puan 0,7 ile 0,8 arasında oldu. Tahmin edilen görüntülerin genel kalitesinin gerçek görüntülerden daha düşük olması dikkate alındığında, bu puan, gerçek görüntülerde bulunan araçların büyük çoğunluğunun predicted görüntülerde de bulunduğunu gösteriyor.’

Araştırmacılar, siyah araçların tespitinin, hem bilgisayar görüşü tabanlı sistemler hem de LiDAR için bir sorun olduğunu ve bu sorunun, görüntüdeki bazı bölümler için veri eksikliğini tanımlayarak çözülebileceğini belirttiler:

‘Tahmin edilen görüntülerde, renk bilgisi ve nesnelerin şekilleri gerçek görüntülerdekiyle aynı değil, bu da siyah arabaların tespitinin büyük ölçüde bağlamsal bilgilerden değil, LiDAR noktalarının yansıtma bilgilerinden geldiğini gösteriyor.

‘İkinci bir sistem öneriyoruz; bu sistem, LiDAR nokta bulutlarından fotoğraf gerçeklikli görüntüler üretebilmeli ve gerçek zamanlı görsel nesne tanıma için çalışmalıdır.’

Araştırmacılar, gelecekte bu çalışmayı daha büyük veri kümeleriyle geliştirmeyi amaçlıyorlar.

Gecikme ve Kalabalık SDV İşlem Yığını

Paylaşılan Twitter gönderisinde bir yorumcu, yaklaşık 75 mph (110 feet saniye) hızda seyahat ederken, 20fps’de çalışan bir video akışının sadece 5,5 feetlik bir mesafeyi kapsayacağını tahmin etti. Ancak, araç Tesla’nın en son donanım ve yazılımını çalıştırıyorsa, kamera 36fps (ana kamera için) çalışıyordu, bu da 110 feet saniye (üç feet kare) olarak değerlendirme oranını belirledi.

Maliyet ve ergonomi dışında, LiDAR’ı ek bir veri akışı olarak kullanmanın sorunu, SDV işlem çerçevesine gelen sensör girişinin büyük ölçekli ‘trafik tıkanıklığı’dır. Bu, kritik bir görev olan bu görev için radar ve LiDAR’ı Autopilot yığınından çıkarmış gibi görünüyor ve bunun yerine görüntü tabanlı değerlendirme yöntemlerini tercih ediyor.

Dolayısıyla, LiDAR’ı kullanarak fotoğraf gerçeklikli görüntüleri çıkarsama sistemi, Tesla’nın bakış açısına göre uygulanabilir görünmüyor.

Tesla’nın kurucusu Elon Musk, LiDAR’ın SpaceX tarafından docking prosedürleri için kullanıldığını belirtiyor, ancak self-sürüş araçları için bu teknolojinin ‘anlamsız’ olduğunu düşünüyor. Musk, bir engeli delen bir dalga boyu, örneğin ~4mm precision radarın, daha faydalı olacağını öneriyor.

Ancak, Haziran 2021 itibarıyla, Tesla araçları radar ile donatılmıyor. Şu anda, radar kaynaklı GAN görüntülerini oluşturmak için tasarlanmış gibi görünmeyen birçok proje var (ancak ABD Enerji Bakanlığı, 2018’de radar kaynaklı GAN görüntüleri için bir girişimi destekledi).

İlk olarak 23 Aralık 2021’de yayımlandı.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]