Yapay Zekâ

Sürüş Simülasyonlarının Fotoğrafçı Gerçekçiliğini Generatif Karşıt Ağlar ile Geliştirme

Published July 23, 2022

Updated April 28, 2026

Martin Anderson

ABD ve Çin arasında yeni bir araştırma girişimi, sürüş simülatörlerinin gerçekçiliğini artırmak için Generatif Karşıt Ağlar (GAN’ler) kullanımını önerdi.

Sürücünün bakış açısına göre fotoğrafçı gerçekçi sürüş senaryolarını üretme challenge’ine yeni bir yaklaşım getirerek, araştırmacılar, CycleGAN tabanlı sistemlerin daha fotoğrafçı gerçekçi çıktılarını, daha geleneksel olarak üretilen ve daha fazla ayrıntı ve tutarlılık gerektiren unsurlarla (yol işaretleri ve sürücünün bakış açısına göre görülen araçlar gibi) birleştiren melez bir yöntem geliştirdiler.

Hybrid Generative Neural Graphics (HGNG) offer a new direction for driving simulations that retains the accuracy of 3D models for essential elements (such as road markings and vehicles), while playing to the strengths of GANs in generating interesting and non-repetitive background and ambient detail. Source

Hybrid Generative Neural Graphics (HGNG), sürüş simülasyonları için yeni bir yön sunar, bu yön 3D modellerin temel unsurlar (yol işaretleri ve araçlar gibi) için doğruluğunu korurken, GAN’lerin ilginç ve tekrarlamayan arka plan ve ambiente ayrıntı üretme gücünden yararlanılır. Source

Sistem, Hybrid Generative Neural Graphics (HGNG) olarak adlandırılmaktadır ve geleneksel, CGI tabanlı bir sürüş simülatöründen yüksek sınırlı çıktı enjekte eder ve NVIDIA SPADE çerçevesi, çevre oluşturma işini devralır.

Araştırmacılara göre avantaj, sürüş ortamlarının daha çeşitli hale gelmesidir, bu da daha immersif bir deneyim yaratır. Şu anda, çevirme CGI çıkışını fotoğrafçı gerçekçi nöral rendering çıkışına çeviremez, tekrarlanan desenleri çözemez, çünkü orijinal görüntüler nöral pipeline’a girerken, model ortamının sınırları ve tekrarlayan tekstür ve mesh’leri ile sınırlıdır.

Source: https://www.youtube.com/watch?v=0fhUJT21-bs

2021 makale ‘Enhancing photorealism enhancement’ dan dönüştürülen görüntüler, arka plan ve genel ambiente ayrıntı dahil olmak üzere CGI tarafından oluşturulan görüntülere bağlı kalır, simüle edilmiş deneyimin ortam çeşitliliğini sınırlar.Source: https://www.youtube.com/watch?v=P1IcaBn3ej0

Makalede denir*:

‘Geleneksel bir sürüş simülatörünün bağımlılığı, bilgisayar grafiği pipeline’ının kalitesine bağlıdır, bu pipeline 3D modeller, tekstürler ve bir rendering motorundan oluşur. Yüksek kaliteli 3D modeller ve tekstürler için uzmanlık gerekir, ayrıca rendering motoru gerçekçi bir şekilde ışık ve gölgelendirme için karmaşık fizik hesaplamaları gerçekleştirmelidir.’

Yeni makale Photorealism in Driving Simulations: Blending Generative Adversarial Image Synthesis with Rendering olarak adlandırılmaktadır ve Ohio Eyalet Üniversitesi’nden ve Çin’in Chongqing şehrindeki Chongqing Changan Automobile Co Ltd’den araştırmacılardan gelmektedir.

Arka Plan Materyali

HGNG, bir CGI tarafından üretilen sahnenin semantik düzenini, kısmen oluşturulan ön plan materyali ile GAN tarafından üretilen ortamları birleştirerek dönüştürür. Araştırmacılar çeşitli veri setleri üzerinde denemeler yaptılar, ancak en etkili olanı KITTI Vision Benchmark Suite oldu, bu suite主要 olarak sürücünün bakış açısına göre Alman şehri Karlsruhe’den alınan görüntüleri içerir.

HGNG, CGI tarafından üretilen çıkıştan semantik bir segmentasyon düzeni oluşturur ve sonra SPADE ile çeşitli stil kodlamaları kullanarak rastgele ve çeşitli fotoğrafçı gerçekçi arka plan görüntüleri oluşturur, şehir sahnelerindeki yakın nesneleri içerir.

Araştırmacılar, Conditional GAN (cGAN) ve CYcleGAN (CyGAN) olarak generatif ağlar olarak denediler ve her birinin güçlü ve zayıf yanları olduğunu buldular: cGAN, çift veri setleri gerektirir, CyGAN ise gerektirmez. Ancak, CyGAN şu anda geleneksel simülatörlerdeki state-of-the-art’ı aşamaz, alan adaptasyonu ve döngü tutarlılığındaki gelişmelere bağlı olarak.

HGNG’nin kavramsal mimarisi.

HGNG nöral grafik pipeline’ında, 2D temsilciler CGI tarafından sentezlenen sahnelerden oluşur. GAN akışına geçen nesneler, ‘temel’ unsurlarla sınırlıdır, bunlar yol işaretleri ve araçlardır, çünkü GAN kendisi bunları yeterli temporal tutarlılık ve bütünlükle sürüş simülatöründe renderlayamaz. cGAN tarafından sentezlenen görüntü, kısmen fizik tabanlı render ile birleştirilir.

Testler

Sistemi test etmek için, araştırmacılar Cityscapes üzerinde eğitilen SPADE’yi kullandılar, bu, sahnenin semantik düzenini fotoğrafçı gerçekçi çıktıya dönüştürür. CGI kaynağı, Unreal Engine 4 (UE4) kullanan açık kaynaklı sürüş simülatörü CARLA idi.

Output from the open source driving simulator CARLA. Source: https://arxiv.org/pdf/1711.03938.pdf

Açık kaynaklı sürüş simülatörü CARLA’nın çıkışı. Source: https://arxiv.org/pdf/1711.03938.pdf

UE4’ün gölgelendirme ve aydınlatma motoru, semantik düzeni ve kısmen render edilen görüntüleri sağladı, sadece araçlar ve yol işaretleri çıktı. Birleştirme, GP-GAN örneği ile gerçekleştirildi, bu örnek Transient Attributes Database üzerinde eğitildi ve tüm deneyler NVIDIA RTX 2080 ile 8 GB GDDR6 VRAM ile gerçekleştirildi.

Araştırmacılar, semantik retention için test ettiler – çıktı görüntüsünün ilk semantik segmentasyon maskesine karşılık gelen yeteneği.

Yukarıdaki test görüntülerinde, ‘sadece render’ görüntüsünde (alt sol), tam render inandırıcı gölgeler elde edemez. Araştırmacılar, burada (sarı daire) ağaçların yol üzerine düşen gölgelerinin DeepLabV3 (bu deneyler için kullanılan semantik segmentasyon çerçevesi) tarafından ‘yol’ içeriği olarak yanlış sınıflandırıldığını belirtir.

Orta sütun akışında, cGAN tarafından oluşturulan araçların sürüş simülatöründe kullanılabilecek kadar tutarlı bir tanımının olmadığını görürüz (kırmızı daire). Sağdaki sütun akışında, birleştirilmiş görüntü orijinal semantik tanıma uyarken, temel CGI tabanlı unsurları korur.

Gerçekçiliği değerlendirmek için, araştırmacılar Frechet Inception Distance (FID) performans ölçütü olarak kullandı, çünkü bu, çift veya çift olmayan veriler üzerinde çalışabilir.

Üç veri seti, Cityscapes, KITTI ve ADE20K olarak ground truth olarak kullanıldı.

Çıkış görüntüleri, FID puanları ile birbirlerine ve fizik tabanlı pipeline’a (yani CGI pipeline’ına) karşı karşılaştırıldı, ayrıca semantik retention da değerlendirildi.

Yukarıdaki sonuçlar, semantik retention ile ilgilidir, daha yüksek puanlar daha iyidir, cGAN piramit tabanlı yaklaşım (araştırmacılar tarafından test edilen birkaç pipeline’dan biri) en yüksek puanı alır.

Yukarıdaki sonuçlar, FID puanları ile ilgilidir, HGNG KITTI veri setini kullanarak en yüksek puanı alır.

‘Sadece render’ yöntemi ( [23] olarak işaretlenmiştir), CGI akışına ait çıktıya karşılık gelir, bu çıktının fotoğrafçı gerçekçi olması beklenmez.

Geleneksel rendering motorunun (c olarak işaretlenmiştir) nitel sonuçları, gerçekçi olmayan uzak arka plan bilgilerini gösterir, bunlar ağaçlar ve bitkiler gibi, ayrıca ayrıntılı modeller ve zamanında mesh yüklemesi gibi işlemler gerektirir. Orta sütunda, cGAN’ın temel unsurlar (araçlar ve yol işaretleri) için yeterli tanım elde edemediğini görürüz. Önerilen birleştirilmiş çıktı (a olarak işaretlenmiştir), araç ve yol tanımlarının iyi olduğunu, ambiente ortamın çeşitli ve fotoğrafçı gerçekçi olduğunu gösterir.

Makale, GAN tarafından üretilen rendering pipeline’ın temporal tutarlılığının, daha büyük kentsel veri setleri kullanılarak artırılabileceğini ve bu yöndeki gelecek çalışmaların, pahalı nöral dönüşümlere gerçek bir alternatif sunabileceğini ve daha gerçekçi ve çeşitli bir deneyim sağlayabileceğini belirtir.

* Yazarların inline alıntılarını hiperlink’lere dönüştürmem.

İlk olarak 23 Temmuz 2022’de yayınlandı.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

Sürüş Simülasyonlarının Fotoğrafçı Gerçekçiliğini Generatif Karşıt Ağlar ile Geliştirme

Arka Plan Materyali

Testler

You may like