Sztuczna inteligencja

Poprawa fotorealistyczności symulacji jazdy z użyciem sieci generatywno-dyskryminacyjnych

mm

Nowa inicjatywa badawcza między USA a Chinami zaproponowała użycie sieci generatywno-dyskryminacyjnych (GAN) w celu zwiększenia realizmu symulatorów jazdy.

W nowym podejściu do wyzwania tworzenia fotorealistycznych scenariuszy jazdy z punktu widzenia kierowcy, badacze opracowali hybrydową metodę, która wykorzystuje zalety różnych podejść, łącząc bardziej fotorealistyczne dane wyjściowe systemów opartych na CycleGAN z elementami generowanymi w sposób konwencjonalny, które wymagają większej szczegółowości i spójności, takimi jak oznaczenia dróg i pojazdy widziane z punktu widzenia kierowcy.

Hybrid Generative Neural Graphics (HGNG) offer a new direction for driving simulations that retains the accuracy of 3D models for essential elements (such as road markings and vehicles), while playing to the strengths of GANs in generating interesting and non-repetitive background and ambient detail. Source

Hybrid Generative Neural Graphics (HGNG) oferuje nowy kierunek symulacji jazdy, który zachowuje dokładność modeli 3D dla elementów podstawowych (takich jak oznaczenia dróg i pojazdy), jednocześnie wykorzystując zalety sieci GAN w generowaniu interesujących i niepowtarzalnych detali tła i ambientu. Source

System, nazwany Hybrid Generative Neural Graphics (HGNG), wstrzykuje ograniczone dane wyjściowe z konwencjonalnego symulatora jazdy opartego na CGI do potoku GAN, gdzie framework NVIDIA SPADE przejmuje pracę generowania środowiska.

Zaleta, zdaniem autorów, polega na tym, że środowiska jazdy staną się potencjalnie bardziej różnorodne, tworząc bardziej immersyjne doświadczenie. Jak dotąd, nawet przekształcanie danych wyjściowych CGI w fotorealistyczne dane wyjściowe renderingu neuronowego nie może rozwiązać problemu powtarzalności, ponieważ oryginalne nagrania wchodzące do potoku neuronowego są ograniczone przez ograniczenia modeli środowiskowych i ich tendencję do powtarzania tekstur i siatek.

Source: https://www.youtube.com/watch?v=0fhUJT21-bs

Przekonwertowane nagranie z pracy z 2021 roku ‘Enhancing photorealism enhancement’, które nadal zależą od danych wyjściowych CGI, w tym tła i ogólnych detali ambientu, ograniczając różnorodność środowiska w symulowanym doświadczeniu. Source: https://www.youtube.com/watch?v=P1IcaBn3ej0

W artykule stwierdza się*:

‘Wiernność konwencjonalnego symulatora jazdy zależy od jakości jego potoku grafiki komputerowej, który składa się z modeli 3D, tekstur i silnika renderującego. Wysokiej jakości modele 3D i tekstury wymagają rzemiosła, podczas gdy silnik renderujący musi wykonywać skomplikowane obliczenia fizyczne dla realistycznego przedstawienia światła i cieni.’

Nowy artykuł nowy artykuł nosi tytuł Fotorealistyczność w symulacjach jazdy: łączenie generatywnej syntezy obrazu z renderowaniem, i pochodzi od badaczy z Wydziału Inżynierii Elektrycznej i Komputerowej na Uniwersytecie Stanu Ohio oraz Chongqing Changan Automobile Co Ltd w Chongqing, w Chinach.

Tło

HGNG transformuje semantyczną strukturę wejściowej sceny CGI, łącząc częściowo renderowane elementy pierwszego planu z generowanymi przez GAN środowiskami. Chociaż badacze eksperymentowali z różnymi zestawami danych do szkolenia modeli, najskuteczniejszym okazał się KITTI Vision Benchmark Suite, który w dużej mierze składa się z nagrań z punktu widzenia kierowcy z niemieckiego miasta Karlsruhe.

HGNG generuje semantyczną strukturę segmentacji z danych wyjściowych CGI, a następnie umieszcza SPADE z różnymi kodowaniami stylu, aby utworzyć losowe i różnorodne fotorealistyczne tło, w tym pobliskie obiekty w scenach miejskich. Nowy artykuł stwierdza, że powtarzające się wzory, które są powszechne w potokach CGI o ograniczonych zasobach, 'łamią immersję' dla kierowców ludzkich korzystających z symulatora, i że bardziej zróżnicowane tła, które może zapewnić GAN, mogą rozwiązać ten problem.

HGNG generuje semantyczną strukturę segmentacji z danych wyjściowych CGI, a następnie umieszcza SPADE z różnymi kodowaniami stylu, aby utworzyć losowe i różnorodne fotorealistyczne tło, w tym pobliskie obiekty w scenach miejskich. Nowy artykuł stwierdza, że powtarzające się wzory, które są powszechne w potokach CGI o ograniczonych zasobach, ‘łamią immersję’ dla kierowców ludzkich korzystających z symulatora, i że bardziej zróżnicowane tła, które może zapewnić GAN, mogą rozwiązać ten problem.

Badacze eksperymentowali z Conditional GAN (cGAN) i CYcleGAN (CyGAN) jako sieciami generatywnymi, stwierdzając ostatecznie, że każda z nich ma swoje zalety i wady: cGAN wymaga parowych zestawów danych, a CyGAN nie. Jednak CyGAN nie może obecnie przewyższyć stanu sztuki w konwencjonalnych symulatorach, do czasu dalszych ulepszeń w adaptacji domeny i spójności cyklu. Dlatego cGAN, z jego dodatkowymi wymogami parowych danych, uzyskuje najlepsze wyniki na razie.

Konceptualna architektura HGNG.

Konceptualna architektura HGNG.

W potoku graficznym HGNG, reprezentacje 2D tworzone są z danych wyjściowych CGI. Obiekty, które są przekazywane do potoku GAN, są ograniczone do ‘podstawowych’ elementów, w tym oznaczeń dróg i pojazdów, które GAN samodzielnie nie może jeszcze renderować z odpowiednią spójnością czasową i integralnością dla symulatora jazdy. Dane wyjściowe cGAN są następnie łączone z częściowo renderowanym obrazem fizyki.

Testy

Aby przetestować system, badacze użyli SPADE, przeszkolonego na Cityscapes, aby przekonwertować semantyczną strukturę sceny w fotorealistyczne dane wyjściowe. Dane wejściowe CGI pochodziły z otwartego symulatora jazdy CARLA, który wykorzystuje Unreal Engine 4 (UE4).

Dane wyjściowe z otwartego symulatora jazdy CARLA. Source: https://arxiv.org/pdf/1711.03938.pdf

Dane wyjściowe z otwartego symulatora jazdy CARLA. Source: https://arxiv.org/pdf/1711.03938.pdf

Silnik cieni i oświetlenia UE4 dostarczył semantyczną strukturę i częściowo renderowane obrazy, z tylko pojazdami i oznaczeniami dróg w danych wyjściowych. Łączenie zostało osiągnięte za pomocą GP-GAN przeszkolonego na Transient Attributes Database, a wszystkie eksperymenty zostały uruchomione na NVIDIA RTX 2080 z 8 GB pamięci GDDR6.

Badacze przetestowali semantyczną retencję – zdolność obrazu wyjściowego do odpowiadania początkowej masce segmentacji semantycznej przeznaczonej jako szablon dla sceny.

W powyższych obrazach testowych widzimy, że w ‘render only’ (dolny lewy) pełny render nie uzyskuje prawdopodobnych cieni. Badacze zauważają, że tutaj (żółty krąg) cienie drzew, które spadają na chodnik, zostały błędnie sklasyfikowane przez DeepLabV3 (ramę segmentacji semantycznej używaną w tych eksperymentach) jako ‘zawartość drogi’.

W środkowym przepływie widzimy, że pojazdy utworzone przez cGAN nie mają wystarczającej definicji, aby być użytecznymi w symulatorze jazdy (czerwony krąg). W prawym przepływie obrazu łączonego, obraz odpowiada oryginalnej definicji semantycznej, zachowując przy tym podstawowe elementy oparte na CGI.

Aby ocenić realizm, badacze użyli Frechet Inception Distance (FID) jako miary wydajności, ponieważ może działać na danych sparowanych lub niesparowanych.

Trzy zestawy danych zostały użyte jako prawda: Cityscapes, KITTI i ADE20K.

Obrazy wyjściowe zostały porównane ze sobą za pomocą wyników FID, a także z potokiem fizyki (tj. CGI), podczas gdy semantyczna retencja została również oceniona.

W powyższych wynikach, które dotyczą semantycznej retencji, wyższe wyniki są lepsze, z podejściem opartym na cGAN (jednym z kilku potoków przetestowanych przez badaczy) uzyskującym najwyższy wynik.

Powyższe wyniki dotyczą wyników FID, z HGNG uzyskującym najwyższy wynik dzięki użyciu zestawu danych KITTI.

Metoda ‘Tylko render’ (oznaczona jako [23]) dotyczy danych wyjściowych z CARLA, potoku CGI, który nie jest oczekiwany, aby być fotorealistyczny.

Jakościowe wyniki na konwencjonalnym silniku renderującym (‘c’ w powyższym obrazie) wykazują nierzeczywiste informacje tła, takie jak drzewa i roślinność, oraz wymagają szczegółowych modeli i załadunku siatki w czasie rzeczywistym, a także innych procesorowo-nachłannych procedur. W środku (b) widzimy, że cGAN nie uzyskuje wystarczającej definicji dla podstawowych elementów, samochodów i oznaczeń dróg. W proponowanym łączonym obrazie wyjściowym (a) definicja pojazdów i dróg jest dobra, podczas gdy środowisko ambientalne jest różnorodne i fotorealistyczne.

Artykuł kończy się sugestią, że spójność czasowa sekcji generowanej przez GAN w potoku renderującym może zostać zwiększona za pomocą większych zestawów danych miejskich, i że przyszła praca w tym kierunku może zapewnić prawdziwą alternatywę dla kosztownych transformacji neuronowych strumieni opartych na CGI, zapewniając większy realizm i różnorodność.

 

* Moja konwersja cytatów wewnętrznych autorów na odnośniki.

Pierwotnie opublikowane 23 lipca 2022.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.