Τεχνητή νοημοσύνη
Βελτιώνοντας τον Φωτορεαλισμό των Προσομοιωτών Οδήγησης με Ανταγωνιστικές Γενετικές Δίκτυα

Μια νέα ερευνητική πρωτοβουλία μεταξύ των ΗΠΑ και της Κίνας έχει προτείνει τη χρήση Ανταγωνιστικών Γενετικών Δικτύων (GANs) για την αύξηση του ρεαλισμού των προσομοιωτών οδήγησης.
Σε μια καινοτόμο προσέγγιση του προβλήματος της δημιουργίας φωτορεαλιστικών σεναρίων οδήγησης από την οπτική γωνία του οδηγού, οι ερευνητές έχουν αναπτύξει μια υβριδική μέθοδο που αξιοποιεί τα πλεονεκτήματα των διαφόρων προσεγγίσεων, συνδυάζοντας την πιο φωτορεαλιστική έξοδο των συστημάτων CycleGAN με στοιχεία που παράγονται με πιο συμβατικά μέσα, τα οποία απαιτούν υψηλότερο επίπεδο λεπτομέρειας και συνεπαγωγής, όπως οι οδικές σήμανσεις και τα οχήματα που παρατηρούνται από την οπτική γωνία του οδηγού.

Hybrid Generative Neural Graphics (HGNG) offer a new direction for driving simulations that retains the accuracy of 3D models for essential elements (such as road markings and vehicles), while playing to the strengths of GANs in generating interesting and non-repetitive background and ambient detail. Source
Το σύστημα, που ονομάζεται Hybrid Generative Neural Graphics (HGNG), εισάγει την έξοδο από einen συμβατικό προσομοιωτή οδήγησης με βάση CGI σε μια διαδικασία GAN, όπου το πλαίσιο NVIDIA SPADE αναλαμβάνει το έργο της δημιουργίας του περιβάλλοντος.
Το πλεονέκτημα, σύμφωνα με τους ερευνητές, είναι ότι τα περιβάλλοντα οδήγησης θα γίνουν πιθανώς πιο ποικίλα, δημιουργώντας μια πιο εύκολη εμπειρία. Όπως είναι τώρα, ακόμη και η μετατροπή της έξοδου CGI σε φωτορεαλιστική νευρωνική απόδοση δεν μπορεί να λύσει το πρόβλημα της επανάληψης, поскольку η αρχική ταινία που εισέρχεται στη νευρωνική διαδικασία είναι περιορισμένη από τους περιορισμούς των περιβαλλόντων του μοντέλου και την τάση τους να επαναλαμβάνουν текстούρες και πλέγματα.

Converted footage from the 2021 paper ‘Enhancing photorealism enhancement’, which remain dependent on CGI-rendered footage, including the background and general ambient detail, constraining the variety of environment in the simulated experience. Source: https://www.youtube.com/watch?v=P1IcaBn3ej0
Το έγγραφο αναφέρει*:
‘The fidelity of a conventional driving simulator depends on the quality of its computer graphics pipeline, which consists of 3D models, textures, and a rendering engine. High-quality 3D models and textures require artisanship, whereas the rendering engine must run complicated physics calculations for the realistic representation of lighting and shading.’
Το νέο έγγραφο έχει τον τίτλο Photorealism in Driving Simulations: Blending Generative Adversarial Image Synthesis with Rendering, και προέρχεται από ερευνητές στο Τμήμα Ηλεκτρολόγων Μηχανικών και Πληροφορικής του Πανεπιστημίου του Οχάιο, και Chongqing Changan Automobile Co Ltd στο Τσόνγκκινγκ, Κίνα.
Background Material
Η HGNG μετατρέπει το σεμαντικό σχήμα μιας εισαγωγικής σκηνής CGI με τη συνδυασμένη χρήση μερικά αποδοθέντων στοιχείων προσώπου με GAN-γεννημένα περιβάλλοντα. Αν και οι ερευνητές πειραματίστηκαν με διάφορα σύνολα δεδομένων για την εκπαίδευση των μοντέλων, το πιο αποτελεσματικό αποδείχθηκε να είναι το KITTI Vision Benchmark Suite, το οποίο κυρίως περιλαμβάνει λήψεις υλικού από την οπτική γωνία του οδηγού από την πόλη Καρλσρούη της Γερμανίας.

HGNG generates a semantic segmentation layout from CGI-rendered output, and then interposes SPADE, with varying style encodings, to create random and diverse photorealistic background imagery, including nearby objects in urban scenes. The new paper states that repetitive patterns, which are common to resource-constrained CGI pipelines, ‘break immersion’ for human drivers using a simulator, and that the more variegated backgrounds that a GAN can provide can alleviate this problem.
Οι ερευνητές πειραματίστηκαν και με Conditional GAN (cGAN) και CYcleGAN (CyGAN) ως γενετικά δίκτυα, βρίσκοντας τελικά ότι το καθένα έχει πλεονεκτήματα και μειονεκτήματα: cGAN απαιτεί ζευγαρωμένα σύνολα δεδομένων, και CyGAN δεν. Ωστόσο, CyGAN δεν μπορεί目前 να ξεπεράσει το state-of-the-art στις συμβατικές προσομοιωτές, αναμένοντας περαιτέρω βελτιώσεις στην domain adaptation και cycle consistency. Έτσι, cGAN, με τις πρόσθετες απαιτήσεις ζευγαρωμένων δεδομένων, αποκτά τα καλύτερα αποτελέσματα αυτή τη στιγμή.

The conceptual architecture of HGNG.
Στη νευρωνική γραφική διαδικασία HGNG, 2D αναπαραστάσεις σχηματίζονται από CGI-συνθετικές σκηνές. Τα αντικείμενα που περνούν από το GAN-ροή από την CGI-απόδοση περιορίζονται σε ‘απαραίτητα’ στοιχεία, συμπεριλαμβανομένων των οδικών σημάτων και των οχημάτων, τα οποία ένα GAN δεν μπορεί ακόμη να αποδώσει με επαρκή χρονική συνεπαγωγή και ακεραιότητα για einen προσομοιωτή οδήγησης. Η cGAN-συνθετική εικόνα συνδυάζεται στη συνέχεια με την μερική φυσική-βασισμένη απόδοση.
Tests
Για να δοκιμάσουν το σύστημα, οι ερευνητές χρησιμοποίησαν SPADE, εκπαιδευμένο στο Cityscapes, για να μετατρέψουν το σεμαντικό σχήμα της σκηνής σε φωτορεαλιστική έξοδο. Η CGI-πηγή προήλθε από τον ανοικτό κώδικα προσομοιωτή οδήγησης CARLA, ο οποίος αξιοποιεί το Unreal Engine 4 (UE4).

Output from the open source driving simulator CARLA. Source: https://arxiv.org/pdf/1711.03938.pdf
Η μηχανή σκιών και φωτισμού του UE4 παρείχε το σεμαντικό σχήμα και τις μερικά αποδοθείσες εικόνες, με μόνο οχήματα και οδικά σήματα εξόδου. Η συνδυασμένη απόδοση επιτεύχθηκε με μια GP-GAN παρουσίαση, εκπαιδευμένη στο Transient Attributes Database, και όλες οι πειραματικές εκτελέσεις εκτελέστηκαν σε einen NVIDIA RTX 2080 με 8 GB GDDR6 VRAM.
Οι ερευνητές δοκιμάστηκαν για σεμαντική διατήρηση – την ικανότητα της εξόδου εικόνας να ανταποκρίνεται στην αρχική σεμαντική μάσκα που προορίζεται ως πρότυπο για τη σκηνή.
Στις δοκιμαστικές εικόνες παραπάνω, βλέπουμε ότι στην ‘μόνο απόδοση’ εικόνα (κάτω αριστερά), η πλήρης απόδοση δεν επιτυγχάνει πιστευτές σκιές. Οι ερευνητές σημειώνουν ότι εδώ (κίτρινος κύκλος) οι σκιές των δέντρων που πέφτουν στο πεζοδρόμιο κατατάσσονται λανθασμένα από το DeepLabV3 (το πλαίσιο σεμαντικής διαίρεσης που χρησιμοποιήθηκε για αυτά τα πειράματα) ως ‘οδικό’ περιεχόμενο.
Στη μέση στήλη-ροή, βλέπουμε ότι τα οχήματα που δημιουργούνται από cGAN δεν έχουν επαρκή συνεπαγωγή να είναι χρήσιμα σε einen προσομοιωτή οδήγησης (κόκκινος κύκλος). Στη δεξιά στήλη-ροή, η συνδυασμένη εικόνα ανταποκρίνεται στην αρχική σεμαντική ορισμό, διατηρώντας ταυτόχρονα τα απαραίτητα CGI-βασισμένα στοιχεία.
Για να αξιολογήσουν τον ρεαλισμό, οι ερευνητές χρησιμοποίησαν Frechet Inception Distance (FID) ως μετρική απόδοσης,既然 μπορεί να λειτουργήσει σε ζευγαρωμένα δεδομένα ή μη ζευγαρωμένα δεδομένα.
Τρία σύνολα δεδομένων χρησιμοποιήθηκαν ως ground truth: Cityscapes, KITTI, και ADE20K.
Οι εξόδους εικόνων συγκρίθηκαν μεταξύ τους χρησιμοποιώντας FID-αποτελέσματα, και έναντι της φυσικής-βασισμένης (δηλ. CGI) διαδικασίας, ενώ η σεμαντική διατήρηση αξιολογήθηκε επίσης.

Στα αποτελέσματα παραπάνω, που σχετίζονται με τη σεμαντική διατήρηση, υψηλότερες βαθμολογίες είναι καλύτερες, με την προσέγγιση πυραμίδας cGAN (μία από τις πολλές διαδικασίες που δοκιμάστηκαν από τους ερευνητές) να βαθμολογείται υψηλότερα.

Τα αποτελέσματα που απεικονίζονται απευθείας παραπάνω αφορούν FID-αποτελέσματα, με την HGNG να βαθμολογείται υψηλότερα μέσω της χρήσης του συνόλου δεδομένων KITTI.
Η μέθοδος ‘Μόνο απόδοση’ (που σημειώνεται ως [23]) αφορά την έξοδο από το CARLA, μια CGI-ροή που δεν αναμένεται να είναι φωτορεαλιστική.
Ποιοτικά αποτελέσματα στην συμβατική μηχανή απόδοσης (‘c’ στην εικόνα απευθείας παραπάνω) παρουσιάζουν μη ρεαλιστικές μακρινές πληροφορίες φόντου, όπως δέντρα και βλάστηση, ενώ απαιτούν λεπτομερή μοντέλα και φόρτωση πλέγματος just-in-time, καθώς και άλλες διαδικασίες που απαιτούν πολλές υπολογιστικές διαδικασίες. Στη μέση (b), βλέπουμε ότι cGAN δεν μπορεί να αποδώσει επαρκή ορισμό για τα απαραίτητα στοιχεία, τα οχήματα και τα οδικά σήματα. Στην προτεινόμενη συνδυασμένη έξοδο (a), ο ορισμός του οχήματος και του δρόμου είναι καλός, ενώ το περιβάλλον είναι ποικίλο και φωτορεαλιστικό.
Το έγγραφο ολοκληρώνεται με την πρόταση ότι η χρονική συνεπαγωγή του GAN-γεννημένου τμήματος της διαδικασίας απόδοσης θα μπορούσε να αυξηθεί μέσω της χρήσης μεγαλύτερων αστικών συνόλων δεδομένων, και ότι μελλοντική εργασία σε αυτή τη διεύθυνση θα μπορούσε να προσφέρει μια πραγματική εναλλακτική λύση στις δαπανηρές νευρωνικές μετατροπές των CGI-βασισμένων ροών, παρέχοντας μεγαλύτερο ρεαλισμό και ποικιλία.
* Η μετατροπή των εσωτερικών αναφορών των συγγραφέων σε υπερσύνδεσμους.
Πρώτη δημοσίευση 23ης Ιουλίου 2022.














