Η γωνία του Anderson

Βελτιώνοντας τον Φωτορεαλισμό των Σιμυλατέρων Οδήγησης με Γενετικές Ανταγωνιστικές Δίκτυα

Δημοσιεύτηκε 23 Ιουλίου 2022

Ενημερώθηκε 23 Μαΐου 2026

Martin Anderson

Μια νέα ερευνητική πρωτοβουλία μεταξύ των ΗΠΑ και της Κίνας έχει προτείνει τη χρήση Γενετικών Ανταγωνιστικών Δικτύων (GANs) για την αύξηση του φωτορεαλισμού των σιμυλατέρων οδήγησης.

Σε μια καινοτόμο προσέγγιση του προβλήματος της παραγωγής φωτορεαλιστικών σεναρίων οδήγησης, οι ερευνητές έχουν αναπτύξει một υβριδικό μέθοδο που συνδυάζει τα πλεονεκτήματα των διαφόρων προσεγγίσεων, αναμιγνύοντας την πιο φωτορεαλιστική έξοδο των συστημάτων CycleGAN με συμβατικά παραγόμενα στοιχεία, τα οποία απαιτούν υψηλότερο επίπεδο λεπτομέρειας και συνεπαγωγής, όπως οι οδικές σήμανσεις και τα οχήματα που παρατηρούνται από την οπτική γωνία του οδηγού.

Hybrid Generative Neural Graphics (HGNG) offer a new direction for driving simulations that retains the accuracy of 3D models for essential elements (such as road markings and vehicles), while playing to the strengths of GANs in generating interesting and non-repetitive background and ambient detail. Source

Hybrid Generative Neural Graphics (HGNG) προσφέρουν μια νέα κατεύθυνση για σιμυλατέρες οδήγησης που διατηρεί την ακρίβεια των 3D μοντέλων για τα απαραίτητα στοιχεία (όπως οι οδικές σήμανσεις και τα οχήματα), ενώ εκμεταλλεύονται τα πλεονεκτήματα των GANs στη δημιουργία ενδιαφέρουσας και μη επαναλαμβανόμενης φόντο και περιβαλλόμενης λεπτομέρειας. Source

Το σύστημα, που ονομάζεται Hybrid Generative Neural Graphics (HGNG), εντάσσει την έξοδο από ένα συμβατικό, CGI-βασισμένο σιμυλατέρ οδήγησης σε μια διαδικασία GAN, όπου το πλαίσιο NVIDIA SPADE αναλαμβάνει το έργο της δημιουργίας περιβάλλοντος.

Το πλεονέκτημα, σύμφωνα με τους ερευνητές, είναι ότι τα περιβάλλοντα οδήγησης θα γίνουν πιθανώς πιο ποικίλα, δημιουργώντας μια πιο εύθυμη εμπειρία. Όπως είναι τώρα, ακόμη και η μετατροπή της έξοδου CGI σε φωτορεαλιστική νευρωνική απόδοση δεν μπορεί να λύσει το πρόβλημα της επανάληψης, επειδή η αρχική εικόνα που εισέρχεται στη νευρωνική διαδικασία είναι περιορισμένη από τους περιορισμούς των περιβαλλόμενων μοντέλων και την τάση τους να επαναλαμβάνουν υφές και πλέγματα.

Source: https://www.youtube.com/watch?v=0fhUJT21-bs

Μετατρεπόμενη εικόνα από το 2021 έγγραφο ‘Ενίσχυση φωτορεαλισμού’, η οποία εξακολουθεί να εξαρτάται από την εικόνα CGI, συμπεριλαμβανομένου του φόντου και της γενικής περιβαλλόμενης λεπτομέρειας, που περιορίζει την ποικιλία του περιβάλλοντος στη σιμυλατέρη εμπειρία. Source: https://www.youtube.com/watch?v=P1IcaBn3ej0

Το έγγραφο αναφέρει*:

‘Η πιστότητα ενός συμβατικού σιμυλατέρ οδήγησης εξαρτάται από την ποιότητα της γραφικής διαδικασίας, η οποία αποτελείται από 3D μοντέλα, υφές και einen μηχανισμό απόδοσης. Τα υψηλής ποιότητας 3D μοντέλα και υφές απαιτούν τεχνική, ενώ ο μηχανισμός απόδοσης πρέπει να εκτελεί σύνθετες φυσικές υπολογισμούς για την πραγματική αναπαράσταση φωτισμού και σκιών.’

Το νέο έγγραφο έχει τον τίτλο Φωτορεαλισμός στις Σιμυλατέρες Οδήγησης: Συνδυασμός Γενετικής Ανταγωνιστικής Εικόνας με Απόδοση, και προέρχεται από ερευνητές στο Τμήμα Ηλεκτρολόγων Μηχανικών και Πληροφορικής του Πανεπιστημίου του Οχάιο, και την Chongqing Changan Automobile Co Ltd στην Τσονγκκίνγκ, Κίνα.

Υλικό για το Ιστορικό

Η HGNG μετατρέπει το σεμαντικό σχήμα μιας εισαγωγικής εικόνας CGI με αναμεμεινόμενο μερικά αποδομένα υλικά με GAN-γεννημένα περιβάλλοντα. Αν και οι ερευνητές πειραματίστηκαν με διάφορα σύνολα δεδομένων για την εκπαίδευση των μοντέλων, το πιο αποτελεσματικό αποδείχθηκε να είναι το KITTI Vision Benchmark Suite, το οποίο κυρίως χαρακτηρίζεται από λήψεις υλικού από την οπτική γωνία του οδηγού από την πόλη Καρλσρούη της Γερμανίας.

<img class="wp-image-182694" src="https://www.unite.ai/wp-content/uploads/2022/07/semantic-layout2.jpg" alt="HGNG γεννάει ένα σεμαντικό σχήμα απόδοση από την έξοδο CGI, και στη συνέχεια εντάσσει το SPADE, με διαφορετικές κωδικοποιήσεις στυλ, για τη δημιουργία τυχαίων και ποικίλων φωτορεαλιστικών εικόνων φόντου, συμπεριλαμβανομένων των κοντινών αντικειμένων σε αστικές σκηνές. Το νέο έγγραφο αναφέρει ότι επαναλαμβανόμενες μοτίβα, τα οποία είναι κοινά στα περιορισμένα CGI-διαδικασίες, 'σπάει την εύθυμη εμπειρία' για τους ανθρώπινους οδηγούς που χρησιμοποιούν einen σιμυλατέρ, και ότι τα περισσότερα ποικίλα φόντα που μπορεί να παρέχει ένας GAN μπορεί να επιλύσει αυτό το πρόβλημα.

Οι ερευνητές πειραματίστηκαν και με Συμβατικό GAN (cGAN) και CYcleGAN (CyGAN) ως γενετικά δίκτυα, βρίσκοντας τελικά ότι το καθένα έχει πλεονεκτήματα και μειονεκτήματα: cGAN απαιτεί ζευγαρωμένα σύνολα δεδομένων, και CyGAN δεν. Ωστόσο, CyGAN δεν μπορεί να ξεπεράσει το σημείο αναφοράς των συμβατικών σιμυλατέρων, αναμένοντας περαιτέρω βελτιώσεις στην προσαρμογή τομέα και στη συνεπαγωγή κύκλου. Επομένως, cGAN, με τις πρόσθετες απαιτήσεις ζευγαρωμένων δεδομένων, αποκτά τα καλύτερα αποτελέσματα αυτή τη στιγμή.

Η εννοιολογική αρχιτεκτονική της HGNG.

Στη νευρωνική γραφική διαδικασία HGNG, 2D αναπαραστάσεις σχηματίζονται από CGI-συνθετικές σκηνές. Τα αντικείμενα που περνούν από το CGI-αποδομένο στο GAN-ροή είναι περιορισμένα στα ‘απαραίτητα’ στοιχεία, συμπεριλαμβανομένων των οδικών σημάνσεων και των οχημάτων, τα οποία ένας GAN δεν μπορεί να αποδώσει ακόμη με επαρκή χρονική συνεπαγωγή και ακεραιότητα για einen σιμυλατέρ οδήγησης. Η cGAN-συνθετική εικόνα συνδυάζεται στη συνέχεια με την μερική φυσική-βασισμένη απόδοση.

Δοκιμές

Για να δοκιμάσουν το σύστημα, οι ερευνητές χρησιμοποίησαν το SPADE, εκπαιδευμένο στο Cityscapes, για να μετατρέψουν το σεμαντικό σχήμα της σκηνής σε φωτορεαλιστική έξοδο. Η CGI-πηγή προήλθε από το ανοιχτό σιμυλατέρ οδήγησης CARLA, το οποίο αξιοποιεί το Unreal Engine 4 (UE4).

Output from the open source driving simulator CARLA. Source: https://arxiv.org/pdf/1711.03938.pdf

Έξοδος από το ανοιχτό σιμυλατέρ οδήγησης CARLA. Source: https://arxiv.org/pdf/1711.03938.pdf

Η μηχανή σκιών και φωτισμού του UE4 παρείχε το σεμαντικό σχήμα και τις μερικά αποδομένες εικόνες, με μόνο οχήματα και οδικές σήμανσεις εξόδου. Η αναμεμεινόμενη έξοδος επιτεύχθηκε με μια GP-GAN παρουσίαση, εκπαιδευμένη στο Transient Attributes Database, και όλες οι πειραματικές διαδικασίες εκτελέστηκαν σε einen NVIDIA RTX 2080 με 8 GB GDDR6 VRAM.

Οι ερευνητές έκαναν δοκιμές για σεμαντική διατήρηση – την ικανότητα της εξόδου εικόνας να αντιστοιχεί στο αρχικό σεμαντικό σχήμα μάσκας που προοριζόταν ως πρότυπο για τη σκηνή.

Στις δοκιμαστικές εικόνες παραπάνω, βλέπουμε ότι στην ‘αποδομένη μόνο’ εικόνα (κάτω αριστερά), η πλήρης απόδοση δεν αποκτά πιθανές σκιές. Οι ερευνητές σημειώνουν ότι εδώ (κίτρινος κύκλος) οι σκιές των δέντρων που πέφτουν στο πεζοδρόμιο κατατάσσονται λανθασμένα από το DeepLabV3 (το σεμαντικό σχήμα που χρησιμοποιήθηκε για αυτές τις πειραματικές διαδικασίες) ως ‘οδικό’ περιεχόμενο.

Στη μεσαία στήλη-ροή, βλέπουμε ότι cGAN-δημιουργημένα οχήματα δεν έχουν επαρκή συνεπαγωγή για να είναι χρήσιμα σε einen σιμυλατέρ οδήγησης (κόκκινος κύκλος). Στη δεξιά στήλη-ροή, η αναμεμεινόμενη εικόνα αντιστοιχεί στο αρχικό σεμαντικό σχήμα, ενώ διατηρεί τα απαραίτητα CGI-βασισμένα στοιχεία.

Για να αξιολογήσουν τον φωτορεαλισμό, οι ερευνητές χρησιμοποίησαν Frechet Inception Distance (FID) ως μετρική απόδοσης,既然 μπορεί να λειτουργήσει σε ζευγαρωμένα δεδομένα ή μη ζευγαρωμένα δεδομένα.

Τρία σύνολα δεδομένων χρησιμοποιήθηκαν ως πραγματική αλήθεια: Cityscapes, KITTI, και ADE20K.

Οι εξόδου εικόνες συγκρίθηκαν μεταξύ τους χρησιμοποιώντας FID σκορ, και σε σχέση με τη φυσική-βασισμένη (δηλαδή, CGI) διαδικασία, ενώ η σεμαντική διατήρηση αξιολογήθηκε επίσης.

Στα αποτελέσματα παραπάνω, τα οποία σχετίζονται με τη σεμαντική διατήρηση, υψηλότερες βαθμολογίες είναι καλύτερες, με την προσέγγιση πυραμίδας cGAN (μία από τις πολλές διαδικασίες που δοκιμάστηκαν από τους ερευνητές) να βαθμολογείται υψηλότερα.

Τα αποτελέσματα που απεικονίζονται παραπάνω σχετίζονται με τα FID σκορ, με την HGNG να βαθμολογείται υψηλότερα μέσω της χρήσης του συνόλου δεδομένων KITTI.

Η μέθοδος ‘Αποδομένη μόνο’ (σημειωμένη ως [23]) αναφέρεται στην έξοδο από το CARLA, μια CGI-ροή που δεν αναμένεται να είναι φωτορεαλιστική.

Ποιοτικά αποτελέσματα στην συμβατική μηχανή απόδοσης (‘c’ στην εικόνα παραπάνω) εμφανίζουν μη πραγματιστικές απομακρυσμένες πληροφορίες φόντου, όπως δέντρα και βλάστηση, ενώ απαιτούν λεπτομερή μοντέλα και φόρτωση πλέγματος σε πραγματικό χρόνο, καθώς και άλλες διαδικασίες που απαιτούν πολλές υπολογιστικές διαδικασίες. Στο μέσο (b), βλέπουμε ότι cGAN δεν μπορεί να αποκτήσει επαρκή ορισμό για τα απαραίτητα στοιχεία, τα οχήματα και τις οδικές σήμανσεις. Στην προτεινόμενη αναμεμεινόμενη έξοδο (a), ο ορισμός του οχήματος και των οδικών σημάνσεων είναι καλός, ενώ το περιβάλλον είναι ποικίλο και φωτορεαλιστικό.

Το έγγραφο ολοκληρώνεται με την πρόταση ότι η χρονική συνεπαγωγή του GAN-γεννημένου τμήματος της διαδικασίας απόδοσης θα μπορούσε να αυξηθεί μέσω της χρήσης μεγαλύτερων αστικών συνόλων δεδομένων, και ότι μελλοντική εργασία σε αυτή τη κατεύθυνση θα μπορούσε να προσφέρει μια πραγματική εναλλακτική λύση στις δαπανηρές νευρωνικές μετατροπές των CGI-βασισμένων ροών, ενώ θα παρέχει μεγαλύτερο φωτορεαλισμό και ποικιλία.

* Η μετατροπή μου των εσωτερικών αναφορών των συγγραφέων σε υπερσυνδέσμους.

Πρώτη δημοσίευση 23ης Ιουλίου 2022.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]