στέλεχος Προβολή της Κλιματικής Αλλαγής σε φωτογραφίες με τα Generative Adversarial Networks - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Προβολή της αλλαγής του κλίματος σε φωτογραφίες με τα δίκτυα αντιπάλου που δημιουργούνται

mm
Ενημερώθηκε on

Μια ομάδα ερευνητών από τον Καναδά και τις ΗΠΑ ανέπτυξε μια μέθοδο μηχανικής μάθησης για να επικαλύψει τις καταστροφικές επιπτώσεις της κλιματικής αλλαγής σε πραγματικές φωτογραφίες χρησιμοποιώντας Generative Adversarial Networks (GANs), με στόχο τη μείωση της «αποστασιοποίησης» αδυναμία σχέσης σε υποθετικά ή αφηρημένα σενάρια σχετικά με την κλιματική αλλαγή.

Το ClimateGAN υπολογίζει τη γεωμετρία από έναν υπολογισμένο χάρτη βάθους πριν προσθέσει ανακλαστικότητα σε μια υπερτιθέμενη επιφάνεια νερού. Πηγή: https://arxiv.org/pdf/2110.02871.pdf

Το ClimateGAN υπολογίζει τη γεωμετρία από έναν υπολογισμένο χάρτη βάθους πριν προσθέσει ανακλαστικότητα σε μια υπερτιθέμενη επιφάνεια νερού. Πηγή: https://arxiv.org/pdf/2110.02871.pdf

Η σχέδιο, Με τίτλο ClimateGAN, αποτελεί μέρος μιας ευρύτερης ερευνητικής προσπάθειας για την ανάπτυξη διαδραστικών περιβαλλόντων όπου οι χρήστες μπορούν να εξερευνήσουν προβαλλόμενους κόσμους που έχουν επηρεαστεί από πλημμύρες, υπερβολική ζέστη και άλλες σοβαρές συνέπειες της κλιματικής αλλαγής.

Συζητώντας το κίνητρο πίσω από την πρωτοβουλία, οι ερευνητές αναφέρουν:

«Η κλιματική αλλαγή αποτελεί μείζονα απειλή για την ανθρωπότητα και οι ενέργειες που απαιτούνται για την πρόληψη των καταστροφικών συνεπειών της περιλαμβάνουν αλλαγές τόσο στη χάραξη πολιτικής όσο και στην ατομική συμπεριφορά. Ωστόσο, η ανάληψη δράσης απαιτεί την κατανόηση των επιπτώσεων της κλιματικής αλλαγής, παρόλο που μπορεί να φαίνονται αφηρημένες και απόμακρες.

«Η προβολή των πιθανών συνεπειών ακραίων κλιματικών γεγονότων, όπως οι πλημμύρες σε οικεία μέρη, μπορεί να βοηθήσει να γίνουν πιο συγκεκριμένες οι αφηρημένες επιπτώσεις της κλιματικής αλλαγής και να ενθαρρύνει τη δράση».

Βασικός στόχος της πρωτοβουλίας είναι να ενεργοποιήσει ένα σύστημα όπου ένας χρήστης μπορεί να εισαγάγει τη διεύθυνσή του (ή οποιαδήποτε διεύθυνση) και να δει μια εκδοχή της αντίστοιχης εικόνας που επηρεάζεται από την κλιματική αλλαγή από το Google Street View. Ωστόσο, οι αλγόριθμοι μετασχηματισμού πίσω από το ClimateGAN απαιτούν κάποια εκτιμώμενη γνώση του ύψους για τα στοιχεία της φωτογραφίας, τα οποία δεν περιλαμβάνονται στα μεταδεδομένα που παρέχει η Google για το Street View, και έτσι η απόκτηση μιας τέτοιας εκτίμησης αλγοριθμικά παραμένει μια διαρκής πρόκληση.

Δεδομένα και Αρχιτεκτονική

Το ClimateGAN χρησιμοποιεί έναν αγωγό μετάφρασης εικόνας σε εικόνα χωρίς επίβλεψη με δύο φάσεις: ένα στρώμα Masker, το οποίο υπολογίζει πού θα υπήρχε θεωρητικά μια επίπεδη επιφάνεια νερού στην εικόνα στόχο. και μια ενότητα Painter για να αποδίδει ρεαλιστικά το νερό εντός των ορίων της καθιερωμένης μάσκας και λαμβάνει υπόψη την ανακλαστικότητα της υπόλοιπης μη ασαφούς γεωμετρίας πάνω από την ίσαλο γραμμή.

Η αρχιτεκτονική για το ClimateGAN. Η είσοδος προχωρά μέσω ενός κοινόχρηστου κωδικοποιητή σε μια διαδικασία κάλυψης τριών σταδίων πριν μεταβιβαστεί στη μονάδα Painter. Τα δύο δίκτυα εκπαιδεύονται ανεξάρτητα και λειτουργούν μόνο σε συνδυασμό κατά τη δημιουργία νέων εικόνων.

Η αρχιτεκτονική για το ClimateGAN. Η είσοδος προχωρά μέσω ενός κοινόχρηστου κωδικοποιητή σε μια διαδικασία κάλυψης τριών σταδίων πριν μεταβιβαστεί στη μονάδα Painter. Τα δύο δίκτυα εκπαιδεύονται ανεξάρτητα και λειτουργούν μόνο σε συνδυασμό κατά τη δημιουργία νέων εικόνων.

Τα περισσότερα από τα δεδομένα εκπαίδευσης επιλέχθηκαν από το CityScapes και Μύτιλος σύνολα δεδομένων. Ωστόσο, δεδομένου ότι τα υπάρχοντα δεδομένα για εικόνες πλημμύρας είναι σχετικά σπάνια, οι ερευνητές συνδύασαν τα υπάρχοντα διαθέσιμα σύνολα δεδομένων με έναν νέο «εικονικό κόσμο» που αναπτύχθηκε με τη μηχανή παιχνιδιών Unity3D.

Σκηνές από το εικονικό περιβάλλον Unity3D.

Σκηνές από το εικονικό περιβάλλον Unity3D.

Ο κόσμος Unity3D περιέχει περίπου 1.5 χιλιόμετρο εδάφους και περιλαμβάνει αστικές, προαστιακές και αγροτικές περιοχές, τις οποίες «πλημμύρισαν» οι ερευνητές. Αυτό επέτρεψε τη δημιουργία εικόνων «πριν» και «μετά» για πρόσθετη βασική αλήθεια για το πλαίσιο ClimateGAN.

Η μονάδα Masker προσαρμόζει το 2018 ΕΛΕΥΣΗ κώδικα για εκπαίδευση, προσθέτοντας πρόσθετα δεδομένα σύμφωνα με τα ευρήματα του 2019 από τη γαλλική ερευνητική πρωτοβουλία DADA. Οι ερευνητές πρόσθεσαν επίσης έναν αποκωδικοποιητή τμηματοποίησης για να τροφοδοτήσει τη μονάδα Masker πρόσθετες πληροφορίες σχετικά με τη σημασιολογία της εικόνας εισόδου (δηλ. πληροφορίες με ετικέτα που υποδηλώνουν έναν τομέα, όπως «κτίριο»).

Ο αποκωδικοποιητής μάσκας Flood υπολογίζει μια εφικτή ίσαλο γραμμή και τροφοδοτείται από το εξαιρετικά δημοφιλές της NVIDIA ΦΤΥΑΡΙ πλαίσιο ζωγραφικής.

Μαζί με τη σημασιολογική τμηματοποίηση (τρίτη στήλη), οι πληροφορίες χάρτη βάθους επιτρέπουν την οριοθέτηση της γεωμετρίας σε μια φωτογραφία, παρέχοντας μια κατευθυντήρια γραμμή για τα περιθώρια του «νερού πλημμύρας». Αυτό μπορεί να συναχθεί μέσω διαδικασιών μηχανικής μάθησης, αν και τέτοιες πληροφορίες περιλαμβάνονται όλο και περισσότερο στους αισθητήρες κινητών συσκευών σε επίπεδο καταναλωτή. Στη χαμηλότερη σειρά, βλέπουμε ότι η αρχιτεκτονική ClimateGAN έχει αποδώσει με επιτυχία μια «πλημμυρισμένη» έκδοση της αρχικής φωτογραφίας, παρόλο που τα ενδιάμεσα στάδια απέτυχαν να αποτυπώσουν με ακρίβεια τη γεωμετρία μιας περίπλοκης σκηνής.

Κάντε κλικ για μεγέθυνση. Μαζί με τη σημασιολογική τμηματοποίηση (τρίτη στήλη), οι πληροφορίες χάρτη βάθους επιτρέπουν την οριοθέτηση της γεωμετρίας σε μια φωτογραφία, παρέχοντας μια κατευθυντήρια γραμμή για τα περιθώρια του «νερού πλημμύρας». Αυτό μπορεί να συναχθεί μέσω διαδικασιών μηχανικής μάθησης, αν και τέτοιες πληροφορίες περιλαμβάνονται όλο και περισσότερο στους αισθητήρες κινητών συσκευών σε επίπεδο καταναλωτή. Στη χαμηλότερη σειρά, βλέπουμε ότι η αρχιτεκτονική ClimateGAN έχει αποδώσει με επιτυχία μια «πλημμυρισμένη» έκδοση της αρχικής φωτογραφίας, παρόλο που τα ενδιάμεσα στάδια απέτυχαν να αποτυπώσουν με ακρίβεια τη γεωμετρία μιας περίπλοκης σκηνής.

Αν και οι ερευνητές χρησιμοποίησαν NVIDIA GauGAN, που υποστηρίζεται από το SPADE, για τη μονάδα Painter, ήταν απαραίτητο να ρυθμιστεί το GauGAN στην έξοδο του Masker και όχι σε έναν γενικευμένο σημασιολογικό χάρτη τμηματοποίησης, όπως συμβαίνει στην κανονική χρήση, καθώς οι εικόνες έπρεπε να μετασχηματιστούν σύμφωνα με την ίσαλο γραμμή οριοθετήσεις, αντί να υπόκεινται σε ευρείς, γενικούς μετασχηματισμούς.

Αξιολόγηση Ποιότητας

Οι μετρήσεις για την αξιολόγηση της ποιότητας των εικόνων που προέκυψαν διευκολύνθηκαν με την επισήμανση ενός δοκιμαστικού συνόλου 180 εικόνων Google Street View διαφόρων τύπων, συμπεριλαμβανομένων αστικών σκηνών και περισσότερων αγροτικών εικόνων από διάφορες γεωγραφικές τοποθεσίες. Οι εικόνες επισημάνθηκαν χειροκίνητα ως δεν μπορεί να πλημμυρίσει, πρέπει να πλημμυρίσει, να μπορεί να πλημμυρίσει.

Αυτό επέτρεψε τη διατύπωση τριών μετρήσεων: ποσοστό σφάλματος (αντιληπτές περιοχές πρόβλεψης κατά μέγεθος στη μετασχηματισμένη εικόνα), F05 Σκορ, να συνοχή άκρων. Για σύγκριση, οι ερευνητές εξέτασαν τα δεδομένα σε προηγούμενα μοντέλα μετάφρασης εικόνας σε εικόνα (IIT), συμπεριλαμβανομένων InstaGAN, CycleGAN, να MUNIT.

Σε δοκιμές χρηστών, το ClimateGAN βρέθηκε να επιτυγχάνει υψηλότερο βαθμό ρεαλισμού από πέντε ανταγωνιστικές αρχιτεκτονικές IIT. Το μπλε αντιπροσωπεύει το βαθμό στον οποίο οι χρήστες προτίμησαν το ClimateGAN από την εναλλακτική μέθοδο που μελετήθηκε.

Σε δοκιμές χρηστών, το ClimateGAN βρέθηκε να επιτυγχάνει υψηλότερο βαθμό ρεαλισμού από πέντε ανταγωνιστικές αρχιτεκτονικές IIT. Το μπλε αντιπροσωπεύει το βαθμό στον οποίο οι χρήστες προτίμησαν το ClimateGAN από την εναλλακτική μέθοδο που μελετήθηκε.

Οι ερευνητές παραδέχονται ότι η έλλειψη δεδομένων ύψους στις εικόνες πηγής καθιστά δύσκολη την αυθαίρετη επιβολή υψών ίσαλου γραμμής στις εικόνες, εάν ο χρήστης θέλει να καλέσει λίγο τον «παράγοντα Roland Emmerich». Παραδέχονται επίσης ότι οι επιπτώσεις της πλημμύρας περιορίζονται υπερβολικά στην περιοχή της πλημμύρας και σκοπεύουν να διερευνήσουν μεθόδους με τις οποίες θα μπορούσαν να προστεθούν στη μεθοδολογία πολλαπλά επίπεδα πλημμύρας (δηλαδή μετά την ύφεση ενός αρχικού κατακλυσμού).

Ο κωδικός του ClimateGAN ήταν διατίθεται στο GitHub, μαζί με πρόσθετα παραδείγματα αποδομένων εικόνων.

Σε ένα άλλο παράδειγμα, από την παρουσία του GitHub για το έργο, η αιθαλομίχλη προστίθεται σε μια εικόνα πόλης με τρόπο που θα είναι οικείος στους περισσότερους επαγγελματίες VFX – ο χάρτης βάθους χρησιμοποιείται ως ένα είδος υποχωρούμενης «άσπρης μάσκας», έτσι ώστε η πυκνότητα της αιθαλομίχλης/ομίχλης αυξάνεται σε όλη την απόσταση που καλύπτεται στη φωτογραφία. Πηγή: https://github.com/cc-ai/climategan

Σε ένα άλλο παράδειγμα, από την παρουσία του GitHub για το έργο, η αιθαλομίχλη προστίθεται σε μια εικόνα πόλης με τρόπο που θα είναι οικείος στους περισσότερους επαγγελματίες VFX – ο χάρτης βάθους χρησιμοποιείται ως ένα είδος υποχωρούμενης «άσπρης μάσκας», έτσι ώστε η πυκνότητα της αιθαλομίχλης/ομίχλης αυξάνεται σε όλη την απόσταση που καλύπτεται στη φωτογραφία. Πηγή: https://github.com/cc-ai/climategan