Τεχνητή νοημοσύνη

Το Ανεπίσημο Πλεονέκτημα του Χαρτογράφησης του Latent Space ενός GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Ενώ προσπαθούσαν να βελτιώσουν την ποιότητα και την πιστότητα των εικόνων που παράγονται από την τεχνητή νοημοσύνη, μια ομάδα ερευνητών από την Κίνα και την Αυστραλία ανακάλυψαν κατά λάθος μια μέθοδο για την διαδραστική έλεγχο του latent space ενός Generative Adversarial Network (GAN) – το μυστηριώδες υπολογιστικό πλέγμα πίσω από την νέα κυμαία των τεχνικών σύνθεσης εικόνων που πρόκειται να επαναφέρουν τις ταινίες, τα βιντεοπαιχνίδια και τα κοινωνικά μέσα, καθώς και πολλούς άλλους τομείς του ψυχαγωγικού και ερευνητικού τομέα.

Η ανακάλυψή τους, ένα παραπροϊόν του κεντρικού στόχου του έργου, επιτρέπει σε einen χρήστη να εξερευνήσει διαδραστικά το latent space ενός GAN με το ποντίκι, σαν να περνάει μέσα από ένα βίντεο ή να γυρίζει τις σελίδες ενός βιβλίου.

Ένα απόσπασμα από το συνοδευτικό βίντεο των ερευνητών (δείτε το embed στο τέλος του άρθρου). Σημειώστε ότι ο χρήστης χειρίζεται τις μεταμορφώσεις με ένα 'grab' cursor (πάνω αριστερά).

Ένα απόσπασμα από το συνοδευτικό βίντεο των ερευνητών (δείτε το embed στο τέλος του άρθρου για πολλά περισσότερα παραδείγματα). Source: https://www.youtube.com/watch?v=k7sG4XY5rIc

Η μέθοδος χρησιμοποιεί ‘θερμικές χάρτες’ για να υποδείξει ποιες περιοχές μιας εικόνας πρέπει να βελτιωθούν καθώς το GAN τρέχει μέσα από το ίδιο σύνολο δεδομένων χιλιάδες (ή εκατοντάδες χιλιάδες) φορές. Οι θερμικοί χάρτες προορίζονται να βελτιώσουν την ποιότητα της εικόνας, λέγοντας στο GAN πού πάει λάθος, ώστε η επόμενη προσπάθεια να είναι καλύτερη· αλλά, τυχαία, αυτό παρέχει επίσης ένα ‘χάρτη’ του ολόκληρου latent space που μπορεί να περιηγηθεί με το ποντίκι.

Χωρική προσοχή που υπογραμμίζεται μέσω GradCAM, η οποία υποδεικνύει τις περιοχές που χρειάζονται προσοχή με την επιβολή φωτεινών χρωμάτων. Αυτά τα δείγματα παράγονται στο έργο των ερευνητών με μια προεπιλογή υλοποίησης του StyleGan2.

Χωρική προσοχή που υπογραμμίζεται μέσω GradCAM, η οποία υποδεικνύει τις περιοχές που χρειάζονται προσοχή με την επιβολή φωτεινών χρωμάτων. Source: https://arxiv.org/pdf/2112.00718.pdf

Το έγγραφο ονομάζεται Βελτίωση της Ισορροπίας του GAN με την Αυξήση της Χωρικής Συμπεριφοράς, και προέρχεται από ερευνητές στο Κινεζικό Πανεπιστήμιο του Χονγκ Κονγκ και το Αυστραλιανό Εθνικό Πανεπιστήμιο. Εκτός από το έγγραφο, βίντεο και άλλο υλικό可以 βρεθεί στη σελίδα του έργου.

Το έργο είναι σε πρώιμο στάδιο και目前 περιορίζεται σε εικόνες χαμηλής ανάλυσης (256×256), αλλά είναι ένα απόδειξη της концепτός που υπόσχεται να ανοίξει την ‘μαύρη κουτί’ του latent space και έρχεται σε μια στιγμή που πολλά ερευνητικά έργα χτυπούν στην πόρτα σε αναζήτηση μεγαλύτερου ελέγχου της σύνθεσης εικόνων.

Αν και τέτοιες εικόνες είναι ελκυστικές (και μπορείτε να δείτε περισσότερες από αυτές, σε καλύτερη ανάλυση, στο βίντεο που είναι ενσωματωμένο στο τέλος του άρθρου), αυτό που είναι ίσως πιο σημαντικό είναι ότι το έργο έχει βρει έναν τρόπο να βελτιώσει την ποιότητα της εικόνας και πιθανώς να το κάνει γρηγορότερα, λέγοντας στο GAN συγκεκριμένα πού πάει λάθος κατά τη διάρκεια της εκπαίδευσης.

Αλλά, όπως Αντιπαλότητα υποδηλώνει, ένα GAN δεν είναι ένα ενιαίο ον, αλλά αντίθετα μια ανισόπαλη σύγκρουση μεταξύ εξουσίας και δουλειάς. Για να κατανοήσουμε ποια βελτιώσεις έχουν κάνει οι ερευνητές σε αυτόν τον τομέα, ας δούμε πώς έχει χαρακτηριστεί αυτός ο πόλεμος μέχρι τώρα.

Η Θλιβερή Θέση του Generator

Εάν έχετε कभčně στοίχειωθεί από τη σκέψη ότι κάποιο νέο αντικείμενο που αγοράσατε παράχθηκε σε ένα sweatshop σε μια εκμεταλλευμένη χώρα, ή είχε einen εργοδότη ή πελάτη που σας έλεγε να ‘Το κάνετε ξανά!’ χωρίς ποτέ να σας λέει τι ήταν λάθος με την τελευταία σας προσπάθεια, σπαταλήστε μια στάλα συμπάθειας για το Generator μέρος ενός Generative Adversarial Network.

Ο Generator είναι ο αχθοφόρος που σας έχει ευχαριστήσει τα τελευταία πέντε χρόνια ή περίπου βοηθώντας τα GAN να δημιουργούν φωτορεαλιστικές προσωπικότητες που δεν υπάρχουν, να αναβαθμίζουν παλιά βιντεοπαιχνίδια σε ανάλυση 4k, και να μετατρέπουν εκατονταετή βίντεο σε πλήρη χρώμα HD εξόδου σε 60fps, μεταξύ άλλων θαυμάσιων καινοτομιών της τεχνητής νοημοσύνης.

Από τη δημιουργία φωτορεαλιστικών προσώπων μη υπαρκτών ανθρώπων έως την αποκατάσταση παλαιών βίντεο και την αναζωογόνηση αρχαίων βιντεοπαιχνιδιών, το GAN έχει BEEN πολύ απασχολημένο τα τελευταία χρόνια.

Ο Generator τρέχει μέσα από όλα τα δεδομένα εκπαίδευσης ξανά και ξανά (όπως εικόνες προσώπων, για να δημιουργήσει ένα GAN που μπορεί να δημιουργήσει φωτογραφίες τυχαίων, μη υπαρκτών ανθρώπων), μια φωτογραφία κάθε φορά, για ημέρες ή ακόμη και εβδομάδες, μέχρι να είναι σε θέση να δημιουργήσει εικόνες που είναι τόσο πειστικές όσο και οι γνήσιες φωτογραφίες που μελέτησε.

Πώς γνωρίζει ο Generator ότι κάνει κάποια πρόοδο, κάθε φορά που προσπαθεί να δημιουργήσει μια εικόνα που είναι καλύτερη από την προηγούμενη προσπάθεια;

Ο Generator έχει einen εργοδότη από την κόλαση.

Η Αμείλικτη Αδιαφάνεια του Discriminator

Η δουλειά του Discriminator είναι να πει στο Generator ότι δεν έκανε αρκετά καλά στη δημιουργία μιας εικόνας που είναι αυθεντική για τα αρχικά δεδομένα, και να Το κάνει ξανά. Ο Discriminator δεν λέει στο Generator τι ήταν λάθος με την τελευταία προσπάθεια του Generator· απλώς παίρνει μια ιδιωτική ματιά σε αυτό, συγκρίνει την παραγμένη εικόνα με τις πηγαίες εικόνες (ξανά, ιδιωτικά), και αναθέτει στην εικόνα ένα σκορ.

Το σκορ ποτέ δεν είναι αρκετά καλό. Ο Discriminator δεν θα σταματήσει να λέει ‘Το κάνε ξανά’ μέχρι οι ερευνητές να το σβήσουν (όταν κρίνουν ότι η πρόσθετη εκπαίδευση δεν θα βελτιώσει την έξοδο περαιτέρω).

Σε αυτόν τον τρόπο, απουσία οποιασδήποτε κατασκευαστικής κριτικής, και οπλισμένος μόνο με ένα σκορ του οποίου το μέτρο είναι ένα μυστήριο, ο Generator πρέπει να μαντέψει τυχαία ποια μέρη ή πτυχές της εικόνας προκάλεσαν ένα υψηλότερο σκορ από πριν. Αυτό θα τον οδηγήσει σε πολλές ακόμη μη ικανοποιητικές οδούς πριν αλλάξει κάτι θετικά enough να πάρει ένα υψηλότερο σκορ.

Ο Discriminator ως Δάσκαλος και Μέντορ

Η καινοτομία που παρέχεται από την nuova έρευνα είναι ουσιαστικά ότι ο Discriminator τώρα υποδεικνύει στο Generator ποια μέρη της εικόνας ήταν μη ικανοποιητικά, ώστε ο Generator να μπορεί να εστιάσει σε αυτές τις περιοχές στην επόμενη επανάληψη, και όχι να απορρίψει τα τμήματα που είχαν βαθμολογηθεί υψηλότερα. Η φύση της σχέσης έχει μετατραπεί από εχθρική σε συνεργατική.

Για να θεραπεύσει την ανισότητα της έρευνας μεταξύ του Discriminator και του Generator, οι ερευνητές χρησιμοποίησαν GradCAM ως einen μηχανισμό ικανό να διαμορφώσει τις γνώσεις του Discriminator σε einen οπτικό βοήθημα για την επόμενη προσπάθεια του Generator.

Η νέα ‘ισορροπία’ μέθοδος εκπαίδευσης ονομάζεται EqGAN. Για μέγιστη αναπαραγωγιμότητα, οι ερευνητές ενσωμάτωσαν υπάρχουσες τεχνικές και μεθόδους σε προεπιλογή ρυθμίσεων, συμπεριλαμβανομένης της χρήσης της StyleGan2 αρχιτεκτονικής.

Η αρχιτεκτονική του EqGAN. Η χωρική κωδικοποίηση του Generator είναι ευθυγραμμισμένη με την χωρική συνείδηση του Discriminator, με τυχαία δείγματα χωρικών θερμικών χαρτών (δείτε την προηγούμενη εικόνα) που κωδικοποιούνται ξανά στον generator μέσω του χωρικού κωδικοποιητή (SEL). Το GradCAM είναι ο μηχανισμός με τον οποίο οι χάρτες προσοχής του Discriminator είναι διαθέσιμοι στον generator.

Το GradCAM παράγει θερμούς χάρτες (δείτε τις προηγούμενες εικόνες) που αντανακλούν την κριτική του Discriminator για την τελευταία επανάληψη, και τα κάνει διαθέσιμα στον Generator.

Όταν το μοντέλο έχει εκπαιδευτεί, η χαρτογράφηση παραμένει ως ένα αποτέλεσμα αυτής της συνεργατικής διαδικασίας, αλλά μπορεί επίσης να χρησιμοποιηθεί για να εξερευνήσει το τελικό latent κώδικα με τον διαδραστικό τρόπο που παρουσιάζεται στο βίντεο των ερευνητών (δείτε παρακάτω).

EqGAN

Το έργο χρησιμοποίησε một aantal δημοφιλείς συνόλους δεδομένων, συμπεριλαμβανομένων των LSUN Cat και Churches datasets, καθώς και του FFHQ dataset. Το βίντεο που ακολουθεί επίσης παρουσιάζει παραδείγματα χειρισμού προσώπων και γατών χρησιμοποιώντας EqGAN.

Όλες οι εικόνες είχαν αναλυθεί σε 256×256 πριν από την εκπαίδευση του EqGAN στη επίσημη υλοποίηση του StyleGAN2. Το μοντέλο εκπαιδεύτηκε σε μια παρτίδα μεγέθους 64 σε 8 GPUs μέχρι ο Discriminator να έχει εκτεθεί σε πάνω από 25 εκατομμύρια εικόνες.

Δοκιμάζοντας τα αποτελέσματα του συστήματος σε επιλεγμένα δείγματα με Frechet Inception Distance (FID), οι συγγραφείς καθόρισαν einen δείκτη που ονομάζεται Disequilibrium Indicator (DI) – το βαθμό στον οποίο ο Discriminator διατηρεί την γνώση του πλεονέκτημα έναντι του Generator, με τον στόχο να στενεύσει αυτό το χάσμα.

Στα τρία datasets που εκπαιδεύτηκαν, η νέα μετρική έδειξε μια χρήσιμη πτώση μετά την κωδικοποίηση της χωρικής συνείδησης στον Generator, με βελτιωμένη ισορροπία που αποδεικνύεται και από FID και DI.

Οι ερευνητές καταλήγουν:

‘Ελπίζουμε ότι αυτό το έργο μπορεί να εμπνεύσει περισσότερα έργα για την επανεξέταση της ισορροπίας του GAN και να αναπτύξει νέες μεθόδους για την βελτίωση της ποιότητας της σύνθεσης εικόνων μέσω της χειραγώγησης της ισορροπίας του GAN. Θα διεξάγουμε επίσης περισσότερες θεωρητικές έρευνες σε αυτό το ζήτημα στο μελλοντικό έργο.’

Και συνεχίζουν:

‘Ποιοτικά αποτελέσματα δείχνουν ότι η μέθοδός μας επιτυγχάνει με επιτυχία [την εστίαση του Generator] σε συγκεκριμένες περιοχές. Πειράματα σε διάφορα datasets επικυρώνουν ότι η μέθοδός μας μετριάζει την ανισορροπία στη εκπαίδευση του GAN και βελτιώνει σημαντικά την ποιότητα της σύνθεσης εικόνων. Το αποτέλεσμα μοντέλο με χωρική συνείδηση επίσης επιτρέπει την διαδραστική χειραγώγηση της εξόδου εικόνας.’

Δείτε το βίντεο παρακάτω για περισσότερες λεπτομέρειες σχετικά με το έργο και περισσότερα παραδείγματα δυναμικής και διαδραστικής εξερεύνησης του latent space σε ένα GAN.

11:12am 4th Dec 2021 – Διορθώθηκε το URL για το GradCAM και καθαρίστηκε η γύρω αναφορά.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]