Τεχνητή νοημοσύνη
Επεξεργασία του Latent Space ενός GAN με ‘Blobs’

Νέα έρευνα από το UC Berkeley και την Adobe προσφέρει έναν τρόπο για να επεξεργαστείς trực tiếp το υπερπραγματικό περιεχόμενο που μπορεί να δημιουργηθεί από ένα Generative Adversarial Network (GAN), αλλά το οποίο συνήθως δεν μπορεί να ελεγχθεί, να animεται ή να χειρίζεται ελεύθερα με έναν τρόπο που είναι οικείος στους χρήστες του Photoshop και τους ειδικούς του CGI.
Ο τίτλος BlobGAN, η μέθοδος涉λαμβάνει τη δημιουργία ενός πλέγματος από ‘blobs’ – μαθηματικές κατασκευές που αντιστοιχούν trực tiếp στο περιεχόμενο του latent space του GAN.
Με την κίνηση των blobs, μπορείς να μετακινήσεις τα ‘αντικείμενα’ σε μια σκηνή αναπαράστασης, με έναν τρόπο που είναι πιο κοντά στις μεθόδους CGI και CAD από πολλές από τις τρέχουσες προσπάθειες για να χαρτογραφηθεί και να ελεγχθεί ο latent space του GAN:

Επεξεργασία σκηνής με BlobGAN: καθώς οι ‘blobs’ μετακινούνται από τον χρήστη, η διάταξη των.latent αντικειμένων και στυλ στο GAN αλλάζει αντίστοιχα. Για περισσότερα παραδείγματα, δείτε το συνοδευτικό βίντεο, ενσωματωμένο στο τέλος του άρθρου, ή στο https://www.youtube.com/watch?v=KpUv82VsU5k
Από τη στιγμή που τα blobs αντιστοιχούν σε ‘αντικείμενα’ στη σκηνή που χαρτογραφείται στο latent space του GAN, όλα τα αντικείμενα είναι disentangled a priori, καθιστώντας δυνατή την αλλαγή τους ατομικά:

Τα αντικείμενα μπορούν να μεταρρυθμιστούν, να συρρικνωθούν, να κλωνοποιηθούν και να αφαιρεθούν, μεταξύ άλλων λειτουργιών.
Όπως και με οποιοδήποτε αντικείμενο σε λογισμικό επεξεργασίας φωτογραφιών (ή ακόμη και επεξεργασίας κειμένου), ένα blob μπορεί να διπλασιαστεί και στη συνέχεια να χειριστεί:

Τα blobs μπορούν να διπλασιαστούν στην διεπαφή, και οι αντίστοιχες.latent αναπαραστάσεις θα ‘κοπεί και θα επικολληθεί’. Πηγή: https://dave.ml/blobgan/#results
Το BlobGAN μπορεί επίσης να αναλύσει νέες, επιλεγμένες εικόνες στο latent space του:

Με το BlobGAN, δεν χρειάζεται να ενσωματώσετε εικόνες που θέλετε να χειριστείτε trực tiếp στα δεδομένα εκπαίδευσης και στη συνέχεια να ψάχνετε τους κωδικούς τους, αλλά μπορείτε να εισαγάγετε επιλεγμένες εικόνες ανά πάσα στιγμή και να τις χειριστείτε. Πηγή: https://dave.ml/blobgan/#results
Μπορείτε να δείτε περισσότερα αποτελέσματα εδώ, και στο συνοδευτικό βίντεο στο YouTube (ενσωματωμένο στο τέλος του άρθρου). Υπάρχει επίσης ένα διαδραστικό Colab demo*, και ένα GitHub repo**.
Αυτού του είδους το εργαλείο και η εμβέλεια μπορεί να φαίνεται ναΐφ στο μετα-Photoshop αιώνα, και τα πακέτα παραμετρικού λογισμικού όπως το Cinema4D και το Blender έχουν επιτρέψει στους χρήστες να δημιουργούν και να προσαρμόζουν 3D κόσμους για δεκαετίες· αλλά αντιπροσωπεύει μια υποσχόμενη προσέγγιση για να εξημερωθούν οι εκκεντρικότητες και η αινιγματική φύση του latent space σε ένα Generative Adversarial Network, με τη χρήση proxy οντοτήτων που αντιστοιχούν σε κωδικούς.
Οι συγγραφείς δηλώνουν:
‘Σε ένα δύσκολο multi-κατηγορία dataset εσωτερικών σκηνών, το BlobGAN υπερβαίνει το Style-GAN2 στη ποιότητα της εικόνας όπως μετράται από το FID.’
Το άρθρο έχει τίτλο BlobGAN: Spatially Disentangled Scene Representations, και γράφτηκε από δύο ερευνητές από το UC Berkeley, μαζί με τρεις από την Adobe Research.
Μεσολαβιστής
Το BlobGAN φέρνει ένα νέο парадίγμα στη σύνθεση εικόνων GAN. Προηγούμενες προσεγγίσεις για την αντιμετώπιση διακριτών οντοτήτων στο latent space, το νέο άρθρο σημειώνει, έχουν είτε ήταν ‘top-down’ ή ‘bottom up’.
Μια top-down μέθοδος σε ένα GAN ή image classifier αντιμετωπίζει εικόνες σκηνών ως κατηγορίες, όπως ‘δωμάτιο’, ‘εκκλησία’, ‘πρόσωπο’, κ.λπ. Αυτού του είδους η σύνδεση κειμένου/εικόνας ενεργοποιεί μια νέα γενιά πολυμεσικών πλαισίων σύνθεσης εικόνων, όπως το πρόσφατο DALL-E 2 από το OpenAI.
Οι bottom-up προσεγγίσεις, αντίθετα, χαρτογραφούν κάθε pixel σε μια εικόνα σε μια κατηγορία, ετικέτα ή κατηγορία. Αυτές οι προσεγγίσεις χρησιμοποιούν διάφορες τεχνικές, αν και η σεμαντική διαίρεση είναι một ποуляр σήμερα έρευνα.
Οι συγγραφείς σχολιάζουν:
‘Και οι δύο οδοί φαίνονται μη ικανοποιητικές επειδή καμία δεν μπορεί να προσφέρει εύκολους τρόπους για να συλλογιστούμε για μέρη της σκηνής ως οντότητες. Τα μέρη της σκηνής είναι είτε ενσωματωμένα σε einen ενιαίο entangled latent vector (top-down), ή πρέπει να ομαδοποιηθούν μαζί από ατομικές pixel ετικέτες (bottom-up).’
Αντίθετα, το BlobGAN προσφέρει einen απροσδιόριστο mid-level representation, ή proxy πλαίσιο για γεννητικά μοντέλα.

Το δίκτυο διάταξης χαρτογραφεί τοπικά (και ελεγχόμενα) ‘blob’ οντότητες σε κωδικούς. Τα χρωματισμένα κύκλοι στο κέντρο αποτελούν einen ‘blob map’. Πηγή: https://arxiv.org/pdf/2205.02837.pdf
Τα Gaussian (δηλαδή θορυβώδη) blobs είναι depth-ordered, και αντιπροσωπεύουν einen βottleneck στην αρχιτεκτονική που αντιστοιχεί einen χαρτογραφία σε κάθε οντότητα, λύνοντας το μεγαλύτερο εμπόδιο που υπάρχει στην επεξεργασία περιεχομένου GAN: disentanglement (αυτό也是 ένα πρόβλημα για autoencoder-βασισμένες αρχιτεκτονικές). Το αποτελέσμα ‘blob map’ χρησιμοποιείται για να χειριστεί το decoder του BlobGAN.
Οι συγγραφείς σημειώνουν με κάποια έκπληξη ότι το σύστημα μαθαίνει να αναλύει σκηνές σε διάταξη και οντότητες μέσω ενός off-the-shelf discriminator που δεν χρησιμοποιεί ρητές ετικέτες.
Αρχιτεκτονική και Δεδομένα
Οι οντότητες στο blob map μετατρέπονται σε εικόνες μέσω ενός αναθεωρημένου StyleGAN2-παράγωγου δίκτυου, σε μια προσέγγιση που παίρνει έμπνευση από προηγούμενη έρευνα της NVIDIA.

Ένα αναθεωρημένο StyleGAN 2 παράγωγο από την NVIDIA Research. Κάποια από τις αρχές σε αυτή την εργασία υιοθετήθηκαν ή προσαρμόστηκαν για το BlobGAN. Πηγή: https://arxiv.org/pdf/1912.04958.pdf
Το StyleGAN 2 τροποποιείται στο BlobGAN για να接受ει εισαγωγή από το blob map αντί για einen seul global vector, όπως είναι συνήθως η περίπτωση.

Μια σειρά από χειρισμούς που είναι δυνατοί με το BlobGAN, συμπεριλαμβανομένης της ‘αυτοσυμπλήρωσης’ μιας σκηνής δωματίου, και της αλλαγής μεγέθους και της επανατοποθέτησης των στοιχείων στο δωμάτιο. Στην σειρά κάτω, βλέπουμε την εργαλειοθήκη που είναι διαθέσιμη στον χρήστη και που επιτρέπει αυτό – το blob map.
Με ανάλογο τρόπο, αντί να φέρουμε ένα τεράστιο και σύνθετο κτίριο (τον latent space) σε ύπαρξη όλα μαζί, και στη συνέχεια να πρέπει να εξερευνήσουμε τους ατελείωτους δρόμους του, το BlobGAN στέλνει τα συστατικά μπλοκ από την αρχή, και πάντα ξέρει πού είναι. Αυτή η disentanglement του περιεχομένου και της τοποθεσίας είναι η κύρια καινοτομία της εργασίας.
* Δεν είναι λειτουργικό την ώρα της γραφής
** Ο κώδικας δεν έχει δημοσιευθεί ακόμη την ώρα της γραφής
Πρώτη δημοσίευση 8ης Μαΐου 2022.












