Τεχνητή νοημοσύνη
Η Adobe Research επεκτείνει την επεξεργασία προσώπου Disentangled GAN
Δεν είναι δύσκολο να καταλάβεις γιατί μπλέξιμο είναι ένα πρόβλημα στη σύνθεση εικόνας, επειδή είναι συχνά ένα πρόβλημα σε άλλους τομείς της ζωής. Για παράδειγμα, είναι πολύ πιο δύσκολο να αφαιρέσετε τον κουρκουμά από ένα κάρυ από το να πετάξετε το τουρσί σε ένα μπιφτέκι και είναι πρακτικά αδύνατο να απογλυκαίνετε ένα φλιτζάνι καφέ. Μερικά πράγματα απλά έρχονται σε πακέτο.
Ομοίως, η εμπλοκή είναι ένα εμπόδιο για αρχιτεκτονικές σύνθεσης εικόνας που θα ήθελαν ιδανικά να διαχωρίσουν διαφορετικά χαρακτηριστικά και έννοιες όταν χρησιμοποιούν μηχανική εκμάθηση για τη δημιουργία ή την επεξεργασία προσώπων (ή σκύλους, σκάφη, ή οποιονδήποτε άλλο τομέα).
Αν μπορούσατε να ξεχωρίσετε σκέλη όπως π.χ την ηλικία του, των δύο φύλων, το χρώμα των μαλλιών, απόχρωση δέρματος, συγκίνηση, και ούτω καθεξής, θα είχατε τις απαρχές της πραγματικής εργαλειομηχανής και της ευελιξίας σε ένα πλαίσιο που θα μπορούσε να δημιουργεί και να επεξεργάζεται εικόνες προσώπων σε ένα πραγματικά λεπτομερές επίπεδο, χωρίς να σέρνει ανεπιθύμητους «επιβάτες» σε αυτές τις μετατροπές.
Στη μέγιστη εμπλοκή (πάνω αριστερά), το μόνο που μπορείτε να κάνετε είναι να αλλάξετε την εικόνα ενός μαθημένου δικτύου GAN στην εικόνα ενός άλλου ατόμου.
Αυτό χρησιμοποιεί αποτελεσματικά την πιο πρόσφατη τεχνολογία όρασης υπολογιστή AI για να επιτύχει κάτι που επιλύθηκε με άλλα μέσα πριν από τριάντα και πλέον χρόνια.
Με κάποιο βαθμό διαχωρισμού («Μεσαίος διαχωρισμός» στην προηγούμενη παραπάνω εικόνα), είναι δυνατό να πραγματοποιηθούν αλλαγές με βάση το στυλ, όπως το χρώμα των μαλλιών, η έκφραση, η καλλυντική εφαρμογή και η περιορισμένη περιστροφή της κεφαλής, μεταξύ άλλων.
Τα τελευταία δύο χρόνια έχουν γίνει πολλές προσπάθειες για τη δημιουργία διαδραστικών περιβαλλόντων επεξεργασίας προσώπου που επιτρέπουν στον χρήστη να αλλάζει χαρακτηριστικά προσώπου με ρυθμιστικά και άλλες παραδοσιακές αλληλεπιδράσεις διεπαφής χρήστη, διατηρώντας παράλληλα ανέπαφα τα βασικά χαρακτηριστικά του προσώπου-στόχου όταν κάνει προσθήκες ή αλλαγές. Ωστόσο, αυτό έχει αποδειχθεί πρόκληση λόγω της εμπλοκής του υποκείμενου χαρακτηριστικού/στυλ στον λανθάνοντα χώρο του GAN.
Για παράδειγμα, η γυαλιά το χαρακτηριστικό συχνά μπλέκεται με το ηλικίας χαρακτηριστικό, που σημαίνει ότι η προσθήκη γυαλιών μπορεί επίσης να «γερνάει» το πρόσωπο, ενώ η γήρανση του προσώπου μπορεί να προσθέσει γυαλιά, ανάλογα με τον βαθμό εφαρμοζόμενου διαχωρισμού των χαρακτηριστικών υψηλού επιπέδου (δείτε «Δοκιμή» παρακάτω για παραδείγματα).
Το πιο αξιοσημείωτο είναι ότι ήταν σχεδόν αδύνατο να αλλάξει το χρώμα των μαλλιών και άλλες όψεις των μαλλιών χωρίς να υπολογιστούν εκ νέου οι τρίχες και η διάθεση, γεγονός που δίνει ένα «τσιρίζοντας», μεταβατικό αποτέλεσμα.
Latent-to-Latent GAN Traversal
Ένα νέο χαρτί με τεχνολογία Adobe εισήχθη για το WACV 2022 προσφέρει μια νέα προσέγγιση σε αυτά τα υποκείμενα ζητήματα σε α χαρτί με τίτλο Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attribute in StyleGAN-generated Images.
Επικεφαλής της εργασίας είναι ο Εφαρμοσμένος Επιστήμονας της Adobe Siavash Khodadadeh, μαζί με τέσσερις άλλους ερευνητές της Adobe, και έναν ερευνητή από το Τμήμα Επιστήμης Υπολογιστών στο Πανεπιστήμιο της Κεντρικής Φλόριντα.
Το κομμάτι είναι ενδιαφέρον εν μέρει επειδή η Adobe δραστηριοποιείται σε αυτόν τον χώρο εδώ και αρκετό καιρό και είναι δελεαστικό να φανταστούμε ότι αυτή η λειτουργικότητα θα εισέρχεται σε ένα έργο Creative Suite τα επόμενα χρόνια. αλλά κυρίως επειδή η αρχιτεκτονική που δημιουργήθηκε για το έργο υιοθετεί μια διαφορετική προσέγγιση στη διατήρηση της οπτικής ακεραιότητας σε ένα πρόγραμμα επεξεργασίας προσώπου GAN ενώ εφαρμόζονται οι αλλαγές.
Οι συγγραφείς δηλώνουν:
«[Εμείς] εκπαιδεύουμε ένα νευρωνικό δίκτυο για να εκτελέσει έναν μετασχηματισμό λανθάνοντος σε λανθάνον, ο οποίος βρίσκει τη λανθάνουσα κωδικοποίηση που αντιστοιχεί στην εικόνα με το αλλαγμένο χαρακτηριστικό. Καθώς η τεχνική είναι μίας βολής, δεν βασίζεται σε μια γραμμική ή μη γραμμική τροχιά της σταδιακής αλλαγής των χαρακτηριστικών.
«Με την εκπαίδευση του δικτύου από άκρο σε άκρο μέσω του αγωγού πλήρους παραγωγής, το σύστημα μπορεί να προσαρμοστεί στους λανθάνοντες χώρους των αρχιτεκτονικών γεννητριών εκτός ραφιού. Οι ιδιότητες διατήρησης, όπως η διατήρηση της ταυτότητας του ατόμου, μπορούν να κωδικοποιηθούν με τη μορφή απωλειών εκπαίδευσης.
«Από τη στιγμή που εκπαιδεύτηκε το δίκτυο λανθάνοντος σε λανθάνον, μπορεί να επαναχρησιμοποιηθεί για αυθαίρετες εικόνες χωρίς επανεκπαίδευση».
Αυτό το τελευταίο μέρος σημαίνει ότι η προτεινόμενη αρχιτεκτονική φτάνει με τον τελικό χρήστη σε τελική κατάσταση. Χρειάζεται ακόμα να τρέξει ένα νευρωνικό δίκτυο σε τοπικούς πόρους, αλλά οι νέες εικόνες μπορούν να «αποβιβαστούν» και να είναι έτοιμες για αλλαγή σχεδόν αμέσως, αφού το πλαίσιο είναι αρκετά αποσυνδεδεμένο ώστε να μην χρειάζεται περαιτέρω εκπαίδευση ειδικά για την εικόνα.
Μεταξύ των κύριων επιτευγμάτων της εργασίας είναι η ικανότητα του δικτύου να «παγώνει» ταυτότητες στον λανθάνοντα χώρο αλλάζοντας μόνο το χαρακτηριστικό σε ένα διάνυσμα στόχο και παρέχοντας «όρους διόρθωσης» που διατηρούν τις ταυτότητες που μετασχηματίζονται.
Ουσιαστικά, το προτεινόμενο δίκτυο είναι ενσωματωμένο σε μια ευρύτερη αρχιτεκτονική που ενορχηστρώνει όλα τα επεξεργασμένα στοιχεία, τα οποία περνούν μέσα από προεκπαιδευμένα εξαρτήματα με παγωμένα βάρη που δεν θα παράγουν ανεπιθύμητα πλευρικά αποτελέσματα στους μετασχηματισμούς.
Δεδομένου ότι η εκπαιδευτική διαδικασία βασίζεται σε τρίδυμα που μπορεί να δημιουργηθεί είτε από μια αρχική εικόνα (κάτω από Αναστροφή GAN) ή μια υπάρχουσα αρχική λανθάνουσα κωδικοποίηση, ολόκληρη η εκπαιδευτική διαδικασία είναι χωρίς επίβλεψη, με τις σιωπηρές ενέργειες του συνηθισμένου φάσματος συστημάτων σήμανσης και επιμέλειας σε τέτοια συστήματα να ενσωματώνονται αποτελεσματικά στην αρχιτεκτονική. Στην πραγματικότητα, το νέο σύστημα χρησιμοποιεί αναδρομείς χαρακτηριστικών off-the-shelf:
«[Ο] αριθμός των χαρακτηριστικών που μπορεί να ελέγξει το δίκτυό μας ανεξάρτητα περιορίζεται μόνο από τις δυνατότητες του αναγνωριστή(ων) – εάν κάποιος έχει αναγνωριστικό για ένα χαρακτηριστικό, μπορούμε να το προσθέσουμε σε αυθαίρετα πρόσωπα. Στα πειράματά μας, εκπαιδεύσαμε το δίκτυο λανθάνουσας σε λανθάνουσα ώστε να επιτρέπει την προσαρμογή 35 διαφορετικών χαρακτηριστικών του προσώπου, περισσότερο από οποιαδήποτε προηγούμενη προσέγγιση.'
Το σύστημα ενσωματώνει μια πρόσθετη προστασία έναντι ανεπιθύμητων μετασχηματισμών «παρενέργειας»: απουσία αιτήματος για αλλαγή χαρακτηριστικού, το δίκτυο λανθάνοντος σε λανθάνον θα αντιστοιχίσει ένα λανθάνον διάνυσμα στον εαυτό του, αυξάνοντας περαιτέρω τη σταθερή παραμονή της ταυτότητας στόχου.
Αναγνώριση προσώπου
Ένα επαναλαμβανόμενο πρόβλημα με τους επεξεργαστές προσώπων GAN και κωδικοποιητή/αποκωδικοποιητή τα τελευταία χρόνια ήταν ότι οι εφαρμοσμένοι μετασχηματισμοί τείνουν να υποβαθμίζουν την ομοιότητα. Για να καταπολεμηθεί αυτό, το έργο της Adobe χρησιμοποιεί ένα ενσωματωμένο δίκτυο αναγνώρισης προσώπου που ονομάζεται FaceNet ως μεροληπτικός.
(Σε προσωπική σημείωση, αυτό φαίνεται μια ενθαρρυντική κίνηση προς την ενσωμάτωση τυπικών συστημάτων αναγνώρισης προσώπου και ακόμη και αναγνώρισης έκφρασης σε δίκτυα παραγωγής, αναμφισβήτητα ο καλύτερος τρόπος για να ξεπεραστεί η τυφλό εικονοστοιχείο>χαρτογράφηση εικονοστοιχείων που κυριαρχεί στις τρέχουσες αρχιτεκτονικές deepfake εις βάρος της πιστότητας έκφρασης και άλλων σημαντικών τομέων στον τομέα δημιουργίας προσώπων.)
Πρόσβαση σε όλες τις περιοχές στον Λανθάνοντα Χώρο
Ένα άλλο εντυπωσιακό χαρακτηριστικό του πλαισίου είναι η ικανότητά του να ταξιδεύει αυθαίρετα μεταξύ πιθανών μετασχηματισμών στον λανθάνοντα χώρο, κατά την ιδιοτροπία του χρήστη. Αρκετά προηγούμενα συστήματα που παρείχαν διερευνητικές διεπαφές συχνά άφηναν τον χρήστη ουσιαστικά να «σκουπίζει» μεταξύ των χρονοδιαγραμμάτων μετασχηματισμού σταθερών χαρακτηριστικών – εντυπωσιακή, αλλά συχνά αρκετά γραμμική ή περιοριστική εμπειρία.
Εκτός από το ότι είναι δεκτικός σε εντελώς νέες εικόνες χρήστη, ο χρήστης μπορεί επίσης να «παγώσει» χειροκίνητα στοιχεία που θέλει να διατηρηθούν κατά τη διαδικασία μετασχηματισμού. Με αυτόν τον τρόπο ο χρήστης μπορεί να διασφαλίσει ότι (για παράδειγμα) το φόντο δεν μετατοπίζεται ή ότι τα μάτια παραμένουν ανοιχτά ή κλειστά.
ημερομηνία
Το δίκτυο παλινδρόμησης χαρακτηριστικών εκπαιδεύτηκε σε τρία δίκτυα: FFHQ, CelebAMask-HQκαι ένα τοπικό δίκτυο που δημιουργήθηκε από το GAN που λήφθηκε με δειγματοληψία 400,000 διανυσμάτων από το χώρο Z του StyleGAN-V2.
Οι εικόνες εκτός διανομής (OOD) φιλτραρίστηκαν και τα χαρακτηριστικά εξήχθησαν με χρήση της Microsoft Face API, με το σύνολο εικόνων που προκύπτει να χωρίζεται 90/10, αφήνοντας 721,218 εικόνες εκπαίδευσης και 72,172 δοκιμαστικές εικόνες για σύγκριση.
Δοκιμές
Αν και το πειραματικό δίκτυο αρχικά διαμορφώθηκε για να φιλοξενεί 35 πιθανούς μετασχηματισμούς, αυτοί μειώθηκαν σε οκτώ προκειμένου να πραγματοποιηθούν ανάλογες δοκιμές έναντι των συγκρίσιμων πλαισίων InterFaceGAN, GANSpace, να StyleFlow.
Τα οκτώ επιλεγμένα χαρακτηριστικά ήταν Ηλικία, Φαλάκρα, Γενειάδα, Έκφραση, Φύλο, Γυαλιά, Πίσσα, να Εκτρέπομαι της οδού. Ήταν απαραίτητο να ανανεωθούν τα ανταγωνιστικά πλαίσια για ορισμένα από τα οκτώ χαρακτηριστικά που δεν είχαν προβλεφθεί στην αρχική διανομή, όπως η προσθήκη φαλάκρα και γενειάδα στο InterFaceGAN.
Όπως ήταν αναμενόμενο, ένα μεγαλύτερο επίπεδο εμπλοκής εμφανίστηκε στις αντίπαλες αρχιτεκτονικές. Για παράδειγμα, σε μία δοκιμή, το InterFaceGAN και το StyleFlow άλλαξαν το φύλο του θέματος όταν τους ζητήθηκε να υποβάλουν αίτηση την ηλικία του:
Επιπλέον, δύο από τους αντιπάλους βρήκαν ότι τα γυαλιά και η ηλικία είναι αδιαχώριστες πτυχές:
Δεν είναι μια ομοιόμορφη νίκη για την έρευνα: όπως φαίνεται στο συνοδευτικό βίντεο που ενσωματώνεται στο τέλος του άρθρου, το πλαίσιο είναι το λιγότερο αποτελεσματικό όταν προσπαθείτε να προβάλλετε διαφορετικές γωνίες (yaw), ενώ το GANSpace έχει ένα καλύτερο γενικό αποτέλεσμα για την ηλικία του και η επιβολή του γυαλιά. Το πλαίσιο από λανθάνουσα σε λανθάνουσα σύνδεση με το GANSpace και το StyleFlow σχετικά με την προσθήκη βήματος (γωνία κεφαλής).
Για περισσότερες λεπτομέρειες και καλύτερη ανάλυση παραδειγμάτων, ανατρέξτε στο συνοδευτικό βίντεο της εφημερίδας παρακάτω.
Πρώτη δημοσίευση 16 Φεβρουαρίου 2022.