στέλεχος Η Adobe Research επεκτείνει το Disentangled GAN Face Editing - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Η Adobe Research επεκτείνει την επεξεργασία προσώπου Disentangled GAN

mm
Ενημερώθηκε on

Δεν είναι δύσκολο να καταλάβεις γιατί μπλέξιμο είναι ένα πρόβλημα στη σύνθεση εικόνας, επειδή είναι συχνά ένα πρόβλημα σε άλλους τομείς της ζωής. Για παράδειγμα, είναι πολύ πιο δύσκολο να αφαιρέσετε τον κουρκουμά από ένα κάρυ από το να πετάξετε το τουρσί σε ένα μπιφτέκι και είναι πρακτικά αδύνατο να απογλυκαίνετε ένα φλιτζάνι καφέ. Μερικά πράγματα απλά έρχονται σε πακέτο.

Ομοίως, η εμπλοκή είναι ένα εμπόδιο για αρχιτεκτονικές σύνθεσης εικόνας που θα ήθελαν ιδανικά να διαχωρίσουν διαφορετικά χαρακτηριστικά και έννοιες όταν χρησιμοποιούν μηχανική εκμάθηση για τη δημιουργία ή την επεξεργασία προσώπων (ή σκύλους, σκάφη, ή οποιονδήποτε άλλο τομέα).

Αν μπορούσατε να ξεχωρίσετε σκέλη όπως π.χ την ηλικία του, των δύο φύλων, το χρώμα των μαλλιών, απόχρωση δέρματος, συγκίνηση, και ούτω καθεξής, θα είχατε τις απαρχές της πραγματικής εργαλειομηχανής και της ευελιξίας σε ένα πλαίσιο που θα μπορούσε να δημιουργεί και να επεξεργάζεται εικόνες προσώπων σε ένα πραγματικά λεπτομερές επίπεδο, χωρίς να σέρνει ανεπιθύμητους «επιβάτες» σε αυτές τις μετατροπές.

Στη μέγιστη εμπλοκή (πάνω αριστερά), το μόνο που μπορείτε να κάνετε είναι να αλλάξετε την εικόνα ενός μαθημένου δικτύου GAN στην εικόνα ενός άλλου ατόμου.

Αυτό χρησιμοποιεί αποτελεσματικά την πιο πρόσφατη τεχνολογία όρασης υπολογιστή AI για να επιτύχει κάτι που επιλύθηκε με άλλα μέσα πριν από τριάντα και πλέον χρόνια.

Με κάποιο βαθμό διαχωρισμού («Μεσαίος διαχωρισμός» στην προηγούμενη παραπάνω εικόνα), είναι δυνατό να πραγματοποιηθούν αλλαγές με βάση το στυλ, όπως το χρώμα των μαλλιών, η έκφραση, η καλλυντική εφαρμογή και η περιορισμένη περιστροφή της κεφαλής, μεταξύ άλλων.

Πηγή: FEAT: Face Editing with Attention, Φεβ 2022, https://arxiv.org/pdf/2202.02713.pdf

πηγή: FEAT: Επεξεργασία προσώπου με προσοχή, Φεβρουάριος 2022, https://arxiv.org/pdf/2202.02713.pdf

Τα τελευταία δύο χρόνια έχουν γίνει πολλές προσπάθειες για τη δημιουργία διαδραστικών περιβαλλόντων επεξεργασίας προσώπου που επιτρέπουν στον χρήστη να αλλάζει χαρακτηριστικά προσώπου με ρυθμιστικά και άλλες παραδοσιακές αλληλεπιδράσεις διεπαφής χρήστη, διατηρώντας παράλληλα ανέπαφα τα βασικά χαρακτηριστικά του προσώπου-στόχου όταν κάνει προσθήκες ή αλλαγές. Ωστόσο, αυτό έχει αποδειχθεί πρόκληση λόγω της εμπλοκής του υποκείμενου χαρακτηριστικού/στυλ στον λανθάνοντα χώρο του GAN.

Για παράδειγμα, η γυαλιά το χαρακτηριστικό συχνά μπλέκεται με το ηλικίας χαρακτηριστικό, που σημαίνει ότι η προσθήκη γυαλιών μπορεί επίσης να «γερνάει» το πρόσωπο, ενώ η γήρανση του προσώπου μπορεί να προσθέσει γυαλιά, ανάλογα με τον βαθμό εφαρμοζόμενου διαχωρισμού των χαρακτηριστικών υψηλού επιπέδου (δείτε «Δοκιμή» παρακάτω για παραδείγματα).

Το πιο αξιοσημείωτο είναι ότι ήταν σχεδόν αδύνατο να αλλάξει το χρώμα των μαλλιών και άλλες όψεις των μαλλιών χωρίς να υπολογιστούν εκ νέου οι τρίχες και η διάθεση, γεγονός που δίνει ένα «τσιρίζοντας», μεταβατικό αποτέλεσμα.

Πηγή: InterFaceGAN Demo (CVPR 2020), https://www.youtube.com/watch?v=uoftpl3Bj6w

Πηγή: InterFaceGAN Demo (CVPR 2020), https://www.youtube.com/watch?v=uoftpl3Bj6w

Latent-to-Latent GAN Traversal

Ένα νέο χαρτί με τεχνολογία Adobe εισήχθη για το WACV 2022 προσφέρει μια νέα προσέγγιση σε αυτά τα υποκείμενα ζητήματα σε α χαρτί με τίτλο Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attribute in StyleGAN-generated Images.

Συμπληρωματικό υλικό από την εργασία Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attributes in StyleGAN-generated Images. Εδώ βλέπουμε ότι τα βασικά χαρακτηριστικά στο μαθημένο πρόσωπο δεν σύρονται σε άσχετες αλλαγές. Δείτε το πλήρες βίντεο ενσωματωμένο στο τέλος του άρθρου για καλύτερη λεπτομέρεια και ανάλυση. Πηγή: https://www.youtube.com/watch?v=rf_61llRH0Q

Συμπληρωματικό υλικό από το χαρτί Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attribute in StyleGAN-generated Images. Εδώ βλέπουμε ότι τα βασικά χαρακτηριστικά στο μαθημένο πρόσωπο δεν σύρονται σε άσχετες αλλαγές. Δείτε το πλήρες βίντεο ενσωματωμένο στο τέλος του άρθρου για καλύτερη λεπτομέρεια και ανάλυση. Πηγή: https://www.youtube.com/watch?v=rf_61llRH0Q

Επικεφαλής της εργασίας είναι ο Εφαρμοσμένος Επιστήμονας της Adobe Siavash Khodadadeh, μαζί με τέσσερις άλλους ερευνητές της Adobe, και έναν ερευνητή από το Τμήμα Επιστήμης Υπολογιστών στο Πανεπιστήμιο της Κεντρικής Φλόριντα.

Το κομμάτι είναι ενδιαφέρον εν μέρει επειδή η Adobe δραστηριοποιείται σε αυτόν τον χώρο εδώ και αρκετό καιρό και είναι δελεαστικό να φανταστούμε ότι αυτή η λειτουργικότητα θα εισέρχεται σε ένα έργο Creative Suite τα επόμενα χρόνια. αλλά κυρίως επειδή η αρχιτεκτονική που δημιουργήθηκε για το έργο υιοθετεί μια διαφορετική προσέγγιση στη διατήρηση της οπτικής ακεραιότητας σε ένα πρόγραμμα επεξεργασίας προσώπου GAN ενώ εφαρμόζονται οι αλλαγές.

Οι συγγραφείς δηλώνουν:

«[Εμείς] εκπαιδεύουμε ένα νευρωνικό δίκτυο για να εκτελέσει έναν μετασχηματισμό λανθάνοντος σε λανθάνον, ο οποίος βρίσκει τη λανθάνουσα κωδικοποίηση που αντιστοιχεί στην εικόνα με το αλλαγμένο χαρακτηριστικό. Καθώς η τεχνική είναι μίας βολής, δεν βασίζεται σε μια γραμμική ή μη γραμμική τροχιά της σταδιακής αλλαγής των χαρακτηριστικών.

«Με την εκπαίδευση του δικτύου από άκρο σε άκρο μέσω του αγωγού πλήρους παραγωγής, το σύστημα μπορεί να προσαρμοστεί στους λανθάνοντες χώρους των αρχιτεκτονικών γεννητριών εκτός ραφιού. Οι ιδιότητες διατήρησης, όπως η διατήρηση της ταυτότητας του ατόμου, μπορούν να κωδικοποιηθούν με τη μορφή απωλειών εκπαίδευσης.

«Από τη στιγμή που εκπαιδεύτηκε το δίκτυο λανθάνοντος σε λανθάνον, μπορεί να επαναχρησιμοποιηθεί για αυθαίρετες εικόνες χωρίς επανεκπαίδευση».

Αυτό το τελευταίο μέρος σημαίνει ότι η προτεινόμενη αρχιτεκτονική φτάνει με τον τελικό χρήστη σε τελική κατάσταση. Χρειάζεται ακόμα να τρέξει ένα νευρωνικό δίκτυο σε τοπικούς πόρους, αλλά οι νέες εικόνες μπορούν να «αποβιβαστούν» και να είναι έτοιμες για αλλαγή σχεδόν αμέσως, αφού το πλαίσιο είναι αρκετά αποσυνδεδεμένο ώστε να μην χρειάζεται περαιτέρω εκπαίδευση ειδικά για την εικόνα.

Το φύλο και οι τρίχες του προσώπου άλλαξαν καθώς τα ρυθμιστικά σχεδιάζουν τυχαίες και αυθαίρετες διαδρομές μέσα στον λανθάνοντα χώρο, όχι απλώς «τρίψιμο μεταξύ των τελικών σημείων».

Το φύλο και οι τρίχες του προσώπου άλλαξαν καθώς τα ρυθμιστικά σχεδιάζουν τυχαίες και αυθαίρετες διαδρομές μέσα στον λανθάνοντα χώρο, όχι απλώς «τρίψιμο μεταξύ των τελικών σημείων». Δείτε το βίντεο που είναι ενσωματωμένο στο τέλος του άρθρου για περισσότερους μετασχηματισμούς σε καλύτερη ανάλυση.

Μεταξύ των κύριων επιτευγμάτων της εργασίας είναι η ικανότητα του δικτύου να «παγώνει» ταυτότητες στον λανθάνοντα χώρο αλλάζοντας μόνο το χαρακτηριστικό σε ένα διάνυσμα στόχο και παρέχοντας «όρους διόρθωσης» που διατηρούν τις ταυτότητες που μετασχηματίζονται.

Ουσιαστικά, το προτεινόμενο δίκτυο είναι ενσωματωμένο σε μια ευρύτερη αρχιτεκτονική που ενορχηστρώνει όλα τα επεξεργασμένα στοιχεία, τα οποία περνούν μέσα από προεκπαιδευμένα εξαρτήματα με παγωμένα βάρη που δεν θα παράγουν ανεπιθύμητα πλευρικά αποτελέσματα στους μετασχηματισμούς.

Δεδομένου ότι η εκπαιδευτική διαδικασία βασίζεται σε τρίδυμα που μπορεί να δημιουργηθεί είτε από μια αρχική εικόνα (κάτω από Αναστροφή GAN) ή μια υπάρχουσα αρχική λανθάνουσα κωδικοποίηση, ολόκληρη η εκπαιδευτική διαδικασία είναι χωρίς επίβλεψη, με τις σιωπηρές ενέργειες του συνηθισμένου φάσματος συστημάτων σήμανσης και επιμέλειας σε τέτοια συστήματα να ενσωματώνονται αποτελεσματικά στην αρχιτεκτονική. Στην πραγματικότητα, το νέο σύστημα χρησιμοποιεί αναδρομείς χαρακτηριστικών off-the-shelf:

«[Ο] αριθμός των χαρακτηριστικών που μπορεί να ελέγξει το δίκτυό μας ανεξάρτητα περιορίζεται μόνο από τις δυνατότητες του αναγνωριστή(ων) – εάν κάποιος έχει αναγνωριστικό για ένα χαρακτηριστικό, μπορούμε να το προσθέσουμε σε αυθαίρετα πρόσωπα. Στα πειράματά μας, εκπαιδεύσαμε το δίκτυο λανθάνουσας σε λανθάνουσα ώστε να επιτρέπει την προσαρμογή 35 διαφορετικών χαρακτηριστικών του προσώπου, περισσότερο από οποιαδήποτε προηγούμενη προσέγγιση.'

Το σύστημα ενσωματώνει μια πρόσθετη προστασία έναντι ανεπιθύμητων μετασχηματισμών «παρενέργειας»: απουσία αιτήματος για αλλαγή χαρακτηριστικού, το δίκτυο λανθάνοντος σε λανθάνον θα αντιστοιχίσει ένα λανθάνον διάνυσμα στον εαυτό του, αυξάνοντας περαιτέρω τη σταθερή παραμονή της ταυτότητας στόχου.

Αναγνώριση προσώπου

Ένα επαναλαμβανόμενο πρόβλημα με τους επεξεργαστές προσώπων GAN ​​και κωδικοποιητή/αποκωδικοποιητή τα τελευταία χρόνια ήταν ότι οι εφαρμοσμένοι μετασχηματισμοί τείνουν να υποβαθμίζουν την ομοιότητα. Για να καταπολεμηθεί αυτό, το έργο της Adobe χρησιμοποιεί ένα ενσωματωμένο δίκτυο αναγνώρισης προσώπου που ονομάζεται FaceNet ως μεροληπτικός.

Αρχιτεκτονική έργου, ανατρέξτε στην κάτω μέση αριστερά για συμπερίληψη του FaceNet. Πηγή: Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attributes in StyleGAN-generated Images, OpenAccess.

Αρχιτεκτονική έργου, ανατρέξτε στην κάτω μέση αριστερά για συμπερίληψη του FaceNet. πηγή: Latent to Latent: A Learned Mapper for Identity Preserving Editing of Multiple Face Attribute in StyleGAN-generated Images, Ανοιχτή πρόσβαση.

(Σε προσωπική σημείωση, αυτό φαίνεται μια ενθαρρυντική κίνηση προς την ενσωμάτωση τυπικών συστημάτων αναγνώρισης προσώπου και ακόμη και αναγνώρισης έκφρασης σε δίκτυα παραγωγής, αναμφισβήτητα ο καλύτερος τρόπος για να ξεπεραστεί η τυφλό εικονοστοιχείο>χαρτογράφηση εικονοστοιχείων που κυριαρχεί στις τρέχουσες αρχιτεκτονικές deepfake εις βάρος της πιστότητας έκφρασης και άλλων σημαντικών τομέων στον τομέα δημιουργίας προσώπων.)

Πρόσβαση σε όλες τις περιοχές στον Λανθάνοντα Χώρο

Ένα άλλο εντυπωσιακό χαρακτηριστικό του πλαισίου είναι η ικανότητά του να ταξιδεύει αυθαίρετα μεταξύ πιθανών μετασχηματισμών στον λανθάνοντα χώρο, κατά την ιδιοτροπία του χρήστη. Αρκετά προηγούμενα συστήματα που παρείχαν διερευνητικές διεπαφές συχνά άφηναν τον χρήστη ουσιαστικά να «σκουπίζει» μεταξύ των χρονοδιαγραμμάτων μετασχηματισμού σταθερών χαρακτηριστικών – εντυπωσιακή, αλλά συχνά αρκετά γραμμική ή περιοριστική εμπειρία.

Από τη Βελτίωση της Ισορροπίας GAN με την Αύξηση της Χωρικής Συνείδησης: εδώ ο χρήστης καθαρίζει μια σειρά πιθανών σημείων μετάβασης μεταξύ δύο τοποθεσιών λανθάνοντος χώρου, αλλά εντός των ορίων προεκπαιδευμένων τοποθεσιών στον λανθάνοντα χώρο. Για την εφαρμογή άλλων ειδών μετασχηματισμού που βασίζονται στο ίδιο υλικό, απαιτείται επαναδιαμόρφωση ή/και επανεκπαίδευση. Πηγή: https://genforce.github.io/eqgan/

Από Βελτίωση της ισορροπίας GAN μέσω της αύξησης της χωρικής ευαισθητοποίησης: εδώ ο χρήστης καθαρίζει μια σειρά πιθανών σημείων μετάβασης μεταξύ δύο τοποθεσιών λανθάνοντος χώρου, αλλά εντός των ορίων προεκπαιδευμένων τοποθεσιών στον λανθάνοντα χώρο. Για την εφαρμογή άλλων ειδών μετασχηματισμού που βασίζονται στο ίδιο υλικό, απαιτείται επαναδιαμόρφωση ή/και επανεκπαίδευση. Πηγή: https://genforce.github.io/eqgan/

Εκτός από το ότι είναι δεκτικός σε εντελώς νέες εικόνες χρήστη, ο χρήστης μπορεί επίσης να «παγώσει» χειροκίνητα στοιχεία που θέλει να διατηρηθούν κατά τη διαδικασία μετασχηματισμού. Με αυτόν τον τρόπο ο χρήστης μπορεί να διασφαλίσει ότι (για παράδειγμα) το φόντο δεν μετατοπίζεται ή ότι τα μάτια παραμένουν ανοιχτά ή κλειστά.

ημερομηνία

Το δίκτυο παλινδρόμησης χαρακτηριστικών εκπαιδεύτηκε σε τρία δίκτυα: FFHQ, CelebAMask-HQκαι ένα τοπικό δίκτυο που δημιουργήθηκε από το GAN που λήφθηκε με δειγματοληψία 400,000 διανυσμάτων από το χώρο Z του StyleGAN-V2.

Οι εικόνες εκτός διανομής (OOD) φιλτραρίστηκαν και τα χαρακτηριστικά εξήχθησαν με χρήση της Microsoft Face API, με το σύνολο εικόνων που προκύπτει να χωρίζεται 90/10, αφήνοντας 721,218 εικόνες εκπαίδευσης και 72,172 δοκιμαστικές εικόνες για σύγκριση.

Δοκιμές

Αν και το πειραματικό δίκτυο αρχικά διαμορφώθηκε για να φιλοξενεί 35 πιθανούς μετασχηματισμούς, αυτοί μειώθηκαν σε οκτώ προκειμένου να πραγματοποιηθούν ανάλογες δοκιμές έναντι των συγκρίσιμων πλαισίων InterFaceGAN, GANSpace, να StyleFlow.

Τα οκτώ επιλεγμένα χαρακτηριστικά ήταν Ηλικία, Φαλάκρα, Γενειάδα, Έκφραση, Φύλο, Γυαλιά, Πίσσα, να Εκτρέπομαι της οδού. Ήταν απαραίτητο να ανανεωθούν τα ανταγωνιστικά πλαίσια για ορισμένα από τα οκτώ χαρακτηριστικά που δεν είχαν προβλεφθεί στην αρχική διανομή, όπως η προσθήκη φαλάκρα και γενειάδα στο InterFaceGAN.

Όπως ήταν αναμενόμενο, ένα μεγαλύτερο επίπεδο εμπλοκής εμφανίστηκε στις αντίπαλες αρχιτεκτονικές. Για παράδειγμα, σε μία δοκιμή, το InterFaceGAN και το StyleFlow άλλαξαν το φύλο του θέματος όταν τους ζητήθηκε να υποβάλουν αίτηση την ηλικία του:

Δύο από τα ανταγωνιστικά πλαίσια μετέφεραν μια αλλαγή φύλου στη μεταμόρφωση «ηλικίας», αλλάζοντας επίσης το χρώμα των μαλλιών χωρίς άμεση προσφορά από τον χρήστη.

Δύο από τα ανταγωνιστικά πλαίσια μετέφεραν μια αλλαγή φύλου στη μεταμόρφωση «ηλικίας», αλλάζοντας επίσης το χρώμα των μαλλιών χωρίς άμεση προσφορά από τον χρήστη.

Επιπλέον, δύο από τους αντιπάλους βρήκαν ότι τα γυαλιά και η ηλικία είναι αδιαχώριστες πτυχές:

Αλλαγή γυαλιών και χρώματος μαλλιών χωρίς επιπλέον χρέωση!

Αλλαγή γυαλιών και χρώματος μαλλιών χωρίς επιπλέον χρέωση!

Δεν είναι μια ομοιόμορφη νίκη για την έρευνα: όπως φαίνεται στο συνοδευτικό βίντεο που ενσωματώνεται στο τέλος του άρθρου, το πλαίσιο είναι το λιγότερο αποτελεσματικό όταν προσπαθείτε να προβάλλετε διαφορετικές γωνίες (yaw), ενώ το GANSpace έχει ένα καλύτερο γενικό αποτέλεσμα για την ηλικία του και η επιβολή του γυαλιά. Το πλαίσιο από λανθάνουσα σε λανθάνουσα σύνδεση με το GANSpace και το StyleFlow σχετικά με την προσθήκη βήματος (γωνία κεφαλής).

Τα αποτελέσματα υπολογίστηκαν με βάση μια βαθμονόμηση του ανιχνευτή προσώπου MTCNN. Τα χαμηλότερα αποτελέσματα είναι καλύτερα.

Τα αποτελέσματα υπολογίστηκαν με βάση μια βαθμονόμηση του Ανιχνευτής προσώπου MTCNN. Τα χαμηλότερα αποτελέσματα είναι καλύτερα.

Για περισσότερες λεπτομέρειες και καλύτερη ανάλυση παραδειγμάτων, ανατρέξτε στο συνοδευτικό βίντεο της εφημερίδας παρακάτω.

Latent to Latent - WACV 2022

 

Πρώτη δημοσίευση 16 Φεβρουαρίου 2022.