Τεχνητή νοημοσύνη

Αντιμετωπίζοντας τις ‘Κακές Ημέρες Μαλλιών’ στη Συνθετική Εικόνα Ανθρώπου

Published April 15, 2022

Updated April 28, 2026

Martin Anderson

Από την χρυσή εποχή της ρωμαϊκής γλυπτικής, η απεικόνιση των ανθρώπινων μαλλιών ήταν μια δύσκολη πρόκληση. Ο μέσος ανθρώπινος κεφαλής περιέχει 100.000 ίνες, έχει διαφορετικούς δείκτες διάθλασης ανάλογα με το χρώμα του και, πέρα από ένα bestimmμένο μήκος, θα κινηθεί και θα αναμορφωθεί με τρόπους που μπορούν να προσομοιωθούν μόνο με σύνθετα μοντέλα φυσικής – μέχρι σήμερα, εφαρμόσιμα μόνο μέσω ‘παραδοσιακών’ μεθόδων CGI.

Από την έρευνα του 2017 της Disney, ένα φυσικά βασισμένο μοντέλο προσπαθεί να εφαρμόσει πραγματιστική κίνηση σε ένα ρευστό στυλ μαλλιών σε μια ροή CGI. Πηγή: https://www.youtube.com/watch?v=-6iF3mufDW0

Το πρόβλημα δεν αντιμετωπίζεται επαρκώς από τις σύγχρονες δημοφιλείς μεθόδους deepfakes. Για einige χρόνια, το leading πακέτο DeepFaceLab είχε ένα ‘πλήρες κεφάλι’ μοντέλο που μπορούσε να καταγράψει μόνο σκληρές ενσαρκώσεις σύντομων (συνήθως ανδρικών) στυλ μαλλιών· και πρόσφατα το DFL stablemate FaceSwap (και τα δύο πακέτα προέρχονται από τον αμφιλεγόμενο κώδικα πηγή DeepFakes του 2017) έχει προσφέρει μια υλοποίηση του BiseNet μοντέλου σεμαντικής τομής, επιτρέποντας στον χρήστη να περιλαμβάνει αυτιά και μαλλιά στη σύνθεση deepfake.

Ε，即使 όταν απεικονίζονται πολύ σύντομα στυλ μαλλιών, τα αποτελέσματα τείνουν να είναι πολύ περιορισμένα σε ποιότητα, με πλήρη κεφάλια που εμφανίζονται ως επικαλυπτόμενα σε βίντεο, αντί να ενσωματωθούν σε αυτό.

GAN Μαλλιά

Οι δύο κύριες ανταγωνιστικές προσεγγίσεις για την ανθρώπινη προσομοίωση είναι τα Νευρωνικά Πεδία Ραδιότητας (NeRF), τα οποία μπορούν να καταγράψουν μια σκηνή από πολλαπλά σημεία θέασης και να ενσωματώσουν μια 3Δ αναπαράσταση αυτών των σημείων θέασης σε ένα εξεταστέο νευρωνικό δίκτυο· και τα Γεννητικά Ανταγωνιστικά Δίκτυα (GANs), τα οποία είναι αξιοσημείωτα πιο προηγμένα σε όρους ανθρώπινης σύνθεσης εικόνας (όχι τουλάχιστον επειδή το NeRF εμφανίστηκε μόνο το 2020).

Το NeRF’s υποτιθέμενο κατανόηση της 3Δ γεωμετρίας του επιτρέπει να αναπαράγει μια σκηνή με μεγάλη πιστότητα και συνεπήτητα, ακόμη και αν hiệnτικά έχει λίγη ή καμία εμβέλεια για την επιβολή φυσικών μοντέλων – και, στην πραγματικότητα, σχετικά περιορισμένη εμβέλεια για οποιοδήποτε είδος μετασχηματισμού στα συλλεγμένα δεδομένα που δεν σχετίζεται με την αλλαγή της οπτικής γωνίας. Hiệnτικά, το NeRF έχει πολύ περιορισμένες ικανότητες σε όρους αναπαραγωγής της κίνησης των ανθρώπινων μαλλιών.

GAN-ισοδύναμα με το NeRF αρχίζουν από μια σχεδόν θανατηφόρο μειονέκτημα,既然 ότι, αντίθετα με το NeRF, ο λατινικός χώρος ενός GAN δεν ενσωματώνει φυσικά μια κατανόηση της 3Δ πληροφορίας. Έτσι, η 3Δ-ενημερωμένη GAN σύνθεση εικόνας προσώπου έχει γίνει ένα热 topic στην έρευνα της γεννήτριας εικόνας τα τελευταία χρόνια, με το InterFaceGAN του 2019 ένα από τα leading επιτεύγματα.

Ωστόσο, ακόμη και τα αποτελέσματα του InterFaceGAN που παρουσιάζονται και επιλέγονται δείχνουν ότι η νευρωνική συνεπήτητα των μαλλιών παραμένει μια δύσκολη πρόκληση σε όρους χρονικής συνεπήτητα, για πιθανές ροές VFX:

‘Σίζλινγκ’ μαλλιά σε μια μεταμόρφωση στάσης από το InterFaceGAN. Πηγή: https://www.youtube.com/watch?v=uoftpl3Bj6w

Όπως γίνεται πιο εμφανές ότι η συνεπής γεννήτρια θέασης μέσω της χειραγώγησης του λατινικού χώρου μόνο μπορεί να είναι μια αλχημιστική αναζήτηση, ένα αυξανόμενο αριθμό εγγράφων εμφανίζεται που ενσωματώνουν CGI-βασισμένες 3Δ πληροφορίες σε μια ροή GAN ως một σταθεροποιητική και κανονικοποιητική περιορισμό.

Το CGI στοιχείο μπορεί να αντιπροσωπεύεται από ενδιάμεσους 3Δ πρωτεϊνες όπως ένα Skinned Multi-Person Linear Model (SMPL), ή από την υιοθέτηση τεχνικών 3Δ εύρεσης με τρόπο παρόμοιο με το NeRF, όπου η γεωμετρία αξιολογείται από τις πηγές εικόνων ή βίντεο.

Ένα νέο έργο κατά μήκος αυτών των γραμμών, εκδόθηκε αυτή την εβδομάδα, είναι Δίκτυα Γεννητικών Ανταγωνιστικών για 3Δ-ενημερωμένη Σύνθεση Εικόνας (MVCGAN), μια συνεργασία μεταξύ ReLER, AAII, Πανεπιστημίου Τεχνολογίας Σίδνεϋ, της Ακαδημίας DAMO στο Alibaba Group και του Πανεπιστημίου Zhejiang.

Πιθανές και ροβούστικές νέες στάσεις προσώπου που παράγονται από το MVCGAN σε εικόνες που προέρχονται από το σύνολο δεδομένων CELEBA-HQ. Πηγή: https://arxiv.org/pdf/2204.06307.pdf

Το MVCGAN ενσωματώνει ένα γεννητικό δίκτυο ραδιότητας (GRAF) ικανό να παρέχει γεωμετρικές περιορισμοί σε ένα Γεννητικό Ανταγωνιστικό Δίκτυο, επιτυγχάνοντας κάποιες από τις πιο αυθεντικές ικανότητες στάσης οποιασδήποτε παρόμοιας GAN-βασισμένης προσεγγίσεως.

Σύγκριση μεταξύ MVCGAN και προηγούμενων μεθόδων GRAF, GIRAFFE και pi-GAN.

Ωστόσο, συμπληρωματικό υλικό για το MVCGAN αποκαλύπτει ότι η απόκτηση όγκου μαλλιών, διάθεσης, τοποθέτησης και συμπεριφοράς συνεπήτητα είναι ένα πρόβλημα που δεν αντιμετωπίζεται εύκολα μέσω περιορισμών που βασίζονται σε εξωτερικά-επιβεβλημένες 3Δ γεωμετρικές:

Από συμπληρωματικό υλικό που δεν έχει δημοσιευθεί δημόσια μέχρι τη στιγμή της γραφής, βλέπουμε ότι ενώ η σύνθεση στάσης προσώπου από το MVCGAN αντιπροσωπεύει μια αξιοσημείωτη πρόοδο στο τρέχον κατάσταση της τέχνης, η χρονική συνεπήτητα των μαλλιών παραμένει ένα πρόβλημα.

Επειδή ‘απλό’ CGI ροές vẫn βρίσκουν τη χρονική ανακατασκευή μαλλιών μια πρόκληση, δεν υπάρχει λόγος να πιστεύουμε ότι συμβατικές γεωμετρικές προσεγγίσεις αυτού του είδους θα φέρουν συνεπή σύνθεση μαλλιών στο λατινικό χώρο σε κοντινό μέλλον.

Σταθεροποίηση Μαλλιών με Συνελικτικά Νευρωνικά Δίκτυα

Ωστόσο, ένα επικείμενο έγγραφο από τρεις ερευνητές στο Ινστιτούτο Τεχνολογίας Chalmers στη Σουηδία μπορεί να προσφέρει μια πρόοδο στην νευρωνική προσομοίωση μαλλιών.

Στα αριστερά, η σταθεροποιημένη αναπαράσταση μαλλιών CNN, στα δεξιά, η ground truth. Δείτε το βίντεο που είναι ενσωματωμένο στο τέλος του άρθρου για καλύτερη ανάλυση και επιπλέον παραδείγματα. Πηγή: https://www.youtube.com/watch?v=AvnJkwCmsT4

Το σύστημα αποτελείται από ένα autoencoder-βασισμένο δίκτυο ικανό να αξιολογεί την ανάλυση μαλλιών, συμπεριλαμβανομένης της αυτο-σκιώσης και λαμβάνοντας υπόψη το πάχος των μαλλιών, σε πραγματικό χρόνο, με βάση einen περιορισμένο αριθμό τυχαίων δειγμάτων που έχουν σπαρεί από OpenGL γεωμετρία.

Η προσέγγιση αποδίδει einen περιορισμένο αριθμό δειγμάτων με τυχαία διαφάνεια και στη συνέχεια εκπαιδεύει ένα U-net να ανακατασκευάσει την αρχική εικόνα.

Υπό το MVCGAN, ένα CNN φιλτράρει τυχαία δείγματα χρωμάτων, υψηλών, ταγέντων, βάθους και αλφών, συναρμολογώντας τα συνθετικά αποτελέσματα σε μια σύνθετη εικόνα.

Το δίκτυο εκπαιδεύεται στο PyTorch, συγκλίνωντας σε einen χρονικό διάστημα έξι έως δώδεκα ωρών, ανάλογα με τον όγκο του δικτύου και τον αριθμό των εισαγωγικών χαρακτηριστικών. Τα εκπαιδευμένα παραμέτρα (βαρίδια) χρησιμοποιούνται στη συνέχεια στην εφαρμογή σε πραγματικό χρόνο του συστήματος.

Τα δεδομένα εκπαίδευσης παράγονται με την απόδοση plusieurs εκατοντάδων εικόνων για ίσια και κυματιστά στυλ μαλλιών, χρησιμοποιώντας τυχαίες αποστάσεις και στάσεις, καθώς και διαφορετικές συνθήκες φωτισμού.

Διάφορες παραδείγματα εισαγωγικών δεδομένων.

Η διαφάνεια μαλλιών σε όλα τα δείγματα μετριέται από εικόνες που αποδίδονται με τυχαία διαφάνεια σε υπερδείγματα ανάλυση. Τα αρχικά δεδομένα υψηλής ανάλυσης υποδείγματος για να ταιριάζουν με τους περιορισμούς του δικτύου και του υλικού, και αργότερα υπερδείγματος, σε einen τυπικό autoencoder ροή εργασίας.

Η εφαρμογή σε πραγματικό χρόνο (η ‘ζωντανή’ εφαρμογή που εκμεταλλεύεται τον αλγόριθμο που προέρχεται από το εκπαιδευμένο μοντέλο) χρησιμοποιεί einen συνδυασμό NVIDIA CUDA με cuDNN και OpenGL. Τα αρχικά εισαγωγικά χαρακτηριστικά απορρίπτονται σε OpenGL multisampled χρωματικά buffer, και το αποτέλεσμα στάλθηκε σε cuDNN tensors πριν από την επεξεργασία στο CNN. Αυτά τα tensors αντιγράφονται στη συνέχεια σε einen ‘ζωντανό’ OpenGL texture για επιβολή στην τελική εικόνα.

Το σύστημα σε πραγματικό χρόνο λειτουργεί σε einen NVIDIA RTX 2080, παράγοντας eine ανάλυση 1024×1024 εικονοστοιχείων.

Επειδή οι τιμές χρώματος μαλλιών είναι完全 διαχωρισμένες στις τελικές τιμές που λαμβάνονται από το δίκτυο, η αλλαγή του χρώματος μαλλιών είναι eine εύκολη εργασία, αν και εφέ όπως γραδίες και ρίγες παραμένουν eine μελλοντική πρόκληση.

Οι συγγραφείς έχουν δημοσιεύσει τον κώδικα που χρησιμοποιήθηκε στις αξιολογήσεις του εγγράφου στο GitLab. Δείτε το συμπληρωματικό βίντεο για το MVCGAN παρακάτω.

Συμπέρασμα

Η πλοήγηση στον λατινικό χώρο ενός autoencoder ή GAN είναι ακόμη περισσότερο σαν να πλέεις παρά να οδηγείς με ακρίβεια. Μόνο σε αυτή την πολύ πρόσφατη περίοδο αρχίζουμε να βλέπουμε αξιοσημείωτα αποτελέσματα για την γεννήτρια στάσης ‘πιο απλών’ γεωμετρικών, όπως τα πρόσωπα, σε προσεγγίσεις όπως το NeRF, GANs και μη-deepfake (2017) autoencoder πλαίσια.

Η σημαντική αρχιτεκτονική πολυπλοκότητα των ανθρώπινων μαλλιών, σε συνδυασμό με την ανάγκη να ενσωματωθούν φυσικά μοντέλα και άλλα χαρακτηριστικά για τα οποία οι τρέχουσες προσεγγίσεις σύνθεσης εικόνας δεν έχουν πρόβλεψη, υποδηλώνει ότι η σύνθεση μαλλιών είναι απίθανο να παραμείνει ένα ενσωματωμένο στοιχείο στη γενική σύνθεση προσώπου, αλλά θα χρειαστεί αφιερωμένα και ξεχωριστά δίκτυα κάποιας πολυπλοκότητας – ακόμη και αν τέτοια δίκτυα μπορεί τελικά να ενσωματωθούν σε ευρύτερα και πιο σύνθετα πλαίσια σύνθεσης προσώπου.

Πρώτη δημοσίευση 15ης Απριλίου 2022.

Related Topics:deepfake DeepFakes feature GAN GANs image synthesis research

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]

Unite.AI

Αντιμετωπίζοντας τις ‘Κακές Ημέρες Μαλλιών’ στη Συνθετική Εικόνα Ανθρώπου

GAN Μαλλιά

Σταθεροποίηση Μαλλιών με Συνελικτικά Νευρωνικά Δίκτυα

Συμπέρασμα

You may like