Connect with us

Ένας Συμβατικός Αλγόριθμος που Μπορεί να Κάνει Εικόνες Ανθρώπων Πιο ‘Όμορφες’

Τεχνητή νοημοσύνη

Ένας Συμβατικός Αλγόριθμος που Μπορεί να Κάνει Εικόνες Ανθρώπων Πιο ‘Όμορφες’

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Ερευνητές από την Κίνα έχουν αναπτύξει ένα νέο σύστημα ενίσχυσης εικόνων με βάση τον συμβατικό αλγόριθμο που είναι ικανό να κάνει εικόνες ενός ατόμου πιο ‘όμορφες’, με βάση μια νέα προσέγγιση για την ενίσχυση της μάθησης.

Το νέο σύστημα χρησιμοποιεί ένα 'δίκτυο προβλέψεων ομορφιάς προσώπου' για να επαναλάβει διαφορετικές εκδοχές μιας εικόνας με βάση eine σειρά παραγόντων, μεταξύ των οποίων η 'φωτισμός' και η στάση των ματιών μπορεί να είναι κρίσιμες παράμετροι. Εδώ, οι αρχικές πηγές (στα αριστερά κάθε στήλης) προέρχονται από το σύστημα EigenGAN, με τα νέα αποτελέσματα στα δεξιά. Πηγή: https://arxiv.org/pdf/2208.04517.pdf

Το νέο σύστημα χρησιμοποιεί ένα ‘δίκτυο προβλέψεων ομορφιάς προσώπου’ για να επαναλάβει διαφορετικές εκδοχές μιας εικόνας με βάση eine σειρά παραγόντων, μεταξύ των οποίων η ‘φωτισμός’ και η στάση των ματιών μπορεί να είναι κρίσιμες παράμετροι. Εδώ, οι αρχικές πηγές (στα αριστερά κάθε στήλης) προέρχονται από το σύστημα EigenGAN, με τα νέα αποτελέσματα στα δεξιά. Πηγή: https://arxiv.org/pdf/2208.04517.pdf

Η τεχνική βασίζεται σε καινοτομίες που ανακαλύφθηκαν για τον γεννήτορά EigenGAN, ένα άλλο κινέζικο έργο, από το 2021, που έκανε σημαντικά βήματα στην αναγνώριση και τον έλεγχο των διαφορετικών σεμαντικών ιδιοκτησιών στο.latent χώρο των Γεννητικών Αντιπαλών Δικτύων (GANs).

Ο γεννήτωρ EigenGAN του 2021 ήταν σε θέση να αναγνωρίσει υψηλού επιπέδου έννοιες όπως το 'χρώμα μαλλιών' στο.latent χώρο ενός γεννητικού αντιπαλικού δικτύου. Το νέο έργο βασίζεται σε αυτό το καινοτόμο εργαλείο για να παραδώσει ένα σύστημα που μπορεί να 'ομορφύνει' τις εικόνες πηγής, χωρίς να αλλάξει την αναγνωρίσιμη ταυτότητα – ένα πρόβλημα στις προηγούμενες προσεγγίσεις.

Ο γεννήτωρ EigenGAN του 2021 ήταν σε θέση να αναγνωρίσει υψηλού επιπέδου έννοιες όπως το ‘χρώμα μαλλιών’ στο.latent χώρο ενός γεννητικού αντιπαλικού δικτύου. Το νέο έργο βασίζεται σε αυτό το καινοτόμο εργαλείο για να παραδώσει ένα σύστημα που μπορεί να ‘ομορφύνει’ τις εικόνες πηγής, χωρίς να αλλάξει την αναγνωρίσιμη ταυτότητα – ένα πρόβλημα στις προηγούμενες προσεγγίσεις. Πηγή: https://arxiv.org/pdf/2104.12476.pdf

Το σύστημα χρησιμοποιεί ένα ‘δίκτυο αισθητικής βαθμολογίας’ που προέρχεται από το SCUT-FBP5500 (SCUT), một βάση δεδομένων αναφοράς του 2018 για την πρόβλεψη ομορφιάς προσώπου, από το Πανεπιστήμιο Τεχνολογίας της Νότιας Κίνας στο Γκουανγκτζόου.

Από το άρθρο του 2018 'SCUT-FBP5500: Eine διαφορετική βάση δεδομένων για την πρόβλεψη ομορφιάς προσώπου', το οποίο πρόσφερε ένα 'δίκτυο προβλέψεων ομορφιάς προσώπου' (FBP) που ήταν ικανό να βαθμολογεί τα πρόσωπα με βάση την αντιληπτή ομορφιά, αλλά δεν μπορούσε να μετατρέψει ή 'βελτιώσει' τα πρόσωπα. Πηγή: https://arxiv.org/pdf/1801.06345.pdf

Από το άρθρο του 2018 ‘SCUT-FBP5500: Eine διαφορετική βάση δεδομένων για την πρόβλεψη ομορφιάς προσώπου’, το οποίο πρόσφερε ένα ‘δίκτυο προβλέψεων ομορφιάς προσώπου’ (FBP) που ήταν ικανό να βαθμολογεί τα πρόσωπα με βάση την αντιληπτή ομορφιά, αλλά δεν μπορούσε να μετατρέψει ή ‘βελτιώσει’ τα πρόσωπα. Πηγή: https://arxiv.org/pdf/1801.06345.pdf

Αντίθετα με το νέο έργο, το έργο του 2018 δεν μπορεί να εκτελέσει μετατροπές, αλλά περιέχει αλγοριθμικές κρίσεις για 5.500 πρόσωπα, που παρέχονται από 60 εταίρους (50/50 διαίρεση). Αυτά έχουν ενσωματωθεί στο νέο σύστημα ως ένας αποτελεσματικός διακρίνων, για να ενημερώσουν τις μετατροπές που είναι πιθανό να βελτιώσουν την ‘ομορφιά’ μιας εικόνας.

Ενδιαφέρον είναι ότι το νέο άρθρο έχει τον τίτλο Attribute Controllable Beautiful Caucasian Face Generation by Aesthetics Driven Reinforcement Learning. Ο λόγος που όλα τα φύλα εκτός από το Καυκάσιο εξαιρούνται από το σύστημα (συνεκτιμώντας ότι οι ερευνητές είναι Κινέζοι) είναι ότι τα δεδομένα πηγής για το SCUT παρουσιάζουν μια σημαντική απόκλιση προς τα ασιατικά δεδομένα (4000 ισομερώς διαιρεμένα ασιατικά θηλυκά/αρσενικά, 1500 ισομερώς διαιρεμένα Καυκάσια θηλυκά/αρσενικά), καθιστώντας τον ‘μέσο άνθρωπο’ σε αυτή τη βάση δεδομένων με καστανά μαλλιά και καστανά μάτια.

Επομένως, για να διευκολυνθεί η παραλλαγή τουλάχιστον μέσα σε ένα φύλο, ήταν απαραίτητο να εξαιρεθεί το ασιατικό στοιχείο από τα αρχικά δεδομένα, ή να αναπτύξει ένα νέο σύστημα που θα μπορούσε να λειτουργήσει με επιτυχία. Επιπλέον, η παραλλαγή στις πολιτιστικές αντιλήψεις της ομορφιάς σημαίνει ότι τέτοια συστήματα θα χρειαστούν κάποιο βαθμό γεωγραφικής ρύθμισης σε σχέση με το τι συνιστά ‘ομορφιά’.

Σημαντικές Ιδιότητες

Για να καθορίσει τους κύριους συντελεστές για μια ‘ομορφιά’ φωτογραφία ενός ατόμου, οι ερευνητές επίσης έτρεξαν το αποτέλεσμα των διαφόρων αλλαγών στις εικόνες, σε σχέση με το πόσο καλά αυτές οι αύξησεις αυξάνουν την αλγοριθμική αντίληψη της ‘ομορφιάς’. Βρήκαν ότι τουλάχιστον ένα από τα πρόσωπα είναι πιο κεντρικό για την καλή φωτογραφία παρά για την καλή γενετική:

Εκτός από το φωτισμό, τα στοιχεία που είχαν την μεγαλύτερη επιρροή στην ομορφιά ήταν τα μαλλιά (τα οποία, στην περίπτωση των ανδρών, μπορεί να είναι ισοδύναμα με το να έχεις μια πλήρη κεφαλή μαλλιών), η στάση του σώματος και η διάθεση των ματιών (όπου η συμμετοχή με την οπτική γωνία της κάμερας είναι ένα πλεονέκτημα για την ομορφιά).

(Σχετικά με το ‘χρώμα του κοσμήματος’, το νέο σύστημα, το οποίο μπορεί να λειτουργήσει αποτελεσματικά και για αρσενικά και θηλυκά παρουσιάσεις του φύλου, δεν διακρίνει την εμφάνιση του φύλου, αλλά βασίζεται στο νέο σύστημα διακρίσεων ως ένα ‘φίλτρο’ σε αυτή τη σχέση)

Μέθοδος

Η συνάρτηση ανταμοιβής στο μηχανισμό ενίσχυσης της μάθησης στο νέο σύστημα είναι ενεργοποιημένη από μια απλή παλινδρόμηση πάνω στα δεδομένα SCUT, τα οποία εξόδου προβλέψεις ομορφιάς προσώπου.

Το σύστημα επαναλαμβάνει τα δεδομένα εισόδου εικόνων (κάτω αριστερά στο σχήμα παρακάτω). Αρχικά, ένα προ-εκπαιδευμένο ResNet18 μοντέλο (εκπαιδευμένο στο ImageNet) εξάγει χαρακτηριστικά από τις πέντε идентικές (‘y’) εικόνες. Επόμενο, μια πιθανή μετασχηματιστική ενέργεια εξάγεται από την κρυφή κατάσταση eines πλήρως συνδεδεμένου στρώματος (GRUCell, στο σχήμα παρακάτω), και οι μετατροπές εφαρμόζονται, οδηγώντας σε πέντε τροποποιημένες εικόνες που τροφοδοτούνται στο δίκτυο αισθητικής βαθμολογίας, των οποίων οι βαθμολογίες, Darwin-style, θα καθορίσουν ποιες παραλλαγές θα αναπτυχθούν και ποιες θα απορριφθούν.

Μια ευρεία εικονογράφηση της ροής εργασιών για το νέο σύστημα.

Μια εικονογράφηση της ροής εργασιών για το νέο σύστημα.

Το δίκτυο αισθητικής βαθμολογίας χρησιμοποιεί ένα Efficient Channel Attention (ECA) μονάδα, ενώ μια προσαρμογή ενός προ-εκπαιδευμένου EfficientNet-B4 είναι επιφορτισμένη με την εξαγωγή 1.792 χαρακτηριστικών από κάθε εικόνα.

Μετά την κανονικοποίηση μέσω μιας ReLU ενεργοποίησης, ένα 4-διάστατο διάνυσμα λαμβάνεται πίσω από το ECA μονάδα, το οποίο στη συνέχεια ισοπεδώνεται σε ένα μονοδιάστατο διάνυσμα μετά την ενεργοποίηση και προσαρμοστική μέση πισίνα. Τέλος, τα αποτελέσματα τροφοδοτούνται στο δίκτυο παλινδρόμησης, το οποίο ανακτά μια αισθητική βαθμολογία.

Μια ποιοτική σύγκριση της έξοδου του συστήματος. Στη κάτω σειρά, βλέπουμε το συνδυασμένο άθροισμα όλων των διακριτών στοιχείων που έχουν αναγνωριστεί από τη μέθοδο EigenGAN και στη συνέχεια ενισχυθεί. Οι μέσες βαθμολογίες FID για τις εικόνες είναι στα αριστερά των σειρών εικόνων (υψηλότερη είναι καλύτερη).

Μια ποιοτική σύγκριση της έξοδου του συστήματος. Στη κάτω σειρά, βλέπουμε το συνδυασμένο άθροισμα όλων των διακριτών στοιχείων που έχουν αναγνωριστεί από τη μέθοδο EigenGAN και στη συνέχεια ενισχυθεί. Οι μέσες βαθμολογίες FID για τις εικόνες είναι στα αριστερά των σειρών εικόνων (υψηλότερη είναι καλύτερη).

Δοκιμές και Μελέτη Χρηστών

Πέντε παραλλαγές της προτεινόμενης μεθόδου αξιολογήθηκαν αλγοριθμικά (βλέπε εικόνα παραπάνω), με Fréchet inception distance (FID, αμφισβητούμενο σε ορισμένες περιπτώσεις) βαθμολογίες που εκχωρούνται σε σύνολο 1000 εικόνων που περάστηκαν από το σύστημα.

Οι ερευνητές σημειώνουν ότι η βελτίωση του φωτισμού έπραξε μια καλύτερη βαθμολογία ομορφιάς για τα άτομα στις φωτογραφίες από πολλές άλλες πιθανές αλλαγές (π.χ. στην πραγματική εμφάνιση του ατόμου που απεικονίζεται).

Για ένα certo βαθμό, η δοκιμή του συστήματος με αυτόν τον τρόπο είναι περιορισμένη από τις ιδιομορφίες των δεδομένων SCUT, τα οποία δεν έχουν πολλά ‘λαμπρά χαμόγελα’, και οι συγγραφείς επιχειρηματολογούν ότι αυτό θα μπορούσε να υπερβαθμίσει την πιο τυπική ‘αινιγματική’ εμφάνιση στα δεδομένα, σε σύγκριση με τις πιθανές προτιμήσεις των πιθανών τελικών χρηστών (π.χ. σε μια δυτική αγορά).

Ωστόσο,既然 το σύνολο του συστήματος βασίζεται στις μέσες γνώμες μόνο 60 ατόμων (στο άρθρο EigenGAN), και既然 η ποιότητα που μελετάται είναι μακράν εμπειρική, θα μπορούσε να επιχειρηματολογηθεί ότι η διαδικασία είναι πιο σαφής από τη βάση δεδομένων.

Αν και αναφέρεται πολύ σύντομα στο άρθρο, εικόνες από EigenGAN και τις πέντε παραλλαγές του συστήματος επίσης παρουσιάστηκαν σε μια περιορισμένη μελέτη χρηστών (οκτώ συμμετέχοντες), οι οποίοι ζητήθηκαν να επιλέξουν την ‘καλύτερη εικόνα’ (η λέξη ‘ομορφιά’ αποφεύχθηκε).

Πάνω, η διεπαφή που παρουσιάστηκε στην μικρή ομάδα μελέτης· κάτω, τα αποτελέσματα.

Πάνω, η διεπαφή που παρουσιάστηκε στην μικρή ομάδα μελέτης· κάτω, τα αποτελέσματα.

Τα αποτελέσματα δείχνουν ότι η έξοδος του νέου συστήματος έπραξε την υψηλότερη επιλογή μεταξύ των συμμετεχόντων (‘MAES’ στην εικόνα παραπάνω).

Η (Ανέλεγκτη;) Παράδοση της Ομορφιάς

Η χρησιμότητα ενός τέτοιου συστήματος είναι δύσκολο να καθοριστεί, παρά το γεγονός ότι φαίνεται να υπάρχει ένα σημαντικό κέντρο της προσπάθειας σε Κίνα προς αυτούς τους στόχους. Κανένας δεν περιγράφεται στην νέα δημοσίευση.

Το προηγούμενο άρθρο EigenGAN προτείνει* ότι ένα σύστημα αναγνώρισης ομορφιάς θα μπορούσε να χρησιμοποιηθεί σε συστήματα συνιστώμενης μακιγιάζ, αισθητικής χειρουργικής, ομορφιά προσώπου, ή αναζήτηση εικόνων με βάση το περιεχόμενο.

Πιθανώς, μια τέτοια προσέγγιση θα μπορούσε επίσης να χρησιμοποιηθεί σε ιστοτόπους συναναστροφής, από τους τελικούς χρήστες, για να ‘βελτιώσουν’ τις δικές τους φωτογραφίες προφίλ σε μια εγγυημένη ‘τυχερή λήψη’, ως εναλλακτική λύση για την χρήση παλαιών φωτογραφιών, ή φωτογραφιών αλλού.

Επίσης, οι ιστότοποι συναναστροφής θα μπορούσαν να ‘βαθμολογούν’ τους πελάτες τους για να δημιουργήσουν βαθμολογίες και ακόμη και περιορισμένες-πρόσβασης βαθμίδες, αν και αυτό θα λειτουργούσε μόνο μέσω μιας διαδικασίας αυθεντικοποίησης, και όχι μέσω υποβεβλημένων φωτογραφιών (οι οποίες θα μπορούσαν επίσης να ‘βελτιωθούν’ από τους πελάτες, αν η προσέγγιση γίνει δημοφιλής).

Στην διαφήμιση, μια αλγοριθμική μέθοδος για την αξιολόγηση της ομορφιάς (μια τεχνολογία που προβλέφθηκε από τον αείμνηστο συγγραφέα επιστημονικής φαντασίας Michael Crichton στο κινηματογραφικό του βήμα Looker) θα μπορούσε να χρησιμοποιηθεί για την επιλογή της μη-ενισχυμένης δημιουργικής έξοδου που είναι πιο πιθανό να εμπλακεί με το στόχο κοινό, ενώ η ικανότητα να μεγιστοποιήσει την αισθητική επίδραση των εικόνων προσώπου, χωρίς να τις υπερβαίνει στην μορφή των deepfakes, θα μπορούσε να ενισχύσει ήδη αποτελεσματικές εικόνες που προορίζονται για να κάνουν το κοινό να ενδιαφερθεί.

Το νέο έργο υποστηρίζεται από το Εθνικό Ίδρυμα Φυσικών Επιστημών της Κίνας, το Ανοικτό Έργο του Κρατικού Εργαστηρίου Διαχείρισης και Ελέγχου Συμπλεγμάτων Συστημάτων, και το Έργο Φιλοσοφίας και Κοινωνικών Επιστημών από το Υπουργείο Παιδείας της Κίνας, μεταξύ άλλων υποστηρικτών.

 

* Πολλές από τις συστάσεις του άρθρου EigenGAN σημείο προς ένα εμπορικά διαθέσιμο βιβλίο του 2016 με τίτλο ‘Computer Models for Facial Beauty Analysis’, παρά towards ακαδημαϊκές πηγές.

Πρώτη δημοσίευση 11ης Αυγούστου 2022.

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]