Τεχνητή νοημοσύνη

Εκτίμηση Προσώπου Προσώπου για Livestreams

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

Μέχρι σήμερα, η Προσώπου Προσώπου (FAP) έχει μελετηθεί κυρίως στο πλαίσιο ψυχολογικής έρευνας, στη βιομηχανία ομορφιάς και καλλυντικών, και στο πλαίσιο χειρουργικής ομορφιάς. Είναι ένα δύσκολο πεδίο μελέτης, поскольку τα πρότυπα ομορφιάς τείνουν να είναι εθνικά παρά παγκόσμια.

Αυτό σημαίνει ότι δεν υπάρχει ένα αποτελεσματικό dataset που βασίζεται σε AI, επειδή οι μέσες τιμές που λαμβάνονται από δείγματα προσώπων/βαθμολογιών από όλους τους πολιτισμούς θα ήταν πολύ προκατειλημμένες (όπου οι πιο πυκνοκατοικημένες χώρες θα κέρδιζαν πρόσθετη ώθηση), ή εφαρμόσιμες σε κανένα πολιτισμό (όπου η μέση τιμή πολλών φυλών/βαθμολογιών θα ισοδυναμούσε με keine πραγματική φυλή).

Αντίθετα, η πρόκληση είναι να αναπτύξουμε концептуικές μεθοδολογίες και ροές εργασίας στις οποίες δεδομένα συγκεκριμένων χωρών ή πολιτισμών θα μπορούσαν να επεξεργαστούν, για να ermögουν την ανάπτυξη αποτελεσματικών μοντέλων FAP ανά περιοχή.

Οι περιπτώσεις χρήσης για FAP στην ομορφιά και την ψυχολογική έρευνα είναι αρκετά περιθωριακές, ή ειδικές για τη βιομηχανία, επομένως τα περισσότερα από τα datasets που έχουν δημιουργηθεί μέχρι σήμερα περιέχουν μόνο περιορισμένα δεδομένα, ή δεν έχουν δημοσιευθεί καθόλου.

Η εύκολη διαθεσιμότητα των online προβλέψεων ομορφιάς, κυρίως για δυτικές audiencies, δεν αντιπροσωπεύουν απαραίτητα την κατάσταση της τέχνης στη FAP, η οποία φαίνεται να κυριαρχείται από την ανατολική Ασία (πρωτίστως την Κίνα), και τα αντίστοιχα datasets της ανατολικής Ασίας.

Παραδείγματα από το έγγραφο ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Οι ευρύτερες εμπορικές χρήσεις για την εκτίμηση ομορφιάς περιλαμβάνουν τις online εφαρμογές γνωριμιών, και τα συστήματα γενικής AI που σχεδιάζονται για να ‘βελτιώσουν’ τις εικόνες των ανθρώπων (καθώς τέτοιες εφαρμογές απαιτούν ένα ποσοτικό πρότυπο ομορφιάς ως μέτρο αποτελεσματικότητας).

Σχέδια Προσώπου

Οι ελκυστικοί άνθρωποι συνεχίζουν να είναι ένα πολύτιμο περιουσιακό στοιχείο στη διαφήμιση και την κατασκευή επιρροής, καθιστώντας τις οικονομικές ενθαρρύνσεις σε αυτούς τους τομείς μια σαφή ευκαιρία για την προώθηση της κατάστασης της τέχνης των datasets και των πλαισίων FAP.

Για παράδειγμα, ένα μοντέλο AI που εκπαιδεύτηκε με δεδομένα του πραγματικού κόσμου για να αξιολογήσει και να βαθμολογήσει την ομορφιά του προσώπου θα μπορούσε να αναγνωρίσει потенτικά γεγονότα ή άτομα με υψηλό потенシャル για διαφημιστική επίδραση. Αυτή η ικανότητα θα ήταν ιδιαίτερα σχετική σε ζωντανούς βίντεο, όπου μετρήσεις όπως ‘ακολούθοι’ και ‘λίγοι’ υπηρετούν μόνο ως ρηχές ενδείξεις της ικανότητας ενός ατόμου (ή ακόμη και ενός τύπου προσώπου) να καθηλωσει το κοινό.

Αυτό είναι ένα επιφανειακό μέτρο, φυσικά, και η φωνή, η παρουσίαση και η οπτική γωνία παίζουν επίσης σημαντικό ρόλο στη συγκέντρωση του κοινού. Επομένως, η συλλογή των datasets FAP απαιτεί ανθρώπινη επιτήρηση, καθώς και την ικανότητα να διακρίνει την ομορφιά του προσώπου από τη ‘ψευδή’ ομορφιά (χωρίς την οποία, οι επηρεαστές εκτός τομέα όπως ο Alex Jones θα μπορούσαν να επηρεάσουν την μέση καμπύλη FAP για μια συλλογή που σχεδιάστηκε αποκλειστικά για να εκτιμήσει την ομορφιά του προσώπου).

LiveBeauty

Για να αντιμετωπίσουν την έλλειψη των datasets FAP, ερευνητές από την Κίνα προσφέρουν το πρώτο μεγάλης κλίμακας dataset FAP, που περιέχει 100.000 εικόνες προσώπων, μαζί με 200.000 ανθρώπινες βαθμολογίες που εκτιμούν την ομορφιά του προσώπου.

Δείγματα από το νέο dataset LiveBeauty. Source: https://arxiv.org/pdf/2501.02509

Ο τίτλος του dataset είναι LiveBeauty, και περιλαμβάνει 10.000 διαφορετικές ταυτότητες, όλες τις οποίες έχουν καταγραφεί από (απροσδιόριστους) ζωντανούς βίντεο σε ζωντανούς βίντεο τον Μάρτιο του 2024.

Οι συγγραφείς επίσης παρουσιάζουν την FPEM, μια νέα πολλαπλή FAP μέθοδο. Η FPEM ενσωματώνει ολιστική γνώση προσώπου και πολλαπλά αισθητικά σημασιολογικά χαρακτηριστικά μέσω ενός Προσωπικού Πriors_MODULE (PAPM), ενός Πολλαπλού Αισθητικού Κωδικοποιητή (MAEM) και ενός Δια-Μοντέλου Συγχώνευσης (CMFM).

Το έγγραφο υποστηρίζει ότι η FPEM επιτυγχάνει την κατάσταση της τέχνης στην απόδοση στο νέο dataset LiveBeauty, και σε άλλα datasets FAP. Οι συγγραφείς σημειώνουν ότι η έρευνα έχει потенτικές εφαρμογές για την βελτίωση της ποιότητας βίντεο, την συσταση περιεχομένου και την ομορφιά του προσώπου σε ζωντανούς βίντεο.

Οι συγγραφείς επίσης υποσχέθηκαν να κάνουν το dataset διαθέσιμο ‘σύντομα’ – αν και πρέπει να αναγνωριστεί ότι οι περιορισμοί άδειας που υπάρχουν στο πεδίο πηγή φαίνεται να θα περάσουν στην πλειοψηφία των εφαρμογών που θα χρησιμοποιήσουν το έργο.

Το νέο έγγραφο έχει τον τίτλο Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method, και προέρχεται από δέκα ερευνητές από την Alibaba Group και το Πανεπιστήμιο Shanghai Jiao Tong.

Μέθοδος και Δεδομένα

Από κάθε 10ωρη μετάδοση από τις ζωντανούς βίντεο πλατφόρμες, οι ερευνητές συνέλεξαν μια εικόνα ανά ώρα για τις πρώτες τρεις ώρες. Οι μεταδόσεις με τις υψηλότερες προβολές σελίδας επιλέχθηκαν.

Τα συλλεγμένα δεδομένα υποβέθηκαν σε πολλαπλά στάδια προεπεξεργασίας. Το πρώτο από αυτά είναι η μέτρηση του μεγέθους της περιοχής του προσώπου, η οποία χρησιμοποιεί το μοντέλο ανίχνευσης FaceBoxes του 2018 για να δημιουργήσει einen περιορισμό γύρω από τα χαρακτηριστικά του προσώπου. Η διαδικασία διασφαλίζει ότι η μικρότερη πλευρά του περιορισμού υπερβαίνει τα 90 pixel, αποφεύγοντας μικρές ή ασαφείς περιοχές προσώπου.

Το δεύτερο βήμα είναι η ανίχνευση θόλωσης, η οποία εφαρμόζεται στην περιοχή του προσώπου χρησιμοποιώντας τη διακύμανση του Laplacian operator στη διεύθυνση Y του προσώπου. Η διακύμανση αυτή πρέπει να είναι μεγαλύτερη από 10, το οποίο βοηθά να φιλτράρει τις θολές εικόνες.

Το τρίτο βήμα είναι η εκτίμηση της στάθμης του προσώπου, η οποία χρησιμοποιεί το μοντέλο εκτίμησης στάθμης 3DDFA-V2 του 2021:

Παραδείγματα από το μοντέλο εκτίμησης στάθμης 3DDFA-V2. Source: https://arxiv.org/pdf/2009.09960

Εδώ, η διαδικασία διασφαλίζει ότι η γωνία πίτσας του αποκομμένου προσώπου δεν υπερβαίνει τα 20 μοίρες, και η γωνία yaw δεν υπερβαίνει τα 15 μοίρες, η οποία αποκλείει τα πρόσωπα με ακραίες στάθμες.

Το τέταρτο βήμα είναι η αξιολόγηση της αναλογίας του προσώπου, η οποία επίσης χρησιμοποιεί τις ικανότητες τμηματοποίησης του μοντέλου 3DDFA-V2, διασφαλίζοντας ότι η αναλογία της περιοχής του προσώπου είναι μεγαλύτερη από 60% της εικόνας, αποκλείοντας εικόνες όπου το πρόσωπο δεν είναι προεξέχον.

Τέλος, το πέμπτο βήμα είναι η αφαίρεση διπλότυπων χαρακτήρων, η οποία χρησιμοποιεί ένα (ανεπίσημο) μοντέλο αναγνώρισης προσώπου, για περιπτώσεις όπου η ίδια ταυτότητα εμφανίζεται σε περισσότερες από μία εικόνες που συλλέχθηκαν για ένα 10ωρο βίντεο.

Ανθρώπινη Αξιολόγηση και Αναnotation

Είκοσι αναθεωρητές ανατέθηκαν, αποτελούμενοι από έξι άνδρες και 14 γυναίκες, αντανακλώντας τη δημογραφία της ζωντανούς πλατφόρμας*. Τα πρόσωπα εμφανίστηκαν στην οθόνη 6,7 ιντσών του iPhone 14 Pro Max, υπό συνεχή εργαστηριακές συνθήκες.

Η αξιολόγηση χωρίστηκε σε 200 συνεδρίες, κάθε eine από τις οποίες χρησιμοποιούσε 50 εικόνες. Οι συμμετέχοντες ζητήθηκαν να βαθμολογήσουν την ομορφιά του προσώπου των δειγμάτων σε μια κλίμακα 1-5, με ένα πέντελεπτο διάλειμμα μεταξύ κάθε συνεδρίας, και όλοι οι συμμετέχοντες συμμετείχαν σε όλες τις συνεδρίες.

Επομένως, όλη η συλλογή των 10.000 εικόνων αξιολογήθηκε από είκοσι ανθρώπινους συμμετέχοντες, φτάνοντας σε 200.000 αναnotations.

Ανάλυση και Προεπεξεργασία

Πρώτα, η μετα-οθόνη των συμμετεχόντων πραγματοποιήθηκε χρησιμοποιώντας το ποσοστό των outlierratio και το συντελεστή Spearman’s Rank Correlation Coefficient (SROCC). Οι συμμετέχοντες των οποίων οι βαθμολογίες είχαν ένα SROCC μικρότερο από 0,75 ή ένα outlierratio μεγαλύτερο από 2% θεωρήθηκαν αναξιόπιστοι και αφαιρέθηκαν, με 20 συμμετέχοντες τελικά.

Ένα Μέσο Βαθμό Γνώμης (MOS) υπολογίστηκε για κάθε εικόνα προσώπου, μέσω της μέσης των βαθμολογιών που λήφθηκαν από τους έγκυρους συμμετέχοντες. Το MOS χρησιμεύει ως το ground truth label ομορφιάς για κάθε εικόνα, και ο βαθμός υπολογίζεται μέσω της μέσης των ατομικών βαθμολογιών από κάθε έγκυρο συμμετέχοντα.

Τέλος, η ανάλυση των MOS κατανομών για όλα τα δείγματα, καθώς και για τα γυναικεία και ανδρικά δείγματα, έδειξε ότι παρουσίαζαν ένα Gaussian-στυλ σχήμα, το οποίο είναι συνεπές με τις πραγματικές κατανομές ομορφιάς προσώπου:

Παραδείγματα από τις κατανομές MOS του LiveBeauty.

Οι περισσότεροι άνθρωποι τείνουν να έχουν μέση ομορφιά προσώπου, με λιγότερους ανθρώπους στα άκρα της πολύ χαμηλής ή πολύ υψηλής ομορφιάς.

Επιπλέον, η ανάλυση των τιμών skewness και kurtosis έδειξε ότι οι κατανομές χαρακτηρίζονταν από λεπτές ουρές και συγκεντρώθηκαν γύρω από τη μέση βαθμολογία, και ότι η υψηλή ομορφιά ήταν πιο συχνή μεταξύ των γυναικείων δειγμάτων στη συλλογή ζωντανού βίντεο.

Αρχιτεκτονική

Μια στρατηγική εκπαίδευσης δύο σταδίων χρησιμοποιήθηκε για το Facial Prior Enhanced Multi-modal (FPEM) και τη Φάση Υβριδικής Συγχώνευσης στο LiveBeauty, χωρισμένη σε τέσσερις μονάδες: ένα Προσωπικό Πriors_MODULE (PAPM), ένα Πολλαπλό Αισθητικό Κωδικοποιητή (MAEM), ένα Δια-Μοντέλου Συγχώνευσης (CMFM) και το Μοντέλο Απόφασης Συγχώνευσης (DFM).

Εννοιολογικό σχήμα για τη διαδικασία εκπαίδευσης του LiveBeauty.

Το PAPM λαμβάνει μια εικόνα ως εισαγωγή και εξάγει πολλαπλά οπτικά χαρακτηριστικά χρησιμοποιώντας einen Swin Transformer, και επίσης εξάγει χαρακτηριστικά προσώπου χρησιμοποιώντας ένα προ-εκπαιδευμένο μοντέλο FaceNet. Αυτά τα χαρακτηριστικά συνδυάζονται χρησιμοποιώντας einen cross-attention block για να δημιουργήσουν ένα προσωπικό ‘ομορφιά’ χαρακτηριστικό.

Επίσης, στη Φάση Προκαταρκτικής Εκπαίδευσης, το MAEM χρησιμοποιεί μια εικόνα και κείμενο περιγραφές ομορφιάς, αξιοποιώντας το CLIP για να εξάγει πολλαπλά αισθητικά σημασιολογικά χαρακτηριστικά.

Τα κείμενα περιγραφών είναι σε μορφή ‘μια φωτογραφία ενός ατόμου με {a} ομορφιά’ (όπου {a} μπορεί να είναι κακή, κακή, μέτρια, καλή ή τέλεια). Η διαδικασία εκτιμά τη συντελεστή cosine ομοιότητας μεταξύ των κειμένων και οπτικών ενσωματώσεων για να φτάσει σε μια πιθανότητα ομορφιάς.

Στη Φάση Υβριδικής Συγχώνευσης, το CMFM βελτιώνει τις κειμενικές ενσωματώσεις χρησιμοποιώντας το προσωπικό χαρακτηριστικό ομορφιάς που παράγεται από το PAPM, δημιουργώντας έτσι προσωπικές κειμενικές ενσωματώσεις. Τότε, χρησιμοποιεί μια στρατηγική similarity regression για να κάνει μια πρόβλεψη.

Τέλος, το DFM συνδυάζει τις ατομικές προβλέψεις από το PAPM, το MAEM και το CMFM για να παράγει ένα單ο, τελικό βαθμό ομορφιάς, με στόχο να επιτύχει μια σταθερή συναίνεση.

Συναρτήσεις Απώλειας

Για τις μετρήσεις απώλειας, το PAPM εκπαιδεύεται χρησιμοποιώντας eine L1 απώλεια, μια μέτρηση της απόλυτης διαφοράς μεταξύ του προβλεπόμενου βαθμού ομορφιάς και του πραγματικού (ground truth) βαθμού ομορφιάς.

Το MAEM χρησιμοποιεί μια πιο σύνθετη συνάρτηση απώλειας που συνδυάζει μια απώλεια βαθμολογίας (LS) με μια συνδυασμένη απώλεια κατάταξης (LR). Η απώλεια κατάταξης (LR) αποτελείται από μια πιστότητα απώλεια (LR1) και μια двιδιανής απώλεια κατάταξης (LR2).

Η LR1 συγκρίνει τη σχετική ομορφιά των ζευγαριών εικόνων, ενώ η LR2 διασφαλίζει ότι η προβλεπόμενη πιθανότητα κατανομής των επιπέδων ομορφιάς έχει ένα單ο πικό και μειώνεται και στις δύο κατευθύνσεις. Αυτή η συνδυασμένη προσέγγιση στοχεύει στην оптимποίηση τόσο της ακριβούς βαθμολογίας όσο και της σωστής κατάταξης των εικόνων με βάση την ομορφιά.

Το CMFM και το DFM εκπαιδεύονται χρησιμοποιώντας eine απλή L1 απώλεια.

Δοκιμές

Στις δοκιμές, οι ερευνητές έθεσαν το LiveBeauty ενάντια σε εννέα προηγούμενες προσεγγίσεις: ComboNet, 2D-FAP, REX-INCEP, CNN-ER, MEBeauty, AVA-MLSP, TANet, Dele-Trans και EAT.

Οι μεθόδους αναφοράς που συμμορφώνονται με το πρωτόκολλο Image Aesthetic Assessment (IAA) cũng δοκιμάστηκαν. Αυτές ήταν οι ViT-B, ResNeXt-50 και Inception-V3.

Εκτός από το LiveBeauty, τα άλλα datasets που δοκιμάστηκαν ήταν τα SCUT-FBP5000 και MEBeauty. Παρακάτω, οι κατανομές MOS αυτών των datasets συγκρίνονται:

Κατανομές MOS των datasets αναφοράς.

Αυτά τα datasets ήταν χωρισμένα σε 60%-40% και 80%-20% για εκπαίδευση και δοκιμή, αντίστοιχα, για να διατηρηθεί η συνέπεια με τα πρωτόκολλα τους. Το LiveBeauty χωρίστηκε σε 90%-10%.

Για την αρχικοποίηση του μοντέλου στο MAEM, χρησιμοποιήθηκαν οι VT-B/16 και GPT-2 ως κωδικοποιητές εικόνας και κειμένου, αντίστοιχα, αρχικοποιημένοι από τις ρυθμίσεις του CLIP. Για το PAPM, χρησιμοποιήθηκε ο Swin-T ως εκπαιδεύσιμος κωδικοποιητής εικόνας, σύμφωνα με το SwinFace.

Ο βελτιωτής AdamW χρησιμοποιήθηκε, και ένας προγραμματιστής ρυθμίσεων μάθησης με lineαρική θέρμανση υπό einen σχήμα cosine annealing. Οι ρυθμίσεις μάθησης διαφέρουν κατά τη διάρκεια των φάσεων εκπαίδευσης, αλλά κάθε eine είχε einen batch μεγέθους 32, για 50 επαναλήψεις.

Αποτελέσματα από τις δοκιμές

Αποτελέσματα από τις δοκιμές στα τρία datasets FAP εμφανίζονται παραπάνω. Από αυτά τα αποτελέσματα, το έγγραφο αναφέρει:

‘Η προτεινόμενη μέθοδος μας επιτυγχάνει την πρώτη θέση και υπερβαίνει τη δεύτερη θέση περίπου 0,012, 0,081, 0,021 όσον αφορά τις τιμές SROCC στα LiveBeauty, MEBeauty και SCUT-FBP5500, αντίστοιχα, το οποίο αποδεικνύει την υπεροχή της προτεινόμενης μας μεθόδου.

‘Οι μέθοδοι IAA είναι κατώτερες από τις μέθοδοι FAP, οι οποίες αποδεικνύουν ότι οι γενικές μέθοδοι αξιολόγησης αισθητικής παραβλέπουν τα χαρακτηριστικά προσώπου που εμπλέκονται στη υποκειμενική φύση της ομορφιάς του προσώπου, οδηγώντας σε κακή απόδοση στα έργα FAP.

‘Η απόδοση όλων των μεθόδων μειώνεται σημαντικά στο MEBeauty. Αυτό οφείλεται στο ότι τα δείγματα εκπαίδευσης είναι περιορισμένα και τα πρόσωπα είναι εθνοτικά διαφορετικά στο MEBeauty, υποδεικνύοντας ότι υπάρχει eine μεγάλη ποικιλία στην ομορφιά του προσώπου.

‘Όλα αυτά τα στοιχεία καθιστούν την πρόβλεψη της ομορφιάς του προσώπου στο MEBeauty πιο δύσκολη.’

Ηθικές Σκέψεις

Η έρευνα για την ομορφιά είναι μια потенτικά διαιρετική αναζήτηση,既然 στην καθιέρωση υποτιθέμενων εμπειρικών προτύπων ομορφιάς, τέτοιες συστήματα θα τείνουν να ενισχύουν τις προκαταλήψεις γύρω από την ηλικία, το φύλο και πολλά άλλα τμήματα της έρευνας υπολογιστή όσον αφορά τους ανθρώπους.

Θα μπορούσε να υποστηριχθεί ότι ένα σύστημα FAP είναι εγγενώς προκατειλημμένο να ενισχύσει και να διατηρήσει μερικές και προκατειλημμένες απόψεις για την ομορφιά. Αυτές οι κρίσεις μπορεί να προέλθουν από ανθρώπινες αναnotations – συχνά που διεξάγονται σε κλίμακες που είναι πολύ περιορισμένες για αποτελεσματική γενίκευση τομέα – ή από την ανάλυση των προτύπων προσοχής σε online περιβάλλοντα όπως οι πλατφόρμες ζωντανού βίντεο, τα οποία είναι, ενδεχομένως, μακράν από το να είναι μεριτοκρατικά.

* Το έγγραφο αναφέρεται στην ανώνυμη πηγή/ες τόσο στο ενικό όσο και στο πληθυντικό.

Πρώτη δημοσίευση την Τετάρτη, 8 Ιανουαρίου 2025

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]