Connect with us

Το AI μπορεί να μαντέψει το έτος μιας φωτογραφίας από τις ηλικίες των ανθρώπων

Η γωνία του Anderson

Το AI μπορεί να μαντέψει το έτος μιας φωτογραφίας από τις ηλικίες των ανθρώπων

mm
An image from the source paper 'Photo Dating by Facial Age Aggregation', overlaid against an image of a desk surface with a 1974 calendar on it. Source: eBay and Source paper + Firefly V3.

Νέα έρευνα δείχνει ότι το AI μπορεί να χρησιμοποιήσει τα πρόσωπα των ανθρώπων για να εκτιμήσει το έτος που μια φωτογραφία λήφθηκε, συνδυάζοντας εκτιμήσεις ηλικίας με γνωστά έτη γέννησης για να υπερβεί τις τρέχουσες μεθόδους που βασίζονται σε σκηνές.

 

Η εκτίμηση της ημερομηνίας μιας φωτογραφίας ήταν κάποτε πολύ πιο εύκολη από ό,τι είναι τώρα, επειδή οι μόδες μαλλιών και ενδυμάτων εξελισσόταν με ταχύτατο ρυθμό. Για πολλά αμφισβητούμενα λόγους, αυτή η αναταραχή της οπτικής στυλ τελείωσε περίπου πριν από τριάντα χρόνια, σημαίνοντας ότι δεν είναι πλέον τόσο εύκολο να κοιτάξεις ένα στυλ μαλλιών ή ενδυμάτων και να μαντέψεις το έτος από αυτό το είδος οπτικού ενδείκτη.

Για κάποιο διάστημα, ήταν δυνατό επίσης να χρονολογηθούν εικόνες και ταινίες με βάση την ανάλυση χρώματος και τα χαρακτηριστικά του grain του φιλμ. Δεν χρειαζόταν να είσαι ειδικός σε δακτυλικό αποτύπωμα· αν έβλεπες αρκετές παλιές ταινίες, οι πολιτιστικές ενδείξεις (όπως η μουσική, τα αυτοκίνητα, η μόδα, τα θέματα κ.λπ.) θα συνδέονταν τελικά, από τον θεατή, με στυλ φιλμ:

Μια εικονογράφηση του τρόπου με τον οποίο οι βελτιώσεις στο φιλμ επέκτειναν σταδιακά το εύρος των τόνων δέρματος και των στυλ φωτισμού με το πέρασμα του χρόνου, μετακινούμενα από επίπεδες, μπροστινές διατάξεις σε πιο φυσικές και ποικίλες εμφανίσεις. [ Πηγή ] https://archive.is/3ZSjN (δικό μου άρθρο)

Μια εικονογράφηση του τρόπου με τον οποίο οι βελτιώσεις στο φιλμ επέκτειναν σταδιακά το εύρος των τόνων δέρματος και των στυλ φωτισμού με το πέρασμα του χρόνου, μετακινούμενα από επίπεδες, μπροστινές διατάξεις σε πιο φυσικές και ποικίλες εμφανίσεις. Πηγή (δικό μου άρθρο)

Ένα επιπλέον “άγκιστρο” για τη χρονολόγηση μιας φωτογραφίας ήταν εάν ήταν σε ασπρόμαυρο – μια οικονομία που έγινε άχρηστη μετά την δημοτικότητα της ψηφιακής φωτογραφίας στις αρχές του αιώνα

Μια σειρά από εμπορικά και πειραματικά συστήματα, όπως το MyHeritage PhotoDater που περιλαμβάνεται στη συνδρομή, προσπαθούν να χρονολογούν φωτογραφίες χρησιμοποιώντας αυτά και διάφορα άλλα κριτήρια.

Ένα παράδειγμα εκτίμησης ηλικίας φωτογραφίας από την υπηρεσία PhotoDater του MyHeritage. Πηγή [ https://www.youtube.com/watch?v=2oVyLI6tBcY ]

Ένα παράδειγμα εκτίμησης ηλικίας φωτογραφίας από την υπηρεσία PhotoDater του MyHeritage. Πηγή

Απουσία άλλων ενδείξεων, όπως smartphones ή άλλη ερασιτεχνική τεχνολογία, ο καλύτερος τρόπος για να πει κάποιος την ηλικία μιας φωτογραφίας που λήφθηκε τα τελευταία 15-25 χρόνια είναι αν είναι εξοικειωμένος με το άτομο (δηλ. ένας διασημότητα, ή ίσως ένας γνωστός), και μπορεί να εκτιμήσει την ηλικία, η οποία δίνει μια груπική ισοδύναμη χρονιά.

Η ηλικία του προσώπου ως αναφορά

Στον τομέα της υπολογιστικής όρασης και σε διάφορους άλλους τομείς (π.χ. δακτυλικό αποτύπωμα, επεξεργασία αρχείων, δημοσιογραφία, αρχιτεκτονική συνόλου κ.λπ.) η ικανότητα να καθορίσει την ηλικία μιας φωτογραφίας είναι ένα πολύτιμο στόχο,既然 πολλά από τα πιο ενδιαφέροντα ψηφιακά και αναλογικά συλλογικά λείπουν από σωστή αναnotation και μεταδεδομένα, ή ακόμη και έχουν λάθος μεταδεδομένα από προηγούμενες (λάθος) εκτιμήσεις.

Επομένως, θα ήταν χρήσιμο αν ένα σύστημα AI μπορούσε να αναθεωρήσει φωτογραφίες με τον ίδιο τρόπο που κάνουμε όταν κοιτάζουμε πίσω τις ιστορικές μας συλλογές και σχολιάζουμε ‘Ναι, αυτή ήταν όταν…’. Το ερώτημα είναι, τι θα μπορούσε να είναι το κрюκ; Απουσία των συνήθων απαραίτητων ενδείξεων;

Μια νέα έρευνα από την Τσεχία προσφέρει μια αρχική βάση για αυτήν την προσέγγιση, εκμεταλλευόμενο AI-βασισμένα αναγνώριση ηλικίας συστήματα, σε συνδυασμό με προσώπου αναγνώριση συστήματα συνδεδεμένα με μια κοινή βάση δεδομένων ταυτοτήτων (σε αυτήν την περίπτωση, μια συλλογή IMDB-στυλ που περιλαμβάνει Τσέχους εκτελεστές και σκηνοθέτες):

Ένα στιγμιότυπο από το Joachim, Put It in the Machine (1974), που χρησιμοποιείται για να εικονογραφήσει τη διαδικασία χρονολόγησης. Το μοντέλο ανιχνεύει γνωστές προσωπικότητες στη φωτογραφία, εκτιμά την ηλικία τους χρησιμοποιώντας einen εκτιμητή ηλικίας προσώπου (δεξιά στήλη) και αφαιρεί αυτήν την τιμή από το έτος γέννησης κάθε ατόμου για να παράγει μια πιθανότητα κατανομής για πιθανές ημερομηνίες φωτογραφίας. Τα γραφήματα δείχνουν την πιθανότητα κάθε εκτίμησης ηλικίας, με διακεκομμένες γραμμές που σηματοδοτούν την πραγματική ηλικία του ατόμου την ώρα της φωτογραφίας.

Ένα στιγμιότυπο από το ‘Joachim, Put It in the Machine’ (1974), που χρησιμοποιείται για να εικονογραφήσει τη διαδικασία χρονολόγησης. Το μοντέλο ανιχνεύει γνωστές προσωπικότητες στη φωτογραφία, εκτιμά την ηλικία τους χρησιμοποιώντας einen εκτιμητή ηλικίας προσώπου (δεξιά στήλη) και αφαιρεί αυτήν την τιμή από το έτος γέννησης κάθε ατόμου για να παράγει μια πιθανότητα κατανομής για πιθανές ημερομηνίες φωτογραφίας. Τα γραφήματα δείχνουν την πιθανότητα κάθε εκτίμησης ηλικίας, με διακεκομμένες γραμμές που σηματοδοτούν την πραγματική ηλικία του ατόμου την ώρα της φωτογραφίας. Πηγή

Το σύστημα λειτουργεί ανιχνεύοντας γνωστές προσωπικότητες σε μια φωτογραφία, εκτιμώντας την ηλικία τους χρησιμοποιώντας ένα προεκπαιδευμένο μοντέλο και αφαιρώντας αυτήν την εκτίμηση από το έτος γέννησής τους για να παράγει πιθανές ημερομηνίες για τη φωτογραφία. Όταν υπάρχουν πολλά πρόσωπα, οι εκτιμήσεις ημερομηνίας συγχωνεύονται για να παράγουν μια τελική πρόβλεψη.

Η μέθοδος δοκιμάστηκε σε εικόνες που έχουν επιμεληθεί από τη βάση δεδομένων Czecho-Slovak Movie Database (CSFD), με την αποτέλεσμα προσέγγιση, οι συγγραφείς ισχυρίζονται, προσφέρει συνεχώς καλύτερη ακρίβεια από τα μοντέλα που βασίζονται σε σκηνές (στατικά μοντέλα που βασίζονται σε στοιχεία φόντου ή οπτικό контекστό αντί για πρόσωπα) που εκπαιδεύονται στα ίδια δεδομένα.

Το σχήμα για αυτήν τη μέθοδο απαιτεί μια κεντρική βάση δεδομένων που περιέχει γνώσεις για μια ευρεία ομάδα ατόμων· σε αυτήν την περίπτωση, η βάση δεδομένων IMDB-στυλ για Τσέχους κινηματογραφιστές· αλλά οποιαδήποτε παρόμοια συλλογή που περιλαμβάνει επιβεβαιωμένα έτη γέννησης και κεντρικές ημερομηνίες-επιβεβαιωμένα γεγονότα θα μπορούσε να οδηγήσει σε παρόμοιο αποτέλεσμα.

Το έγγραφο αναφέρει:

‘Μοναδικά, το σύνολο δεδομένων μας παρέχει αναnotations για πολλά άτομα σε μια einz εικόνα, ermögνοντας τη μελέτη της συσσώρευσης πληροφοριών από πολλά πρόσωπα. Προτείνουμε ένα πιθανοτικό πλαίσιο που συνδυάζει正式ά οπτική απόδειξη από σύγχρονα μοντέλα αναγνώρισης προσώπου και εκτίμησης ηλικίας, και καριέρα-χρονικά προηγούμενα για να συναγάγει το έτος λήψης της φωτογραφίας.

‘Οι πειραματικές μας δοκιμές δείχνουν ότι η συσσώρευση αποδείξεων από πολλά πρόσωπα βελτιώνει συνεχώς την απόδοση και η προσέγγιση υπερβαίνει σημαντικά ισχυρά, scene-βασισμένα baselines, ιδιαίτερα για εικόνες που περιέχουν πολλά αναγνωρίσιμα άτομα.’

Το νέο έγγραφο έχει τον τίτλο Χρονολόγηση φωτογραφίας με συσσώρευση ηλικίας προσώπου και προέρχεται από δύο ερευνητές στο Τσεχικό Τεχνικό Πανεπιστήμιο στην Πράγα, με την υπόσχεση μιας μεταγενέστερης κυκλοφορίας κώδικα/δεδομένων.

Μέθοδος

Για να εκτιμήσει πότε μια φωτογραφία λήφθηκε, το νέο σύστημα του συγγραφέα κοιτάζει κάθε ανιχνευμένο πρόσωπο και προσπαθεί να μαντέψει ποιος μπορεί να είναι, χρησιμοποιώντας την προαναφερθείσα βάση δεδομένων γνωστών ατόμων. 既然 ένας άνθρωπος μπορεί να εμφανιστεί μόνο μια φορά σε μια φωτογραφία, το σύστημα ελέγχει όλους τους πιθανούς συνδυασμούς ταυτοτήτων και χρησιμοποιεί τα γνωστά έτη γέννησής τους για να μαντέψει πόσο μεγάλος φαίνεται ο κάθε άνθρωπος.

Μετά από αυτό, εργάζεται ανάποδα για να εκτιμήσει το πιθανότερο έτος που θα κάνει αυτές τις ηλικίες να ταιριάζουν:

Αριστερά: το σύστημα κατασκευάζει μια χρονολογική γραμμή που δείχνει πότε οι αναγνωρισμένες προσωπικότητες ήταν πιο ενεργές, με βάση τις γνωστές καριέρες τους. Δεξιά: αυτό συνδυάζεται με εκτιμήσεις ηλικίας προσώπου για να παράγει μια τελική εκτίμηση για πότε λήφθηκε η εικόνα.

Αριστερά: το σύστημα κατασκευάζει μια χρονολογική γραμμή που δείχνει πότε οι αναγνωρισμένες προσωπικότητες ήταν πιο ενεργές, με βάση τις γνωστές καριέρες τους. Δεξιά: αυτό συνδυάζεται με εκτιμήσεις ηλικίας προσώπου για να παράγει μια τελική εκτίμηση για πότε λήφθηκε η εικόνα.

Για να διαχειριστεί τον μεγάλο αριθμό πιθανών συνδυασμών ταυτοτήτων, το σύστημα υποθέτει ότι τα πρόσωπα είναι ανεξάρτητα, και ότι η εμφάνιση κάθε προσώπου εξαρτάται μόνο από την ταυτότητά του και την ημερομηνία της φωτογραφίας.

Για να εκτιμήσει πότε μια φωτογραφία λήφθηκε, το σύστημα πρώτα μαντέψει την ηλικία κάθε ανιχνευμένου προσώπου χρησιμοποιώντας το μοντέλο cvut-002, το οποίο βασίζεται σε μια ViT-B/16 αρχιτεκτονική, και εκπαιδεύτηκε σε ένα ιδιωτικό σύνολο δεδομένων (το οποίο, οι συγγραφείς δηλώνουν, κατατάσσεται υψηλά στη βάση δεδομένων FATE του NIST).

Όταν το έτος γέννησης του ατόμου είναι γνωστό, το μοντέλο μετατρέπει την εκτίμηση ηλικίας σε μια πιθανή ημερομηνία φωτογραφίας απλώς προσθέτοντας την ηλικία στο έτος γέννησης, παράγοντας μια πιθανότητα κατανομής για πιθανές ημερομηνίες λήψης. Για να αξιολογήσει πόσο καλά ένα ανιχνευμένο πρόσωπο ταιριάζει με μια γνωστή ταυτότητα, το σύστημα συγκρίνει τις εμφυτεύσεις τους στο ArcFace χώρο:

Το ArcFace, η κεντρική συνεισφορά αρχιτεκτονικής για το δημοφιλές μοντέλο InsightFace, εκκινήθηκε το 2015, προdestined να γίνει ένα επιρροή project στην αξιολόγηση και την оценка προσώπου.

Το ArcFace, η κεντρική συνεισφορά αρχιτεκτονικής για το δημοφιλές μοντέλο InsightFace, εκκινήθηκε το 2015, προdestined να γίνει ένα επιρροή project στην αξιολόγηση και την оценка προσώπου. Πηγή

Κάθε ταυτότητα αντιπροσωπεύεται από μια μέση εμφύτευση που κατασκευάζεται από τις αναφορικές της πορτρέτα. Η ομοιότητα μεταξύ ενός δοκιμαστικού προσώπου και μιας ταυτότητας μετράται χρησιμοποιώντας eine Von Mises Fisher Distribution, η οποία μοντελοποιεί πόσο στενά τα πορτρέτα της ταυτότητας κάνουν cluster γύρω από αυτήν την μέση. Ένας κοινός παράμετρος οξύτητας ελέγχει πόσο βέβαιο είναι το σύστημα σε αυτά τα cluster, και εκτιμάται χρησιμοποιώντας eine απομάκρυνση-μια-στρατηγική στις ταυτότητες πορτρέτα.

Το μοντέλο ορίζει πέντε τύπους πriors για να εκτιμήσει πότε μια αναγνωρισμένη προσωπικότητα μπορεί να εμφανιστεί σε μια φωτογραφία: ομοιόμορφο; δεκαετίας; ταινίας; εικόνας; και ένα συνδυασμένο prior που συνδυάζει τις ισχυρότερες και τις πιο αδύναμες επιλογές, για να δοκιμάσει την ευαισθησία στη δύναμη του prior (δηλ. την αντοχή των priors υπό πίεση).

Για να χειριστεί τα πρόσωπα που δεν μπορούν να αναγνωριστούν με βεβαιότητα, το μοντέλο περιλαμβάνει ένα fallback ‘άγνωστη’ ταυτότητα με μη-ενημερωτικές κατανομές, που χαρακτηρίζεται από μια πιθανότητα προσώπου που είναι επίπεδη στο χώρο εμφύτευσης, και ένα χρονικό prior που είναι επίπεδο σε όλα τα έτη. Αυτό επιτρέπει στα αβέβαια πρόσωπα να αγνοηθούν χωρίς να προκαλούν προκατάληψη στην τελική εκτίμηση ημερομηνίας:

Πόσο επηρεάζεται η απόδοση όταν υπάρχουν πρόσωπα που δεν μπορούν να αναγνωριστούν. Κάθε τετραγωνίδιο δείχνει το μέσο σφάλμα χρονολόγησης για διαφορετικούς αριθμούς γνωστών και άγνωστων ταυτοτήτων, με το μέγεθος του τετραγωνιδίου να αντικατοπτρίζει πόσο συχνά εμφανίζεται αυτή η συνδυασμένη κατάσταση στο σύνολο δεδομένων. Το σφάλμα αυξάνεται με περισσότερα άγνωστα, αλλά μειώνεται σταθερά καθώς προστίθενται περισσότερες γνωστές ταυτότητες.

Πόσο επηρεάζεται η απόδοση όταν υπάρχουν πρόσωπα που δεν μπορούν να αναγνωριστούν. Κάθε τετραγωνίδιο δείχνει το μέσο σφάλμα χρονολόγησης για διαφορετικούς αριθμούς γνωστών και άγνωστων ταυτοτήτων, με το μέγεθος του τετραγωνιδίου να αντικατοπτρίζει πόσο συχνά εμφανίζεται αυτή η συνδυασμένη κατάσταση στο σύνολο δεδομένων. Το σφάλμα αυξάνεται με περισσότερα άγνωστα, αλλά μειώνεται σταθερά καθώς προστίθενται περισσότερες γνωστές ταυτότητες.

Δεδομένα και δοκιμές

Οι συγγραφείς χρησιμοποίησαν τη βάση δεδομένων CSFD για να δημιουργήσουν ένα νέο σύνολο δεδομένων που ονόμασαν CSFD-1.6M. Το σύνολο δεδομένων κατασκευάστηκε από σκηνές που περιείχαν πολλά άτομα, με κάθε πρόσωπο να έχει ετικέτα με ταυτότητα και έτος. Αυτή η δομή ήταν απαραίτητη για να διδάξει το μοντέλο πώς τα πρόσωπα σχετίζονται μεταξύ τους σε контекστό· τα σύνολα δεδομένων με ένα πρόσωπο, όπως το IMDB-WIKI, δεν υποστηρίζουν这一,既然 ετικετώνουν μόνο ένα άτομο ανά εικόνα.

Τα έτη κυκλοφορίας ταινιών από τη βάση δεδομένων Czecho-Slovak Movie Database χρησιμοποιήθηκαν για να εκτιμηθεί πότε μια φωτογραφία λήφθηκε, με κάθε άτομο στην εικόνα να αντιστοιχίζεται σε ένα δημόσιο προφίλ που περιλαμβάνει το έτος γέννησής του και ένα πορτρέτο.

Στη συνέχεια, κάθε πρόσωπο στην εικόνα αντιστοιχίστηκε σε μια από τις γνωστές ταυτότητες, αρχικά χρησιμοποιώντας το ArcFace για να δημιουργήσει εμφυτεύσεις προσώπου και υπολογίζοντας μια μέση εμφύτευση για κάθε ταυτότητα.

Μετά από αυτό, η αλγόριθμος του Ουγγρικού χρησιμοποιήθηκε για να αντιστοιχίσει πρόσωπα σε ταυτότητες συγκρίνοντας την ομοιότητα εμφύτευσης, με διορθώσεις που έγιναν όταν ο αριθμός των ανιχνευμένων προσώπων μέσω του πλαίσιο SCRFD-10GE δεν ταιριάζει με τον αριθμό των γνωστών ατόμων.

Στατιστικά στοιχεία από το σύνολο δεδομένων CSFD-1.6M, που περιλαμβάνουν εικόνες που έχουν συλλεχθεί, ανιχνευμένα πρόσωπα, αντιστοιχίσεις ταυτότητας, τελικά ετικετωμένα δείγματα και το διαθέσιμο πул ταυτοτήτων.

Στατιστικά στοιχεία από το σύνολο δεδομένων CSFD-1.6M, που περιλαμβάνουν εικόνες που έχουν συλλεχθεί, ανιχνευμένα πρόσωπα, αντιστοιχίσεις ταυτότητας, τελικά ετικετωμένα δείγματα και το διαθέσιμο πουλ ταυτοτήτων.

Οι αντιστοιχίσεις απορρίφθηκαν αν η ομοιότητα ήταν πολύ χαμηλή ή αν η εκτιμώμενη ηλικία διέφερε πολύ από την γνωστή ηλικία, με μεγαλύτερη ανεκτικότητα για μεγαλύτερους υποκειμένους, και τα πρόσωπα δεν φιλτράρονταν με βάση την ποιότητα ή το μέγεθος.

Οι συγγραφείς σημειώνουν την υπεροχή του επιμελημένου συνόλου τους σε σχέση με το πλησιέστερο συγκρίσιμο σύνολο δεδομένων, IMDB-WIKI:

‘Το σύνολο δεδομένων μας δεν είναι μόνο σημαντικά μεγαλύτερο αλλά, κριτικά, αποτελείται από σκηνές πολλαπλών ατόμων που απαιτούνται από το μοντέλο μας. Ενώ κανένα σύνολο δεδομένων που έχει συλλεχθεί από το διαδίκτυο δεν είναι ελεύθερο από θόρυβο ετικετών, η πipeline αναnotation μας εκμεταλλεύεται τις ρητές συνδέσεις μεταξύ εικόνων και προφίλ ταυτότητας που παρέχονται από τη βάση δεδομένων, με στόχο υψηλότερη ποιότητα αντιστοιχίσεων ταυτότητας.’

Η αξιολόγησή τους σύγκρινε διάφορες εκδοχές του συστήματος χρονολόγησης, για να κατανοήσουν από πού προέρχονται τα κέρδη του. Ένα μοντέλο υποθέτησε τέλεια γνώση του ποιος είναι στην εικόνα, παρέχοντας ένα άνω όριο απόδοσης με την αφαίρεση οποιασδήποτε αβεβαιότητας στην αναγνώριση ταυτότητας, με την πλήρη εκδοχή του μοντέλου να εκτιμά ταυτότητες και ημερομηνίες από κοινού, ζυγίζοντας διαφορετικές πιθανές αντιστοιχίσεις ταυτότητας πριν φτάσει σε μια τελική εκτίμηση έτους.

Μια απλούστερη εκδοχή επέλεξε την πιο πιθανή διαμόρφωση ταυτότητας χωρίς να μαργινάλιζει τις εναλλακτικές, η οποία αποδείχθηκε σχεδόν τόσο αποτελεσματική στην πράξη.

Αντίθετα, η πιο βασική βάση αντιστοιχούσε κάθε πρόσωπο ανεξάρτητα και συνδύασε τις αποτέλεσματικές εκτιμήσεις ηλικίας-βασισμένες εκτιμήσεις έτους, χωρίς να λάβει υπόψη αν οι ταυτότητες συλλογικά έκαναν νόημα.

Για να δοκιμάσει πόσο το μέθοδος ωφελείται από τη χρήση προσώπων καθ’όλη τη διάρκεια, ένα ξεχωριστό μοντέλο εκπαιδεύτηκε για να εκτιμήσει την ημερομηνία απευθείας από την整ρη σκηνή. Αυτό το μοντέλο που βασίζεται σε σκηνή συνιστά την ισχυρότερη εναλλακτική προσέγγιση που χρησιμοποιείται目前 στην εκτίμηση ημερομηνίας εικόνας,既然 μπορεί να μάθει ερα-ειδικές οπτικές μοτίβα σε ολόκληρη την εικόνα, αντί να βασίζεται σε ταυτότητα ή ηλικία.

Μέτρα και Δεδομένα

Το Μέσο Απόλυτο Σφάλμα (MAE) μεταξύ της προβλεπόμενης ημερομηνίας και της γνωστής αλήθειας ήταν το κεντρικό μέτρο για τις δοκιμές.

Τα δεδομένα διαιρέθηκαν σε πέντε μέρη, με φροντίδα να διατηρηθεί ότι όλες οι εικόνες από την ίδια ταινία παρέμειναν μέσα σε ένα seul μέρος. Τρία από αυτά τα μέρη χρησιμοποιήθηκαν για εκπαίδευση, ένα για επαλήθευση και ένα για δοκιμή. Αυτή η πενταπλή περιστροφή εφαρμόστηκε για να αποφευχθεί υπερ-προσαρμογή.

既然 τα μοντέλα που βασίζονται σε πρόσωπα δεν εκπαιδεύτηκαν σε αυτό το σύνολο δεδομένων, δεν χρειαζόταν διαίρεση, και αντίθετα, αξιολογήθηκαν απευθείας στο πλήρες σύνολο CSFD-1.6M.

Το Σκηνή μοντέλο εκπαιδεύτηκε για 200 epochs υπό τον Adam βελτιωτή, με εικόνες που έχουν αναδιασταθεί σε eine 384×384 crop.

Αποτελέσματα

Το τμήμα αποτελεσμάτων του εγγράφου διαιρείται ασυνήθιστα σε eine σειρά από δείκτες απόδοσης, με κανένα εξέχον ή κεντρικό τεστ. Ωστόσο, θα παρουσιάσουμε μια επιλογή των πιο σχετικών αποτελεσμάτων εδώ.

Το πιο σημαντικό αποτέλεσμα δεν είναι ένα đơnικό αριθμός, αλλά ένα μοτίβο: τα μοντέλα συσσώρευσης προσώπου (ειδικά οι εκδοχές Πλήρης και Top-1) υπερβαίνουν συνεχώς το ισχυρό Σκηνή baseline όταν δύο ή περισσότερες γνωστές ταυτότητες είναι παρόντες – ακόμη και αν το Σκηνή μοντέλο εκπαιδεύτηκε απευθείας στο σύνολο δεδομένων, υποστηρίζοντας την κεντρική αξίωση ότι η ταυτότητα-συνδεδεμένη χρονολόγηση προσώπου παρέχει ένα πιο robust σήμα από την ολιστική ερμηνεία σκηνής.

Για να αξιολογήσει την επίδραση των χρονικών προηγούμενων, οι συγγραφείς σύγκρινε διάφορες διαμορφώσεις του Πλήρους μοντέλου. Η ισχυρότερη απόδοση επιτεύχθηκε χρησιμοποιώντας το Δεκαετίας Prior, το οποίο υπερέβη σημαντικά τόσο το Ναïβ μοντέλο (το οποίο δεν χρησιμοποιεί χρονικό prior) όσο και το Ομοιόμορφο Prior (το οποίο υποθέτει keine προτίμηση για έτη):

Η απόδοση πέφτει απότομα για όλα τα μέθοδος καθώς ο αριθμός των προσώπων αυξάνεται, αλλά τα μοντέλα που χρησιμοποιούν ρεαλιστικά χρονικά προηγούμενα όπως το Δεκαετίας Prior επηρεάζονται πολύ λιγότερο. Τα Naive και Scene baselines παραμένουν πεπλατυσμένα ή χειροτερεύουν με μεγαλύτερες ομάδες, ενώ το Πλήρες μοντέλο που καθοδηγείται από ενημερωμένα προηγούμενα διατηρεί χαμηλό σφάλμα. Τα oracle-βασισμένα προηγούμενα, τα οποία βασίζονται σε στατιστικά του συνόλου δοκιμών, ορίζουν το κατώτερο όριο της επιτεύξιμης απόδοσης.

Η απόδοση πέφτει απότομα για όλα τα μέθοδος καθώς ο αριθμός των προσώπων αυξάνεται, αλλά τα μοντέλα που χρησιμοποιούν ρεαλιστικά χρονικά προηγούμενα όπως το Δεκαετίας Prior επηρεάζονται πολύ λιγότερο. Τα Naive και Scene baselines παραμένουν πεπλατυσμένα ή χειροτερεύουν με μεγαλύτερες ομάδες, ενώ το Πλήρες μοντέλο που καθοδηγείται από ενημερωμένα προηγούμενα διατηρεί χαμηλό σφάλμα. Τα oracle-βασισμένα προηγούμενα, τα οποία βασίζονται σε στατιστικά του συνόλου δοκιμών, ορίζουν το κατώτερο όριο της επιτεύξιμης απόδοσης.

Για να δείξει την αξία του συνόλου δεδομένων CSFD-1.6M πέρα από τη χρονολόγηση φωτογραφιών, το σύνολο δεδομένων δοκιμάστηκε επίσης ως πηγή προ-εκπαίδευσης για την ευρύτερη εργασία της εκτίμησης ηλικίας προσώπου. Ακολουθώντας ένα τυπικό πρωτόκολλο αξιολόγησης, ResNet101 μοντέλα προ-εκπαιδεύτηκαν στο CSFD-1.6M και συγκρίθηκαν με αντίστοιχα μοντέλα που προ-εκπαιδεύτηκαν στο IMDB-WIKI και ImageNet. Αυτά τα μοντέλα στη συνέχεια fine-τουν και αξιολογήθηκαν σε πέντε δημοφιλείς βάσεις δεδομένων: AgeDB; AFAD, MORPH; UTKFace; και CLAP2016:

Μέσο απόλυτο σφάλμα (πラス/μείνους τυπική απόκλιση) σε πέντε βάσεις δεδομένων εκτίμησης ηλικίας, συγκρίνοντας μοντέλα που προ-εκπαιδεύτηκαν στο ImageNet, IMDB-WIKI και CSFD-1.6M. Χαμηλότερες τιμές δείχνουν καλύτερη απόδοση. Το CSFD-1.6M οδηγεί στα καλύτερα αποτελέσματα σε όλες τις βάσεις δεδομένων.

Μέσο απόλυτο σφάλμα (πラス/μείνους τυπική απόκλιση) σε πέντε βάσεις δεδομένων εκτίμησης ηλικίας, συγκρίνοντας μοντέλα που προ-εκπαιδεύτηκαν στο ImageNet, IMDB-WIKI και CSFD-1.6M. Χαμηλότερες τιμές δείχνουν καλύτερη απόδοση. Το CSFD-1.6M οδηγεί στα καλύτερα αποτελέσματα σε όλες τις βάσεις δεδομένων.

Σε όλες τις πέντε βάσεις δεδομένων, η προ-εκπαίδευση στο CSFD-1.6M οδήγησε στα χαμηλότερα ποσοστά σφάλματος, υπερβαίνοντας τα άλλα δύο πηγή προ-εκπαίδευσης με μια σαφή διαφορά – μια απόσταση απόδοσης που αποδείχθηκε ισχυρότερη στο AFAD και CLAP2016, αλλά παρέμεινε συνεπής σε όλες τις βάσεις δεδομένων.

Σας παραπέμπω στο υπόλοιπο του κάπως κατακερματισμένου τμήματος αποτελεσμάτων στο πηγή έγγραφο, το οποίο επίσης ασχολείται εκτενώς με μελέτες αφαίρεσης.

Συμπέρασμα

Αν και το νέο έγγραφο γρήγορα γίνεται πυκνό και απρόσιτο για τον καθημερινό αναγνώστη, το θέμα που αντιμετωπίζεται είναι ένα από τα πιο ενδιαφέροντα και σχετικά με τη βιβλιογραφία της υπολογιστικής όρασης – όχι τουλάχιστον επειδή διασχίζει αρκετά καλά στην ανθρωπολογία και τις πολιτιστικές σπουδές, όπου οι σταθερές είναι δύσκολο να καθοριστούν.

 

* Όπως και η εξέλιξη της μουσικής cũng έπαψε να αλλάζει.

Πρώτη δημοσίευση Δευτέρα, 10 Νοεμβρίου 2025

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]