Συνδεθείτε μαζί μας

Η συμπίεση JPEG αυξάνει το ποσοστό σφάλματος αναγνώρισης προσώπου για πρόσωπα εκτός Καυκάσου, ευρήματα μελέτης

Τεχνητή νοημοσύνη

Η συμπίεση JPEG αυξάνει το ποσοστό σφάλματος αναγνώρισης προσώπου για πρόσωπα εκτός Καυκάσου, ευρήματα μελέτης

mm
Κύρια εικόνα: DALL-E 2.
Κύρια εικόνα: DALL-E 2.

Μια νέα μελέτη από το Ηνωμένο Βασίλειο κατέληξε στο συμπέρασμα ότι οι τεχνικές συμπίεσης με απώλειες σε εικόνες JPEG μπορούν να έχουν αρνητική επίδραση στην αποτελεσματικότητα των συστημάτων αναγνώρισης προσώπου, καθιστώντας τέτοια συστήματα πιο πιθανό να αναγνωρίσουν εσφαλμένα ένα άτομο που δεν είναι Καυκάσιο.

Το έγγραφο αναφέρει:

«Μέσω μιας εκτεταμένης πειραματικής ρύθμισης, αποδεικνύουμε ότι οι κοινές προσεγγίσεις συμπίεσης εικόνας με απώλειες έχουν πιο έντονο αρνητικό αντίκτυπο στην απόδοση αναγνώρισης προσώπου για συγκεκριμένες κατηγορίες φυλετικών φαινοτύπων, όπως οι πιο σκούροι τόνοι δέρματος (έως και 34.55%)».

Τα αποτελέσματα δείχνουν επίσης ότι δειγματοληψία χρώματος, το οποίο μειώνει τις πληροφορίες χρώματος (και όχι τις πληροφορίες φωτεινότητας) σε όλα τα τμήματα μιας εικόνας προσώπου, αυξάνει το ποσοστό ψευδούς αντιστοίχισης (FMR) σε μια σειρά δοκιμασμένων συνόλων δεδομένων, πολλά από τα οποία είναι τυπικοί χώροι αποθήκευσης για την όραση υπολογιστή.

Οι λειτουργίες υποδειγματοληψίας χρωμάτων σε μια εικόνα πηγής, με ποικίλους ρυθμούς, έχουν σαφή επίδραση στον βαθμό στον οποίο διατηρείται η λεπτομέρεια και στον βαθμό στον οποίο οι δευτερεύοντες τόνοι απλώς «αναμιγνύονται» μεταξύ τους, θυσιάζοντας τη λεπτομέρεια και καθορίζοντας χαρακτηριστικά. Λάβετε υπόψη ότι αυτή η εικόνα από μόνη της μπορεί να υποστεί συμπίεση και ανατρέξτε στο χαρτί προέλευσης για ακριβή ανάλυση. Πηγή: https://arxiv.org/pdf/2208.07613.pdf

Οι λειτουργίες υποδειγματοληψίας χρωμάτων σε μια εικόνα πηγής, με ποικίλους ρυθμούς, έχουν σαφή επίδραση στον βαθμό στον οποίο διατηρείται η λεπτομέρεια και στον βαθμό στον οποίο οι δευτερεύοντες τόνοι απλώς «αναμιγνύονται» μεταξύ τους, θυσιάζοντας τη λεπτομέρεια και καθορίζοντας χαρακτηριστικά. Λάβετε υπόψη ότι αυτή η εικόνα από μόνη της μπορεί να υποστεί συμπίεση και ανατρέξτε στο χαρτί προέλευσης για ακριβή ανάλυση. Πηγή: https://arxiv.org/pdf/2208.07613.pdf

Η υποδειγματοληψία χρώματος εφαρμόζεται ως ένα πρόσθετο οικονομικό μέτρο στη συμπίεση JPEG, επειδή οι άνθρωποι είναι λιγότερο ικανοί να αντιληφθούν μειώσεις στην πολυπλοκότητα και το εύρος μιας χρωματικής ζώνης από τα συστήματα όρασης υπολογιστών, τα οποία λαμβάνουν αυτές τις «συγκεντρώσεις» πολύ πιο κυριολεκτικά από εμάς.

Οι ερευνητές για τη νέα μελέτη ανακάλυψαν ότι η αφαίρεση της υποδειγματοληψίας χρώματος από τη διαδικασία συμπίεσης μειώνει αυτό το αρνητικό αποτέλεσμα έως και 15.95%, αν και δεν εξαλείφει εντελώς το πρόβλημα.

Η μελέτη υποστηρίζει επίσης ότι η εκπαίδευση σε ασυμπίεστα (ή λιγότερο συμπιεσμένα) δεδομένα θα γίνει δεν επιλύστε το πρόβλημα εάν οι εικόνες χρόνου συμπερασμάτων συμπιέζονται. Ουσιαστικά, αυτό σημαίνει ότι η εκπαίδευση ενός μοντέλου αναγνώρισης προσώπου σε λιγότερο συμπιεσμένες εικόνες δεν θα επιλύσει την προκατάληψη εάν το τελικό μοντέλο παραγωγής τροφοδοτήσει εικόνες που έχουν τα αναφερόμενα προβλήματα συμπίεσης.

Οι συγγραφείς αναφέρουν*:

«[Η] χρήση συμπίεσης εικόνας με απώλειες κατά την εξαγωγή συμπερασμάτων επηρεάζει αρνητικά την απόδοση του σύγχρονου προσεγγίσεις αναγνώρισης προσώπου σε ένα υποσύνολο ομαδοποίησης φαινοτύπων προσώπου που σχετίζεται με τη φυλή (π.χ. πιο σκούρες αποχρώσεις δέρματος, μονολιθικό σχήμα ματιών) και ότι η επίδρασή της είναι παρούσα ανεξάρτητα από το εάν χρησιμοποιούνται συμπιεσμένες εικόνες για εκπαίδευση μοντέλων».

Η εργασία υπογραμμίζει τις συνέπειες της συμπίεσης εικόνας στον ερευνητικό τομέα της όρασης υπολογιστών, οι οποίες περιγράφονται λεπτομερώς σε ένα μελέτη του 2021 από το Πανεπιστήμιο του Maryland και το Facebook AI.

It's a δύσκολο ζήτημα να επιλυθεί; ακόμα κι αν τα προβλήματα αποθήκευσης και εύρους ζώνης που καθιστούν απαραίτητη τη συμπίεση εξαλείφονταν εν μία νυκτί, και ακόμη και αν όλες οι εικόνες χαμηλής ποιότητας που καλύπτουν είκοσι ή περισσότερα χρόνια συνόλων δεδομένων στον τομέα επανασυμπιεστούν ξαφνικά με καλύτερο ρυθμό από πηγές υψηλής ποιότητας, θα αντιπροσωπεύουν μια «επαναφορά» της συνέχειας των εργαλείων ακαδημαϊκής συγκριτικής αξιολόγησης τις τελευταίες δεκαετίες. Η κοινότητα βιογραφικών έχει, στην πραγματικότητα, συνηθίσει στο πρόβλημα, σε σημείο που αντιπροσωπεύει ένα αξιοσημείωτο τεχνικό χρέος.

Φυλετικό προκατάληψη στην αναγνώριση προσώπου (FR) έχει γίνονται a καυτό θέμα των μέσων ενημέρωσης τα τελευταία χρόνια, προκαλώντας μια συντονισμένη προσπάθεια στην ερευνητική κοινότητα για την εξάλειψή του από τα επηρεαζόμενα συστήματα. Ωστόσο, η εξάρτηση από τον παγκόσμιο ερευνητικό φορέα από ένα υπερβολικά περιορισμένη αριθμός συνόλων δεδομένων «χρυσού προτύπου», πολλά από τα οποία είναι είτε όχι φυλετικά ισορροπημένη or κακή επισήμανση από αυτή την άποψη, επιδεινώνει την πρόκληση.

Οι ερευνητές της νέας εργασίας σημειώνουν επιπλέον μια ασυμφωνία μεταξύ των προτύπων απόκτησης εικόνας και των προτύπων που ορίζονται από τη γενική σειρά των σημείων αναφοράς αναγνώρισης προσώπου, δηλώνοντας*:

«[Υπάρχοντα] πρότυπα απόκτησης εικόνας για συστήματα αναγνώρισης προσώπου όπως π.χ ISO / IEC 19794 5- και ICAO 9303 προτείνετε πρότυπα ποιότητας τόσο βάσει εικόνας (π.χ. φωτισμός, απόφραξη) όσο και βάσει θέματος (δηλαδή πόζα, έκφραση, αξεσουάρ) για να διασφαλίσετε την ποιότητα της εικόνας του προσώπου.

«Συνεπώς, οι εικόνες προσώπου θα πρέπει επίσης να αποθηκεύονται χρησιμοποιώντας πρότυπα συμπίεσης εικόνας με απώλειες όπως π.χ JPEG  ή JPEG2000? και αναγνωρίσιμη για το φύλο, το χρώμα των ματιών, το χρώμα των μαλλιών, την έκφραση, τις ιδιότητες (π.χ. γυαλιά), τις γωνίες πόζας (κλίσιμο, το βήμα και το ρολό) και θέσεις ορόσημων.

«Ωστόσο, τα κοινά σημεία αναφοράς αναγνώρισης προσώπου δεν συμμορφώνονται με τα πρότυπα ISO/IEC 19794-5 και ICAO 9303. Επιπλέον, συχνά λαμβάνονται δείγματα στη φύση κάτω από τις ποικίλες συνθήκες κάμερας και περιβάλλοντος για να αμφισβητηθούν οι προτεινόμενες λύσεις.

"Ωστόσο, τα περισσότερα δείγματα εικόνων προσώπου σε τέτοια σύνολα δεδομένων συμπιέζονται μέσω συμπίεσης JPEG με απώλειες."

Οι συγγραφείς της νέας εργασίας δηλώνουν ότι οι μελλοντικές προσπάθειές τους θα εξετάσουν τον αντίκτυπο της κβαντοποίησης της εικόνας με απώλειες σε διάφορα πλαίσια αναγνώρισης προσώπου και θα προσφέρουν πιθανές μεθόδους για τη βελτίωση της δικαιοσύνης αυτών των συστημάτων.

The νέο χαρτί είναι ο τίτλος Η συμπίεση εικόνας με απώλειες επηρεάζει τη φυλετική προκατάληψη στην αναγνώριση προσώπου;, και προέρχεται από τρεις ερευνητές στο Imperial College του Λονδίνου, μαζί με έναν από τη βαθιά ανάλυση προσώπου InsightFace βιβλιοθήκη.

Δεδομένα και Μέθοδος

Για τα πειράματά τους, οι ερευνητές χρησιμοποίησαν το ImageMagick και libjpeg βιβλιοθήκες ανοιχτού κώδικα για τη δημιουργία εκδόσεων των εικόνων δεδομένων πηγής σε διάφορα βήματα συμπίεσης.

Για μια αρχική επισκόπηση των επιπτώσεων της συμπίεσης, οι συγγραφείς μελέτησαν τα αποτελέσματα του λόγου αιχμής σήματος προς θόρυβο (PSNR) σε τέσσερα διαφορετικά επίπεδα συμπίεσης JPEG στα Racial Faces in-the-Wild (RFW) σύνολο δεδομένων.

Βαθμολογίες PSNR για το σύνολο δεδομένων Racial Faces-in-the-Wild, καταδεικνύοντας τον βαθμό στον οποίο η συμπίεση μπορεί να επηρεάσει τις δυνατότητες αναγνώρισης για συμπιεσμένες εικόνες.

Βαθμολογίες PSNR για το σύνολο δεδομένων Racial Faces-in-the-Wild, καταδεικνύοντας τον βαθμό στον οποίο η συμπίεση μπορεί να επηρεάσει τις δυνατότητες αναγνώρισης για συμπιεσμένες εικόνες.

Μεταξύ άλλων δοκιμών, διεξήγαγαν έρευνα σε ένα φυλετικά ανισορροπημένο σύνολο δεδομένων και ένα άλλο που ήταν φυλετικά ισορροπημένο. Για το φυλετικά ισορροπημένο σετ, χρησιμοποίησαν το Additive Angular Margin Loss (ArcFace) λειτουργία με ResNet101v2, στο πρωτότυπο VGGFace2 Συγκριτικό σύνολο δεδομένων, το οποίο περιέχει 3.3 εκατομμύρια εικόνες με 8631 θέματα με φυλετική ανισορροπία.

Για τη δοκιμή, οι ερευνητές χρησιμοποίησαν το σύνολο δεδομένων RFW. Το σύστημα εκπαιδεύτηκε τέσσερις φορές, σε τέσσερα διαφορετικά επίπεδα συμπίεσης, με αποτέλεσμα τέσσερα μοντέλα ArcFace.

Για το φυλετικά ισορροπημένο σύνολο, τα ίδια πλαίσια χρησιμοποιήθηκαν αρχικά στο αρχικό ευθυγραμμισμένο BUPT-Ισορροπημένο σύνολο δεδομένων αναφοράς, το οποίο περιέχει 28,000 πρόσωπα που είναι ισορροπημένα στις τέσσερις ομάδες αφρικανικός, Ασίας, Ινδός, να Καυκάσιος, κάθε φυλή αντιπροσωπεύεται από 7000 εικόνες. Όπως και με το φυλετικά ανισορροπημένο σύνολο δεδομένων, τέσσερα μοντέλα ArcFace αποκτήθηκαν με αυτόν τον τρόπο.

Επιπλέον, οι ερευνητές αναπαρήγαγαν τα αποτελέσματα της συμπιεσμένης και μη συμπιεσμένης προπόνησης αφαιρώντας την υποδειγματοληψία χρώματος, προκειμένου να μετρήσουν την επίδρασή της στην απόδοση.

Αποτελέσματα

Στη συνέχεια μελετήθηκε το ποσοστό ψευδούς αντιστοίχισης (FMR) σε αυτά τα δημιουργημένα σύνολα δεδομένων. Τα κριτήρια που αναζητούσαν οι ερευνητές ήταν προκαθορισμένα φαινοτύπων που σχετίζονται με φυλετικά χαρακτηριστικά Τύπος δέρματος (1, 2, 3, 4, 5 ή 6), Τύπος βλεφάρου (Monolid/Άλλο), Σχήμα μύτης (Ευρύ/Στενό), Σχήμα χειλιών (Πλήρη/Μικρό), Τύπος μαλλιών (Ίσιο/Κυματιστό/Σγουρό/Φαλακρό), και Χρώμα μαλλιών – μετρήσεις που προέρχονται από το 2019 χαρτί Μέτρηση κρυφής προκατάληψης εντός της αναγνώρισης προσώπου μέσω φυλετικών φαινοτύπων.

Το έγγραφο αναφέρει:

«Παρατηρούμε ότι για όλα τα κάτω επιλεγμένα επίπεδα συμπίεσης q = {5, 10, 15, 95}, το FMR αυξάνεται όταν εφαρμόζεται πρόσθετη συμπίεση με απώλειες, αποδεικνύοντας ότι το επίπεδο συμπίεσης 5 (ο υψηλότερος ρυθμός συμπίεσης) οδηγεί στην πιο σημαντική μείωση στην απόδοση FMR, ενώ το επίπεδο συμπίεσης 95 (ο χαμηλότερος ρυθμός συμπίεσης) δεν έχει ως αποτέλεσμα αξιοσημείωτες διαφορές απόδοσης FMR.'

Ένα δείγμα από τα εκτενή διαγράμματα αποτελεσμάτων του χαρτιού, τα οποία είναι πολύ μεγάλα και πολυάριθμα για να τα αναπαραγάγετε εδώ – δείτε το χαρτί προέλευσης για καλύτερη ανάλυση και πλήρη αποτελέσματα. Εδώ, βλέπουμε τη γκάμα της απόδοσης FMR σε όλο και πιο υποβαθμισμένες/συμπιεσμένες εικόνες προσώπου για το VGGFace2, σε ένα εύρος που περιλαμβάνει ασυμπίεστη ή ελάχιστα συμπιεσμένη ποιότητα.

Ένα δείγμα από τα εκτενή διαγράμματα αποτελεσμάτων του χαρτιού, τα οποία είναι πολύ μεγάλα και πολυάριθμα για να τα αναπαραγάγετε εδώ – δείτε το χαρτί προέλευσης για καλύτερη ανάλυση και πλήρη αποτελέσματα. Εδώ, βλέπουμε τη γκάμα της απόδοσης FMR σε όλο και πιο υποβαθμισμένες/συμπιεσμένες εικόνες προσώπου για το VGGFace2, σε ένα εύρος που περιλαμβάνει ασυμπίεστη ή ελάχιστα συμπιεσμένη ποιότητα.

Η εφημερίδα καταλήγει:

Συνολικά, η αξιολόγησή μας διαπιστώνει ότι η χρήση συμπιεσμένων δειγμάτων εικόνων προσώπου με απώλειες κατά το χρόνο συμπερασμάτων μειώνει σημαντικά την απόδοση σε συγκεκριμένους φαινοτύπους, όπως ο σκούρος τόνος δέρματος, η φαρδιά μύτη, τα σγουρά μαλλιά και το μονόχρωμο μάτι σε όλα τα άλλα φαινοτυπικά χαρακτηριστικά.

«Ωστόσο, η χρήση συμπιεσμένων εικόνων κατά τη διάρκεια της προπόνησης κάνει τα μοντέλα που προκύπτουν πιο ανθεκτικά και περιορίζει την υποβάθμιση της απόδοσης: παραμένει χαμηλότερη απόδοση μεταξύ συγκεκριμένων φυλετικά ευθυγραμμισμένων υποομάδων. Επιπλέον, η κατάργηση της υποδειγματοληψίας χρώματος βελτιώνει το FMR για συγκεκριμένες κατηγορίες φαινοτύπων που επηρεάζονται περισσότερο από τη συμπίεση με απώλειες.'

 

* Η μετατροπή των ενσωματωμένων παραπομπών των συγγραφέων σε υπερσυνδέσμους.

Πρώτη δημοσίευση 22 Αυγούστου 2022.