Connect with us

Αναζητώντας «Γουρούνι και Σαύρες» στο κοινό eines διαφημιστή

Η γωνία του Anderson

Αναζητώντας «Γουρούνι και Σαύρες» στο κοινό eines διαφημιστή

mm
Images from the paper 'Monitoring Viewer Attention During Online Ads' (https://arxiv.org/pdf/2504.06237)

Καθώς ο在线 διαφημιστικός τομέας υπολογίζεται να έχει δαπανήσει 740,3 δισεκατομμύρια δολάρια ΗΠΑ το 2023, είναι εύκολο να κατανοήσουμε γιατί οι εταιρείες διαφήμισης επενδύουν σημαντικούς πόρους σε αυτήν τη συγκεκριμένη κατηγορία έρευνας της υπολογιστικής όρασης.

Αν και είναι απομονωμένες και προστατευμένες, η βιομηχανία δημοσιεύει περιστασιακά μελέτες που υπονοούν πιο προηγμένα ιδιόκτητα έργα σε αναγνώριση προσώπου και κατεύθυνσης ματιών – συμπεριλαμβανομένης της αναγνώρισης ηλικίας, κεντρικής στατιστικής δημογραφικής ανάλυσης:

Η εκτίμηση της ηλικίας σε ένα περιβάλλον διαφήμισης είναι ενδιαφέρουσα για τους διαφημιστές που μπορεί να στοχεύουν σε μια συγκεκριμένη δημογραφική.

Η εκτίμηση της ηλικίας σε ένα περιβάλλον διαφήμισης είναι ενδιαφέρουσα για τους διαφημιστές που μπορεί να στοχεύουν σε μια συγκεκριμένη ηλικιακή δημογραφική. Source: https://arxiv.org/pdf/1906.03625

Αυτές οι μελέτες, που σπάνια εμφανίζονται σε δημόσιες αποθήκες όπως το Arxiv, χρησιμοποιούν νομίμως-recruited συμμετέχοντες ως βάση για την ανάλυση AI που στοχεύει να καθορίσει σε ποιο βαθμό και με ποιο τρόπο, ο θεατής ασχολείται με μια διαφήμιση.

Το Dlib's Histogram of Oriented Gradients (HoG) χρησιμοποιείται συχνά σε συστήματα εκτίμησης προσώπου.

Το Dlib’s Histogram of Oriented Gradients (HoG) χρησιμοποιείται συχνά σε συστήματα εκτίμησης προσώπου. Source: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Ζωικό Ενστικτό

Σε αυτήν την περίπτωση, φυσικά, η διαφημιστική βιομηχανία ενδιαφέρεται για τον καθορισμό ψευδών θετικών (περιστατικών όπου ένα αναλυτικό σύστημα παρεξηγεί τις ενέργειες ενός υποκειμένου) και τον καθορισμό σαφών κριτηρίων για όταν ο θεατής που βλέπει τις διαφημίσεις δεν ασχολείται πλήρως με το περιεχόμενο.

Όσον αφορά τη διαφήμιση βασισμένη σε οθόνη, οι μελέτες τείνουν να επικεντρωθούν σε δύο προβλήματα σε δύο περιβάλλοντα. Τα περιβάλλοντα είναι ‘esktop’ ή ‘mobile’, κάθε ένα από τα οποία έχει ιδιαίτερες χαρακτηριστικές που απαιτούν εξειδικευμένες λύσεις παρακολούθησης και τα προβλήματα – από την πλευρά του διαφημιστή – αντιπροσωπεύονται από owl behavior and lizard behavior – την τάση των θεατών να μην προσφέρουν πλήρη προσοχή σε μια διαφήμιση που είναι μπροστά τους.

Παραδείγματα Owl και Lizard behavior σε ένα υποκείμενο ενός ερευνητικού έργου διαφήμισης.

Παραδείγματα ‘Owl’ και ‘Lizard’ behavior σε ένα υποκείμενο ενός ερευνητικού έργου διαφήμισης. Source: https://arxiv.org/pdf/1508.04028

Εάν κοιτάζετε μακριά από τη διαφήμιση με όλο το κεφάλι, αυτό είναι ‘owl’ behavior και εάν η στάση του κεφαλιού είναι στατική αλλά τα μάτια σας περιπλανιούνται μακριά από την οθόνη, αυτό είναι ‘lizard’ behavior. Σε όρους ανάλυσης και δοκιμών νέων διαφημίσεων υπό ελεγχόμενες συνθήκες, αυτές είναι απαραίτητες ενέργειες για ένα σύστημα να μπορεί να καταγράψει.

Μια νέα εργασία από την SmartEye’s Affectiva acquisition αντιμετωπίζει αυτά τα ζητήματα, προσφέροντας μια αρχιτεκτονική που αξιοποιεί διάφορες υπάρχουσες πλατφόρμες για να παρέχει ένα συνδυασμένο και συνδεδεμένο σύνολο χαρακτηριστικών σε όλα τα απαραίτητα κριτήρια και πιθανές αντιδράσεις – και να μπορεί να πει αν ένας θεατής είναι βαρεμένος, ασχολημένος ή σε κάποιο τρόπο απομακρυσμένος από το περιεχόμενο που ο διαφημιστής επιθυμεί να δει.

Παραδείγματα αληθών και ψευδών θετικών που ανιχνεύονται από το νέο σύστημα προσοχής για διάφορους σήματα διασπάσεων, που εμφανίζονται ξεχωριστά για επιτραπέζιους και κινητούς υπολογιστές.

Παραδείγματα αληθών και ψευδών θετικών που ανιχνεύονται από το νέο σύστημα προσοχής για διάφορους σήματα διασπάσεων, που εμφανίζονται ξεχωριστά για επιτραπέζιους και κινητούς υπολογιστές. Source: https://arxiv.org/pdf/2504.06237

Οι συγγραφείς δηλώνουν*:

Περιορισμένη έρευνα έχει διεισδύσει στην παρακολούθηση της προσοχής κατά τη διάρκεια διαδικτυακών διαφημίσεων. Ενώ αυτές οι μελέτες επικεντρώθηκαν στην εκτίμηση της στάσης του κεφαλιού ή της κατεύθυνσης του βλέμματος για να αναγνωρίσουν περιπτώσεις διευρυμένου βλέμματος, παραβλέπουν κρίσιμους παράγοντες όπως ο τύπος συσκευής (επιτραπέζιος ή κινητός), η τοποθέτηση της κάμερας σχετικά με την οθόνη και το μέγεθος της οθόνης. Αυτοί οι παράγοντες επηρεάζουν σημαντικά την ανίχνευση προσοχής.

‘Σε αυτήν την εργασία, προτείνουμε μια αρχιτεκτονική για την ανίχνευση προσοχής που περιλαμβάνει την ανίχνευση διαφόρων διασπαστικών, συμπεριλαμβανομένων και των owl και lizard behavior του βλέμματος εκτός οθόνης, ομιλίας, νυσταγμού (μέσω γύρισματος και παρατεταμένου κλείσμματος των ματιών) και αμελούμενων οθονών.

‘Σε αντίθεση με τις προηγούμενες προσεγγίσεις, η μέθοδός μας ενσωματώνει συσκευαστικές ιδιότητες όπως ο τύπος συσκευής, η τοποθέτηση της κάμερας, το μέγεθος της οθόνης (για επιτραπέζιους υπολογιστές) και η προσανατολισμός της κάμερας (για κινητούς υπολογιστές) με την εκτίμηση του βλέμματος για να βελτιώσει την ακρίβεια της ανίχνευσης προσοχής.’

Η νέα εργασία έχει τον τίτλο Παρακολούθηση της προσοχής του θεατή κατά τη διάρκεια διαδικτυακών διαφημίσεων και προέρχεται από τέσσερις ερευνητές στην Affectiva.

Μέθοδος και Δεδομένα

Λόγω του μυστηρίου και της κλειστής φύσης τέτοιων συστημάτων, η νέα εργασία δεν συγκρίνει την προσέγγισή τους trực tiếp με τους αντιπάλους, αλλά παρουσιάζει τις ευρήματες τους αποκλειστικά ως μελέτες αφαίρεσης και δεν ακολουθεί γενικά το συνηθισμένο φορμάτ της βιβλιογραφίας της υπολογιστικής όρασης. Έτσι, θα εξετάσουμε την έρευνα όπως παρουσιάζεται.

Οι συγγραφείς τονίζουν ότι μόνο một περιορισμένος αριθμός μελετών έχει αντιμετωπίσει την ανίχνευση προσοχής ειδικά στο контέκστ διαδικτυακών διαφημίσεων. Στο AFFDEX SDK, το οποίο προσφέρει πραγματική αναγνώριση πολλαπλών προσώπων, η προσοχή υπονοείται αποκλειστικά από τη στάση του κεφαλιού, με τους συμμετέχοντες που επισημαίνονται ως αμελείς εάν η γωνία του κεφαλιού τους υπερβεί einen καθορισμένο όριο.

Παράδειγμα από το AFFDEX SDK, ένα σύστημα Affectiva που βασίζεται στη στάση του κεφαλιού ως δείκτη προσοχής.

Παράδειγμα από το AFFDEX SDK, ένα σύστημα Affectiva που βασίζεται στη στάση του κεφαλιού ως δείκτη προσοχής. Source: https://www.youtube.com/watch?v=c2CWb5jHmbY

Στην συνεργασία του 2019 Αυτόματη Μέτρηση της Οπτικής Προσοχής σε Βίντεο Περιεχόμενο χρησιμοποιώντας Deep Learning, ένα σύνολο δεδομένων περίπου 28.000 συμμετεχόντων αναγνωρίστηκε για διάφορες αμελείς συμπεριφορές, συμπεριλαμβανομένων βλέμματος μακριά, κλείσμματος ματιών, ή συμμετοχής σε ακαδημαϊκές δραστηριότητες, και ένα μοντέλο CNN-LSTM εκπαιδεύτηκε για να ανιχνεύσει προσοχή από την εμφάνιση του προσώπου με την πάροδο του χρόνου.

Από την εργασία του 2019, ένα παράδειγμα που εικονογραφεί τις προβλεπόμενες καταστάσεις προσοχής για einen θεατή που βλέπει βίντεο περιεχόμενο.

Από την εργασία του 2019, ένα παράδειγμα που εικονογραφεί τις προβλεπόμενες καταστάσεις προσοχής για einen θεατή που βλέπει βίντεο περιεχόμενο. Source: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Ωστόσο, οι συγγραφείς παρατηρούν ότι αυτές οι προηγούμενες προσπάθειες δεν έλαβαν υπόψη συσκευαστικές παράμετρους, όπως ο τύπος συσκευής, η τοποθέτηση της κάμερας ή το μέγεθος της οθόνης. Επιπλέον, το σύστημα AFFDEX εστιάζει μόνο στην αναγνώριση της απόκλισης του βλέμματος και παραβλέπει άλλες πηγές διασπάσεων, ενώ η εργασία του 2019 προσπαθεί να ανιχνεύσει ένα ευρύτερο σύνολο συμπεριφορών – αλλά η χρήση ενός seul浅 CNN μπορεί, όπως αναφέρει η εργασία, να ήταν ανεπαρκής για αυτήν την εργασία.

Οι συγγραφείς παρατηρούν ότι κάποιες από τις πιο δημοφιλείς έρευνες σε αυτήν τη γραμμή δεν είναι βελτιστοποιημένες για δοκιμές διαφημίσεων, οι οποίες έχουν διαφορετικές ανάγκες σε σύγκριση με τομείς όπως η οδήγηση ή η εκπαίδευση – όπου η τοποθέτηση και η καλιμπράρισή της κάμερας είναι συνήθως σταθερές από πριν, και αντίθετα λειτουργούν σε μη καλιμπραρισμένα σेट απς, και λειτουργούν εντός του περιορισμένου εύρους βλέμματος των επιτραπέζιων και κινητών συσκευών.

Γι’ αυτό, έχουν σχεδιάσει μια αρχιτεκτονική για την ανίχνευση της προσοχής του θεατή κατά τη διάρκεια διαδικτυακών διαφημίσεων, αξιοποιώντας δύο εμπορικές εργαλεία: AFFDEX 2.0 και SmartEye SDK.

Παραδείγματα αναλύσεων προσώπου από το AFFDEX 2.0.

Παραδείγματα αναλύσεων προσώπου από το AFFDEX 2.0. Source: https://arxiv.org/pdf/2202.12059

Αυτές οι προηγούμενες εργασίες εξάγουν χαμηλού επιπέδου χαρακτηριστικά, όπως εκφράσεις προσώπου, στάση κεφαλιού και κατεύθυνση βλέμματος – τα οποία εξάγονται μέσω των προαναφερθέντων AFFDEX 2.0 και SmartEye SDK.

Αυτά μετατρέπονται σε υψηλού επιπέδου δείκτες, με κάθε διασπαστικό να αντιμετωπίζεται από einen ξεχωριστό δυαδικό ταξινομητή που εκπαιδεύεται στο δικό του σύνολο δεδομένων για ανεξάρτητη βελτιστοποίηση και αξιολόγηση.

Σχήμα του προτεινόμενου συστήματος παρακολούθησης.

Σχήμα του προτεινόμενου συστήματος παρακολούθησης.

Το βλέμμα μοντέλο καθορίζει εάν ο θεατής κοιτάζει στην οθόνη ή μακριά από αυτήν χρησιμοποιώντας κανονικοποιημένες συντεταγμένες βλέμματος, με ξεχωριστή καλιμπράρισή για επιτραπέζιους και κινητούς υπολογιστές. Βοηθά σε αυτήν την διαδικασία ένα γραμμικό Support Vector Machine (SVM), εκπαιδευμένο σε χωρικές και χρονικές ιδιότητες, το οποίο ενσωματώνει ένα παράθυρο μνήμης για να λειάνσει τα γρήγορα μετατοπίσεις του βλέμματος.

Για να ανιχνεύσει ομιλία χωρίς ήχο, το σύστημα χρησιμοποιεί περικομμένες περιοχές του στόματος και einen 3D-CNN εκπαιδευμένο σε τμήματα ομιλίας και μη ομιλίας. Οι ετικέτες ανατίθενται με βάση τον τύπο της συνεδρίας, με χρονική λείανση για να μειώσει τα ψευδώς θετικά που peuvent να προκύψουν από σύντομες κινήσεις του στόματος.

Γύρισμα ανιχνεύτηκε χρησιμοποιώντας πλήρη εικόνες προσώπου, για να καταγράψουν ευρύτερη κίνηση του προσώπου, με einen 3D-CNN εκπαιδευμένο σε χειρονομίες που επισημαίνονται με το χέρι. Η εργασία ήταν περίπλοκη από τη σπανιότητα του γυρίσματος σε φυσικές συνθήκες και από την ομοιότητά του με άλλες εκφράσεις.

Αμελούμενη οθόνη αναγνωρίστηκε μέσω της απουσίας ενός προσώπου ή της ακραίας στάσης του κεφαλιού, με προβλέψεις που γίνονται από einen δέντρο αποφάσεων.

Τελική κατάσταση προσοχής καθορίστηκε χρησιμοποιώντας einen σταθερό κανόνα: εάν οποιοδήποτε μοντέλο ανίχνευε αμελεί, ο θεατής σημειωνόταν ως αμελής – μια προσέγγιση που προτιμά την ευαισθησία και ρυθμίζεται ξεχωριστά για επιτραπέζιους και κινητούς υπολογιστές.

Δοκιμές

Όπως αναφέρθηκε νωρίτερα, οι δοκιμές ακολουθούν μια αφαίρεση, όπου τα компонента αφαιρούνται και η επίδραση στο αποτέλεσμα σημειώνεται.

Διάφορες κατηγορίες ανιχνευόμενης αμελείς που αναγνωρίστηκαν στη μελέτη.

Διάφορες κατηγορίες ανιχνευόμενης αμελείς που αναγνωρίστηκαν στη μελέτη.

Το μοντέλο βλέμματος ανίχνευε συμπεριφορά εκτός οθόνης μέσω τριών κλειδιών βημάτων: κανονικοποίηση των εκτιμήσεων βλέμματος, εξευγενισμός της εξόδου και εκτίμηση του μεγέθους της οθόνης για επιτραπέζιους υπολογιστές.

Για να κατανοήσουμε τη σημασία κάθε компонента, οι συγγραφείς τους αφαιρούν ξεχωριστά και αξιολογούν την απόδοση σε 226 επιτραπέζιους και 225 κινητούς υπολογιστές που προέρχονται από δύο σύνολα δεδομένων. Τα αποτελέσματα, μετρημένα από G-mean και F1 σκορ, εμφανίζονται παρακάτω:

Αποτελέσματα που δείχνουν την απόδοση του πλήρους μοντέλου βλέμματος, μαζί με εκδοχές με αφαίρεση των μεμονωμένων βημάτων επεξεργασίας.

Αποτελέσματα που δείχνουν την απόδοση του πλήρους μοντέλου βλέμματος, μαζί με εκδοχές με αφαίρεση των μεμονωμένων βημάτων επεξεργασίας.

Σε κάθε περίπτωση, η απόδοση μειώνεται όταν ένα βήμα αφαιρείται. Η κανονικοποίηση αποδείχθηκε ιδιαίτερα χρήσιμη σε επιτραπέζιους υπολογιστές, όπου η τοποθέτηση της κάμερας ποικίλλει περισσότερο από ότι σε κινητούς υπολογιστές.

Η μελέτη αξιολόγησε επίσης πώς οι οπτικές ιδιότητες προέβλεψαν την προσανατολισμό της κάμερας σε κινητούς υπολογιστές: η τοποθέτηση του προσώπου, η στάση του κεφαλιού και η κατεύθυνση του βλέμματος σημείωσαν 0,75, 0,74 και 0,60, ενώ η συνδυασμένη τους έφτασε στο 0,91, υπογραμμίζοντας – όπως αναφέρουν οι συγγραφείς – το πλεονέκτημα της ενσωμάτωσης πολλαπλών ενδείξεων.

Το ομιλία μοντέλο, εκπαιδευμένο σε κατακόρυφη απόσταση χειλιών, έφτασε σε einen ROC-AUC 0,97 στο χειρονομικό σύνολο δεδομένων δοκιμής και 0,96 στο μεγαλύτερο αυτόματα ετικετεμένο σύνολο δεδομένων, δείχνοντας συνεπή απόδοση και στα δύο.

Το γύρισμα μοντέλο έφτασε σε einen ROC-AUC 96,6% χρησιμοποιώντας μόνο την αναλογία του στόματος, η οποία βελτιώθηκε στο 97,5% όταν συνδυάστηκε με προβλέψεις μονάδων δράσης από το AFFDEX 2.0.

Το μοντέλο αμελούμενης οθόνης ταξινόμησε στιγμές ως αμελείς όταν και το AFFDEX 2.0 και το SmartEye απέτυχαν να ανιχνεύσουν ένα πρόσωπο για περισσότερο από ένα δευτερόλεπτο. Για να αξιολογήσουν την εγκυρότητα αυτού, οι συγγραφείς ανέθεσαν χειρονομίες σε όλες τις περιπτώσεις απουσίας προσώπου στο πραγματικό σύνολο δεδομένων διασπάσεων και αναγνώρισαν την υποκείμενη αιτία κάθε ενεργοποίησης. Αμφίβολες περιπτώσεις (όπως αποκλεισμός κάμερας ή παραμόρφωση βίντεο) εξαιρέθηκαν από την ανάλυση.

Όπως φαίνεται στον πίνακα αποτελεσμάτων παρακάτω, μόνο το 27% των ενεργοποιήσεων “χωρίς πρόσωπο” οφειλόταν σε χρήστες που hatten φυσικά αφήσει την οθόνη.

Διάφορες λόγοι για τους οποίους ένα πρόσωπο δεν βρέθηκε σε ορισμένες περιπτώσεις.

Διάφορες λόγοι για τους οποίους ένα πρόσωπο δεν βρέθηκε, σε ορισμένες περιπτώσεις.

Η εργασία αναφέρει:

‘Παρά το γεγονός ότι οι αμελούμενες οθόνες αποτελούσαν μόνο το 27% των περιπτώσεων που ενεργοποιούσαν το σήμα “χωρίς πρόσωπο”, αυτό ενεργοποιήθηκε για άλλους λόγους που υποδείκνυαν αμελεί, όπως οι συμμετέχοντες που κοιτούσαν μακριά από την οθόνη με ακραία γωνία, κάνοντας υπερβολική κίνηση, ή που κάλυπταν σημαντικά το πρόσωπό τους με ένα αντικείμενο/χέρι. ‘

Στην τελευταία από τις ποσοτικές δοκιμές, οι συγγραφείς αξιολόγησαν πώς η προοδευτική προσθήκη διαφορετικών σημάτων διασπάσεων – βλέμμα εκτός οθόνης (μέσω βλέμματος και στάσης κεφαλιού), νυσταγμός, ομιλία και αμελούμενες οθόνες – επηρέασε την συνολική απόδοση του μοντέλου προσοχής.

Οι δοκιμές διεξήχθησαν σε δύο σύνολα δεδομένων: το πραγματικό σύνολο δεδομένων διασπάσεων και ένα υποσύνολο του συνόλου δεδομένων βλέμματος. Τα σκορ G-mean και F1 χρησιμοποιήθηκαν για να μετρήσουν την απόδοση (αν και ο νυσταγμός και η ομιλία εξαιρέθηκαν από την ανάλυση του συνόλου δεδομένων βλέμματος, λόγω της περιορισμένης τους σχετικότητας σε αυτόν τον контέκστ).

Όπως φαίνεται παρακάτω, η ανίχνευση προσοχής βελτιώθηκε συνεχώς καθώς προστέθηκαν περισσότερα σήματα διασπάσεων, με το βλέμμα εκτός οθόνης να παρέχει την ισχυρότερη βάση.

Η επίδραση της προσθήκης διαφορετικών σημάτων διασπάσεων στην αρχιτεκτονική.

Η επίδραση της προσθήκης διαφορετικών σημάτων διασπάσεων στην αρχιτεκτονική.

Από αυτά τα αποτελέσματα, η εργασία αναφέρει:

‘Από τα αποτελέσματα, podemos να συμπεράνουμε πρώτα ότι η ενσωμάτωση όλων των σημάτων διασπάσεων συνεισφέρει στην ενίσχυση της ανίχνευσης προσοχής.

‘Δεύτερον, η βελτίωση της ανίχνευσης προσοχής είναι συνεπής και στα δύο περιβάλλοντα, επιτραπέζιους και κινητούς υπολογιστές. Τρίτον, οι κινητοί υπολογιστές στο πραγματικό σύνολο δεδομένων δείχνουν σημαντικές κινήσεις κεφαλιού όταν κοιτάζουν μακριά, οι οποίες είναι εύκολο να ανιχνευθούν, οδηγώντας σε υψηλότερη απόδοση για κινητούς υπολογιστές σε σύγκριση με επιτραπέζιους. Τέταρτον, η προσθήκη του σήματος νυσταγμού έχει σχετικά μικρή βελτίωση σε σύγκριση με άλλα σήματα, καθώς είναι σπάνιο να συμβεί.

‘Τέλος, το σήμα αμελούμενης οθόνης έχει σχετικά μεγαλύτερη βελτίωση σε κινητούς υπολογιστές σε σύγκριση με επιτραπέζιους, καθώς οι κινητοί υπολογιστές μπορούν να αφήνονται εύκολα αμελούμενοι.’

Οι συγγραφείς επίσης σύγκριναν το μοντέλο τους με το AFFDEX 1.0, einem προηγούμενο σύστημα που χρησιμοποιείται σε δοκιμές διαφήμισης – και ακόμη και η τρέχουσα μοντέλο με βάση το κεφάλι ανίχνευσης βλέμματος υπερέβη το AFFDEX 1.0 και στα δύο τύποι συσκευών:

‘Αυτή η βελτίωση είναι αποτέλεσμα της ενσωμάτωσης κινήσεων κεφαλιού και στα δύο αξόνια, καθώς και της κανονικοποίησης της στάσης του κεφαλιού για να λογαριαστεί για μικρές αλλαγές. Οι έντονες κινήσεις κεφαλιού στο πραγματικό σύνολο δεδομένων κινητών υπολογιστών είχαν ως αποτέλεσμα το μοντέλο κεφαλιού μας να εκτελεστεί παρόμοια με το AFFDEX 1.0.’

Οι συγγραφείς κλείνουν την εργασία με έναν (ίσως κάπως τυπικό) ποιοτικό γύρο δοκιμών, που εμφανίζεται παρακάτω.

Παραδείγματα εξόδου από το μοντέλο προσοχής σε επιτραπέζιους και κινητούς υπολογιστές, με κάθε σειρά που παρουσιάζει παραδείγματα αληθών και ψευδών θετικών για διάφορους τύπους διασπάσεων.

Παραδείγματα εξόδου από το μοντέλο προσοχής σε επιτραπέζιους και κινητούς υπολογιστές, με κάθε σειρά που παρουσιάζει παραδείγματα αληθών και ψευδών θετικών για διάφορους τύπους διασπάσεων.

Οι συγγραφείς αναφέρουν:

‘Τα αποτελέσματα δείχνουν ότι το μοντέλο μας ανιχνεύει αποτελεσματικά διάφορους διασπαστικούς σε μη ελεγχόμενα περιβάλλοντα. Ωστόσο, μπορεί να παράγει ψευδώς θετικά σε ορισμένες ακραίες περιπτώσεις, όπως σε ακραίες κλίσεις κεφαλιού ενώ διατηρεί το βλέμμα στην οθόνη, ορισμένες οκκλουσίες του στόματος, υπερβολικά θολά μάτια ή έντονα σκοτεινά πρόσωπα. ‘

Συμπέρασμα

Ενώ τα αποτελέσματα αντιπροσωπεύουν μια μετρημένη αλλά σημαντική πρόοδο σε σχέση με προηγούμενη εργασία, η βαθύτερη αξία της μελέτης βρίσκεται στην εικόνα που προσφέρει για την επιμονή να αποκτήσει πρόσβαση στην εσωτερική κατάσταση του θεατή. Αν και τα δεδομένα συλλέχθηκαν με συναίνεση, η μεθοδολογία δείχνει προς μελλοντικά πλαίσια που θα μπορούσαν να επεκταθούν πέρα από δομημένα, έρευνας αγοράς ρυθμίσεις.

Αυτός ο κάπως παρανοϊκός συμπέρασμα ενισχύεται από τη κλειστή, περιορισμένη και προστατευμένη φύση αυτής της συγκεκριμένης γραμμής έρευνας.

 

* Η μετατροπή των εσωτερικών αναφορών των συγγραφέων σε υπερσύνδεσμους.

Πρώτη δημοσίευση Τετάρτη, 9 Απριλίου 2025

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]