Τεχνητή νοημοσύνη

Η τεχνητή νοημοσύνη βοηθά τους нервικούς ομιλητές να ‘διαβάσουν το δωμάτιο’ κατά τη διάρκεια των τηλεδιασκέψεων

Published April 11, 2022

Updated April 28, 2026

Martin Anderson

Το 2013, μια δημοσκόπηση για τις συνήθεις φοβίες κατέδειξε ότι η προοπτική της δημόσιας ομιλίας ήταν χειρότερη από την προοπτική του θανάτου για την πλειοψηφία των απαντώντων. Το σύνδρομο αυτό είναι γνωστό ως γλωσσοφοβία.

Η μεταφορά από τις προσωπικές συναντήσεις σε διαδικτυακές συναντήσεις Zoom σε πλατφόρμες όπως το Zoom και το Google Spaces, λόγω της πανδημίας, δεν έχει βελτιώσει την κατάσταση. Όταν η συνάντηση περιλαμβάνει μεγάλο αριθμό συμμετεχόντων, οι φυσικές ικανότητές μας για αξιολόγηση της απειλής είναι ελαττωμένες από τις σειρές και τα εικονίδια των συμμετεχόντων με χαμηλή ανάλυση, καθώς και τη δυσκολία στην ανάγνωση των λεπτών οπτικών σημάτων της έκφρασης του προσώπου και της στάσης του σώματος. Για παράδειγμα, το Skype έχει βρεθεί να είναι μια κακή πλατφόρμα για τη μεταφορά μη λεκτικών ενδείξεων.

Τα αποτελέσματα της δημόσιας ομιλίας από την αντίληψη του ενδιαφέροντος και της ανταπόκρισης είναι καλά τεκμηριωμένα μέχρι τώρα και είναι εύλογα σαφή για την πλειοψηφία μας. Η αδιαφανής ανταπόκριση του κοινού μπορεί να προκαλέσει στους ομιλητές να διστάζουν και να επιστρέφουν σε ομιλία γεμιστή, αγνοώντας εάν τα επιχειρήματά τους συναντούν με συμφωνία, περιφρόνηση ή αδιαφορία, συχνά καθιστώντας την εμπειρία άβολη και για τον ομιλητή και για τους ακροατές.

Υπό την πίεση της απροσδόκητης μετατόπισης προς τις διαδικτυακές τηλεδιασκέψεις που ενέπνευσε η πανδημία, το πρόβλημα είναι ολοένα και χειρότερο, και έχουν προταθεί πολλά σχήματα ανατροφοδότησης του κοινού στις κοινότητες της υπολογιστικής όρασης και της έρευνας των συναισθημάτων τα τελευταία δύο χρόνια.

Λύσεις που επικεντρώνονται στην υλική υποδομή

Οι περισσότερες από αυτές, ωστόσο,涉ρούν πρόσθετο εξοπλισμό ή σύνθετο λογισμικό που μπορεί να δημιουργήσει προβλήματα ιδιωτικότητας ή логιστικής – σχετικά υψηλό κόστος ή άλλοι περιορισμοί σε στυλ που προηγήθηκαν της πανδημίας. Το 2001, το MIT πρότεινε το Galvactivator, một συσκευή που φοριέται στο χέρι και που υποδηλώνει την συναισθηματική κατάσταση του συμμετέχοντα στο κοινό, που δοκιμάστηκε κατά τη διάρκεια μιας ημερήσιας συνόδου.

Từ 2001, το Galvactivator του MIT, το οποίο μετρούσε την απάντηση της điệnτροδότησης του δέρματος σε μια προσπάθεια να κατανοήσει τη γνώμη και την εμπλοκή του κοινού.

Từ 2001, το Galvactivator του MIT, το οποίο μετρούσε την απάντηση της ηλεκτροδότησης του δέρματος σε μια προσπάθεια να κατανοήσει τη γνώμη και την εμπλοκή του κοινού. Source: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

Μια μεγάλη ποσότητα ακαδημαϊκής ενέργειας έχει επίσης αφιερωθεί στην πιθανή παράθεση ‘κλικερών’ ως einem Συστήματος Ανταπόκρισης του Κοινού (ARS), ένα μέτρο για την αύξηση της ενεργού συμμετοχής του κοινού (η οποία αυξάνει αυτόματα την εμπλοκή, поскольку αναγκάζει τον θεατή να αναλάβει τον ρόλο ενός ενεργού κόμβου ανατροφοδότησης), αλλά έχει επίσης οραθεί ως μέσο ενθάρρυνσης του ομιλητή.

Άλλες προσπάθειες για να ‘συνδέσουν’ τον ομιλητή και το κοινό έχουν περιλαμβάνει μετρήσεις καρδιακών παλμών, τη χρήση σύνθετου εξοπλισμού που φοριέται στο σώμα για να αξιοποιήσει την ηλεκτροεγκεφαλογραφία, ‘μετρητές χαράς’, υπολογιστική όραση-βασισμένη αναγνώριση συναισθήματος για εργαζόμενους σε γραφείο, και τη χρήση ανατροφοδότησης του κοινού εμοτζιών κατά τη διάρκεια της ομιλίας.

Từ 2017, το EngageMeter, μια κοινή ακαδημαϊκή έρευνα από το LMU Munich και το Πανεπιστήμιο της Στουτγάρδης. Source: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Ως υπο-πρόθεση του lucrativ области της ανάλυσης του κοινού, ο ιδιωτικός τομέας έχει δείξει ιδιαίτερο ενδιαφέρον για την εκτίμηση και τον εντοπισμό της ματιάς – συστήματα όπου κάθε μέλος του κοινού (ο οποίος μπορεί με τη σειρά του να ομιλήσει), υπόκειται σε οφθαλμική παρακολούθηση ως δείκτης εμπλοκής και έγκρισης.

Όλες αυτές οι μέθοδοι είναι σχετικά υψηλής τριβής. Πολυάριθμες από αυτές απαιτούν πρόσθετο εξοπλισμό ή σύνθετο λογισμικό που μπορεί να δημιουργήσει προβλήματα ιδιωτικότητας ή логιστικής – σχετικά υψηλό κόστος ή άλλοι περιορισμοί σε στυλ που προηγήθηκαν της πανδημίας.

Γι’ αυτό, η ανάπτυξη ελαφριών συστημάτων που βασίζονται σε λίγα περισσότερα από τα κοινά εργαλεία για τηλεδιασκέψεις έχει γίνει ενδιαφέροντα τα τελευταία 18 μήνες.

Αναφορά της έγκρισης του κοινού με διακριτικότητα

Για αυτόν τον σκοπό, μια νέα έρευνα μεταξύ του Πανεπιστημίου του Τόκιο και του Πανεπιστημίου Carnegie Mellon προσφέρει ένα νέο σύστημα που μπορεί να συνδεθεί με τυποποιημένα εργαλεία τηλεδιασκέψεων (όπως το Zoom) χρησιμοποιώντας μόνο một ιστοσελίδα με ενεργοποίηση web-cam, στην οποία εκτελείται ελαφρύ λογισμικό εκτίμησης της ματιάς και της στάσης. Με αυτόν τον τρόπο, ακόμη και η ανάγκη για τοπικά πρόσθετα του προγράμματος περιήγησης αποφεύγεται.

Οι κινήσεις του χρήστη και η εκτιμώμενη προσοχή της ματιάς μετατρέπονται σε αντιπροσωπευτικά δεδομένα που οπτικοποιούνται πίσω στον ομιλητή, επιτρέποντας ένα ‘ζωντανό’ τεστ της έκτασης με την οποία το περιεχόμενο εμπλέκει το κοινό – και επίσης τουλάχιστον ένα ασαφές δείκτη των περιόδων της ομιλίας όπου ο ομιλητής μπορεί να χάνει το ενδιαφέρον του κοινού.

Με το CalmResponses, η προσοχή και η κίνηση του χρήστη προστίθενται σε μια πηγή ανατροφοδότησης του κοινού και μετατρέπονται σε μια οπτική αναπαράσταση που μπορεί να ωφελήσει τον ομιλητή. Δείτε το ενσωματωμένο βίντεο στο τέλος του άρθρου για περισσότερες λεπτομέρειες και παραδείγματα. Source: https://www.youtube.com/watch?v=J_PhB4FCzk0

Σε πολλές ακαδημαϊκές καταστάσεις, όπως διαδικτυακά μαθήματα, οι φοιτητές μπορεί να είναι εντελώς αόρατοι για τον ομιλητή,既然 δεν έχουν ενεργοποιήσει τις κάμερες τους λόγω της αυτοσυνειδησίας για το υπόβαθρο ή την τρέχουσα εμφάνισή τους. Το CalmResponses μπορεί να αντιμετωπίσει αυτό το άλλο-wise εμπόδιο στην ανατροφοδότηση του ομιλητή, αναφέροντας τι γνωρίζει για το πώς ο ομιλητής κοιτάζει το περιεχόμενο, και αν κουνιούνται, χωρίς καμία ανάγκη για τον θεατή να ενεργοποιήσει την κάμερά του.

Το έγγραφο έχει τον τίτλο CalmResponses: Displaying Collective Audience Reactions in Remote Communication, και είναι μια κοινή εργασία μεταξύ δύο ερευνητών από το UoT και ενός από το Carnegie Mellon.

Οι συγγραφείς προσφέρουν μια ζωντανή διαδικτυακή επίδειξη, και έχουν κυκλοφορήσει τον κώδικα πηγής στο GitHub.

Το πλαίσιο CalmResponses

Το ενδιαφέρον του CalmResponses για την κίνηση της κεφαλής, αντί για άλλες πιθανές διαθέσεις της κεφαλής, βασίζεται σε έρευνα (μερική από την εποχή του Δαρβίνου) που υποδηλώνει ότι περισσότερο από το 80% όλων των κινήσεων της κεφαλής των ακροατών αποτελείται από κουνήματα (ακόμη και όταν εκφράζουν διαφωνία). Ταυτόχρονα, οι κινήσεις της ματιάς έχουν δείξει σε πολλές μελέτες να είναι ένας αξιόπιστος δείκτης ενδιαφέροντος ή εμπλοκής.

Το CalmResponses έχει υλοποιηθεί με HTML, CSS και JavaScript, και αποτελείται από τρία υποσυστήματα: ένα υποσύστημα του κοινού, ένα υποσύστημα του ομιλητή και einen διακομιστή. Το υποσύστημα του κοινού μεταφέρει δεδομένα ματιάς ή κίνησης κεφαλής από την κάμερα του χρήστη μέσω WebSockets στο cloud εφαρμογής Heroku.

Η κίνηση της κεφαλής του κοινού οπτικοποιείται στα δεξιά με μια κινούμενη κίνηση στο CalmResponses. Σε αυτή την περίπτωση, η οπτικοποίηση της κίνησης είναι διαθέσιμη όχι μόνο για τον ομιλητή, αλλά και για όλο το κοινό. Source: https://arxiv.org/pdf/2204.02308.pdf

Για το τμήμα της οπτικής παρακολούθησης του έργου, οι ερευνητές χρησιμοποίησαν WebGazer, ένα ελαφρύ, JavaScript-βασισμένο framework οπτικής παρακολούθησης που μπορεί να εκτελεστεί με χαμηλή καθυστέρηση απευθείας από μια ιστοσελίδα (δείτε τον σύνδεσμο παραπάνω για την δική τους διαδικτυακή υλοποίηση).

Καθώς η ανάγκη για απλή υλοποίηση και груβή αναγνώριση της ανταπόκρισης υπερβαίνει την ανάγκη για υψηλή ακρίβεια στην εκτίμηση της ματιάς και της στάσης, τα δεδομένα της στάσης εισάγονται σύμφωνα με τις μέσες τιμές πριν να ληφθούν υπόψη για την συνολική εκτίμηση της ανταπόκρισης.

Η κίνηση της κεφαλής αξιολογείται μέσω της βιβλιοθήκης JavaScript clmtrackr, η οποία προσαρμόζει μοντέλα προσώπου σε ανιχνευμένα πρόσωπα σε εικόνες ή βίντεο μέσω κανονικοποιημένης μετατόπισης σημείων. Για λόγους οικονομίας και χαμηλής καθυστέρησης, μόνο το ανιχνευμένο σημείο για τη μύτη παρακολουθείται ενεργά στην υλοποίηση των συγγραφέων, поскольку αυτό είναι αρκετό για να παρακολουθήσει τις κινήσεις της κεφαλής.

Η κίνηση της μύτης του χρήστη δημιουργεί μια ιχνηλάτηση που συνεισφέρει στην πηγή της ανταπόκρισης του κοινού που σχετίζεται με την κίνηση της κεφαλής, οπτικοποιούμενη με έναν συσσωρευμένο τρόπο σε όλους τους συμμετέχοντες.

Χάρτης Θερμότητας

Ενώ η κίνηση της κεφαλής αντιπροσωπεύεται από δυναμικά κινούμενα σημεία (δείτε τις εικόνες παραπάνω και το βίντεο στο τέλος), η οπτική προσοχή αναφέρεται σε όρους ενός χάρτη θερμότητας που δείχνει στον ομιλητή και στο κοινό πού βρίσκεται ο γενικός τόπος της προσοχής στο κοινόχρηστο παρουσιαστικό ή περιβάλλον τηλεδιασκέψεων.

Όλοι οι συμμετέχοντες μπορούν να δουν πού εστιάζει η γενική προσοχή του χρήστη. Το έγγραφο δεν αναφέρει εάν αυτή η λειτουργία είναι διαθέσιμη όταν ο χρήστης μπορεί να δει μια ‘галереία’ άλλων συμμετεχόντων, η οποία θα μπορούσε να αποκαλύψει ψευδή εστίαση σε έναν συγκεκριμένο συμμετέχοντα, για διάφορους λόγους.

Δοκιμές

Δυο δοκιμαστικές περιπτώσεις διαμορφώθηκαν για το CalmResponses με τη μορφή μιας σιωπηρής μελέτης, χρησιμοποιώντας τρεις διαφορετικές συνθήκες: στη ‘Συνθήκη Β’ (baseline), οι συγγραφείς αναπαράγουν μια τυπική διαδικτυακή διάλεξη φοιτητών, όπου η πλειοψηφία των φοιτητών κρατά τις κάμερες τους απενεργοποιημένες, και ο ομιλητής δεν έχει τη δυνατότητα να δει τα πρόσωπα του κοινού; στη ‘Συνθήκη CR-E’, ο ομιλητής μπορεί να δει ανατροφοδότηση της ματιάς (χάρτες θερμότητας); στη ‘Συνθήκη CR-N’, ο ομιλητής μπορεί να δει και την κίνηση της κεφαλής και τη δραστηριότητα της ματιάς από το κοινό.

Η πρώτη πειραματική περίπτωση αποτελούσε τη συνθήκη Β και τη συνθήκη CR-E; η δεύτερη αποτελούσε τη συνθήκη Β και τη συνθήκη CR-N. Ανατροφοδότηση λήφθηκε και από τον ομιλητή και από το κοινό.

Σε κάθε πείραμα, τρεις παράμετροι αξιολογήθηκαν: αντικειμενική και υποκειμενική αξιολόγηση της παρουσίασης (συμπεριλαμβανομένης μιας αυτοαναφερόμενης ερωτηματολόγιου από τον ομιλητή σχετικά με τα συναισθήματά του για το πώς πήγε η παρουσίαση); ο αριθμός των γεγονότων ‘γεμιστή’ ομιλίας, που υποδηλώνει προσωρινή αβεβαιότητα και διστακτικότητα; και ποιοτικές παρατηρήσεις. Αυτά τα κριτήρια είναι κοινά εκτιμητές της ποιότητας της ομιλίας και της αγχωτικής κατάστασης του ομιλητή.

Η δοκιμαστική πηγή αποτελούσε 38 άτομα ηλικίας 19-44, που αποτελούσαν 29 άνδρες και 9 γυναίκες με μέση ηλικία 24.7, όλοι Ιάπωνες ή Κινέζοι και όλοι ικανοί στην ιαπωνική. Χωρίστηκαν τυχαία σε πέντε ομάδες 6-7 συμμετεχόντων, και κανένα από τα θέματα δεν γνώριζε ούτε ένα άλλο προσωπικά.

Οι δοκιμές διεξήχθησαν στο Zoom, με πέντε ομιλητές που παρουσίασαν παρουσιάσεις στο πρώτο πείραμα και έξι στο δεύτερο.

Συνθήκες γεμιστή σημειωμένες ως πορτοκαλί κουτιά. Γενικά, το περιεχόμενο γεμιστή έπεσε σε λογική αναλογία με την αύξηση της ανατροφοδότησης του κοινού από το σύστημα.

Οι ερευνητές σημειώνουν ότι η γεμιστή ομιλία ενός ομιλητή μειώθηκε αξιοσημείωτα, και ότι στη ‘Συνθήκη CR-N’, ο ομιλητής σπάνια έκανε γεμιστή φράσεις. Δείτε το έγγραφο για τα πολύ λεπτομερή και γρανιώδη αποτελέσματα που αναφέρονται· ωστόσο, τα πιο αξιοσημείωτα αποτελέσματα ήταν στη υποκειμενική αξιολόγηση από τους ομιλητές και τους συμμετέχοντες του κοινού.

Σχολιασμοί από το κοινό περιελάμβαναν:

‘Νιώθω ότι συμμετείχα στις παρουσιάσεις” [AN2], “Δεν ήμουν σίγουρος ότι οι ομιλίες των ομιλητών βελτιώθηκαν, αλλά νιώθω μια αίσθηση ενότητας από τις κινήσεις της κεφαλής των άλλων’ [AN6]

‘Δεν ήμουν σίγουρος ότι οι ομιλίες των ομιλητών βελτιώθηκαν, αλλά νιώθω μια αίσθηση ενότητας από τις κινήσεις της κεφαλής των άλλων’

Οι ερευνητές σημειώνουν ότι το σύστημα εισάγει ένα νέο είδος τεχνητής παύσης στην παρουσίαση του ομιλητή,既然 ο ομιλητής έχει την τάση να αναφέρεται στο οπτικό σύστημα για να αξιολογήσει την ανατροφοδότηση του κοινού πριν προχωρήσει περαιτέρω.

Επίσης, σημειώνουν ένα είδος ‘εφέτου λευκού χιτώνα’, που είναι δύσκολο να αποφευχθεί σε πειραματικές περιστάσεις, όπου κάποιοι συμμετέχοντες felt ότι περιορίζονται από τις πιθανές ασφαλιστικές επιπτώσεις της παρακολούθησης των βιομετρικών δεδομένων.

Συμπέρασμα

Ένα αξιοσημείωτο πλεονέκτημα σε ένα σύστημα όπως αυτό είναι ότι όλες οι μη τυποποιημένες βοηθητικές τεχνολογίες που απαιτούνται για μια τέτοια προσέγγιση εξαφανίζονται完全 μετά τη χρήση τους. Δεν υπάρχουν υπολείμματα πρόσθετων του προγράμματος περιήγησης για να απομακρύνθούν, ή να δημιουργήσουν αμφιβολίες στα μυαλά των συμμετεχόντων σχετικά με το εάν πρέπει να παραμείνουν στο αντίστοιχο σύστημά τους· και δεν υπάρχει ανάγκη να οδηγήσουν τους χρήστες μέσω της διαδικασίας της εγκατάστασης (αν και το διαδικτυακό πλαίσιο απαιτεί ένα λεπτό ή δύο αρχικής εκπαίδευσης από τον χρήστη), ή να πλοηγηθούν την πιθανότητα των χρηστών να μην έχουν επαρκή άδειες για την εγκατάσταση τοπικού λογισμικού, συμπεριλαμβανομένων των πρόσθετων του προγράμματος περιήγησης και των επεκτάσεων.

Αν και οι αξιολογημένες κινήσεις του προσώπου και της ματιάς δεν είναι τόσο ακριβείς όσο θα μπορούσαν να είναι σε περιπτώσεις όπου θα χρησιμοποιούνταν αφιερωμένα τοπικά πλαίσια μηχανικής μάθησης (όπως η σειρά YOLO), αυτή η σχεδόν χωρίς τριβή προσέγγιση στην αξιολόγηση του κοινού παρέχει επαρκή ακρίβεια για ευρεία ανάλυση συναισθήματος και στάσης σε τυπικές περιπτώσεις τηλεδιασκέψεων. ΠΑΝΤΩΣ, είναι πολύ φθηνό.

Δείτε το σχετικό βίντεο του έργου παρακάτω για περισσότερες λεπτομέρειες και παραδείγματα.

Πρώτη δημοσίευση 11ης Απριλίου 2022.

Related Topics:education facial expressions research video surveillance