Τεχνητή νοημοσύνη

Ένας ανιχνευτής ψέματος βασισμένος σε AI για συνομιλίες σε κέντρα εξυπηρέτησης

Published July 27, 2021

Updated April 26, 2026

Martin Anderson

Ερευνητές στη Γερμανία έχουν χρησιμοποιήσει τη μηχανική μάθηση για να δημιουργήσουν ένα σύστημα ανάλυσης ήχου που προορίζεται κυρίως να λειτουργήσει ως ανιχνευτής ψέματος βασισμένος σε AI για πελάτες σε ήχους επικοινωνιών με το προσωπικό εξυπηρέτησης και υποστήριξης.

Το σύστημα χρησιμοποιεί ένα ειδικά δημιουργημένο σύνολο δεδομένων ηχογραφήσεων από 40 μαθητές και δασκάλους κατά τη διάρκεια συζητήσεων για διαφιλονικούμενα θέματα, συμπεριλαμβανομένης της ηθικής της ποινής θανάτου και των διδάκτρων. Το μοντέλο εκπαιδεύτηκε σε μια αρχιτεκτονική που χρησιμοποιεί Συγκολλοειδείς Νευρωνικές Δίκτυα (CNNs) και Μικρής Διαρκείας Μνήμη (LSTM) και έφτασε σε μια αναφερόμενη ακρίβεια 98%.

Αν και η δηλωμένη πρόθεση του έργου αναφέρει επικοινωνίες πελάτη, οι ερευνητές παραδέχονται ότι λειτουργεί αποτελεσματικά ως γενικός ανιχνευτής ψέματος:

‘Τα ευρήματα είναι εφαρμόσιμα σε ένα ευρύ φάσμα διαδικασιών υπηρεσιών και ειδικά χρήσιμα για όλες τις αλληλεπιδράσεις πελάτη που λαμβάνουν χώρα μέσω τηλεφώνου. Ο αλγόριθμος που παρουσιάζεται μπορεί να εφαρμοστεί σε κάθε κατάσταση όπου είναι χρήσιμο για τον πράκτορα να γνωρίζει αν ο πελάτης μιλάει με την πειθώ του.

‘Αυτό θα μπορούσε, για παράδειγμα, να οδηγήσει σε μια μείωση των αμφίβολων αιτημάτων ασφάλισης ή των ψευδών δηλώσεων σε συνεντεύξεις εργασίας. Αυτό δεν θα μειώσει μόνο τις λειτουργικές απώλειες για τις εταιρείες υπηρεσιών, αλλά και θα ενθαρρύνει τους πελάτες να είναι πιο αλήθεια.’

Γέννηση Δεδομένων

Στην απουσία ενός κατάλληλου δημόσιου συνόλου δεδομένων στη γερμανική γλώσσα, οι ερευνητές – από το Πανεπιστήμιο Εφαρμοσμένων Επιστημών Neu-Ulm (HNU) – δημιούργησαν το δικό τους υλικό. Φυλλάδια κολλήθηκαν στο πανεπιστήμιο και σε τοπικά σχολεία, με 40 εθελοντές που επιλέχθηκαν με ελάχιστη ηλικία 16 ετών. Οι εθελοντές πληρώθηκαν με ένα voucher 10 ευρώ από το Amazon.

Οι συνεδρίες διεξήχθησαν με ένα μοντέλο συζήτησης που σχεδιάστηκε για να πολωθεί η γνώμη και να προκαλέσει ισχυρές αντιδράσεις γύρω από εύφλεκτα θέματα, αποτελεσματικά μοντελοποιώντας το στρες που μπορεί να συμβεί σε προβληματικές συνομιλίες πελάτη τηλεφώνου.

Τα θέματα στα οποία οι εθελοντές έπρεπε να μιλήσουν ελεύθερα για τρία λεπτά σε δημόσιο χώρο ήταν:

– Πρέπει να επαναφερθεί η ποινή θανάτου και οι δημόσιες εκτελέσεις στη Γερμανία;
– Πρέπει να επιβληθούν διδάκτρια που καλύπτουν το κόστος στη Γερμανία;
– Πρέπει να νομιμοποιηθεί η χρήση σκληρών ναρκωτικών όπως η ηρωίνη και το κρυσταλλικό μεθάμη στη Γερμανία;
– Πρέπει να απαγορευτούν οι αλυσίδες εστιατορίων που σερβίρουν άγεια γρήγορη τροφή, όπως το McDonald’s ή το Burger King, στη Γερμανία;

Προεπεξεργασία

Το έργο ευνοούσε την ανάλυση των ακουστικών χαρακτηριστικών ομιλίας σε μια προσέγγιση Αυτόματης Αναγνώρισης Ομιλίας (ASR) έναντι μιας προσέγγισης NLP (όπου η ομιλία αναλύεται σε γλωσσικό επίπεδο και η ‘θερμοκρασία’ της συζήτησης υπονοείται άμεσα από τη χρήση της γλώσσας).

Τα προεπεξεργασμένα δείγματα αναλύθηκαν αρχικά μέσω των Συντελεστών Μελ-Φρεκβενσιακής Κεφαλής (MFCCs), μια αξιόπιστη, παλιά μέθοδος που είναι ακόμα πολύ δημοφιλής στην ανάλυση ομιλίας. Από τότε που η μέθοδος προτάθηκε για πρώτη φορά το 1980, είναι αξιοσημείωτα φειδωλή με τους πόρους υπολογιστή όσον αφορά την αναγνώριση επαναλαμβανόμενων μοτίβων στην ομιλία και είναι ανθεκτική σε διάφορα επίπεδα ποιότητας ήχου. Επειδή οι συνεδρίες διεξήχθησαν μέσω πλατφορμών VOIP σε συνθήκες.lockdown τον Δεκέμβριο του 2020, ήταν σημαντικό να υπάρχει ένα πλαίσιο ηχογράφησης που θα μπορούσε να λάβει υπόψη την κακή ποιότητα ήχου όταν χρειαζόταν.

Είναι ενδιαφέρον να σημειωθεί ότι οι δύο προαναφερθέντες τεχνικοί περιορισμοί (περιορισμένοι πόροι CPU στις αρχές της δεκαετίας του 1980 και οι ιδιομορφίες της συνδεσιμότητας VOIP σε ένα περιβάλλον δικτύου) συνδυάζονται εδώ για να δημιουργήσουν ένα μοντέλο που είναι ουσιαστικά ‘τεχνικά αραιό’ και φαίνεται να είναι ασυνήθιστα ανθεκτικό στην απουσία ιδανικών συνθηκών εργασίας και υψηλού επιπέδου πόρων – μιμούμενο το στόχο για τον αλγόριθμο.

Στη συνέχεια, εφαρμόστηκε ένας αλγόριθμος Γρήγορης Μετασχηματίσεως Φουριέ (FFT) στα τμήματα ήχου για να παρέχει ένα φασματικό προφίλ κάθε ‘πλαίσιο ήχου’, πριν από την τελική αντιστοίχιση στην Κλίμακα Μελ.

Εκπαίδευση, Αποτελέσματα και Περιορισμοί

Κατά τη διάρκεια της εκπαίδευσης, τα εξαγόμενα διανύσματα χαρακτηριστικών περνούν από ένα χρονικά κατανεμημένο στρωματό層, επίπεδο και στη συνέχεια περνούν από ένα στρώμα LSTM.

Αρχιτεκτονική της διαδικασίας εκπαίδευσης για τον ανιχνευτή αλήθειας AI. Source: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Τέλος, όλα τα νευρικά κύτταρα συνδέονται μεταξύ τους για να παράγουν μια δυαδική πρόβλεψη για το αν ο ομιλητής λέει πράγματα που πιστεύει ότι είναι αλήθεια.

Σε δοκιμές μετά την εκπαίδευση, το σύστημα έφτασε σε ένα επίπεδο ακρίβειας έως και 98,91% όσον αφορά την ανίχνευση προθέσεων (όπου το περιεχόμενο της ομιλίας μπορεί να μην αντανακλά την πρόθεση). Οι ερευνητές θεωρούν ότι το έργο αποδεικνύει εμπειρικά την αναγνώριση πειθούς με βάση τα μοτίβα της φωνής και ότι αυτό μπορεί να επιτευχθεί χωρίς την αποσύνθεση της γλώσσας σε στυλ NLP.

Όσον αφορά τους περιορισμούς, οι ερευνητές παραδέχονται ότι το δείγμα δοκιμής είναι μικρό. Αν και η εργασία δεν αναφέρει ρητά, τα δεδομένα δοκιμής χαμηλού όγκου μπορούν να μειώσουν την μεταγενέστερη εφαρμοσιμότητα σε περίπτωση που οι υποθέσεις, οι αρχιτεκτονικές λειτουργίες και η γενική διαδικασία εκπαίδευσης είναι υπερ-προσαρμοσμένες στα δεδομένα. Η εργασία σημειώνει ότι έξι από τα οκτώ μοντέλα που κατασκευάστηκαν κατά τη διάρκεια του έργου υπερ-προσαρμόστηκαν σε κάποιο σημείο της διαδικασίας μάθησης και ότι υπάρχει περαιτέρω εργασία να γίνει για την γενίκευση της εφαρμοσιμότητας των παραμέτρων που ορίστηκαν για το μοντέλο.

Επιπλέον, η έρευνα αυτού του είδους πρέπει να λάβει υπόψη τις εθνικές ιδιαιτερότητες και η εργασία σημειώνει ότι οι Γερμανοί υποκειμενικοί που συμμετείχαν στη δημιουργία των δεδομένων μπορεί να έχουν μοτίβα επικοινωνίας που δεν είναι απευθείας αναπαραγώγιμα σε διαφορετικές κουλτούρες – μια κατάσταση που θα μπορούσε να προκύψει σε οποιαδήποτε τέτοια μελέτη σε οποιαδήποτε χώρα.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]