στέλεχος Ένας ανιχνευτής ψεύδους βασισμένος σε AI για συνομιλίες τηλεφωνικών κέντρων - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Ένας ανιχνευτής ψεύδους βασισμένος σε AI για συνομιλίες τηλεφωνικού κέντρου

mm
Ενημερώθηκε on

Ερευνητές στη Γερμανία χρησιμοποίησαν μηχανική μάθηση για να δημιουργήσουν ένα σύστημα ανάλυσης ήχου που προορίζεται κυρίως να λειτουργεί ως ανιχνευτής ψεύδους βασισμένος σε τεχνητή νοημοσύνη για πελάτες σε ηχητικές επικοινωνίες με τηλεφωνικό κέντρο και προσωπικό υποστήριξης.

Η σύστημα χρησιμοποιεί ένα ειδικά δημιουργημένο σύνολο δεδομένων ηχογραφήσεων από 40 μαθητές και καθηγητές κατά τη διάρκεια συζητήσεων για επίμαχα θέματα, συμπεριλαμβανομένης της ηθικής της θανατικής ποινής και των διδάκτρων. Το μοντέλο εκπαιδεύτηκε σε μια αρχιτεκτονική που χρησιμοποιεί Συνελικτικά Νευρωνικά Δίκτυα (CNN) και Μακροπρόθεσμη Μνήμη (LSTM) και πέτυχε ένα αναφερόμενο ποσοστό ακρίβειας 98%.

Αν και η δηλωμένη πρόθεση της εργασίας αναφέρει τις επικοινωνίες με τους πελάτες, οι ερευνητές παραδέχονται ότι λειτουργεί αποτελεσματικά ως γενικός ανιχνευτής ψεύδους:

«Τα ευρήματα είναι εφαρμόσιμα σε ένα ευρύ φάσμα διαδικασιών εξυπηρέτησης και είναι ιδιαίτερα χρήσιμα για όλες τις αλληλεπιδράσεις με τους πελάτες που πραγματοποιούνται μέσω τηλεφώνου. Ο αλγόριθμος που παρουσιάζεται μπορεί να εφαρμοστεί σε οποιαδήποτε κατάσταση όπου είναι χρήσιμο για τον πράκτορα να γνωρίζει εάν ένας πελάτης μιλάει με την πεποίθησή του.

«Αυτό θα μπορούσε, για παράδειγμα, να οδηγήσει σε μείωση των αμφισβητούμενων ασφαλιστικών απαιτήσεων ή αναληθείς δηλώσεις σε συνεντεύξεις για δουλειά. Αυτό όχι μόνο θα μειώσει τις λειτουργικές απώλειες για τις εταιρείες παροχής υπηρεσιών, αλλά θα ενθαρρύνει επίσης τους πελάτες να είναι πιο ειλικρινείς».

Δημιουργία συνόλου δεδομένων

Ελλείψει κατάλληλου διαθέσιμου στο κοινό δεδομένων στη γερμανική γλώσσα, οι ερευνητές - από το Πανεπιστήμιο Εφαρμοσμένων Επιστημών Neu-Ulm (HNU) - δημιούργησαν το δικό τους υλικό πηγής. Φέιγ βολάν αναρτήθηκαν στο πανεπιστήμιο και στα τοπικά σχολεία, με 40 εθελοντές που επιλέχθηκαν με ελάχιστη ηλικία 16 ετών. Οι εθελοντές πληρώθηκαν με κουπόνι Amazon 10 ευρώ.

Οι συνεδρίες διεξήχθησαν σε ένα μοντέλο λέσχης συζήτησης σχεδιασμένο να πολώνει τις απόψεις και να προκαλεί έντονες απαντήσεις γύρω από εμπρηστικά θέματα, διαμορφώνοντας αποτελεσματικά το άγχος που μπορεί να προκύψει σε προβληματικές συνομιλίες πελατών στο τηλέφωνο.

Τα θέματα για τα οποία οι εθελοντές έπρεπε να μιλήσουν ελεύθερα για τρία λεπτά δημόσια ήταν:

– Θα πρέπει να επαναφερθούν στη Γερμανία η θανατική ποινή και οι δημόσιες εκτελέσεις;
– Πρέπει να χρεώνονται δίδακτρα που καλύπτουν το κόστος στη Γερμανία;
– Πρέπει να νομιμοποιηθεί στη Γερμανία η χρήση σκληρών ναρκωτικών όπως η ηρωίνη και η κρυσταλλική μεθαμφεταμίνη;
– Πρέπει να απαγορευθούν στη Γερμανία οι αλυσίδες εστιατορίων που σερβίρουν ανθυγιεινό γρήγορο φαγητό, όπως τα McDonald's ή τα Burger King;

Προεπεξεργασία

Το έργο ευνόησε την ανάλυση των χαρακτηριστικών ακουστικής ομιλίας σε μια προσέγγιση αυτόματης αναγνώρισης ομιλίας (ASR) έναντι μιας προσέγγισης NLP (όπου η ομιλία αναλύεται σε γλωσσικό επίπεδο και η «θερμοκρασία» του λόγου συνάγεται απευθείας από τη χρήση της γλώσσας).

Τα προεπεξεργασμένα δείγματα που εξήχθησαν αναλύθηκαν αρχικά μέσω Μελ-συχνότητας Cepstral Coefficients (MFCCs), μια αξιόπιστη, παλαιότερη μέθοδο που εξακολουθεί να είναι πολύ δημοφιλής στην ανάλυση ομιλίας. Δεδομένου ότι η μέθοδος προτάθηκε για πρώτη φορά το 1980, είναι ιδιαίτερα λιτή με τους υπολογιστικούς πόρους όσον αφορά την αναγνώριση επαναλαμβανόμενων μοτίβων στην ομιλία και είναι ανθεκτική σε διάφορα επίπεδα ποιότητας καταγραφής ήχου. Επειδή οι συνεδρίες πραγματοποιήθηκαν μέσω πλατφορμών VOIP σε συνθήκες κλειδώματος τον Δεκέμβριο του 2020, ήταν σημαντικό να υπάρχει ένα πλαίσιο ηχογράφησης που θα μπορούσε να αντιπροσωπεύει ήχο κακής ποιότητας όταν ήταν απαραίτητο.

Είναι ενδιαφέρον να σημειωθεί ότι οι δύο προαναφερθέντες τεχνικοί περιορισμοί (περιορισμένοι πόροι CPU στις αρχές της δεκαετίας του 1980 και οι εκκεντρότητες της συνδεσιμότητας VOIP σε ένα πλαίσιο συμφόρησης δικτύου) συνδυάζονται εδώ για να δημιουργήσουν ένα ουσιαστικά «τεχνικά αραιό» μοντέλο που είναι (προφανώς) ασυνήθιστα ισχυρό. ελλείψει ιδανικών συνθηκών εργασίας και πόρων υψηλού επιπέδου – μίμηση της αρένας-στόχου για τον αλγόριθμο που προκύπτει.

Στη συνέχεια ένας γρήγορος μετασχηματισμός Fourier (FFT) εφαρμόστηκε αλγόριθμος έναντι των τμημάτων ήχου για την παροχή ενός φασματικού προφίλ για κάθε «πλαίσιο ήχου», πριν από την τελική αντιστοίχιση στην κλίμακα Mel.

Εκπαίδευση, Αποτελέσματα και Περιορισμοί

Κατά τη διάρκεια της εκπαίδευσης, τα εξαγόμενα διανύσματα χαρακτηριστικών περνούν σε ένα επίπεδο συνελικτικού δικτύου κατανεμημένο σε χρόνο, ισοπεδώνονται και στη συνέχεια περνούν σε ένα επίπεδο LSTM.

Αρχιτεκτονική της διαδικασίας εκπαίδευσης για τον ανιχνευτή αλήθειας AI. Πηγή: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Αρχιτεκτονική της διαδικασίας εκπαίδευσης για τον ανιχνευτή αλήθειας AI. Πηγή: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Τέλος, όλοι οι νευρώνες συνδέονται μεταξύ τους προκειμένου να δημιουργήσουν μια δυαδική πρόβλεψη για το αν ο ομιλητής λέει πράγματα που πιστεύει ότι είναι αληθινά.

Σε δοκιμές μετά την εκπαίδευση, το σύστημα πέτυχε επίπεδο ακρίβειας έως και 98.91% όσον αφορά τη διάκριση της πρόθεσης (όπου το προφορικό περιεχόμενο μπορεί να μην αντικατοπτρίζει την πρόθεση). Οι ερευνητές θεωρούν ότι η εργασία καταδεικνύει εμπειρικά τον προσδιορισμό της πεποίθησης με βάση τα φωνητικά μοτίβα και ότι αυτό μπορεί να επιτευχθεί χωρίς την αποδόμηση της γλώσσας σε στυλ NLP.

Όσον αφορά τους περιορισμούς, οι ερευνητές παραδέχονται ότι το δείγμα δοκιμής είναι μικρό. Αν και το έγγραφο δεν το δηλώνει ρητά, τα δεδομένα δοκιμής χαμηλού όγκου μπορούν να μειώσουν τη μεταγενέστερη εφαρμογή σε περίπτωση που τα τεκμήρια, τα αρχιτεκτονικά χαρακτηριστικά και η γενική διαδικασία εκπαίδευσης είναι υπερβολικά προσαρμοσμένα στα δεδομένα. Το έγγραφο σημειώνει ότι έξι από τα οκτώ μοντέλα που κατασκευάστηκαν σε όλο το έργο ήταν υπερβολικά προσαρμοσμένα σε κάποιο σημείο της μαθησιακής διαδικασίας και ότι πρέπει να γίνει περαιτέρω δουλειά για τη γενίκευση της δυνατότητας εφαρμογής των παραμέτρων που έχουν τεθεί για το μοντέλο.

Περαιτέρω, έρευνα αυτής της φύσης πρέπει να λαμβάνει υπόψη τα εθνικά χαρακτηριστικά, και το έγγραφο σημειώνει ότι τα γερμανικά υποκείμενα που εμπλέκονται στη δημιουργία των δεδομένων μπορεί να έχουν πρότυπα επικοινωνίας που δεν μπορούν να αναπαραχθούν άμεσα μεταξύ των πολιτισμών - μια κατάσταση που πιθανότατα θα προέκυπτε σε οποιαδήποτε τέτοια μελέτη στο οποιοδήποτε έθνος.