Stummel Ein KI-basierter Lügendetektor für Callcenter-Gespräche – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Ein KI-basierter Lügendetektor für Callcenter-Gespräche

mm
Aktualisiert on

Forscher in Deutschland haben mithilfe von maschinellem Lernen ein Audioanalysesystem entwickelt, das in erster Linie als KI-basierter Lügendetektor für Kunden bei der Audiokommunikation mit Callcenter- und Supportmitarbeitern dienen soll.

Das System verwendet einen speziell erstellten Datensatz von Audioaufzeichnungen von 40 Schülern und Lehrern während Debatten über umstrittene Themen, darunter die Moral der Todesstrafe und Studiengebühren. Das Modell wurde auf einer Architektur trainiert, die Convolutional Neural Networks (CNNs) und Long Short-Term Memory (LSTM) nutzt, und erreichte eine gemeldete Genauigkeitsrate von 98 %.

Obwohl sich die erklärte Absicht der Arbeit auf Kundenkommunikation bezieht, räumen die Forscher ein, dass sie effektiv als Allzweck-Lügendetektor funktioniert:

„Die Erkenntnisse sind auf eine Vielzahl von Serviceprozessen anwendbar und insbesondere für alle Kundeninteraktionen, die per Telefon stattfinden, von Nutzen.“ Der vorgestellte Algorithmus kann überall dort angewendet werden, wo es für den Agenten hilfreich ist zu wissen, ob ein Kunde seine Überzeugung zum Ausdruck bringt.

„Dies könnte beispielsweise dazu führen, dass zweifelhafte Versicherungsansprüche oder unwahre Aussagen in Vorstellungsgesprächen zurückgehen.“ Dies würde nicht nur die Betriebsverluste für Dienstleistungsunternehmen verringern, sondern auch die Kunden zu mehr Ehrlichkeit ermutigen.'

Datensatzgenerierung

Mangels eines geeigneten öffentlich zugänglichen Datensatzes in deutscher Sprache erstellten die Forscher der Hochschule Neu-Ulm (HNU) eigenes Quellenmaterial. An der Universität und an örtlichen Schulen wurden Flugblätter ausgehängt, wobei 40 Freiwillige mit einem Mindestalter von 16 Jahren ausgewählt wurden. Die Freiwilligen wurden mit einem 10-Euro-Amazon-Gutschein bezahlt.

Die Sitzungen wurden nach einem Debattierclub-Modell durchgeführt, das darauf abzielt, die Meinungen zu polarisieren und starke Reaktionen auf heikle Themen hervorzurufen, wodurch der Stress, der bei problematischen Kundengesprächen am Telefon auftreten kann, effektiv modelliert wird.

Die Themen, zu denen die Freiwilligen drei Minuten lang in der Öffentlichkeit frei sprechen mussten, waren:

– Sollten die Todesstrafe und öffentliche Hinrichtungen in Deutschland wieder eingeführt werden?
– Sollten in Deutschland kostendeckende Studiengebühren erhoben werden?
– Sollte der Konsum harter Drogen wie Heroin und Crystal Meth in Deutschland legalisiert werden?
– Sollten Restaurantketten, die ungesundes Fast Food anbieten, wie McDonald's oder Burger King, in Deutschland verboten werden?

Vorverarbeitung

Das Projekt bevorzugte die Analyse akustischer Sprachmerkmale in einem Ansatz der automatischen Spracherkennung (ASR) gegenüber einem NLP-Ansatz (bei dem Sprache auf linguistischer Ebene analysiert wird und die „Temperatur“ des Diskurses direkt aus dem Sprachgebrauch abgeleitet wird).

Die vorverarbeiteten extrahierten Proben wurden zunächst mithilfe von Mel-Frequency Cepstral Coefficients (MFCCs) analysiert, einer zuverlässigen, älteren Methode, die in der Sprachanalyse immer noch sehr beliebt ist. Da die Methode erstmals im Jahr 1980 vorgeschlagen wurde, ist sie im Hinblick auf die Erkennung wiederkehrender Muster in der Sprache besonders sparsam im Umgang mit Rechenressourcen und eignet sich für verschiedene Audioaufnahmequalitätsstufen. Da die Sitzungen im Dezember 2020 unter Sperrbedingungen über VOIP-Plattformen durchgeführt wurden, war es wichtig, über ein Aufzeichnungssystem zu verfügen, das bei Bedarf eine schlechte Audioqualität berücksichtigen kann.

Es ist interessant festzustellen, dass die beiden oben genannten technischen Einschränkungen (begrenzte CPU-Ressourcen in den frühen 1980er Jahren und die Exzentrizität der VOIP-Konnektivität in einem überlasteten Netzwerkkontext) hier tatsächlich ein „technisch spärliches“ Modell schaffen, das (anscheinend) ungewöhnlich robust ist in Ermangelung idealer Arbeitsbedingungen und hochwertiger Ressourcen – Nachahmung des Zielbereichs für den resultierenden Algorithmus.

Danach erfolgt eine schnelle Fourier-Transformation (FFT)-Algorithmus wurde auf die Audiosegmente angewendet, um ein Spektralprofil jedes „Audioframes“ zu liefern, bevor die endgültige Zuordnung zur Mel-Skala erfolgte.

Training, Ergebnisse und Einschränkungen

Während des Trainings werden die extrahierten Merkmalsvektoren an eine zeitverteilte Faltungsnetzwerkschicht übergeben, abgeflacht und dann an eine LSTM-Schicht übergeben.

Architektur des Trainingsprozesses für den KI-Wahrheitsdetektor. Quelle: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Architektur des Trainingsprozesses für den KI-Wahrheitsdetektor. Quelle: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Schließlich werden alle Neuronen miteinander verbunden, um eine binäre Vorhersage darüber zu erstellen, ob der Sprecher Dinge sagt, die er für wahr hält oder nicht.

In Tests nach dem Training erreichte das System eine Genauigkeit von bis zu 98.91 % in Bezug auf die Absichtserkennung (wobei der gesprochene Inhalt möglicherweise nicht die Absicht widerspiegelt). Die Forscher gehen davon aus, dass die Arbeit empirisch die Identifikation von Überzeugungen anhand von Stimmmustern demonstriert und dass dies ohne eine Dekonstruktion der Sprache im NLP-Stil erreicht werden kann.

Was die Einschränkungen betrifft, räumen die Forscher ein, dass die Teststichprobe klein ist. Auch wenn dies in dem Dokument nicht explizit erwähnt wird, können Testdaten in geringem Umfang die spätere Anwendbarkeit beeinträchtigen, wenn die Annahmen, Architekturfunktionen und der allgemeine Trainingsprozess zu sehr zu den Daten passen. In dem Papier wird darauf hingewiesen, dass sechs der acht im Rahmen des Projekts erstellten Modelle irgendwann im Lernprozess überangepasst waren und dass noch weitere Arbeit zur Verallgemeinerung der Anwendbarkeit der für das Modell festgelegten Parameter erforderlich ist.

Darüber hinaus müssen Untersuchungen dieser Art nationale Besonderheiten berücksichtigen, und in dem Papier wird darauf hingewiesen, dass die an der Generierung der Daten beteiligten deutschen Probanden möglicherweise Kommunikationsmuster aufweisen, die nicht direkt über Kulturen hinweg reproduzierbar sind – eine Situation, die bei einer solchen Studie wahrscheinlich auftreten würde jede Nation.