Künstliche Intelligenz
Ein auf KI basierender Lügendetektor für Call-Center-Gespräche

Forscher in Deutschland haben Machine Learning verwendet, um ein Audio-Analyse-System zu erstellen, das hauptsächlich als KI-basierter Lügendetektor für Kunden in Audio-Kommunikationen mit Call-Center- und Support-Mitarbeitern dienen soll.
Das System verwendet eine speziell erstellte Datenbank von Audio-Aufnahmen von 40 Schülern und Lehrern während Debatten über umstrittene Themen, einschließlich der Moral der Todesstrafe und Studiengebühren. Das Modell wurde auf einer Architektur trainiert, die Convolutional Neural Networks (CNNs) und Long Short-Term Memory (LSTM) verwendet, und erreichte eine angegebene Genauigkeitsrate von 98%.
Obwohl die angegebene Absicht der Arbeit Kundenkommunikationen betrifft, geben die Forscher zu, dass es effektiv als allgemeiner Lügendetektor funktioniert:
‘Die Ergebnisse sind auf eine breite Palette von Dienstleistungsprozessen anwendbar und insbesondere nützlich für alle Kundeninteraktionen, die telefonisch stattfinden. Der vorgestellte Algorithmus kann in jeder Situation angewendet werden, in der es für den Agenten hilfreich ist, zu wissen, ob ein Kunde zu seiner Überzeugung spricht.
‘Dies könnte beispielsweise zu einer Verringerung zweifelhafter Versicherungsansprüche oder unehrlicher Aussagen in Vorstellungsgesprächen führen. Dies würde nicht nur die operativen Verluste für Dienstleistungsunternehmen reduzieren, sondern auch die Kunden dazu ermutigen, ehrlicher zu sein.’
Datenerstellung
Aufgrund des Fehlens einer geeigneten öffentlich verfügbaren Datenbank in der deutschen Sprache erstellten die Forscher – von der Hochschule Neu-Ulm (HNU) – ihre eigene Quellenmaterial. Flugblätter wurden an der Universität und an lokalen Schulen aufgehängt, und 40 Freiwillige wurden mit einem Mindestalter von 16 Jahren ausgewählt. Die Freiwilligen wurden mit einem 10-Euro-Amazon-Gutschein bezahlt.
Die Sitzungen wurden nach einem Debattierclub-Modell durchgeführt, das darauf abzielte, die Meinungen zu polarisieren und starke Reaktionen um umstrittene Themen herum zu erzeugen, was effektiv die Stresssituationen modelliert, die in problematischen Kundenkommunikationen am Telefon auftreten können.
Die Themen, über die die Freiwilligen frei für drei Minuten in öffentlichen Sitzungen sprechen mussten, waren:
– Sollte die Todesstrafe und öffentliche Hinrichtungen in Deutschland wieder eingeführt werden?
– Sollten kostendeckende Studiengebühren in Deutschland erhoben werden?
– Sollte der Konsum von harten Drogen wie Heroin und Crystal Meth in Deutschland legalisiert werden?
– Sollten Restaurantketten, die ungesundes Fast Food wie McDonald’s oder Burger King servieren, in Deutschland verboten werden?
Pre-Processing
Das Projekt bevorzugte die Analyse von akustischen Sprachmerkmalen in einem Automatic Speech Recognition (ASR)-Ansatz gegenüber einem NLP-Ansatz (bei dem die Sprache auf linguistischer Ebene analysiert wird und die “Temperatur” der Diskussion direkt aus der Verwendung der Sprache abgeleitet wird).
Die vorverarbeiteten extrahierten Proben wurden zunächst mittels Mel-Frequency-Cepstral-Coefficients (MFCCs) analysiert, einer zuverlässigen, älteren Methode, die immer noch sehr beliebt in der Sprachanalyse ist. Da die Methode erstmals 1980 vorgeschlagen wurde, ist sie bemerkenswerterweise sparsam mit Rechenressourcen in Bezug auf die Erkennung von wiederkehrenden Mustern in der Sprache und resilient gegenüber verschiedenen Ebenen der Audio-Aufnahmqualität. Da die Sitzungen über VOIP-Plattformen in Lockdown-Bedingungen im Dezember 2020 durchgeführt wurden, war es wichtig, ein Aufnahmeframework zu haben, das bei Bedarf schlechte Audioqualität berücksichtigen konnte.
Es ist interessant zu beachten, dass die beiden genannten technischen Einschränkungen (begrenzte CPU-Ressourcen in den frühen 1980er Jahren und die Eigenheiten von VOIP-Verbindungen in einem überlasteten Netzwerk) hier kombiniert werden, um ein effektiv “technisch sparsames” Modell zu erstellen, das (anscheinend) ungewöhnlich robust ist in Abwesenheit von idealen Arbeitsbedingungen und hochwertigen Ressourcen – ähnlich dem Zielbereich für den resultierenden Algorithmus.
Danach wurde ein Fast Fourier Transform (FFT)-Algorithmus auf die Audio-Segmente angewendet, um ein spektrales Profil jedes “Audio-Frames” zu liefern, bevor es schließlich auf die Mel-Skala abgebildet wurde.
Training, Ergebnisse und Einschränkungen
Während des Trainings werden die extrahierten Merkmalsvektoren an eine zeitverteilte konvolutionale Netzwerkschicht übergeben, gefolgt von einer LSTM-Schicht.

Architektur des Trainingsprozesses für den KI-Lügendetektor. Source: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf
Schließlich werden alle Neuronen miteinander verbunden, um eine binäre Vorhersage dafür zu generieren, ob der Sprecher Dinge sagt, die er für wahr hält.
In Tests nach dem Training erreichte das System eine Genauigkeitsrate von bis zu 98,91% bei der Ermittlung der Absicht (bei der der gesprochene Inhalt möglicherweise nicht der Absicht entspricht). Die Forscher sind der Meinung, dass die Arbeit empirisch die Identifizierung von Überzeugungen auf der Grundlage von Sprachmustern demonstriert und dass dies ohne NLP-Style-Dekonstruktion der Sprache erreicht werden kann.
In Bezug auf Einschränkungen geben die Forscher zu, dass die Teststichprobe klein ist. Obwohl die Arbeit dies nicht explizit angibt, kann geringes Testdatenvolumen die spätere Anwendbarkeit im Falle reduzieren, dass die Annahmen, architektonischen Merkmale und der allgemeine Trainingsprozess auf die Daten überanpasst sind. Die Arbeit vermerkt, dass sechs der acht im Projekt erstellten Modelle zu einem bestimmten Zeitpunkt im Lernprozess überanpasst waren, und dass es weitere Arbeiten gibt, um die Anwendbarkeit der für das Modell festgelegten Parameter zu verallgemeinern.
Darüber hinaus muss Forschung dieser Art nationale Charakteristika berücksichtigen, und die Arbeit vermerkt, dass die deutschen Probanden, die an der Erstellung der Daten beteiligt waren, Kommunikationsmuster haben können, die nicht direkt auf andere Kulturen übertragbar sind – eine Situation, die wahrscheinlich in jeder solchen Studie in jedem Land auftreten würde.










