Kunsmatige Intelligensie

'n KI-gebaseerde leuenverklikker vir oproepsentrumgesprekke

Opgedateer on Desember 9, 2022

Navorsers in Duitsland het masjienleer gebruik om 'n klankanalisestelsel te skep wat hoofsaaklik bedoel is om as 'n KI-gebaseerde leuenverklikker vir kliënte in oudiokommunikasie met oproepsentrum en ondersteuningspersoneel op te tree.

Die stelsel gebruik 'n spesiaal-geskepte datastel van oudio-opnames deur 40 studente en onderwysers tydens debatte oor omstrede onderwerpe, insluitend die moraliteit van die doodstraf en klasgeld. Die model is opgelei op 'n argitektuur wat Convolutional Neural Networks (CNN's) en Long Short-Term Memory (LSTM) gebruik, en het 'n gerapporteerde akkuraatheidskoers van 98% behaal.

Alhoewel die gestelde bedoeling van die werk klantkommunikasie aanhaal, gee die navorsers toe dat dit effektief funksioneer as 'n algemene doel leuenverklikker:

'Die bevindinge is van toepassing op 'n wye reeks diensprosesse en spesifiek nuttig vir alle kliëntinteraksies wat telefonies plaasvind. Die algoritme wat aangebied word, kan toegepas word in enige situasie waar dit nuttig is vir die agent om te weet of 'n kliënt tot sy/haar oortuiging praat.

'Dit kan byvoorbeeld lei tot 'n vermindering in twyfelagtige versekeringseise, of onwaar stellings in werksonderhoude. Dit sal nie net bedryfsverliese vir diensmaatskappye verminder nie, maar ook kliënte aanmoedig om meer eerlik te wees.'

Datastel Generasie

In die afwesigheid van 'n geskikte publiek beskikbare datastel in die Duitse taal, het die navorsers – van Neu-Ulm Universiteit van Toegepaste Wetenskappe (HNU) – hul eie bronmateriaal geskep. Pamflette is by die universiteit en by plaaslike skole geplaas, met 40 vrywilligers wat gekies is met 'n minimum ouderdom van 16. Vrywilligers is met 'n Amazon-bewys van 10 euro betaal.

Die sessies is uitgevoer op 'n debatklubmodel wat ontwerp is om mening te polariseer en sterk reaksies oor aansteeklike onderwerpe te wek, wat die stres wat in problematiese klantgesprekke oor die telefoon kan voorkom, effektief modelleer.

Die onderwerpe waaroor die vrywilligers drie minute lank vrylik in die openbaar moes praat was:

– Moet die doodstraf en openbare teregstellings weer in Duitsland ingestel word?
– Moet kostedekkende klasgeld in Duitsland gehef word?
– Moet die gebruik van harde dwelms soos heroïen en crystal meth in Duitsland gewettig word?
– Moet restaurantkettings wat ongesonde kitskos bedien, soos McDonald’s of Burger King, in Duitsland verbied word?

Voorverwerking

Die projek het die ontleding van akoestiese spraakkenmerke in 'n Outomatiese Spraakherkenning (ASR)-benadering bevoordeel bo 'n NLP-benadering (waar spraak op 'n linguistiese vlak ontleed word, en die 'temperatuur' van die diskoers direk afgelei word uit taalgebruik).

Die voorafverwerkte onttrekte monsters is aanvanklik ontleed via Mel-frekwensie Cepstrale Koëffisiënte (MFCC's), 'n betroubare, ouer metode wat steeds baie gewild is in spraakanalise. Sedert die metode vir die eerste keer in 1980 voorgestel is, is dit veral spaarsamig met rekenaarhulpbronne in terme van die herkenning van herhalende patrone in spraak, en is bestand teen verskeie vlakke van oudio-opnamekwaliteit. Omdat die sessies oor VOIP-platforms in toesluittoestande in Desember 2020 onderneem is, was dit belangrik om 'n opnameraamwerk te hê wat rekening kan hou met swak kwaliteit klank wanneer nodig.

Dit is interessant om daarop te let dat die twee voorgenoemde tegniese beperkings (beperkte SVE-hulpbronne in die vroeë 1980's en die eksentrisiteite van VOIP-konneksie in 'n oorbelaste netwerkkonteks) hier kombineer om 'n 'tegnies yl' model te skep wat (blykbaar) buitengewoon robuust is. in die afwesigheid van ideale werksomstandighede en hoëvlakhulpbronne – wat die teikenarena vir die gevolglike algoritme naboots.

Daarna 'n Fast Fourier Transformasie (FFT) algoritme is teen die oudiosegmente toegepas om 'n spektrale profiel van elke 'oudioraam' te verskaf, voor finale kartering na die Mel-skaal.

Opleiding, resultate en beperkings

Tydens opleiding word die onttrekte kenmerkvektore na 'n tydverspreide konvolusionele netwerklaag oorgedra, afgeplat en dan na 'n LSTM-laag oorgedra.

Argitektuur van die opleidingsproses vir die KI-waarheidsdetektor. Bron: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Ten slotte is al die neurone aan mekaar verbind om 'n binêre voorspelling te genereer vir of die spreker dinge sê wat hulle glo waar is of nie.

In toetse na opleiding het die stelsel 'n akkuraatheidsvlak van tot 98.91% behaal in terme van voorneme-onderskeiding (waar die gesproke inhoud dalk nie die bedoeling weerspieël nie). Die navorsers is van mening dat die werk empiries oortuigingsidentifikasie demonstreer gebaseer op stempatrone, en dat dit bereik kan word sonder NLP-styl dekonstruksie van taal.

Wat beperkings betref, gee die navorsers toe dat die toetsmonster klein is. Alhoewel die vraestel dit nie uitdruklik stel nie, kan lae-volume toetsdata latere toepaslikheid verminder in die geval dat die aannames, argitektoniese kenmerke en die algemene opleidingsproses oorpas by die data is. Die referaat merk op dat ses van die agt modelle wat regdeur die projek gebou is op 'n sekere punt in die leerproses oorgepas is, en dat daar verdere werk gedoen moet word om die toepaslikheid van die parameters wat vir die model gestel is, te veralgemeen.

Verder moet navorsing van hierdie aard rekening hou met nasionale kenmerke, en die referaat merk op dat die Duitse vakke wat by die generering van die data betrokke is, kommunikasiepatrone kan hê wat nie direk oor kulture herhaalbaar is nie - 'n situasie wat waarskynlik in so 'n studie sou ontstaan in enige nasie.