tynkä Tekoälyyn perustuva valheentunnistin puhelinkeskusteluihin - Unite.AI
Liity verkostomme!

Tekoäly

Tekoälyyn perustuva valheentunnistin puhelinkeskusteluihin

mm
Päivitetty on

Saksalaiset tutkijat ovat luoneet koneoppimisen avulla äänianalyysijärjestelmän, joka on tarkoitettu ensisijaisesti toimimaan tekoälypohjaisena valheenpaljastimena asiakkaille ääniviestinnässä puhelinkeskuksen ja tukihenkilöstön kanssa.

- järjestelmä käyttää 40 opiskelijan ja opettajan erityisesti luomaa datasarjaa äänitallenteista keskusteluissa kiistanalaisista aiheista, mukaan lukien kuolemanrangaistuksen moraali ja lukukausimaksut. Malli opetettiin arkkitehtuurille, joka käyttää konvoluutiohermoverkkoja (CNN) ja pitkää lyhytaikaista muistia (LSTM), ja sen raportoitu tarkkuus oli 98%.

Vaikka työn ilmoitettu tarkoitus viittaa asiakasviestintään, tutkijat myöntävät, että se toimii tehokkaasti yleiskäyttöisenä valheenpaljastimena:

”Tulokset soveltuvat monenlaisiin palveluprosesseihin ja ovat erityisen hyödyllisiä kaikessa puhelimitse tapahtuvassa asiakasvuorovaikutuksessa. Esitettyä algoritmia voidaan soveltaa missä tahansa tilanteessa, jossa välittäjän on hyödyllistä tietää, puhuuko asiakas vakaumukselleen.

”Tämä voi esimerkiksi vähentää epäilyttäviä vakuutuskorvauksia tai vääriä lausuntoja työhaastatteluissa. Tämä ei ainoastaan ​​vähentäisi palveluyritysten toiminnallisia tappioita, vaan myös rohkaisisi asiakkaita olemaan totuudenmukaisempia.

Tietojoukon luominen

Koska sopivaa julkisesti saatavilla olevaa saksankielistä aineistoa ei ollut saatavilla, tutkijat – Neu-Ulmin ammattikorkeakoulusta (HNU) – loivat oman lähdemateriaalinsa. Yliopistossa ja paikallisissa kouluissa postitettiin lentolehtisiä, joihin valittiin 40 vähintään 16-vuotiasta vapaaehtoista. Vapaaehtoisille maksettiin 10 euron Amazon-kuponki.

Istunnot toteutettiin keskusteluklubimallilla, joka oli suunniteltu polarisoimaan mielipiteitä ja herättämään voimakkaita reaktioita sytyttävien aiheiden ympärillä, mallintaen tehokkaasti stressiä, joka voi syntyä ongelmallisissa puhelinkeskusteluissa.

Aiheet, joista vapaaehtoisten piti puhua vapaasti kolmen minuutin ajan julkisesti:

– Pitäisikö kuolemanrangaistus ja julkiset teloitukset ottaa uudelleen käyttöön Saksassa?
– Pitäisikö Saksassa periä kustannukset kattavat lukukausimaksut?
– Pitäisikö kovien huumeiden, kuten heroiinin ja kristallimetaanin, käyttö laillistaa Saksassa?
– Pitäisikö epäterveellistä pikaruokaa tarjoilevat ravintolaketjut, kuten McDonald's tai Burger King, kieltää Saksassa?

Esikäsittely

Projekti suosi puheen akustisten piirteiden analysointia automaattisessa puheentunnistuksessa (ASR) NLP-lähestymistavan sijaan (jossa puhetta analysoidaan lingvistisellä tasolla ja keskustelun "lämpötila" päätellään suoraan kielen käytöstä).

Esikäsitellyt uutetut näytteet analysoitiin alun perin Mel-frequency Cepstral Coefficients (MFCC) -menetelmällä, joka on luotettava, vanhempi menetelmä, joka on edelleen erittäin suosittu puheanalyysissä. Siitä lähtien, kun menetelmää ehdotettiin ensimmäisen kerran vuonna 1980, se on erityisen säästäväinen laskentaresurssien suhteen puheen toistuvien kuvioiden tunnistamisessa ja kestää erilaisia ​​äänen sieppauksen laatutasoja. Koska istunnot pidettiin VOIP-alustoilla lukitusolosuhteissa joulukuussa 2020, oli tärkeää, että meillä on tallennuskehys, joka voi tarvittaessa ottaa huomioon huonon äänenlaadun.

On mielenkiintoista huomata, että kaksi edellä mainittua teknistä rajoitusta (rajoitetut suorittimen resurssit 1980-luvun alussa ja VOIP-yhteyksien eksentrisuudet ruuhkaisessa verkkoympäristössä) yhdistyvät tässä luoden käytännössä "teknisesti harvan" mallin, joka on (ilmeisesti) epätavallisen vankka. ihanteellisten työolosuhteiden ja korkean tason resurssien puuttuessa – jäljittelemällä tuloksena olevan algoritmin tavoiteareenia.

Sen jälkeen nopea Fourier-muunnos (FFT) -algoritmia sovellettiin audiosegmenttejä vastaan ​​spektriprofiilin tuottamiseksi jokaisesta "äänikehyksestä" ennen lopullista kartoittamista Mel-asteikolle.

Koulutus, tulokset ja rajoitukset

Harjoittelun aikana poimitut piirrevektorit välitetään aikahajautettuun konvoluutioverkkokerrokseen, litistetään ja sitten siirretään LSTM-kerrokseen.

Tekoälyn totuudenilmaisimen koulutusprosessin arkkitehtuuri. Lähde: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Tekoälyn totuudenilmaisimen koulutusprosessin arkkitehtuuri. Lähde: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

Lopuksi, kaikki neuronit ovat yhteydessä toisiinsa, jotta saadaan aikaan binäärinen ennuste siitä, sanooko puhuja asioita, joiden he uskovat olevan totta.

Harjoittelun jälkeisissä testeissä järjestelmä saavutti jopa 98.91 %:n tarkkuustason aikomusten erottamisessa (jos puhuttu sisältö ei välttämättä heijasta tarkoitusta). Tutkijat katsovat, että työ osoittaa empiirisesti äänimalleihin perustuvan vakaumustunnistuksen ja että tämä voidaan saavuttaa ilman NLP-tyylistä kielen dekonstruktiota.

Mitä tulee rajoituksiin, tutkijat myöntävät, että testiotos on pieni. Vaikka paperissa ei sitä nimenomaisesti mainita, vähäisen volyymin testidata voi heikentää myöhempää soveltuvuutta siinä tapauksessa, että olettamukset, arkkitehtuuriset ominaisuudet ja yleinen koulutusprosessi sopivat liikaa dataan. Raportissa todetaan, että kuusi kahdeksasta projektin aikana rakennetusta mallista oli jossain vaiheessa ylisovitettua oppimisprosessissa ja että mallille asetettujen parametrien soveltuvuuden yleistämisessä on vielä tehtävää.

Lisäksi tällaisessa tutkimuksessa on otettava huomioon kansalliset ominaispiirteet, ja paperi toteaa, että tiedon tuottamiseen osallistuvilla saksalaisilla henkilöillä voi olla viestintämalleja, jotka eivät ole suoraan replikoitavissa eri kulttuureissa – tilanne, joka todennäköisesti syntyisi missä tahansa tällaisessa tutkimuksessa mikä tahansa kansakunta.