სტუბი AI-ზე დაფუძნებული სიცრუის დეტექტორი სატელეფონო ცენტრის საუბრებისთვის - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

AI-ზე დაფუძნებული სიცრუის დეტექტორი სატელეფონო ცენტრის საუბრებისთვის

mm
განახლებულია on

გერმანელმა მკვლევარებმა გამოიყენეს მანქანათმცოდნეობა აუდიო ანალიზის სისტემის შესაქმნელად, რომელიც ძირითადად განკუთვნილია AI-ზე დაფუძნებული სიცრუის დეტექტორის როლში კლიენტებისთვის აუდიო კომუნიკაციებში ქოლ ცენტრთან და დამხმარე პერსონალთან.

ის სისტემა იყენებს 40 სტუდენტისა და მასწავლებლის აუდიოჩანაწერების სპეციალურად შექმნილ მონაცემთა ბაზას სადავო თემებზე დებატების დროს, მათ შორის სიკვდილით დასჯის მორალი და სწავლის საფასური. მოდელი გაწვრთნილი იყო არქიტექტურაზე, რომელიც იყენებს კონვოლუციურ ნერვულ ქსელებს (CNN) და ხანმოკლე მოკლევადიანი მეხსიერების (LSTM) და მიაღწია 98% სიზუსტეს.

მიუხედავად იმისა, რომ ნაშრომის განზრახვა მოჰყავს მომხმარებელთა კომუნიკაციას, მკვლევარები აღიარებენ, რომ ის ეფექტურად მოქმედებს, როგორც ზოგადი დანიშნულების სიცრუის დეტექტორი:

„აღმოჩენები გამოიყენება მომსახურების პროცესების ფართო სპექტრისთვის და განსაკუთრებით სასარგებლოა ყველა მომხმარებელთან ურთიერთობისთვის, რომელიც ხდება ტელეფონით. წარმოდგენილი ალგორითმი შეიძლება გამოყენებულ იქნას ნებისმიერ სიტუაციაში, როდესაც აგენტისთვის სასარგებლოა იმის ცოდნა, საუბრობს თუ არა მომხმარებელი მის რწმენაზე.

მაგალითად, ამან შეიძლება გამოიწვიოს საეჭვო სადაზღვევო პრეტენზიების შემცირება, ან სამუშაო გასაუბრებისას მცდარი განცხადებები. ეს არა მხოლოდ შეამცირებს საოპერაციო ზარალს მომსახურე კომპანიებისთვის, არამედ წაახალისებს მომხმარებლებს უფრო ჭეშმარიტებისკენ.'

მონაცემთა ნაკრების გენერაცია

გერმანულ ენაზე საჯაროდ ხელმისაწვდომი მონაცემთა შესაბამისი არარსებობის გამო, მკვლევარებმა - Neu-ulm University of Applied Sciences (HNU) - შექმნეს საკუთარი წყარო მასალა. ფლაერები გამოქვეყნდა უნივერსიტეტსა და ადგილობრივ სკოლებში, შერჩეული იყო 40 მოხალისე მინიმალური ასაკით. მოხალისეები 16 ევროს ამაზონის ვაუჩერით გადაიხადეს.

სესიები ჩატარდა დებატების კლუბის მოდელზე, რომელიც შექმნილია აზრის პოლარიზაციისთვის და ცეცხლგამჩენი თემების ირგვლივ ძლიერი გამოხმაურების გამოწვევის მიზნით, ეფექტურად მოდელირებდა სტრესს, რომელიც შეიძლება მოხდეს მომხმარებელთა პრობლემური საუბრის დროს ტელეფონით.

თემები, რომლებზეც მოხალისეებს საჯაროდ სამი წუთის განმავლობაში თავისუფლად მოუწიათ საუბარი იყო:

– უნდა აღდგეს თუ არა გერმანიაში სიკვდილით დასჯა და საჯარო სიკვდილით დასჯა?
– გერმანიაში სწავლის საფასურის გადახდა უნდა მოხდეს?
– უნდა დაკანონდეს თუ არა გერმანიაში მძიმე ნარკოტიკების მოხმარება, როგორიცაა ჰეროინი და კრისტალური მეთი?
– უნდა აიკრძალოს თუ არა გერმანიაში რესტორნების ქსელები, რომლებიც ემსახურებიან არაჯანსაღ სწრაფ კვებას, როგორიცაა მაკდონალდსი ან ბურგერ კინგი?

წინასწარი დამუშავება

პროექტი ემხრობოდა მეტყველების აკუსტიკური მახასიათებლების ანალიზს მეტყველების ავტომატური ამოცნობის (ASR) მიდგომით, ვიდრე NLP მიდგომით (სადაც მეტყველება გაანალიზებულია ლინგვისტურ დონეზე და დისკურსის „ტემპერატურა“ უშუალოდ ენის გამოყენებისგან არის დასკვნა).

წინასწარ დამუშავებული ამოღებული ნიმუშები თავდაპირველად გაანალიზდა Mel-frequency Cepstral Coefficients (MFCCs) მეშვეობით, საიმედო, ძველი მეთოდი, რომელიც ჯერ კიდევ ძალიან პოპულარულია მეტყველების ანალიზში. მას შემდეგ, რაც მეთოდი პირველად შემოგვთავაზეს 1980 წელს, ის განსაკუთრებით ეკონომიურია გამოთვლითი რესურსებით მეტყველებაში განმეორებადი შაბლონების ამოცნობის თვალსაზრისით და მდგრადია აუდიო გადაღების ხარისხის სხვადასხვა დონის მიმართ. იმის გამო, რომ სესიები ჩატარდა VOIP პლატფორმებზე ჩაკეტვის პირობებში, 2020 წლის დეკემბერში, მნიშვნელოვანი იყო ჩამწერი ჩარჩო, რომელიც საჭიროების შემთხვევაში ასახავდა უხარისხო აუდიოს.

საინტერესოა აღინიშნოს, რომ ორი ზემოაღნიშნული ტექნიკური შეზღუდვა (CPU შეზღუდული რესურსები 1980-იანი წლების დასაწყისში და VOIP კავშირის ექსცენტრიულობა გადატვირთული ქსელის კონტექსტში) გაერთიანდება აქ, რათა შეიქმნას ის, რაც რეალურად არის "ტექნიკურად მწირი" მოდელი, რომელიც (როგორც ჩანს) უჩვეულოდ ძლიერია. იდეალური სამუშაო პირობებისა და მაღალი დონის რესურსების არარსებობის შემთხვევაში – მიბაძვა სამიზნე არენაზე მიღებული ალგორითმისთვის.

ამის შემდეგ სწრაფი ფურიეს ტრანსფორმაცია (FFT) ალგორითმი გამოყენებული იყო აუდიო სეგმენტების მიმართ, რათა მიეწოდებინათ თითოეული „აუდიო ჩარჩოს“ სპექტრული პროფილი, მელის სკალის საბოლოო რუკამდე.

ტრენინგი, შედეგები და შეზღუდვები

ტრენინგის დროს, ამოღებული ფუნქციების ვექტორები გადაეცემა დროში განაწილებულ კონვოლუციურ ქსელის ფენას, გაბრტყელდება და შემდეგ გადაეცემა LSTM ფენას.

AI სიმართლის დეტექტორის სასწავლო პროცესის არქიტექტურა. წყარო: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

AI სიმართლის დეტექტორის სასწავლო პროცესის არქიტექტურა. წყარო: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

დაბოლოს, ყველა ნეირონი ერთმანეთთან არის დაკავშირებული, რათა წარმოიქმნას ორობითი პროგნოზი იმის შესახებ, ამბობს თუ არა მთქმელი ისეთ რამეს, რაც მათ მიაჩნიათ, რომ სიმართლეა.

ტრენინგის შემდეგ ტესტებში სისტემამ მიაღწია 98.91%-მდე სიზუსტის დონეს განზრახვის გარჩევის თვალსაზრისით (სადაც სალაპარაკო შინაარსი შეიძლება არ ასახავდეს განზრახვას). მკვლევარები თვლიან, რომ ნამუშევარი ემპირიულად ასახავს რწმენის იდენტიფიკაციას ხმის შაბლონებზე დაყრდნობით და რომ ამის მიღწევა შესაძლებელია ენის NLP სტილის დეკონსტრუქციის გარეშე.

შეზღუდვების თვალსაზრისით, მკვლევარები აღიარებენ, რომ ტესტის ნიმუში მცირეა. მიუხედავად იმისა, რომ ნაშრომში ეს ცალსახად არ არის ნათქვამი, დაბალი მოცულობის ტესტის მონაცემებმა შეიძლება შეამციროს შემდგომი გამოყენებადობა იმ შემთხვევაში, თუ ვარაუდები, არქიტექტურული მახასიათებლები და ზოგადი სასწავლო პროცესი ზედმეტად შეესაბამება მონაცემებს. ნაშრომში აღნიშნულია, რომ პროექტის განმავლობაში აგებული რვა მოდელიდან ექვსი იყო ზედმეტად მორგებული სასწავლო პროცესის რაღაც მომენტში და რომ შემდგომი სამუშაოა გასაკეთებელი მოდელისთვის დაყენებული პარამეტრების გამოყენებადობის განზოგადებისთვის.

გარდა ამისა, ამ ხასიათის კვლევამ უნდა გაითვალისწინოს ეროვნული მახასიათებლები და ნაშრომი აღნიშნავს, რომ გერმანელ სუბიექტებს, რომლებიც ჩართულნი არიან მონაცემთა გენერირებაში, შეიძლება ჰქონდეთ კომუნიკაციის ნიმუშები, რომლებიც უშუალოდ არ შეიძლება განმეორდეს კულტურებში - სიტუაცია, რომელიც სავარაუდოდ წარმოიქმნება ნებისმიერ ასეთ კვლევაში. ნებისმიერი ერი.