ต้นขั้ว เครื่องจับเท็จที่ใช้ AI สำหรับการสนทนาของคอลเซ็นเตอร์ - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

เครื่องจับเท็จที่ใช้ AI สำหรับการสนทนาของคอลเซ็นเตอร์

mm
วันที่อัพเดท on

นักวิจัยในเยอรมนีใช้การเรียนรู้ของเครื่องเพื่อสร้างระบบวิเคราะห์เสียงโดยมีวัตถุประสงค์หลักเพื่อทำหน้าที่เป็นเครื่องจับเท็จที่ใช้ AI สำหรับลูกค้าในการสื่อสารด้วยเสียงกับศูนย์บริการทางโทรศัพท์และพนักงานสนับสนุน

พื้นที่ ระบบ ใช้ชุดข้อมูลบันทึกเสียงที่สร้างขึ้นเป็นพิเศษโดยนักเรียนและครู 40 คนในระหว่างการอภิปรายในหัวข้อที่มีการถกเถียง รวมถึงศีลธรรมของโทษประหารชีวิตและค่าเล่าเรียน โมเดลดังกล่าวได้รับการฝึกฝนเกี่ยวกับสถาปัตยกรรมที่ใช้ Convolutional Neural Networks (CNN) และ Long Short-Term Memory (LSTM) และได้รับอัตราความแม่นยำที่รายงานไว้ที่ 98%

แม้ว่าเจตนาของงานดังกล่าวจะอ้างถึงการสื่อสารกับลูกค้า แต่นักวิจัยก็ยอมรับว่ามันทำงานได้อย่างมีประสิทธิภาพในฐานะเครื่องจับเท็จวัตถุประสงค์ทั่วไป:

'การค้นพบนี้สามารถใช้ได้กับกระบวนการบริการที่หลากหลายและมีประโยชน์อย่างยิ่งสำหรับการโต้ตอบกับลูกค้าทั้งหมดที่เกิดขึ้นผ่านทางโทรศัพท์ อัลกอริทึมที่นำเสนอสามารถนำไปใช้ได้ในทุกสถานการณ์ซึ่งเป็นประโยชน์สำหรับตัวแทนในการทราบว่าลูกค้ากำลังพูดถึงความเชื่อมั่นของตนหรือไม่

'สิ่งนี้อาจนำไปสู่การลดลงของการเรียกร้องค่าสินไหมทดแทนที่น่าสงสัย หรือข้อความที่ไม่จริงในการสัมภาษณ์งาน สิ่งนี้ไม่เพียงแต่จะลดความสูญเสียในการดำเนินงานสำหรับบริษัทที่ให้บริการ แต่ยังกระตุ้นให้ลูกค้ามีความจริงมากขึ้นด้วย'

การสร้างชุดข้อมูล

ในกรณีที่ไม่มีชุดข้อมูลที่เหมาะสมที่เผยแพร่ต่อสาธารณชนในภาษาเยอรมัน นักวิจัยจาก Neu-Ulm University of Applied Sciences (HNU) ได้สร้างแหล่งข้อมูลของตัวเอง มีการติดประกาศใบปลิวที่มหาวิทยาลัยและโรงเรียนในท้องถิ่น โดยคัดเลือกอาสาสมัคร 40 คนที่มีอายุขั้นต่ำ 16 ปี อาสาสมัครได้รับค่าจ้างเป็นบัตรกำนัล Amazon มูลค่า 10 ยูโร

เซสชันต่างๆ ดำเนินการโดยใช้แบบจำลองของสโมสรโต้วาทีที่ออกแบบมาเพื่อแบ่งขั้วความคิดเห็นและกระตุ้นการตอบสนองที่รุนแรงเกี่ยวกับหัวข้อที่ก่อความไม่สงบ โดยสร้างแบบจำลองความเครียดที่อาจเกิดขึ้นในการสนทนากับลูกค้าที่มีปัญหาทางโทรศัพท์ได้อย่างมีประสิทธิภาพ

หัวข้อที่อาสาสมัครต้องพูดอย่างอิสระเป็นเวลา XNUMX นาทีในที่สาธารณะ ได้แก่

– ควรนำโทษประหารชีวิตและการประหารชีวิตในที่สาธารณะกลับมาใช้ใหม่ในเยอรมนีหรือไม่?
– ควรมีการเรียกเก็บค่าเล่าเรียนที่ครอบคลุมค่าใช้จ่ายในประเทศเยอรมนีหรือไม่?
– การใช้ยาเสพติดให้โทษ เช่น เฮโรอีนและคริสตัลเมทควรถูกกฎหมายในเยอรมนีหรือไม่?
– เครือร้านอาหารที่ให้บริการอาหารจานด่วนที่ไม่ดีต่อสุขภาพ เช่น McDonald's หรือ Burger King ควรถูกแบนในเยอรมนีหรือไม่?

การประมวลผลล่วงหน้า

โครงการนี้สนับสนุนการวิเคราะห์คุณลักษณะเสียงพูดในแนวทางการรู้จำเสียงอัตโนมัติ (ASR) มากกว่าแนวทาง NLP (ซึ่งเสียงพูดได้รับการวิเคราะห์ในระดับภาษาศาสตร์ และ 'อุณหภูมิ' ของวาทกรรมจะอนุมานโดยตรงจากการใช้ภาษา)

ตัวอย่างที่สกัดไว้ล่วงหน้าได้รับการวิเคราะห์ในขั้นต้นโดยใช้ค่าสัมประสิทธิ์เซปสตรัลความถี่เมล (MFCC) ซึ่งเป็นวิธีเก่าที่เชื่อถือได้และยังคงได้รับความนิยมอย่างมากในการวิเคราะห์คำพูด เนื่องจากวิธีนี้ถูกเสนอครั้งแรกในปี 1980 จึงมีความประหยัดอย่างเห็นได้ชัดกับทรัพยากรคอมพิวเตอร์ในแง่ของการรับรู้รูปแบบที่เกิดซ้ำในคำพูด และมีความยืดหยุ่นต่อคุณภาพการจับเสียงในระดับต่างๆ เนื่องจากเซสชันดำเนินการบนแพลตฟอร์ม VOIP ในสภาวะล็อคดาวน์ในเดือนธันวาคมปี 2020 จึงเป็นสิ่งสำคัญที่จะต้องมีกรอบงานการบันทึกที่อาจอธิบายถึงเสียงคุณภาพต่ำเมื่อจำเป็น

เป็นที่น่าสนใจที่จะทราบว่าข้อจำกัดทางเทคนิคสองประการข้างต้น (ทรัพยากร CPU ที่จำกัดในช่วงต้นทศวรรษ 1980 และความเยื้องศูนย์กลางของการเชื่อมต่อ VOIP ในบริบทของเครือข่ายที่คับคั่ง) รวมกันที่นี่เพื่อสร้างโมเดล 'เบาบางทางเทคนิค' ที่มีประสิทธิภาพซึ่ง (เห็นได้ชัดว่า) แข็งแกร่งผิดปกติ ในกรณีที่ไม่มีสภาพการทำงานที่เหมาะสมและทรัพยากรระดับสูง – เลียนแบบเวทีเป้าหมายสำหรับอัลกอริทึมผลลัพธ์

หลังจากนั้นการแปลงฟูเรียร์แบบเร็ว (FFT) อัลกอริทึมถูกนำไปใช้กับส่วนเสียงเพื่อจัดหาโปรไฟล์สเปกตรัมของ 'เฟรมเสียง' แต่ละอันก่อนที่จะแมปขั้นสุดท้ายกับ Mel Scale

การฝึกอบรม ผลลัพธ์ และข้อจำกัด

ในระหว่างการฝึกฝน เวกเตอร์คุณลักษณะที่แยกออกมาจะถูกส่งผ่านไปยังเลเยอร์เครือข่ายแบบกระจายเวลา แบนแล้วส่งต่อไปยังเลเยอร์ LSTM

สถาปัตยกรรมของกระบวนการฝึกอบรมสำหรับเครื่องตรวจจับความจริงของ AI ที่มา: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

สถาปัตยกรรมของกระบวนการฝึกอบรมสำหรับเครื่องตรวจจับความจริงของ AI ที่มา: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

ในที่สุดเซลล์ประสาททั้งหมดจะเชื่อมต่อกันเพื่อสร้างการทำนายแบบไบนารีว่าผู้พูดกำลังพูดสิ่งที่พวกเขาเชื่อว่าเป็นจริงหรือไม่

ในการทดสอบหลังการฝึกอบรม ระบบมีระดับความแม่นยำสูงถึง 98.91% ในแง่ของการแยกแยะเจตนา (โดยที่เนื้อหาที่พูดอาจไม่สะท้อนถึงเจตนา) นักวิจัยพิจารณาว่างานนี้แสดงให้เห็นถึงการระบุตัวตนของความเชื่อมั่นในเชิงประจักษ์โดยพิจารณาจากรูปแบบเสียง และสิ่งนี้สามารถทำได้โดยไม่ต้องถอดโครงสร้างภาษาแบบ NLP

ในแง่ของข้อจำกัด นักวิจัยยอมรับว่าตัวอย่างทดสอบมีขนาดเล็ก แม้ว่าเอกสารจะไม่ได้ระบุไว้อย่างชัดเจน แต่ข้อมูลการทดสอบที่มีปริมาณน้อยสามารถลดการบังคับใช้ในภายหลังได้ในกรณีที่ข้อสันนิษฐาน คุณลักษณะทางสถาปัตยกรรม และกระบวนการฝึกอบรมทั่วไปนั้นเหมาะสมกับข้อมูลมากเกินไป กระดาษตั้งข้อสังเกตว่าแบบจำลองหกในแปดแบบที่สร้างขึ้นทั่วทั้งโครงการมีการติดตั้งมากเกินไปในบางจุดของกระบวนการเรียนรู้ และมีงานเพิ่มเติมที่ต้องทำในการสรุปการบังคับใช้พารามิเตอร์ที่ตั้งไว้สำหรับแบบจำลอง

นอกจากนี้ การวิจัยในลักษณะนี้ต้องคำนึงถึงลักษณะเฉพาะของชาติ และรายงานระบุว่าอาสาสมัครชาวเยอรมันที่เกี่ยวข้องกับการสร้างข้อมูลอาจมีรูปแบบการสื่อสารที่ไม่สามารถทำซ้ำได้โดยตรงข้ามวัฒนธรรม ซึ่งเป็นสถานการณ์ที่น่าจะเกิดขึ้นในการศึกษาดังกล่าวใน ชาติใดก็ได้