בינה מלאכותית

גלאי שקר מבוסס בינה מלאכותית לשיחות מוקד טלפוני

מְעוּדכָּן on דצמבר 9, 2022

חוקרים בגרמניה השתמשו בלמידת מכונה כדי ליצור מערכת ניתוח שמע שנועדה בעיקר לשמש כגלאי שקר מבוסס בינה מלאכותית עבור לקוחות בתקשורת אודיו עם מוקד טלפוני וצוות תמיכה.

השמיים מערכת משתמש במערך נתונים שנוצר במיוחד של הקלטות אודיו על ידי 40 תלמידים ומורים במהלך דיונים על נושאים שנויים במחלוקת, כולל המוסר של עונש מוות ושכר לימוד. המודל הוכשר על ארכיטקטורה המשתמשת ברשתות עצביות קונבולוציוניות (CNNs) וזיכרון לטווח קצר (LSTM), והשיג שיעור דיוק מדווח של 98%.

למרות שהכוונה המוצהרת של העבודה מצטטת תקשורת עם לקוחות, החוקרים מודים שהיא פועלת למעשה כגלאי שקר למטרות כלליות:

"הממצאים ישימים למגוון רחב של תהליכי שירות ושימושיים במיוחד עבור כל האינטראקציות עם הלקוחות המתרחשות באמצעות הטלפון. ניתן ליישם את האלגוריתם המוצג בכל מצב שבו מועיל לסוכן לדעת אם לקוח מדבר על הרשעתו.

״זה יכול, למשל, להוביל להפחתה בתביעות ביטוח מפוקפקות, או להצהרות לא נכונות בראיונות עבודה. זה לא רק יפחית את ההפסדים התפעוליים לחברות השירות, אלא גם יעודד את הלקוחות להיות יותר אמיתיים״.

יצירת מערכי נתונים

בהיעדר מערך נתונים מתאים זמין לציבור בשפה הגרמנית, החוקרים - מאוניברסיטת Neu-ulm University of Applied Sciences (HNU) - יצרו חומר מקור משלהם. פליירים פורסמו באוניברסיטה ובבתי ספר מקומיים, עם 40 מתנדבים שנבחרו בגיל מינימלי של 16. למתנדבים קיבלו שובר של 10 יורו של אמזון.

המפגשים נערכו על פי מודל של מועדון דיבייט שנועד לקטב את הדעה ולעורר תגובות חזקות סביב נושאים מעוררים, תוך מודל יעיל של הלחץ שעלול להתרחש בשיחות לקוחות בעייתיות בטלפון.

הנושאים עליהם נאלצו המתנדבים לדבר בחופשיות במשך שלוש דקות בפומבי היו:

האם יש להחזיר את עונש המוות וההוצאות להורג פומביות בגרמניה?
– האם יש לגבות שכר לימוד לכיסוי עלות בגרמניה?
האם השימוש בסמים קשים כמו הרואין וקריסטל מת' צריך להיות חוקי בגרמניה?
– האם יש לאסור בגרמניה רשתות מסעדות המגישות מזון מהיר לא בריא, כמו מקדונלד'ס או בורגר קינג?

עיבוד מוקדם

הפרויקט העדיף ניתוח של תכונות דיבור אקוסטיות בגישת זיהוי דיבור אוטומטי (ASR) על פני גישת NLP (בה דיבור מנותח ברמה לשונית, וה'טמפרטורה' של השיח מוסקת ישירות מהשימוש בשפה).

הדגימות המופקות שעובדו מראש נותחו בתחילה באמצעות מקדמי ספסטרל של Mel-frequency (MFCCs), שיטה אמינה וישנה יותר שעדיין פופולרית מאוד בניתוח דיבור. מאז שהשיטה הוצעה לראשונה בשנת 1980, היא חסכונית במיוחד במשאבי מחשוב במונחים של זיהוי דפוסים חוזרים בדיבור, והיא עמידה לרמות שונות של איכות לכידת אודיו. מכיוון שהמפגשים בוצעו על גבי פלטפורמות VOIP בתנאי נעילה בדצמבר 2020, היה חשוב שתהיה מסגרת הקלטה שיכולה להסביר אודיו באיכות ירודה בעת הצורך.

מעניין לציין ששתי המגבלות הטכניות שהוזכרו לעיל (משאבי CPU מוגבלים בתחילת שנות ה-1980 והאקסצנטריות של קישוריות VOIP בהקשר רשת צפוף) משתלבות כאן כדי ליצור מה שהוא למעשה מודל 'דל טכני' שהוא (כנראה) חזק בצורה יוצאת דופן בהיעדר תנאי עבודה אידיאליים ומשאבים ברמה גבוהה - מחקה את זירת היעד של האלגוריתם המתקבל.

לאחר מכן שינוי פורייה מהיר (FFT) אלגוריתם הוחל כנגד מקטעי האודיו כדי לספק פרופיל ספקטרלי של כל 'מסגרת אודיו', לפני המיפוי הסופי לסולם מל.

הדרכה, תוצאות ומגבלות

במהלך האימון, וקטורי התכונה שחולצו מועברים לשכבת רשת קונבולוציונית מבוזרת בזמן, משטחים ואז מועברים לשכבת LSTM.

ארכיטקטורה של תהליך האימון לגלאי האמת בינה מלאכותית. מקור: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

לבסוף, כל הנוירונים מחוברים זה לזה על מנת ליצור תחזית בינארית לשאלה האם הדובר אומר דברים שלדעתם נכונים או לא.

במבחנים לאחר אימון, המערכת השיגה רמת דיוק של עד 98.91% מבחינת אבחנה בכוונות (כאשר התוכן המדובר עשוי שלא לשקף את הכוונה). החוקרים סבורים שהעבודה מדגימה באופן אמפירי זיהוי הרשעה המבוסס על דפוסי קול, ושניתן להשיג זאת ללא דקונסטרוקציה של השפה בסגנון NLP.

מבחינת מגבלות, החוקרים מודים כי מדגם הבדיקה קטן. למרות שהמאמר אינו מציין זאת במפורש, נתוני בדיקה בנפח נמוך יכולים להפחית את היישום מאוחר יותר במקרה שההנחות, התכונות הארכיטקטוניות ותהליך ההכשרה הכללי מתאימים יתר על המידה לנתונים. המאמר מציין כי שישה מתוך שמונת המודלים שנבנו במהלך הפרויקט הותאמו יתר על המידה בשלב מסוים בתהליך הלמידה, וכי ישנה עבודה נוספת להכליל את ישימותם של הפרמטרים שנקבעו עבור המודל.

יתר על כן, מחקר מסוג זה חייב לתת את הדעת על מאפיינים לאומיים, והמאמר מציין שלנבדקים הגרמניים המעורבים ביצירת הנתונים עשויים להיות דפוסי תקשורת שאינם ניתנים לשכפול ישיר בין תרבויות - מצב שסביר שיתעורר בכל מחקר כזה ב כל אומה.