בדל הסבר: הגבול הבא לבינה מלאכותית בביטוח ובבנקאות - Unite.AI
צור קשר

מנהיגי מחשבה

הסבר: הגבול הבא לבינה מלאכותית בביטוח ובבנקאות

mm

יצא לאור

 on

מאת ד"ר אורי כץ, מדען מחקר אנליטי, ארניקס.

"לא ניתן להבחין בין כל טכנולוגיה מתקדמת מספיק לבין קסם", טען סופר המדע הבדיוני ארתור סי קלארק. ואכן, לפעמים טכנולוגיה מתקדמת, כמו אלגוריתמים חדשים של למידת מכונה, דומה לקסם. יישומים מתפתחים של למידת מכונה, לרבות סיווג תמונות, זיהוי קול, והשימוש בה בתעשיות הביטוח והבנקאות, יש תכונות לכאורה עולמיות.

חברות רבות נזהרות משינוי המודלים האנליטיים המסורתיים שלהן - ובצדק. קסם הוא מסוכן, במיוחד אם הוא לא מובן היטב. רשתות עצביות ואלגוריתמים של אנסמבל עצים הם "קופסאות שחורות", המבנה הפנימי שלהם יכול להיות מורכב ביותר. יחד עם זאת, מספר מחקרים [1] הראו כיצד רשתות עצביות ואלגוריתמים מבוססי עצים יכולים להתעלות אפילו על מודלים של סיכון ביטוחי מסורתי המכוונים בקפידה ביותר, שנבנו על ידי אקטוארים מנוסים. זה נובע מהיכולת של האלגוריתמים החדשים לזהות אוטומטית מבנה נסתר בנתונים. המסתורין והתועלת של רשתות עצביות ואלגוריתמים מבוססי עצים נמצאים זה לצד זה. קיים פשרה אינהרנטית בין הדיוק של מודל אנליטי לבין רמת "ההסבר" שלו. כיצד נוכל לסמוך על מודלים אם איננו יכולים להבין כיצד הם מגיעים למסקנותיהם? האם עלינו פשוט להיכנע לקסם, להקריב את האמון והשליטה שלנו במשהו שאיננו יכולים להבין במלואו לשם דיוק?

מנהלים ואנליסטים אינם היחידים שמודאגים מהפשרה הזו. במהלך השנים האחרונות, הרגולטורים החלו לחקור את הצד האפל של הקסם כדי להגביר את יכולתם לנטר את התעשיות הללו. ענפי הבנקאות והביטוח מוסדרים מאוד בהיבטים רבים ומגמות הרגולציה הנוכחיות כרוכות בבחינה מקרוב של המודלים המשמשים לביצוע תחזיות. רכס 71 של תקנת הגנת המידע הכללית האירופית (GDPR), למשל, קובע כי ללקוחות צריכה להיות הזכות לקבל הסבר על החלטה אוטומטית אחת לאחר קבלתה. מאז הקמתה, מרכיב זה של הרגולציה עומד במרכזו של ויכוח אקדמי שנוי במחלוקת.

הצורך הדחוף בהסבר מודלים אנליטיים של "קופסה שחורה" הוביל להופעתו של תחום מחקר חדש: בינה מלאכותית ניתנת להסבר. מומחים מפתחים כלים המאפשרים לנו להציץ לתוך הקופסה השחורה ולפרום לפחות חלק מהקסם. שני סוגים של כלים שחוקרים יצרו כוללים כלים "הסבר גלובלי", שיכולים לעזור לנו להבין תכונות מפתח המניעות את תחזיות המודל הכוללות, וכלים "הסבר מקומי", שנועדו להסביר חיזוי ספציפי.

העלילה הבאה היא דוגמה להסבר מקומי. הוא מבוסס על רעיונותיו של הכלכלן זוכה פרס נובל לויד שאפלי, שפיתח שיטת תורת משחקים לחישוב תרומתם של מספר שחקנים המשתפים פעולה באותה משימה. ב-Explainable Artificial Intelligence, ה"שחקנים" הם תכונות המודל, בעוד שה"משימה" היא החיזוי של המודל. המספרים המתארים את התרומה של כל תכונה נקראים "ערכי Shapley". חוקרים פיתחו לאחרונה שיטות לאומדן מהיר של ערכי Shapley [2], המאפשרות לנו לחלק בצורה הוגנת תחזית בין התכונות השונות.

שימוש בערכי Shapley כדי להסביר את הדרישה החזויה לחידוש של לקוח ספציפי

העלילה, המבוססת על נתונים מדומים, מציגה את התוצאה של מודל ביקוש החוזה את ההסתברות לחידוש פוליסת ביטוח רכב. זהו הסבר מקומי ללקוח ספציפי. מודל הביקוש מבוסס על אנסמבל מורכב של עצי החלטה, אך העלילה מציגה את התרומה הנפרדת של כל תכונה לתחזית הסופית. בדוגמה זו, המודל חוזה שהאדם הממוצע בנתונים יחדש את הפוליסה בהסתברות של 0.64. עם זאת, עבור הלקוח הספציפי הזה, ההסתברות החזויה גבוהה בהרבה, ועומדת על 0.72. העלילה מאפשרת לך לראות את הסיבה להבדל זה.

למרות שאיננו יכולים להבין עד הסוף את המבנה הפנימי של המודל המורכב הזה, ערכי Shapley מאפשרים לנו לראות מהן התכונות החשובות ביותר לתחזית ספציפית, ולפרום חלק מהקסם. ממוצע של ערכי Shapley הבודדים על פני האוכלוסייה מאפשר לנו לראות אילו תכונות חשובות ביותר ולקבל הסבר גלובלי של המודל. כלים פופולריים אחרים להסבר כוללים את "חשיבות תכונת התמורה", דגמי פונדקאים פשוטים המותאמים באופן מקומי ודוגמאות נגד עובדות, אם להזכיר כמה [3].

כלי ההסבר החדשים הם הצעד הבא ההכרחי באבולוציה של למידת מכונה. הם יכולים לאפשר לחברות ביטוח ולבנקים להבין ולסמוך על מודלים של למידת מכונה שלהם, לציית לתקנות חדשות ולספק ללקוחותיהם מידע רב ערך. כעת אנו יכולים להתגבר באופן חלקי על הפשרה בין דיוק ויכולת הסבר וליהנות מהיתרונות של מודלים חדשים של למידת מכונה עם פחות דאגות לגבי אופי הקופסה השחורה שלהם.

בעולם הדיגיטלי המהיר שלנו, הפיכתם לניתוח מלא הוא קריטריון ההישרדות הבסיסי של מבטחים ובנקים. היכולת הזו תמיד הייתה חשובה - אבל היא הפכה חיונית עם תנאי השוק הפכפכים ש-2020 הביאה עלינו. מבטחים ובנקים זקוקים לניתוח חכם יותר כדי להדגים מציאות חדשה ומורכבת שעליה הם יכולים לבסס את ההחלטות העסקיות שלהם ולשרת את הלקוחות שלהם מהר יותר וטוב יותר. כלי הסבר יכולים לאפשר למבטחים ולבנקים להשיג זאת. עם הזמן, נגיע לנקודה שבה מודלים של למידת מכונה כבר לא נחשבים לקסם, אלא לכלי חיוני בארסנל הליבה של כל עסק מונע נתונים.

מקורות:

[1] Bärtl, M., & Krummaker, S. (2020). חיזוי תביעות במימון אשראי יצוא: השוואה של ארבע טכניקות למידת מכונה. סיכונים, 8(1), 22.

Noll, A., Salzmann, R., & Wuthrich, MV (2020). תיאור מקרה: תביעות אחריות של צד שלישי צרפתית. זמין ב-SSRN 3164764.

Fauzan, MA, & Murfi, H. (2018). הדיוק של XGBoost עבור חיזוי תביעות ביטוח. Int. י.עו"ד מחשוב רך. Appl, 10(2).

Weerasinghe, KPMLP, & Wijegunasekara, MC (2016). מחקר השוואתי של אלגוריתמים של כריית נתונים בחיזוי תביעות ביטוח רכב. כתב העת האירופי הבינלאומי למדע וטכנולוגיה, 5(1), 47-54.

[2] Lundberg, SM, & Lee, SI (2017). גישה מאוחדת לפירוש תחזיות מודל. ב התקדמות במערכות עיבוד מידע עצבי (עמ '4765-4774).

[3] ראה כאן לפרטים נוספים: https://christophm.github.io/interpretable-ml-book/index.html

אורי כץ הוא מדען מחקר אנליטי ב ארניקס, ספקית עולמית של פתרונות דירוג, תמחור והתאמה אישית מתקדמים של מוצרים למבטחים ולבנקים. ד"ר כץ עורך מחקר בנוגע לגבולות של פיתוחי Data Science ו-Machine Learning ויישומיהם בביטוח ובפיננסים, במטרה לפתח כיוונים עתידיים למוצרי Earnix. הוא בעל תואר Ph.D. בכלכלה, MA בכלכלה ותואר ראשון בהנדסת תעשייה מאוניברסיטת תל אביב. לפני שהצטרף לארניקס, אורי לימד כלכלה באוניברסיטת תל אביב ובאוניברסיטת בראון ועבד במספר מוסדות מחקר. יש לו יותר מ-10 שנות ניסיון במחקר אמפירי.