בינה מלאכותית

מדוע בינה מלאכותית אינה מספקת המלצות טובות יותר למוצר

מְעוּדכָּן on דצמבר 9, 2022

אם אתה מעוניין בדברים לא ברורים, ישנן שתי סיבות לכך שסביר להניח שהחיפושים שלך אחר פריטים ומוצרים יהיו פחות קשורים לתחומי העניין שלך מאשר אלה של עמיתיך 'המיינסטרים'; או שאתה 'מקרה קצה' של מונטיזציה שהאינטרסים שלו יטופלו רק אם אתה גם בקטגוריות העליונות של כוח קנייה כלכלי (לדוגמה, מוצרים ושירותים הקשורים ל 'ניהול עושר'); או שאלגוריתמי החיפוש שבהם אתה משתמש ממנפים סינון שיתופי (CF), שמעדיפה את האינטרסים של הרוב.

מכיוון שסינון שיתופי זול ומבוסס יותר מאלגוריתמים ומסגרות אחרות שעלולות להיות מסוגלות יותר, ייתכן ששני המקרים הללו חלים.

תוצאות חיפוש מבוססות CF יתנו עדיפות לפריטים הנתפסים כפופולריים בקרב 'אנשים כמוך', ככל שהמסגרת המארחת יכולה להבין איזה סוג של צרכן אתה.

אם אתה חושש מלספק מידע פרופיל נתונים למערכת המארחת - למשל, לא נוטה ללחוץ על כפתורי 'אהבתי' בנטפליקס ובשירותי תוכן וידאו אחרים - סביר להניח שתסווג באופן כללי למדי באינטראקציות המוקדמות ביותר שלך עם מערכת, וההמלצות שתקבלו ישקפו את הטרנדים הפופולריים ביותר.

בפלטפורמת סטרימינג, זה יכול להיות המלצה על כל תוכניות וסרטים שהם 'חמים' כרגע, כמו ריאליטי טלוויזיית ריאליטי וסרטי רצח משפטיים, ללא קשר לעניין שלך בהם. כך גם עבור פלטפורמות המלצות ספרים, אשר נוטות להציע רבי מכר נוכחיים ואחרונים, ככל הנראה באופן שרירותי.

בתיאוריה, אפילו משתמשים שחושבים בנתונים צריכים בסופו של דבר לקבל תוצאות טובות יותר ממערכות כאלה על סמך הדרך שבה הם משתמשים בהן והדברים שהם מחפשים, מכיוון שרוב מסגרות החיפוש נותנות למשתמשים יכולת מוגבלת לערוך את היסטוריית השימוש שלהם.

כל צבע שאתה אוהב, כל עוד הוא שחור

עם זאת, על פי מחקר חדש מאוסטריה, עליית הסינון השיתופי נגמרה סינון מבוסס תוכן (ששואף להגדיר קשרים בין מוצרים במקום רק לקחת בחשבון את הפופולריות המצרפית), וגישות אלטרנטיביות אחרות, נוטה את מערכות החיפוש לטווח ארוך הטיית פופולריות, שם ברור שתוצאות פופולריות נדחפות למשתמשי קצה שסביר להניח שלא יתלהבו מהם.

העיתון מגלה שמשתמשים שאינם מתעניינים בפריטים פופולריים מקבלים המלצות 'גרועות משמעותית' ממשתמשים בעלי עניין בינוני או גבוה בפופולריות, ו(אולי מבחינה טאוטולוגית) שפריטים פופולריים מומלצים בתדירות גבוהה יותר מפריטים לא פופולריים. החוקרים גם מסיקים שמשתמשים בעלי עניין נמוך בפריטים פופולריים נוטים להיות בעלי פרופילי משתמשים גדולים יותר שיכולים לשפר את מערכות הממליצים - אם רק המערכות היו יכולות לבעוט את ההתמכרות שלהם למדדי 'עדר'.

השוואת פופולריות למורכבות של פרופילי משתמשים מראה שלמשתמשים 'שוליים' שאינם מעוניינים בתוכן מיינסטרים יש למעשה יותר תוכן פוטנציאלי עבור מערכות ממליצים לכרות; אבל מכיוון שמשתמשים כאלה אינם מתאימים לטרנדים, נראה שזו הזדמנות אבודה. מקור: https://arxiv.org/pdf/2203.00376.pdf

אל האני מאמר מכונה הטיית פופולריות במערכות המלצות מולטימדיה מבוססות סינון שיתופי, ומגיע מחוקרים ב-now-Center GmbH בגראץ, ובאוניברסיטת גראץ לטכנולוגיה.

דומיינים מכוסים

בהתבסס על עבודות קודמות שחקרו מגזרים בודדים (כגון המלצות ספרים), המאמר החדש בוחן ארבעה תחומים: ספרים דיגיטליים (באמצעות מערך הנתונים של BookCrossing); סרטים (דרך עדשות סרטים); מוזיקה (דרך Last.fm); ואנימות (דרך MyAnimeList).

המחקר יישם ארבע מערכות ממליצים מולטימדיה פופולריות (MMRS) אלגוריתמי סינון שיתופיים כנגד מערכי נתונים לפצל לשלוש קבוצות משתמשים, לפי נטייתם להיות פתוחים לתוצאות 'פופולריות': LowPop, MedPop, ו HighPop. קבוצות המשתמשים סוננו מטה ל-1000 קבוצות בגודל שוות, על סמך התוצאות הפחות, הממוצעות והסבירות ביותר להעדפת תוצאות 'פופולריות'.

בהתייחס לתוצאות, הכותבים אומרים:

"[אנו] מוצאים שההסתברות של פריט מולטימדיה שיומלץ בקורלציה רבה עם הפופולריות של פריט זה [ו] שמשתמשים עם פחות נטייה לפופולריות (LowPop) מקבלים המלצות מולטימדיה גרועות יותר באופן סטטיסטי ממשתמשים עם בינוני (MedPop) וגבוה נטייה (HighPop) לפריטים פופולריים...

"התוצאות שלנו מוכיחות שלמרות שמשתמשים בעלי עניין מועט בפריטים פופולריים נוטים להיות בעלי פרופילי המשתמש הגדולים ביותר, הם מקבלים את דיוק ההמלצה הנמוך ביותר. לפיכך, יש צורך במחקר עתידי כדי להפחית את הטיית הפופולריות ב-MMRS, הן ברמת הפריט והן ברמת המשתמש.'

בין האלגוריתמים שהוערכו היו שניים השכנים הקרובים ביותר (KNN) גרסאות, UserKNN ו-UserKNNavg. הראשון שבהם אינו מייצר דירוג ממוצע למשתמש ולפריט היעד. א לא שלילי פירוק מטריצה וריאנט (NMF) נבדק גם יחד עם אלגוריתם CoClustering.

פרוטוקול ההערכה התייחס למשימת ההמלצה כאתגר חיזוי, שנמדד על ידי החוקרים במונחים של שגיאה אבסולוטית ממוצעת (MAE), מול פרוטוקול אימות צולב פי חמישה החורג מהחלוקה הרגילה של 80/20 בין נתונים מאומנים לבדיקות.

התוצאות מצביעות על ערובה כמעט של הטיית פופולריות תחת סינון שיתופי. השאלה, אפשר לטעון, היא האם זה נתפס כבעיה על ידי חברות בהיקף של מיליארדי דולרים שמשלבות כיום CF באלגוריתמי החיפוש שלהן.

בכל ארבעת מערכי הנתונים שנחקרו על פני ארבע המלצות פופולריות לסינון שיתופי, כל תוצאה מצביעה על כך שסביר יותר שיהיו מומלצים פריטי מדיה פופולריים מאשר הצעות לא פופולריות.

הדרך ה'קלה' החוצה

למרות שסינון שיתופי משמש יותר ויותר כחלק אחד בלבד של אסטרטגיית אלגוריתם חיפוש רחבה יותר, יש לו מניות חזקות במגזר החיפוש, וההיגיון והרווחיות הפוטנציאלית שלו קלים להבנה.

כשלעצמה, CF בעצם מוריד את המשימה של הערכת ערך התוכן למשתמשי הקצה, ומשתמשת בקליטה שלהם בתוכן כמדד לערכו והאטרקטיביות הפוטנציאלית שלו ללקוחות אחרים. באנלוגיה, זו בעצם מפה של 'באז קריר מים'.

סינון מבוסס תוכן (CBF) הוא קשה יותר, אך עשוי לספק תוצאות רלוונטיות יותר. בתחום הראייה הממוחשבת, כמות הולכת וגוברת של מחקר מושקעת כיום על סיווג תוכן וידאו ו מנסה לגזור תחומים, תכונות ומושגים ברמה גבוהה באמצעות ניתוח אודיו ווידאו בפלט סרטים וטלוויזיה.

אחד מפרויקטי מחקר רבים בחמש השנים האחרונות שמנסה להפיק מאפיינים סמנטיים מתוכן הסרטים, על מנת לייצר המלצות 'צמודות' אינטליגנטיות יותר. מקור: https://arxiv.org/pdf/1701.00199.pdf

עם זאת, זהו עיסוק בתחילת דרכו, הקשור במאבק הנוכחי, הכללי יותר, לכמת, לבודד ולנצל מושגים ומאפיינים ברמה גבוהה בידע בתחום.

מי משתמש בסינון שיתופי?

בזמן הכתיבה, של נטפליקס זוכה לביקורת לעתים קרובות מנוע ההמלצות נשאר מקובע בגישות סינון שיתופיות שונות, תוך יישום מגוון של טכנולוגיות נלוות בניסיונות מתמשכים לייצר המלצות רלוונטיות יותר למשתמש.

מנוע החיפוש של אמזון התפתח החל מהאימוץ המוקדם של סינון שיתופי מבוסס משתמש ועד לשיטת סינון שיתופית בין פריטים, ששמה דגש רב יותר על היסטוריית הרכישות של הלקוח. מטבע הדברים, זה יכול להוביל לסוגים שונים של אי דיוק, כגון לסנן בועות, או דגש יתר על נתונים דלילים. במקרה האחרון, אם לקוח אמזון נדיר מבצע רכישה 'יוצאת דופן', כגון סט אופרטות לחבר חובב אופרה, ייתכן שלא יהיו רכישות חלופיות נאותות המשקפות את העדפותיו של הלקוח עצמו כדי למנוע מהרכישה הזו להפוך לחבר להשפיע על ההמלצות שלהם.

סינון שיתופי נמצא בשימוש נרחב גם על ידי פייסבוק, בשילוב עם גישות אחרות, וגם על ידי לינקדין, יוטיוב וטוויטר.

פורסם לראשונה ב-2 במרץ 2022.

נושאים קשורים:המלצה מנוע ממליץ מחקר

חוקרים מפתחים מודל זיהוי דיבור אנושי עם רשתות עצביות עמוקות

לא לפספס

הבעת רגשות באמצעות טיפוגרפיה עם AI

מרטין אנדרסון

כותב על למידת מכונה, בינה מלאכותית וביג דאטה.
אתר אישי: martinanderson.ai
איש קשר: [מוגן בדוא"ל]
טוויטר: @manders_ai

Unite.AI

מדוע בינה מלאכותית אינה מספקת המלצות טובות יותר למוצר

בינה מלאכותית