בינה מלאכותית

AI עוזר לרמקולים עצבניים 'לקרוא את החדר' במהלך ועידות וידאו

מְעוּדכָּן on דצמבר 9, 2022

בשנת 2013, סקר על פוביות נפוצות קבע שהסיכוי לנאום בפני קהל הוא גרוע יותר מהסיכוי למוות עבור רוב המשיבים. התסמונת ידועה בשם גלוסופוביה.

המונע על ידי COVID הֲגִירָה מפגישות 'באופן אישי' ועד ועידות זום מקוונות בפלטפורמות כמו Zoom ו-Google Spaces, באופן מפתיע, לא שיפרו את המצב. כאשר הפגישה מכילה מספר רב של משתתפים, יכולות הערכת האיומים הטבעיות שלנו נפגעות מהשורות והאייקונים ברזולוציה הנמוכה של המשתתפים, ומהקושי לקרוא אותות חזותיים עדינים של הבעת פנים ושפת גוף. סקייפ, למשל, נמצאה כפלטפורמה גרועה להעברת רמזים לא מילוליים.

ההשפעות על ביצועי דיבור בפני קהל של עניין נתפס והיענות הן מתועד היטב עד עכשיו, וברור אינטואיטיבית לרובנו. תגובת קהל אטומה עלולה לגרום לרמקולים להסס ולחזור אליהם נאום מילוי, לא מודעים לשאלה אם הטיעונים שלהם נפגשים בהסכמה, זלזול או חוסר עניין, ולעתים קרובות גורמים לחוויה לא נוחה הן לדובר והן למאזיניו.

תחת לחץ מהשינוי הבלתי צפוי לעבר ועידת וידאו מקוונת בהשראת ההגבלות ואמצעי הזהירות של COVID, הבעיה מחמירה ככל הנראה, ומספר תוכניות משוב משפרות לקהל הוצעו בראיית המחשב והשפיעו על קהילות מחקר במהלך השנים האחרונות.

פתרונות ממוקדי חומרה

עם זאת, רוב אלה כוללים ציוד נוסף או תוכנה מורכבת שיכולה להעלות בעיות פרטיות או לוגיסטיקה - סגנונות גישה בעלי עלות גבוהה יחסית או מוגבלת משאבים אחרת, שקודם למגיפה. בשנת 2001, MIT הציעה את Galvactivator, מכשיר הנלבש ביד המסיק את המצב הרגשי של המשתתף בקהל, נבדק במהלך יום עיון.

משנת 2001, Galvactivator של MIT, שמדד את תגובת מוליכות העור בניסיון להבין את סנטימנט הקהל ומעורבותם. מקור: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

גם אנרגיה אקדמית רבה הוקדשה לאפשרי פריסת 'קליקים' כמערכת תגובת קהל (ARS), אמצעי להגברת השתתפות פעילה של קהלים (מה שמגביר באופן אוטומטי את המעורבות, מכיוון שהיא מאלצת את הצופה לתפקיד של צומת משוב פעיל), אך שנחשבה גם כאמצעי לעידוד דוברים .

ניסיונות אחרים 'לחבר' בין דובר לקהל כללו ניטור דופק, השימוש בציוד מורכב הנלבש על הגוף למינוף אלקטרואנצפלוגרפיה, 'מטרים עידוד', מבוסס ראייה ממוחשבת זיהוי רגש לעובדים מרותקים לשולחן, ושימוש בקהל נשלח פרצופונים במהלך הנאום של הדובר.

משנת 2017, EngageMeter, פרויקט מחקר אקדמי משותף מ-LMU מינכן ואוניברסיטת שטוטגרט. מקור: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

כעיסוק משנה של התחום הרווחי של ניתוח קהלים, המגזר הפרטי גילה עניין מיוחד בהערכת מבט ומעקב - מערכות שבהן כל חבר קהל (שאולי בתורו יצטרך לדבר בסופו של דבר), כפוף ל מעקב עיני כמדד למעורבות ואישור.

כל השיטות הללו הן בחיכוך גבוה למדי. רבים מהם דורשים חומרה מותאמת אישית, סביבות מעבדה, מסגרות תוכנה מיוחדות ומותאמות אישית, ומנוי לממשקי API מסחריים יקרים - או כל שילוב של גורמים מגבילים אלה.

לכן הפיתוח של מערכות מינימליסטיות המבוססות על מעט יותר מכלים נפוצים לשיחות ועידה בווידאו הפך לעניין במהלך 18 החודשים האחרונים.

דיווח אישור קהל באופן דיסקרטי

לשם כך, שיתוף פעולה מחקר חדש בין אוניברסיטת טוקיו ואוניברסיטת קרנגי מלון מציע מערכת חדשנית שיכולה לחזור על כלי ועידת וידיאו סטנדרטיים (כגון זום) באמצעות אתר אינטרנט המותאם למצלמת אינטרנט בלבד, שבו מבט ותנוחה קלה. תוכנת הערכה פועלת. בדרך זו אפילו נמנע הצורך בתוספי דפדפן מקומיים.

ההנהונים ותשומת הלב המשוערת של המשתמש מתורגמים לנתונים מייצגים המופיעים בחזרה לדובר, ומאפשרים מבחן לקמוס 'חי' של המידה שבה התוכן מושך את הקהל - וגם לפחות אינדיקטור מעורפל של תקופות של שיח שבו הדובר עלול לאבד את עניין הקהל.

עם CalmResponses, תשומת הלב והנהון של המשתמש מתווספים למאגר של משוב מהקהל ומתורגמים לייצוג חזותי שיכול להועיל לדובר. ראה סרטון מוטבע בסוף המאמר לפרטים נוספים ודוגמאות. מקור: https://www.youtube.com/watch?v=J_PhB4FCzk0

במצבים אקדמיים רבים, כגון הרצאות מקוונות, סטודנטים עשויים להיות בלתי נראים לחלוטין על ידי הדובר, מכיוון שהם לא הפעילו את המצלמות שלהם בגלל מודעות עצמית לגבי הרקע שלהם או המראה הנוכחי שלהם. CalmResponses יכולה לטפל במכשול הקוצני הזה למשוב דובר על ידי דיווח על מה שהוא יודע על איך הדובר מסתכל על התוכן, ואם הוא מהנהן, ללא כל צורך שהצופה יפעיל את המצלמה שלו.

השמיים מאמר מכונה CalmResponses: הצגת תגובות קהל קולקטיביות בתקשורת מרחוק, והיא עבודה משותפת בין שני חוקרים מ-UoT ואחד מקארנגי מלון.

המחברים מציעים הדגמה חיה מבוססת אינטרנט, ושחררו את קוד מקור ב-GitHub.

מסגרת CalmResponses

העניין של CalmResponses בלהנהן, בניגוד לנטיות אפשריות אחרות של הראש, מבוסס על מחקר (חלקו מתבטא חזרה לעידן דרווין) שמצביע על כך שיותר מ-80% מתנועות הראש של כל המאזינים מורכבים מהנהון (גם כשהם כן להביע אי הסכמה). במקביל, הוצגו תנועות מבט עין יותר רב מחקרים להיות מדד אמין של ריבית או מעורבות.

CalmResponses מיושם עם HTML, CSS ו-JavaScript, וכולל שלוש תת-מערכות: לקוח קהל, לקוח דובר ושרת. לקוחות הקהל מעבירים נתוני מבט עין או תנועת ראש ממצלמת האינטרנט של המשתמש דרך WebSockets דרך פלטפורמת יישומי הענן Heroku.

מהנהנת הקהל מומחשת מימין בתנועה מונפשת תחת CalmResponses. במקרה זה ההדמיה התנועתית זמינה לא רק לדובר, אלא לכל הקהל. מקור: https://arxiv.org/pdf/2204.02308.pdf

עבור קטע מעקב עיניים של הפרויקט, השתמשו החוקרים WebGazer, מסגרת קלת משקל מבוססת-JavaScript למעקב עיניים המבוססת על דפדפן שיכולה לפעול עם זמן אחזור נמוך ישירות מאתר אינטרנט (ראה קישור למעלה ליישום מבוסס-רשת של החוקרים עצמם).

מכיוון שהצורך ביישום פשוט ובזיהוי תגובות גס ומצטבר גובר על הצורך בדיוק גבוה בהערכת מבט ותנוחה, נתוני תנוחת הקלט מוחלקים לפי ערכים ממוצעים לפני שנחשבים להערכת התגובה הכוללת.

פעולת הנהון מוערכת באמצעות ספריית JavaScript clmtrackr, המתאים דגמי פנים לפרצופים שזוהו בתמונות או בסרטונים דרך שינוי ממוצע של ציון דרך מוסדר. למטרות חסכון והשהייה נמוכה, רק ציון הדרך שזוהה עבור האף מנוטר באופן פעיל ביישום המחברים, שכן זה מספיק כדי לעקוב אחר פעולות הנהן.

התנועה של תנוחת קצה האף של המשתמש יוצרת שובל התורם למאגר תגובת הקהל הקשור להנהון, המוצג באופן מצטבר לכל המשתתפים.

מפת חום

בעוד שפעילות הנהון מיוצגת על ידי נקודות נעות דינמיות (ראה תמונות למעלה וסרטון בסוף), תשומת לב חזותית מדווחת במונחים של מפת חום שמראה לדובר ולקהל היכן מוקד תשומת הלב הכללי ממוקד במסך המצגת המשותפת או סביבת ועידת וידאו.

כל המשתתפים יכולים לראות היכן מתמקדת תשומת הלב הכללית של המשתמש. העיתון אינו מזכיר אם פונקציונליות זו זמינה כאשר המשתמש יכול לראות 'גלריה' של משתתפים אחרים, שעלולה לחשוף התמקדות מופרכת במשתתף מסוים אחד, מסיבות שונות.

בדיקות

שתי סביבות מבחן גובשו עבור CalmResponses בצורה של מחקר אבלציה בשתיקה, תוך שימוש בשלוש קבוצות מגוונות של נסיבות: ב'מצב B' (בסיס), המחברים שיחזרו הרצאה מקוונת טיפוסית של סטודנטים, שבה רוב הסטודנטים שומרים על מצלמות הרשת שלהם. כבוי, ולדובר אין יכולת לראות את פני הקהל; ב'מצב CR-E', הדובר יכול היה לראות משוב מבט (מפות חום); ב'מצב CR-N', הדובר יכול היה לראות גם את הנהון וגם את פעילות המבט מהקהל.

התרחיש הניסוי הראשון כלל מצב B ותנאי CR-E; השני כלל מצב B ותנאי CR-N. התקבלו משוב הן מהדוברים והן מהקהל.

בכל ניסוי הוערכו שלושה גורמים: הערכה אובייקטיבית וסובייקטיבית של המצגת (כולל שאלון דיווח עצמי של הדובר לגבי תחושותיו לגבי אופן התנהלות המצגת); מספר האירועים של דיבור 'מילוי', המעיד על חוסר ביטחון רגעי והשתוללות; והערות איכותיות. קריטריונים אלו הם משותף מעריכים של איכות דיבור וחרדת דובר.

מאגר הבדיקות כלל 38 אנשים בגילאי 19-44, הכוללים 29 גברים ותשע נשים בגיל ממוצע של 24.7, כולם יפניים או סיניים, וכולם דוברי יפנית. הם חולקו באופן אקראי לחמש קבוצות של 6-7 משתתפים, ואף אחד מהנבדקים לא הכיר אחד את השני באופן אישי.

הבדיקות נערכו ב-Zoom, כאשר חמישה דוברים העבירו מצגות בניסוי הראשון ושישה בשני.

תנאי מילוי מסומנים כקופסאות כתומות. באופן כללי, תוכן המילוי ירד ביחס סביר להגדלת הפידבק של הקהל מהמערכת.

החוקרים מציינים כי חומרי המילוי של דובר אחד הצטמצמו בצורה ניכרת, וכי ב'מצב CR-N', הדובר כמעט ולא השמיע ביטויי מילוי. עיין במאמר לתוצאות המפורטות והמפורטות מאוד שדווחו; עם זאת, התוצאות הבולטות ביותר היו בהערכה סובייקטיבית של הדוברים ומשתתפי הקהל.

הערות מהקהל כללו:

"הרגשתי שאני מעורב במצגות" [AN2], "לא הייתי בטוח שהנאומים של הדוברים השתפרו, אבל הרגשתי תחושת אחדות מהדמיית תנועות הראש של אחרים." [AN6]

'לא הייתי בטוח שהנאומים של הדוברים השתפרו, אבל הרגשתי תחושת אחדות מהדמיית תנועות הראש של אחרים'.

החוקרים מציינים שהמערכת מציגה סוג חדש של הפסקה מלאכותית למצגת של הדובר, מכיוון שהדובר נוטה להתייחס למערכת החזותית כדי להעריך משוב מהקהל לפני שהוא ממשיך הלאה.

הם גם מציינים סוג של 'אפקט מעיל לבן', שקשה להימנע ממנו בנסיבות ניסיוניות, שבהן חלק מהמשתתפים הרגישו מוגבלים מההשלכות הביטחוניות האפשריות של מעקב אחר נתונים ביומטריים.

סיכום

יתרון בולט אחד במערכת כזו הוא כל טכנולוגיות העזר הלא סטנדרטיות הדרושות לגישה כזו נעלמות לחלוטין לאחר סיום השימוש בהן. אין שאריות של תוספים לדפדפן שיש להסיר, או להטיל ספק במוחם של המשתתפים בשאלה האם עליהם להישאר במערכות שלהם; ואין צורך להדריך את המשתמשים בתהליך ההתקנה (אם כי המסגרת מבוססת האינטרנט אכן דורשת דקה או שתיים של כיול ראשוני על ידי המשתמש), או לנווט באפשרות שלמשתמשים אין הרשאות מתאימות להתקנת תוכנה מקומית, כולל הרחבות והרחבות מבוססות דפדפן.

למרות שתנועות הפנים והעיניים המוערכות אינן מדויקות כפי שהן עשויות להיות בנסיבות שבהן ניתן להשתמש במסגרות למידת מכונה מקומיות ייעודיות (כגון סדרת YOLO), גישה כמעט חסרת חיכוך זו להערכת קהל מספקת דיוק הולם לניתוח סנטימנטים ועמדה רחבה. בתרחישים טיפוסיים של ועידת וידאו. מעל לכל, זה מאוד זול.

עיין בסרטון הפרויקט המשויך למטה לפרטים נוספים ודוגמאות.

CalmResponses: הצגת תגובות קהל קולקטיביות בתקשורת מרחוק

CalmResponses: Displaying Collective Audience Reactions in Remote Communication

Watch this video on YouTube

פורסם לראשונה ב-11 באפריל 2022.

נושאים קשורים:השכלה הבעות פנים מחקר מעקב וידאו

למידת מכונה לעומת מערכות הסכמה לעוגיות

לא לפספס

AI הוכח כמגביר את הלמידה והמעורבות במוזיאוני מדע

מרטין אנדרסון

כותב על למידת מכונה, בינה מלאכותית וביג דאטה.
אתר אישי: martinanderson.ai
איש קשר: [מוגן בדוא"ל]
טוויטר: @manders_ai

Unite.AI

AI עוזר לרמקולים עצבניים 'לקרוא את החדר' במהלך ועידות וידאו

בינה מלאכותית