בינה מלאכותית

שינוי רגשות בצילומי וידאו עם AI

מְעוּדכָּן on דצמבר 9, 2022

חוקרים מיוון ומבריטניה פיתחו גישת למידה עמוקה חדשנית לשינוי הביטויים ומצב הרוח הנראה של אנשים בצילומי וידאו, תוך שמירה על נאמנות תנועות השפתיים שלהם לאודיו המקורי בצורה שניסיונות קודמים לא הצליחו להתאים .

מתוך הסרטון המלווה את המאמר (מוטבע בסוף מאמר זה), קטע קצר של השחקן אל פאצ'ינו שהבעה שלו השתנתה בעדינות על ידי NED, המבוססת על מושגים סמנטיים ברמה גבוהה. מקור: https://www.youtube.com/watch?v=Li6W8pRDMJQ

מתוך הסרטון המלווה את המאמר (מוטבע בסוף מאמר זה), קטע קצר של השחקן אל פאצ'ינו שהבעה שלו השתנתה בעדינות על ידי NED, המבוססת על מושגים סמנטיים ברמה גבוהה המגדירים הבעות פנים בודדות, והרגש הנלווה אליהן. השיטה 'מונעת התייחסות' בצד ימין לוקחת את הרגש/ים המפורשים של סרטון מקור ומחילה אותו על כל רצף הווידאו. מקור: https://www.youtube.com/watch?v=Li6W8pRDMJQ

תחום מסוים זה נכנס לקטגוריה ההולכת וגדלה של רגשות עמוקים, שבו זהות הדובר המקורי נשמרת, אך הביטויים והמיקרו-ביטויים שלהם משתנים. ככל שטכנולוגיית הבינה המלאכותית הספציפית הזו מתבגרת, היא מציעה להפקות סרטים וטלוויזיה את האפשרות לבצע שינויים עדינים בהבעותיהם של השחקנים - אך גם פותחת קטגוריה חדשה למדי של זיוף וידאו עמוק "משונה ברגשות".

שינוי פנים

הבעות פנים לאישי ציבור, כמו פוליטיקאים, מאוצרות בקפדנות; ב-2016 הגיעו הבעות הפנים של הילרי קלינטון תחת פיקוח תקשורתי אינטנסיבי על השפעתם השלילית הפוטנציאלית על סיכוייה הבחירות; הבעות פנים, כך מתברר, הן גם א נושא עניין ל-FBI; והם א אינדיקטור קריטי בראיונות עבודה, מה שהופך את הסיכוי (הרחוק) של סינון 'בקרת ביטוי' חי להתפתחות רצויה עבור מחפשי עבודה המנסים לעבור מסך מקדים ב-Zoom.

מחקר משנת 2005 מבריטניה קבע את מראה הפנים הזה משפיע על החלטות ההצבעה, בעוד תכונה של וושינגטון פוסט משנת 2019 בחנה את שימוש בשיתוף קטעי וידאו 'מחוץ להקשר', שזה כרגע הדבר הקרוב ביותר שיש לתומכי החדשות המזויפות לעצם היכולת לשנות את האופן שבו איש ציבור נראה מתנהג, מגיב או מרגיש.

לקראת מניפולציה של ביטוי עצבי

נכון לעכשיו, מצב האמנות במניפולציה של השפעת הפנים היא בסיסית למדי, מכיוון שהיא כרוכה בהתמודדות עם התפרקות של מושגים ברמה גבוהה (כגון עצוב, כועס, שמח, מחייך) מתוכן וידאו בפועל. למרות שנראה כי ארכיטקטורות מזיפות עמוקות מסורתיות משיגות את ההתנתקות הזו בצורה די טובה, שיקוף רגשות על פני זהויות שונות עדיין מחייב ששתי פנים אימון יכילו הבעות תואמות לכל זהות.

מכיוון שמאפייני זיהוי הפנים והתנוחה כל כך שלובים זה בזה, יש צורך בשוויון רחב של הבעה, תנוחת ראש ותאורה (במידה פחותה) על פני שני מערכי נתונים של פנים על מנת להכשיר מודל Deepfake יעיל במערכות כגון DeepFaceLab. ככל שתצורה מסוימת (כגון 'מבט צד/חיוך/אור שמש') פחות מוצגת בשני ערכות הפנים, כך היא תוצג פחות במדויק בסרטון מזויף עמוק, במידת הצורך.

דוגמאות אופייניות לתמונות פנים במערכי נתונים המשמשים לאימון זיופים עמוקים. נכון לעכשיו, אתה יכול לתמרן את הבעת הפנים של אדם רק על ידי יצירת הבעה ספציפית לזיהוי מסלולי הבעה ברשת עצבית מזויפת. לתוכנת deepfake של עידן 2017 אין הבנה סמנטית מהותית של 'חיוך' - היא רק ממפה ומתאימה שינויים נתפסים בגיאומטריית הפנים בין שני הנושאים.

מה שרצוי, ועדיין לא הושג בצורה מושלמת, הוא לזהות כיצד נושא ב' (למשל) מחייך, ופשוט ליצור 'חיוך' החלף את הארכיטקטורה, מבלי צורך למפות אותה לתמונה מקבילה של נושא א' מחייך.

אל האני מאמר חדש מכונה במאי רגש עצבי: שליטה סמנטית משמרת דיבור של הבעות פנים בסרטוני "בטבע", ומגיע מחוקרים בבית הספר להנדסת חשמל ומחשבים באוניברסיטה הטכנית הלאומית של אתונה, המכון למדעי המחשב בקרן למחקר וטכנולוגיה Hellas (FORTH), והמכללה להנדסה, מתמטיקה ומדעי הפיזיקה ב- אוניברסיטת אקסטר בבריטניה.

הצוות פיתח מסגרת בשם מנהל רגש עצבי (NED), המשלבת רשת תרגום רגשות מבוססת תלת מימד, מניפולטור רגשות מבוסס תלת מימד.

NED לוקח רצף מתקבל של פרמטרי ביטוי ומתרגם אותם לתחום יעד. זה מאומן על נתונים לא מקבילים, מה שאומר שאין צורך להתאמן על מערכי נתונים שבהם לכל זהות יש הבעות פנים מתאימות.

הסרטון, המוצג בסוף מאמר זה, עובר סדרה של בדיקות שבהן NED כופה מצב רגשי לכאורה על קטעים מתוך מערך הנתונים של YouTube.

המחברים טוענים כי NED היא השיטה מבוססת הווידאו הראשונה ל'בימוי' שחקנים במצבים אקראיים ובלתי צפויים, והפכו את הקוד לזמין ב-NED's דף פרויקט.

שיטה ואדריכלות

המערכת מאומנת על שני מערכי נתונים גדולים של וידאו שסומנו עם תוויות 'רגש'.

הפלט מתאפשר על ידי מעבד פנים וידאו המציג את הרגש הרצוי לווידאו באמצעות טכניקות סינתזת תמונת פנים מסורתיות, כולל פילוח פנים, יישור ציוני דרך ומיזוג פנים, כאשר רק אזור הפנים מסונתז, ולאחר מכן מוטל על הצילומים המקוריים.

הארכיטקטורה של הצינור של גלאי הרגשות העצבים (NED). מקור: https://arxiv.org/pdf/2112.00585.pdf

בתחילה, המערכת משיגה התאוששות פנים תלת מימדית וכופה יישור ציוני פנים על מסגרות הקלט על מנת לזהות את ההבעה. לאחר מכן, פרמטרי הביטוי המשוחזרים הללו מועברים ל-Emotion Manipulator מבוסס התלת-ממד, ווקטור סגנון מחושב באמצעות תווית סמנטית (כגון 'שמח') או על ידי קובץ עזר.

קובץ עזר הוא סרטון המתאר ביטוי/רגש מסוים מוכרים, אשר לאחר מכן מוטל על כל סרטון היעד, תוך החלפת הביטוי המקורי.

שלבים בצינור העברת הרגשות, בהשתתפות שחקנים שונים שנדגמו מסרטוני יוטיוב.

צורת הפנים התלת-ממדית הסופית שנוצרה משורשרת עם קואורדינטת הפנים הממוצעת (NMFC) ותמונות העין (הנקודות האדומות בתמונה למעלה), ומועברת למעבד העצבי, שמבצע את המניפולציה הסופית.

תוצאות

החוקרים ערכו מחקרים נרחבים, כולל מחקרי משתמש ואבלציה, כדי להעריך את יעילות השיטה מול עבודה קודמת, ומצאו שברוב הקטגוריות, NED עולה על המצב הנוכחי בתת-מגזר זה של מניפולציות פנים עצביות.

מחברי המאמר צופים שיישומים מאוחרים יותר של עבודה זו, וכלים בעלי אופי דומה, יהיו שימושיים בעיקר בתעשיות הטלוויזיה והקולנוע, תוך ציון:

"השיטה שלנו פותחת שפע של אפשרויות חדשות ליישומים שימושיים של טכנולוגיות רינדור עצביות, החל מפוסט-פרודקשן של סרטים ומשחקי וידאו ועד לאוואטרים רגשיים-פוטו-ריאליסטיים."

זוהי עבודה מוקדמת בתחום, אך אחת הראשונות שניסו שחזור פנים באמצעות וידאו ולא בתמונות סטילס. למרות שסרטוני וידאו הם למעשה תמונות סטילס רבות שרצות יחד מהר מאוד, ישנם שיקולים זמניים שהופכים את היישומים הקודמים של העברת רגשות לפחות יעילים. בסרטון המצורף, ובדוגמאות במאמר, המחברים כוללים השוואות חזותיות של הפלט של NED מול שיטות דומות אחרות לאחרונה.

השוואות מפורטות יותר, ועוד דוגמאות רבות של NED, ניתן למצוא בסרטון המלא למטה:

[CVPR 2022] NED: שליטה סמנטית משמרת דיבור של הבעות פנים בסרטוני "בטבע"

[CVPR 2022] NED: Speech-preserving semantic control of facial expressions in “in-the-wild” videos

Watch this video on YouTube

3 בדצמבר 2021, 18:30 GMT+2 – לבקשת אחד מחברי העיתון, בוצעו תיקונים לגבי 'קובץ העזר', שציינתי בטעות שהוא תמונת סטילס (כאשר זה למעשה קטע וידאו). כמו כן תיקון שמו של המכון למדעי המחשב בקרן למחקר וטכנולוגיה.
3 בדצמבר 2021, 20:50 GMT+2 - בקשה שנייה מאחד ממחברי העיתון לתיקון נוסף בשם המוסד הנ"ל.

נושאים קשורים:להשפיע על זיהוי DeepFakes זיהוי רגש רגשות מחקר

היתרון הבלתי מכוון של מיפוי המרחב הסמוי של GAN

לא לפספס

דיסני משלבת CGI עם עיבוד עצבי כדי להתמודד עם "העמק המופלא"

מרטין אנדרסון

כותב על למידת מכונה, בינה מלאכותית וביג דאטה.
אתר אישי: martinanderson.ai
איש קשר: [מוגן בדוא"ל]
טוויטר: @manders_ai

Unite.AI

שינוי רגשות בצילומי וידאו עם AI

בינה מלאכותית