בינה מלאכותית

אומדן הנטאיות הפנימית לשידורים חיים

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

עד כה, תחום הנטאיות הפנימית (FAP) נחקר בעיקר בהקשר של מחקר פסיכולוגי, בתעשיית היופי והקוסמטיקה, ובהקשר של ניתוחים פלסטיים. זהו תחום מחקר מאתגר, שכן סטנדרטים של יופי נוטים להיות לאומיים ולא גלובליים.

זה אומר שאין מערכת מבוססת AI יעילה, מכיוון שהממוצעים שהתקבלו מדגימות פנים/דירוגים מכל התרבויות יהיו מוטים (שם מדינות מאוכלסות יותר יקבלו תאוצה נוספת), או מתאימות לאף תרבות (שם הממוצע של גזעים/דירוגים רבים יהיה שווה לאף גזע אמיתי).

במקום זאת, האתגר הוא לפתח מתודולוגיות קונספטואליות וזרימות עבודה, אליהן ניתן לעבד נתונים ספציפיים למדינה או תרבות, כדי לאפשר את פיתוחן של מודלים FAP יעילים לכל אזור.

השימושים ב-FAP במחקר יופי ופסיכולוגיה הם שוליים, או ספציפיים לתעשייה; לכן, רוב המאגרים שנאספו עד כה מכילים רק נתונים מוגבלים, או לא פורסמו בכלל.

הזמינות הקלה של מחוללי יופי מקוונים, שמכוונים בעיקר לקהלים מערביים, אינם בהכרח מייצגים את מצב האמנות ב-FAP, שנראה כיום נשלט על ידי מחקר אסייתי (בעיקר סיני), ומאגרי נתונים אסייתיים.

דוגמאות מהמאמר ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. מקור: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

שימושים מסחריים רחבים יותר להערכת יופי כוללים אפליקציות היכרויות מקוונות, ומערכות AI יוצרות שמיועדות ל‘תיקון’ תמונות אמיתיות של אנשים (מכיוון שיישומים כאלה דורשים סטנדרט מוכלל של יופי כמדד ליעילות).

ציור פנים

אנשים מושכים נותרו נכס יקר בפרסום ובניית השפעה, מה שהופך את התמריצים הכספיים בתחומים אלה להזדמנות ברורה לקידום מצב האמנות במאגרי נתונים ופריימוורקים של FAP.

למשל, מודל AI שאומנו עם נתונים מהעולם האמיתי להעריך ולדרג את היופי הפנימי, יכול לזהות אירועים או אנשים עם פוטנציאל גבוה להשפעה פרסומית. יכולת זו תהיה רלוונטית במיוחד בהקשר של שידורי וידאו חיים, שם מדדים כמו ‘עוקבים’ ו’לייקים’ משמשים רק כמדדים מרומזים ליכולתו של אדם (או אפילו סוג פנים) למשוך קהל.

זהו מדד שטחי, כמובן, וקול, הצגה ונקודת מבט משחקים תפקיד משמעותי באיסוף קהל. לכן, איסוף מאגרי FAP דורש השגחה אנושית, כמו גם את היכולת להבדיל בין יופי פנימי ל’יופי מרמה’ (ללא זאת, משפיענים מחוץ לתחום כמו אלכס ג’ונס עלולים להשפיע על העקומה הממוצעת של FAP עבור אוסף שנועד רק להעריך יופי פנימי).

LiveBeauty

כדי לפתור את המחסור במאגרי FAP, חוקרים מסין מציעים את המאגר הגדול הראשון של FAP, המכיל 100,000 תמונות פנים, יחד עם 200,000 סימונים אנושיים המעריכים את היופי הפנימי.

דוגמאות מהמאגר החדש LiveBeauty. מקור: https://arxiv.org/pdf/2501.02509

המאגר, שכותרתו LiveBeauty, מציג 10,000 זהויות שונות, כולן צולמו מפלטפורמות שידור חי (לא מפורט) במרץ 2024.

המחברים מציגים גם את FPEM, שיטה רב-מודאלית חדשה ל-FAP. FPEM משלבת ידע קודם פנימי הוליסטי ומאפיינים אסתטיים סמנטיים רב-מודאליים מאפיינים דרך מודול יופי אישי (PAPM), מודול מקודד יופי רב-מודאלי (MAEM), ומודול פיוז’ חוצה-מודאלי (CMFM).

המאמר טוען כי FPEM מגיע לביצועים הטובים ביותר על המאגר החדש LiveBeauty, ועל מאגרים אחרים של FAP. המחברים מציינים כי המחקר הוא בעל פוטנציאל ליישומים לשיפור איכות וידאו, המלצות תוכן ועריכה פנימית בשידורים חיים.

המחברים מבטיחים גם להנגיש את המאגר “בקרוב” – אם כי יש להודות כי הגבלות רישוי שקיימות בתחום המקור עלולות לעבור לרוב הפרויקטים שיעשו שימוש בעבודה.

המאמר החדש כותרתו Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method, ומגיע מעשרה חוקרים מקבוצת Alibaba ואוניברסיטת Shanghai Jiao Tong.

שיטה ונתונים

מכל שידור של 10 שעות, החוקרים אספו תמונה אחת לשעה ל-3 השעות הראשונות. שידורים עם הצפיות הגבוהות ביותר נבחרו.

הנתונים שנאספו עברו שלבים רבים של עיבוד מוקדם. הראשון בהם הוא מדידת גודל אזור הפנים, המשתמש במודל FaceBoxes מ-2018, כדי ליצור קופסת גבולות סביב הפנים. הצינור מבטיח כי הצד הקצר של קופסת הגבולות עולה על 90 פיקסלים, ובכך מונע פנים קטנים או לא ברורים.

השלב השני הוא גילוי ערפל, המופעל על אזור הפנים על ידי שימוש בשונות של אופרטור לפלס בערוץ הגובה (Y) של הפנים. שונות זו חייבת להיות גדולה מ-10, מה שעוזר לסנן תמונות מטושטשות.

השלב השלישי הוא אומדן תנוחת פנים, המשתמש במודל 3DDFA-V2 מ-2021:

דוגמאות ממודל 3DDFA-V2. מקור: https://arxiv.org/pdf/2009.09960

כאן, הצינור מבטיח כי זווית הגובה של הפנים המקוצצות אינה עולה על 20 מעלות, וזווית הסיבוב אינה עולה על 15 מעלות, מה שמחלק את הפנים עם תנוחות קיצוניות.

השלב הרביעי הוא הערכת פרופורציה של פנים, המשתמש גם ביכולות הסגמנטציה של מודל 3DDFA-V2, ומבטיח כי הפנים המקוצצות הן יותר מ-60% מהתמונה, וכך מחלק את התמונות שבהן הפנים אינן בולטות. כלומר, קטנות בתמונה הכללית.

לבסוף, השלב החמישי הוא הסרת דמויות כפולות, המשתמש במודל זיהוי פנים מתקדם (לא מיוחס) עבור מקרים שבהם אותה זהות מופיעה ביותר מאחת משלוש התמונות שנאספו עבור וידאו של 10 שעות.

הערכה אנושית וסימון

עשרים מסמנים נבחרו, שמונה מהם גברים ו-14 נשים, המשקפים את הדמוגרפיה של הפלטפורמה החיה*. הפנים הוצגו על מסך 6.7 אינץ’ של iPhone 14 Pro Max, בתנאים מעבדתיים עקביים.

ההערכה חולקה ל-200 פגישות, כל אחת מהן השתמשה ב-50 תמונות. הנושאים נדרשו לדרג את היופי הפנימי של הדוגמאות בציון 1-5, עם הפסקה של חמש דקות בין כל פגישה, וכל הנושאים השתתפו בכל הפגישות.

לפיכך, כל 10,000 התמונות הוערכו על ידי עשרים נושאים אנושיים, והגיעו ל-200,000 סימונים.

ניתוח ועיבוד מוקדם

ראשית, בוצעה בדיקת נושאים אחרי המסך, באמצעות יחס שונות ומקדם הסתברות ספירמן (SROCC). נושאים שדירוגיהם היו SROCC פחות מ-0.75, או יחס שונות גדול מ-2%, נחשבו לא מהימנים, והוסרו, ולבסוף נותרו 20 נושאים..

ציון דעת הקהל (MOS) נחשב עבור כל תמונת פנים, על ידי ממוצע הציונים שהושגו על ידי הנושאים התקינים. MOS משמש כתווית יופי אמיתי עבור כל תמונה, והציון נחשב על ידי ממוצע של כל הציונים האינדיבידואליים מכל נושא תקין.

לבסוף, ניתוח התפלגויות MOS עבור כל הדוגמאות, כמו גם עבור דוגמאות נשים וגברים, הראה כי הן מציגות צורה גאוסיאנית, התואמת את התפלגויות היופי הפנימי בעולם האמיתי:

דוגמאות של תפלגויות MOS של LiveBeauty.

רוב האנשים נוטים להיות בעלי יופי פנימי ממוצע, עם פחות אנשים בקצוות של יופי נמוך מאוד או גבוה מאוד.

בנוסף, ניתוח שונות וקורטוזיס הראה כי התפלגויות התאפיינו בזנבות דקות וריכוז סביב הציון הממוצע, וכי יופי גבוה היה שכיח יותר בדוגמאות הנשים בסרטוני השידור החי.

ארכיטקטורה

אסטרטגיית אימון דו-שלבית שומשה עבור המודל הרב-מודאלי FPEM ושלב הפיוז’ ההיברידי ב-LiveBeauty, מחולקת לארבעה מודולים: מודול יופי אישי (PAPM), מודול מקודד יופי רב-מודאלי (MAEM), מודול פיוז’ חוצה-מודאלי (CMFM) ומודול פיוז’ החלטה (DFM).

סכמה קונספטואלית עבור צינור האימון של LiveBeauty.

מודול PAPM לוקח תמונה כקלט ומחלץ מאפיינים חזותיים רב-סקאליים באמצעות Swin Transformer, וכן מחלץ מאפיינים פנים-מודעים באמצעות מודל FaceNet מוכשר. מאפיינים אלו משולבים באמצעות בלוק תשומת לב חוצה כדי ליצור מאפיין ‘יופי’ אישי.

גם בשלב האימון הפרימרי, MAEM משתמש בתמונה ובתיאורים טקסטואליים של יופי, ומנצל CLIP כדי לחלץ מאפיינים אסתטיים רב-מודאליים.

התיאורים הטקסטואליים הם בצורה ‘תמונה של אדם עם {a} יופי’ (שם {a} יכול להיות ‘רע’, ‘גרוע’, ‘הוגן’, ‘טוב’ או ‘מושלם’). התהליך מעריך את דמיון קוסינוס בין השבבים הטקסטואליים והחזותיים, כדי להגיע להסתברות רמת יופי.

בשלב הפיוז’ ההיברידי, CMFM משכלל את השבבים הטקסטואליים באמצעות המאפיין האישי של PAPM, ובכך יוצר שבבים טקסטואליים אישיים. הוא אז משתמש באסטרטגיית רגרסיה של דמיון כדי לבצע ניבוי.

לבסוף, DFM משלב את הניבויים היחידים מ-PAPM, MAEM ו-CMFM, כדי לייצר ציון יופי יחיד וסופי, עם מטרה להשיג הסכמה חזקה.

פונקציות אובדן

עבור מדדי אובדן, PAPM מאומנת באמצעות אובדן L1, מידה של הפרש המוחלט בין ציון היופי המנבא לציון היופי האמיתי (קרקע אמיתית).

מודול MAEM משתמש בפונקציה אובדן מורכבת יותר, המשלבת אובדן ציון (LS) עם אובדן דירוג מאוחד (LR). אובדן הדירוג (LR) כולל אובדן נאמנות (LR1) ואובדן דירוג דו-כיווני (LR2).

LR1 משווה את היופי היחסי של זוגות תמונות, בעוד LR2 מבטיח כי ההסתברות המנבאת של רמות יופי היא בעלת פסגה יחידה ויורדת בשני הכיוונים. הגישה המשולבת זו מטרתה לאפטימיזציה של ציון מדויק ודירוג נכון של תמונות על בסיס יופי.

CMFM ו-DFM מאומנים באמצעות אובדן L1 פשוט.

בדיקות

בבדיקות, החוקרים השוו את LiveBeauty לתשעה מתודות קודמות: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (המופיע ב-REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; ו-EAT.

מתודות בסיס עומדות על הערכת אסתטיקה של תמונה (IAA) נבדקו גם הן. אלו היו ViT-B; ResNeXt-50; ו-Inception-V3.

לבד מ-LiveBeauty, המאגרים האחרים שנבדקו היו SCUT-FBP5000 ו-MEBeauty. להלן, התפלגויות MOS של מאגרים אלו מושוות:

תפלגויות MOS של מאגרי הבדיקה.

בהתאמה, מאגרים אלו חולקו 60%-40% ו-80%-20% לאימון ובדיקה, בנפרד, כדי לשמור על עקביות עם הפרוטוקולים המקוריים. LiveBeauty חולק על בסיס 90%-10%.

עבור אימון התחלתי של MAEM, VT-B/16 ו-GPT-2 שימשו כמקודדי תמונה וטקסט, בהתאמה, עם הגדרות מ-CLIP. עבור PAPM, Swin-T שימש כמקודד תמונה מתאמן, בהתאם ל-SwinFace.

אופטימייזר AdamW שימש, ולוח קצב למידה תזמון הוגדר עם חימום ליניארי תחת מתכון קוסינוס. קצבי למידה השתנו בין שלבי האימון, אך כולם היו בעלי גודל תיק של 32, ל-50 אפוק.

תוצאות מבדיקות

תוצאות מבדיקות על שלושת מאגרי FAP מוצגות לעיל. מתוך תוצאות אלו, המאמר מצהיר:

‘שיטתנו המוצעת מגיעה למקום הראשון ועוקפת את המקום השני בכ-0.012, 0.081, 0.021 במונחי ערכי SROCC על LiveBeauty, MEBeauty ו-SCUT-FBP5500, בהתאמה, מה שמוכיח את עליונות שיטתנו.

‘[ה]שיטות IAA נחותות מהשיטות FAP, מה שמוכיח כי שיטות הערכת אסתטיקה הכלליות מתעלמות מהמאפיינים הפנימיים המעורבים בטבע הסובייקטיבי של יופי פנימי, מה שגורם לביצועים גרועים במשימות FAP.

‘[ה]ביצועים של כל השיטות יורדים באופן משמעותי ב-MEBeauty. זה מכיוון שהדוגמאות לאימון מוגבלות, והפנים מגוונות מבחינה אתנית ב-MEBeauty, מה שמצביע על גיוון גדול ביופי פנימי.

‘כל אלו הגורמים הופכים את ניבוי היופי הפנימי ב-MEBeauty לאתגר יותר.’

שיקולים אתיים

מחקר על יופי הוא משימה פוטנציאלית מפלגת, מכיוון שבקביעת סטנדרטים אמפיריים של יופי, מערכות כאלו נוטות לחזק ולהמשיך הטיות סביב גיל, גזע ורבים מהיבטים אחרים של מחקר ראייה ממוחשבת הקשורים לבני אדם.

ניתן לטעון כי מערכת FAP היא בעלת נטייה מובנית לחזק ולהמשיך נקודות מבט חלקיות ומוטות על יופי. השיפוטים האלו עלולים להיגרם מסימונים אנושיים – לעיתים קרובות בסולם מוגבל מדי לקבלת כילה – או מניתוח דפוסי תשומת לב בסביבות מקוונות כמו פלטפורמות שידור, שהן, בטענה, רחוקות מלהיות מריטוקרטיות.

* המאמר מתייחס לתחום/תחומי המקור בשם היחיד והרבים.

פורסם לראשונה ביום רביעי, 8 בינואר 2025

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai