מציאות מועשרת

מפתחי TikTok מוחקים פרצופים עבור יישומי מציאות רבודה

יצא לאור

לפני 3 שנים

ספטמבר 27, 2021

ByteDance, חברת האינטרנט הרב-לאומית הסינית שמאחורי TikTok, פיתחה שיטה חדשה למחיקת פרצופים בווידאו כך שניתן להטיל עיוות זהות והשפעות מוזרות אחרות על אנשים ביישומי מציאות רבודה. החברה טוענת שהטכניקה כבר שולבה במוצרי סלולר מסחריים, אם כי היא לא מציינת אילו מוצרים.

ברגע שהפנים בווידאו 'איפסו', יש מספיק 'קנבס פנים' כדי לייצר עיוותים מרתיע עיניים, כמו גם להצמיד זהויות אחרות. דוגמאות שסופקו במאמר חדש של חוקרי ByteDance ממחישות את האפשרויות, כולל שחזור התכונות ה'מחוקות' בתצורות קומיות שונות (ובוודאי כמה גרוטסקיות):

חלק מהאפשרויות להגדרה מחדש של הפנים כלולות במאמר ByteDance. מקור: https://arxiv.org/pdf/2109.10760.pdf

לקראת סוף אוגוסט, זה בא לאור זה TikTok, האפליקציה הראשונה שאינה בפייסבוק להגיע לשלושה מיליארד התקנות, השיק את TikTok Effect Studio (כרגע בבטא סגורה), פלטפורמה למפתחי מציאות רבודה (AR) ליצירת אפקטי AR עבור זרמי תוכן של TikTok.

למעשה, החברה מדביקה עד לקהילות מפתחים דומות ב סטודיו AR של פייסבוק ו Snap AR, עם המכובד של אפל קהילת מו"פ של AR גם עומד להיות מגולוון בקרוב על ידי חומרה חדשה במהלך השנה הבאה.

ביטויים ריקים

השמיים מאמר, שכותרתו FaceEraser: הסרת חלקי פנים למציאות רבודה, מציין שאלגוריתמים קיימים של ציור/מילוי, כגון ה-SPADE של NVIDIA, מכוונים יותר להשלמת תמונות קטומות או סתומות למחצה מאשר לביצוע הליך 'המחקה' יוצא דופן זה, ולפיכך חומר הנתונים הקיים הוא דל, כצפוי.

מכיוון שאין מערכי נתונים זמינים של אמת קרקע לאנשים שיש להם מרחב מוצק של בשר היכן שהפנים שלהם צריכים להיות, החוקרים יצרו ארכיטקטורת רשת חדשה בשם שיבוט פיקסל, שניתן להצמיד למודלים קיימים של ציור עצבי, ואשר פותר בעיות הקשורות לחוסר עקביות של מרקם וצבע המוצגות (הנייר מעיד) בשיטות ישנות יותר, כגון מבנה זרימה ו EdgeConnect.

זרימת עבודה כללית של שיבוט פיקסל בצינור החדש.

על מנת לאמן דוגמנית על פנים 'ריקות', החוקרים מנעו תמונות עם משקפיים, או היכן שיער מסתיר את המצח, מכיוון שהאזור בין קו השיער והגבות הוא בדרך כלל קבוצת הפיקסלים הגדולה ביותר שיכולה לספק 'הדבקה מעל'. חומר לתכונות המרכזיות של הפנים.

הכנת תמונות אימון. אזור המצח נחתך, בהתבסס על נקודות מפתח בזיהוי יישור הפנים, מתהפך אנכית ותפור.

מתקבלת תמונה של 256×256 פיקסלים, גודל קטן מספיק כדי להזין את החלל הסמוי של רשת עצבית בקבוצות גדולות מספיק כדי להשיג הַכלָלָה. שיפור קנה מידה אלגוריתמי מאוחר יותר ישחזר את הרזולוציות הנחוצות לעבודה במרחב ה-AR.

אדריכלות

הרשת מורכבת משלוש רשתות פנימיות, הכוללות Edge Completion, Pixel-Clone ורשת עידון. רשת השלמת הקצה משתמשת באותו סוג של ארכיטקטורת מקודד-מפענח המופעלת ב-EdgeConnect (ראה לעיל), כמו גם בשני יישומי deepfake הפופולריים ביותר. המקודדים מקטינים את תוכן התמונה פעמיים, והמפענחים משחזרים את ממדי התמונה המקוריים.

Pixel-Clone משתמש במתודולוגיה שונה של מקודד-מפענח, בעוד ששכבת העידון משתמשת בארכיטקטורת U-Net, טכניקה שפותחה במקור להדמיה ביו-רפואית, שמופיע לעתים קרובות בפרויקטי מחקר של סינתזת תמונה.

במהלך זרימת העבודה של האימון, יש צורך להעריך את הדיוק של התמורות, ובמידת הצורך לחזור על הניסיונות באופן איטרטיבי עד התכנסות. לשם כך, שני מפלים מבוססים על PatchGAN נעשה שימוש, שכל אחד מהם מעריך את הריאליזם המקומי של תיקוני 70×70 פיקסלים, תוך הנחה מערך הריאליזם של התמונה כולה.

הדרכה ונתונים

רשת השלמת קצה מאומנת בתחילה באופן עצמאי, בעוד שתי הרשתות האחרות מאומנות יחד, על סמך המשקולות שנבעו מאימון השלמת הקצה, אשר קבועים ומוקפאים במהלך הליך זה.

על אף שהעיתון אינו מציין במפורש שהדוגמאות שלו לעיוות תכונות סופי הן המטרה המרכזית של המודל, הוא מיישם אפקטים קומיים שונים כדי לבחון את חוסנה של המערכת, כולל הסרת גבות, פיות מוגדלים, תת-פנים מכווצות ו"מוצגים" אפקטים (כפי שמוצג בתמונה הקודמת, למעלה).

העיתון טוען כי "הפרצופים שנמחקו מאפשרים יישומי מציאות רבודה שונים הדורשים מיקום של כל רכיב מותאם אישית למשתמש", מה שמצביע על האפשרות להתאים אישית פרצופים עם אלמנטים של צד שלישי שנתרמו על ידי המשתמש.

הדגם מאומן על מסכות מה-NVIDIA שנוצרו מערך נתונים של FFHQ, המכיל מגוון הולם של גילאים, מוצא אתני, תאורה ותנוחות פנים וסגנונות כדי להשיג הכללה שימושית. מערך הנתונים מכיל 35,000 תמונות ו-10,000 מסכות אימון כדי לתחום את אזורי הטרנספורמציה, עם 4000 תמונות ו-1000 מסכות שהופרשו למטרות אימות.

דגימות נתוני אימון.

המודל המאומן יכול לבצע הסקה על נתונים מ-2017 CelbA-HQ ו ווקססלב, פרצופים בלתי נראים מ-FFHQ, וכל פנים בלתי נראים, בלתי מוגבלים אחרים המוצגים בפניו. התמונות בגודל 256×256 הוכשרו ברשת בקבוצות של 8 על פני אופטימיזר Adam, יושמו ב-PyTorch, ופועלות ב-Tesla V100 GPU עבור '2000,000 תקופות'.

תוצאות מסקנות שהושגו על פנים אמיתיות.

כמקובל במחקר סינתזת תמונה מבוססת פנים, המערכת נאלצת להתמודד עם כשלים מזדמנים הנגרמים על ידי חסימות או חסימות כגון שיער, ציוד היקפי, משקפיים ושיער פנים.

מסכם הדו"ח:

"הגישה שלנו הפכה למסחור והיא פועלת היטב במוצרים עבור תשומות משתמשים בלתי מוגבלות."

חוקרים מוצאים ש-VR משפיע על ילדים ומבוגרים באופן שונה

לא לפספס

חוקרים יוצרים הולוגרמות תלת-ממדיות בזמן אמת המופעלות על ידי AI בסמארטפונים

מרטין אנדרסון

כותב על למידת מכונה, בינה מלאכותית וביג דאטה.
אתר אישי: martinanderson.ai
איש קשר: [מוגן בדוא"ל]
טוויטר: @manders_ai

Unite.AI

מפתחי TikTok מוחקים פרצופים עבור יישומי מציאות רבודה

מציאות מועשרת