בדל שיטת Deepfake חדשה ופשוטה יותר שעולה על גישות קודמות - Unite.AI
צור קשר

בינה מלאכותית

שיטת Deepfake חדשה ופשוטה יותר שעולה על גישות קודמות

mm
מְעוּדכָּן on

שיתוף פעולה בין קבוצת מחקר בינה מלאכותית סינית וחוקרים בארה"ב פיתח את מה שעשוי להיות החידוש האמיתי הראשון בטכנולוגיית הזיופים העמוקים מאז התופעה לפני ארבע שנים.

השיטה החדשה יכולה לבצע החלפות פנים שמתעלות על כל שאר המסגרות הקיימות במבחני תפיסה סטנדרטיים, מבלי צורך לאסוף ולאצור מערכי נתונים ייעודיים גדולים ולאמן אותם עד שבוע עבור זהות בודדת בלבד. עבור הדוגמאות שהוצגו במאמר החדש, הוכשרו דגמים על שְׁלֵמוּת של שני מערכי נתונים פופולריים של ידוענים, על NVIDIA Tesla P40 GPU אחד למשך כשלושה ימים.

הסרטון המלא מוטבע בסוף מאמר זה. בדוגמה זו מתוך סרטון בחומרים משלימים לעיתון החדש, פניה של סקרלט ג'והנסון מועברות לסרטון המקור. CihaNet מסירה את בעיית מיסוך הקצה בעת ביצוע החלפה, על ידי יצירת והפעלת מערכות יחסים עמוקות יותר בין זהויות המקור והיעד, כלומר קץ ל'גבולות ברורים' ותקלות סופרמפוזיציה אחרות המתרחשות בגישות הזיוף המסורתי. מקור: מקור: https://mitchellx.github.io/#video

הסרטון המלא זמין בסוף מאמר זה. בדוגמה זו מתוך סרטון עם חומרים משלימים שסופק על ידי אחד ממחברי המאמר החדש, פניה של סקרלט ג'והנסון מועברות לסרטון המקור. CihaNet מסירה את בעיית מיסוך הקצה בעת ביצוע החלפה, על ידי יצירת והפעלת מערכות יחסים עמוקות יותר בין זהויות המקור והיעד, כלומר קץ ל'גבולות ברורים' ותקלות סופרמפוזיציה אחרות המתרחשות בגישות הזיוף המסורתי. מָקוֹר: מקור: https://mitchellx.github.io/#video

הגישה החדשה מסירה את הצורך 'להדביק' את הזהות המושתלת בגסות לתוך סרטון היעד, מה שמוביל לעתים קרובות להסבר. ממצאים שמופיעים היכן שהפנים המזויפות מסתיימות ומתחיל הפנים האמיתי, הבסיסי. במקום זאת, נעשה שימוש ב'מפות הזיה' כדי לבצע ערבוב עמוק יותר של היבטים ויזואליים, מכיוון שהמערכת מפרידה זהות מהקשר בצורה יעילה הרבה יותר מהשיטות הנוכחיות, ולכן יכולה למזג את זהות המטרה ברמה עמוקה יותר.

מתוך העיתון. טרנספורמציות של CihaNet מתבצעות באמצעות מפות הזיה (שורה תחתונה). המערכת משתמשת במידע ההקשר (כלומר כיוון פנים, שיער, משקפיים וחסימות אחרות וכו') כולו מהתמונה אליה תוצב הזהות החדשה, ומידע זהות הפנים כולו מהאדם שאמור להיות מוכנס לתמונה. היכולת הזו להפריד פנים מהקשר היא קריטית להצלחת המערכת. מקור: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

מתוך העיתון. טרנספורמציות של CihaNet מתבצעות באמצעות מפות הזיה (שורה תחתונה). המערכת משתמשת במידע ההקשר (כלומר כיוון פנים, שיער, משקפיים וחסימות אחרות וכו') כולו מהתמונה אליה תוצב הזהות החדשה, ומידע זהות הפנים כולו מהאדם שאמור להיות מוכנס לתמונה. היכולת הזו להפריד פנים מהקשר היא קריטית להצלחת המערכת. מקור: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

למעשה, מפת ההזיה החדשה מספקת הקשר שלם יותר להחלפה, בניגוד למסכות הקשות שלעתים קרובות דורשות אוצרות נרחבות (ובמקרה של DeepFaceLab, הכשרה נפרדת) תוך מתן גמישות מוגבלת במונחים של שילוב אמיתי של שתי הזהויות.

מדגימות שסופקו בחומרים המשלימים, תוך שימוש במערך הנתונים של FFHQ וגם של Celeb-A HQ, על פני VGGFace ו-Forensics++. שתי העמודות הראשונות מציגות את התמונות שנבחרו באקראי (אמיתיות) להחלפה. ארבע העמודות הבאות מציגות את תוצאות ההחלפה באמצעות ארבע השיטות היעילות ביותר הקיימות כיום, בעוד העמודה האחרונה מציגה את התוצאה מ-CihaNet. נעשה שימוש במאגר FaceSwap, ולא ב-DeepFaceLab הפופולרי יותר, מכיוון ששני הפרויקטים הם מזלגות של קוד Deepfakes המקורי של 2017 ב-GitHub. למרות שכל פרויקט הוסיף מאז מודלים, טכניקות, ממשקי משתמש מגוונים וכלים משלימים, הקוד הבסיסי שמאפשר זיופים עמוקים מעולם לא השתנה, ונשאר משותף לשניהם. מקור: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

השמיים מאמר, שכותרתו רשת הקשר והזיות זהות חד-שלבי, נכתב על ידי חוקרים המזוהים עם JD AI Research, ואוניברסיטת מסצ'וסטס אמהרסט, ונתמך על ידי תוכנית המחקר והפיתוח הלאומית של סין במסגרת מענק מס' 2020AAA0103800. הוא הוצג בכנס הבינלאומי ה-29 של ACM בנושא מולטימדיה, ב-20-24 באוקטובר, בצ'נגדו, סין.

אין צורך בזוגיות 'פנים-על'

הן תוכנת ה-deepfake הפופולרית ביותר הנוכחית, DeepFaceLab, והן Fork FaceSwap המתחרה, מבצעות זרימות עבודה מפותלות ולעתים קרובות מאוצרות ביד כדי לזהות לאיזה כיוון הפנים נוטה, אילו מכשולים יש בדרך שיש לתת עליהם את הדעת (שוב, באופן ידני) , ועליו להתמודד עם מכשולים מרגיזים רבים אחרים (כולל תאורה) שהופכים את השימוש בהם רחוק מחוויה של 'הצבע והקליק' המתוארת בצורה לא מדויקת בתקשורת מאז הופעת הזיופים העמוקים.

לעומת זאת, CihaNet לא דורשת ששתי תמונות יפנו ישירות למצלמה כדי לחלץ ולנצל מידע זהות שימושי מתמונה אחת.

בדוגמאות אלה, חבילה של מתמודדי תוכנה בזיוף עמוק מאותגרת במשימה של החלפת פרצופים שאינם רק שונים בזהותם, אלא שאינם מתמודדים באותה דרך. תוכנה שמקורה במאגר ה-deepfakes המקורי (כגון DeepFaceLab ו-FaceSwap הפופולריות ביותר, בתמונה למעלה) אינה יכולה להתמודד עם פער הזוויות בין שתי התמונות שיש להחליף (ראה עמודה שלישית). בינתיים, Cihanet יכול להפשט את הזהות בצורה נכונה, שכן ה'פוזה' של הפנים אינה חלק מהותי ממידע הזהות.

בדוגמאות אלה, חבילה של מתמודדי תוכנה בזיוף עמוק מאותגרת במשימה של החלפת פרצופים שאינם רק שונים בזהותם, אלא שאינם מתמודדים באותה דרך. תוכנה שמקורה במאגר ה-deepfakes המקורי (כגון DeepFaceLab ו-FaceSwap הפופולריות ביותר, בתמונה למעלה) אינה יכולה להתמודד עם פער הזוויות בין שתי התמונות שיש להחליף (ראה עמודה שלישית). בינתיים, CihaNet יכולה להפשט את הזהות בצורה נכונה, שכן ה'פוזה' של הפנים אינה חלק מהותי ממידע הזהות.

אדריכלות

פרויקט CihaNet, על פי המחברים, נוצר בהשראת שיתוף הפעולה של 2019 בין מחקר מיקרוסופט ואוניברסיטת פקין, שנקרא FaceShifter, אם כי הוא עושה כמה שינויים בולטים וקריטיים בארכיטקטורת הליבה של השיטה הישנה יותר.

FaceShifter משתמש בנורמליזציה של שני מופעים אדפטיביים (AdaIN) רשתות לטיפול במידע זהות, שאותם נתונים מועברים לתמונת היעד באמצעות מסיכה, באופן דומה לתוכנת deepfake הפופולרית הנוכחית (ועם כל המגבלות הנלוות לה), באמצעות שימוש נוסף HEAR-Net (הכוללת תת-רשת מאומנת בנפרד מאומנת על מכשולי חסימה - שכבה נוספת של מורכבות).

במקום זאת, הארכיטקטורה החדשה משתמשת ישירות במידע ה"קונטקסטואלי" הזה לתהליך הטרנספורמטיבי עצמו, באמצעות פעולת נורמליזציה של מופע מדורג (C-AdaIN) יחיד בן שני שלבים, המספקת עקביות של הקשר (כלומר עור פנים וחסימות) של זיהוי- תחומים רלוונטיים.

תת-הרשת השנייה החיונית למערכת נקראת Swapping Block (SwapBlk), אשר מייצרת תכונה משולבת מההקשר של תמונת ההפניה ומידע ה'זהות' המוטבע מתמונת המקור, תוך עקיפת השלבים המרובים הדרושים כדי לבצע זאת על ידי אמצעי זרם קונבנציונליים.

כדי לעזור להבחין בין הקשר לזהות, א מפת הזיות נוצר עבור כל רמה, מייצג מסכת פילוח רך, ופועל על מגוון רחב יותר של תכונות עבור חלק קריטי זה בתהליך הזיוף העמוק.

ככל שהערך של מפת ההזיה (בתמונה למטה מימין) גדל, מתגלה נתיב ברור יותר בין זהויות.

ככל שהערך של מפת ההזיה (בתמונה למטה מימין) גדל, מתגלה נתיב ברור יותר בין זהויות.

בדרך זו, כל תהליך ההחלפה מתבצע בשלב אחד וללא עיבוד לאחר.

נתונים ובדיקות

כדי לנסות את המערכת, החוקרים הכשירו ארבעה מודלים על שני מערכי נתונים פתוחים מאוד פופולריים ומגוונים - CelbA-HQ  ומערך הנתונים Flickr-Faces-HQ של NVIDIA (FFHQ), כל אחת מכילה 30,000 ו-70,000 תמונות בהתאמה.

לא בוצע גיזום או סינון על מערכי נתונים בסיסיים אלה. בכל אחד מהמקרים, החוקרים אימנו את כל מערך הנתונים ב-Tesla GPU היחיד במשך שלושה ימים, עם קצב למידה של 0.0002 על אופטימיזציה של Adam.

לאחר מכן, הם ביצעו סדרה של החלפות אקראיות בין אלפי האישים המופיעים במערכי הנתונים, ללא התחשבות בשאלה אם הפרצופים היו דומים או אפילו מתואמים בין המינים, והשוו את התוצאות של CihaNet לתפוקה מארבע מסגרות מובילות לזיוף עמוק: החלפת פנים (מה שמייצג את הפופולרי יותר deepfacelab, מכיוון שהוא חולק בסיס קוד שורש ב- מאגר מקורי של 2017 שהביאו זיופים עמוקים לעולם); ה-FaceShifter הנ"ל; FSGAN, ו SimSwap.

בהשוואת התוצאות באמצעות VGG-Face, FFHQ, CelebA-HQ ו FaceForensics ++, המחברים גילו שהדגם החדש שלהם עלה על כל הדגמים הקודמים, כפי שמצוין בטבלה למטה.

שלושת המדדים ששימשו להערכת התוצאות היו דמיון מבני (SSIM), שגיאת הערכת פוזה ו דיוק שליפת תעודות זהות, אשר מחושב על סמך אחוז הזוגות שאוחזרו בהצלחה.

החוקרים טוענים כי CihaNet מייצגת גישה מעולה במונחים של תוצאות איכותיות, והתקדמות בולטת של המצב הנוכחי בטכנולוגיות Deep Fake, על ידי הסרת הנטל של ארכיטקטורות ומתודולוגיות מיסוך נרחבות ועתירות עבודה, והשגת שיטות שימושיות יותר. והפרדה ניתנת לפעולה של זהות מהקשר.

תסתכל למטה כדי לראות דוגמאות וידאו נוספות של הטכניקה החדשה. אתה יכול למצוא את הסרטון באורך מלא כאן.

מחומרים משלימים לעיתון החדש, CihaNet מבצעת החלפת פנים על זהויות שונות. מקור: https://mitchellx.github.io/#video