בינה מלאכותית
שיטת Deepfake חדשה ופשוטה יותר שעולה על גישות קודמות
שיתוף פעולה בין קבוצת מחקר בינה מלאכותית סינית וחוקרים בארה"ב פיתח את מה שעשוי להיות החידוש האמיתי הראשון בטכנולוגיית הזיופים העמוקים מאז התופעה לפני ארבע שנים.
השיטה החדשה יכולה לבצע החלפות פנים שמתעלות על כל שאר המסגרות הקיימות במבחני תפיסה סטנדרטיים, מבלי צורך לאסוף ולאצור מערכי נתונים ייעודיים גדולים ולאמן אותם עד שבוע עבור זהות בודדת בלבד. עבור הדוגמאות שהוצגו במאמר החדש, הוכשרו דגמים על שְׁלֵמוּת של שני מערכי נתונים פופולריים של ידוענים, על NVIDIA Tesla P40 GPU אחד למשך כשלושה ימים.
הגישה החדשה מסירה את הצורך 'להדביק' את הזהות המושתלת בגסות לתוך סרטון היעד, מה שמוביל לעתים קרובות להסבר. ממצאים שמופיעים היכן שהפנים המזויפות מסתיימות ומתחיל הפנים האמיתי, הבסיסי. במקום זאת, נעשה שימוש ב'מפות הזיה' כדי לבצע ערבוב עמוק יותר של היבטים ויזואליים, מכיוון שהמערכת מפרידה זהות מהקשר בצורה יעילה הרבה יותר מהשיטות הנוכחיות, ולכן יכולה למזג את זהות המטרה ברמה עמוקה יותר.
למעשה, מפת ההזיה החדשה מספקת הקשר שלם יותר להחלפה, בניגוד למסכות הקשות שלעתים קרובות דורשות אוצרות נרחבות (ובמקרה של DeepFaceLab, הכשרה נפרדת) תוך מתן גמישות מוגבלת במונחים של שילוב אמיתי של שתי הזהויות.
השמיים מאמר, שכותרתו רשת הקשר והזיות זהות חד-שלבי, נכתב על ידי חוקרים המזוהים עם JD AI Research, ואוניברסיטת מסצ'וסטס אמהרסט, ונתמך על ידי תוכנית המחקר והפיתוח הלאומית של סין במסגרת מענק מס' 2020AAA0103800. הוא הוצג בכנס הבינלאומי ה-29 של ACM בנושא מולטימדיה, ב-20-24 באוקטובר, בצ'נגדו, סין.
אין צורך בזוגיות 'פנים-על'
הן תוכנת ה-deepfake הפופולרית ביותר הנוכחית, DeepFaceLab, והן Fork FaceSwap המתחרה, מבצעות זרימות עבודה מפותלות ולעתים קרובות מאוצרות ביד כדי לזהות לאיזה כיוון הפנים נוטה, אילו מכשולים יש בדרך שיש לתת עליהם את הדעת (שוב, באופן ידני) , ועליו להתמודד עם מכשולים מרגיזים רבים אחרים (כולל תאורה) שהופכים את השימוש בהם רחוק מחוויה של 'הצבע והקליק' המתוארת בצורה לא מדויקת בתקשורת מאז הופעת הזיופים העמוקים.
לעומת זאת, CihaNet לא דורשת ששתי תמונות יפנו ישירות למצלמה כדי לחלץ ולנצל מידע זהות שימושי מתמונה אחת.
אדריכלות
פרויקט CihaNet, על פי המחברים, נוצר בהשראת שיתוף הפעולה של 2019 בין מחקר מיקרוסופט ואוניברסיטת פקין, שנקרא FaceShifter, אם כי הוא עושה כמה שינויים בולטים וקריטיים בארכיטקטורת הליבה של השיטה הישנה יותר.
FaceShifter משתמש בנורמליזציה של שני מופעים אדפטיביים (AdaIN) רשתות לטיפול במידע זהות, שאותם נתונים מועברים לתמונת היעד באמצעות מסיכה, באופן דומה לתוכנת deepfake הפופולרית הנוכחית (ועם כל המגבלות הנלוות לה), באמצעות שימוש נוסף HEAR-Net (הכוללת תת-רשת מאומנת בנפרד מאומנת על מכשולי חסימה - שכבה נוספת של מורכבות).
במקום זאת, הארכיטקטורה החדשה משתמשת ישירות במידע ה"קונטקסטואלי" הזה לתהליך הטרנספורמטיבי עצמו, באמצעות פעולת נורמליזציה של מופע מדורג (C-AdaIN) יחיד בן שני שלבים, המספקת עקביות של הקשר (כלומר עור פנים וחסימות) של זיהוי- תחומים רלוונטיים.
תת-הרשת השנייה החיונית למערכת נקראת Swapping Block (SwapBlk), אשר מייצרת תכונה משולבת מההקשר של תמונת ההפניה ומידע ה'זהות' המוטבע מתמונת המקור, תוך עקיפת השלבים המרובים הדרושים כדי לבצע זאת על ידי אמצעי זרם קונבנציונליים.
כדי לעזור להבחין בין הקשר לזהות, א מפת הזיות נוצר עבור כל רמה, מייצג מסכת פילוח רך, ופועל על מגוון רחב יותר של תכונות עבור חלק קריטי זה בתהליך הזיוף העמוק.
בדרך זו, כל תהליך ההחלפה מתבצע בשלב אחד וללא עיבוד לאחר.
נתונים ובדיקות
כדי לנסות את המערכת, החוקרים הכשירו ארבעה מודלים על שני מערכי נתונים פתוחים מאוד פופולריים ומגוונים - CelbA-HQ ומערך הנתונים Flickr-Faces-HQ של NVIDIA (FFHQ), כל אחת מכילה 30,000 ו-70,000 תמונות בהתאמה.
לא בוצע גיזום או סינון על מערכי נתונים בסיסיים אלה. בכל אחד מהמקרים, החוקרים אימנו את כל מערך הנתונים ב-Tesla GPU היחיד במשך שלושה ימים, עם קצב למידה של 0.0002 על אופטימיזציה של Adam.
לאחר מכן, הם ביצעו סדרה של החלפות אקראיות בין אלפי האישים המופיעים במערכי הנתונים, ללא התחשבות בשאלה אם הפרצופים היו דומים או אפילו מתואמים בין המינים, והשוו את התוצאות של CihaNet לתפוקה מארבע מסגרות מובילות לזיוף עמוק: החלפת פנים (מה שמייצג את הפופולרי יותר deepfacelab, מכיוון שהוא חולק בסיס קוד שורש ב- מאגר מקורי של 2017 שהביאו זיופים עמוקים לעולם); ה-FaceShifter הנ"ל; FSGAN, ו SimSwap.
בהשוואת התוצאות באמצעות VGG-Face, FFHQ, CelebA-HQ ו FaceForensics ++, המחברים גילו שהדגם החדש שלהם עלה על כל הדגמים הקודמים, כפי שמצוין בטבלה למטה.
שלושת המדדים ששימשו להערכת התוצאות היו דמיון מבני (SSIM), שגיאת הערכת פוזה ו דיוק שליפת תעודות זהות, אשר מחושב על סמך אחוז הזוגות שאוחזרו בהצלחה.
החוקרים טוענים כי CihaNet מייצגת גישה מעולה במונחים של תוצאות איכותיות, והתקדמות בולטת של המצב הנוכחי בטכנולוגיות Deep Fake, על ידי הסרת הנטל של ארכיטקטורות ומתודולוגיות מיסוך נרחבות ועתירות עבודה, והשגת שיטות שימושיות יותר. והפרדה ניתנת לפעולה של זהות מהקשר.
תסתכל למטה כדי לראות דוגמאות וידאו נוספות של הטכניקה החדשה. אתה יכול למצוא את הסרטון באורך מלא כאן.
מחומרים משלימים לעיתון החדש, CihaNet מבצעת החלפת פנים על זהויות שונות. מקור: https://mitchellx.github.io/#video