בינה מלאכותית
זיהוי שיחות וידאו Deepfake באמצעות תאורת צג
שיתוף פעולה חדש בין חוקר מהסוכנות לביטחון לאומי של ארצות הברית (NSA) ואוניברסיטת קליפורניה בברקלי מציע שיטה חדשה לאיתור תוכן מזויף עמוק בהקשר וידאו חי - על ידי התבוננות בהשפעת תאורת המסך על המראה של אדם בקצה השני של שיחת הווידאו.
המערכת פועלת על ידי הצבת אלמנט גרפי על מסך המשתמש שמשנה טווח צר של צבעו מהר יותר ממה שמערכת Deepfake טיפוסית יכולה להגיב - גם אם, כמו יישום הזרמת Deepfake בזמן אמת DeepFaceLive (בתמונה למעלה), יש לו יכולת מסוימת לשמור על העברת צבעים חיה, ולהתייחס לתאורת הסביבה.
תמונת הצבע האחידה המוצגת על הצג של האדם בקצה השני (כלומר הרמאי העמוק הפוטנציאלי) עוברת וריאציה מוגבלת של שינויי גוון שנועדו לא להפעיל איזון לבן אוטומטי של מצלמת אינטרנט ועוד. אד הוק מערכות פיצוי תאורה, שיפגעו בשיטה.
התיאוריה מאחורי הגישה היא שמערכות Deepfake חיות אינן יכולות להגיב בזמן לשינויים המתוארים בגרפיקה על המסך, מה שמגדיל את ה"פיגור" של אפקט ה-deepfake בחלקים מסוימים של ספקטרום הצבעים, וחושף את נוכחותו.
כדי להיות מסוגל למדוד את אור הצג המוחזר במדויק, המערכת צריכה לקחת בחשבון ולאחר מכן להפחית את ההשפעה של תאורה סביבתית כללית שאינה קשורה לאור מהצג. לאחר מכן, הוא מסוגל להבחין בחסר במדידת גוון התאורה הפעילה וגוון הפנים של משתמשים, המייצגים שינוי זמני של הפרש של 1-4 פריימים בין כל אחד מהם:
המאמר מסכם:
"בגלל האמון הסביר שאנו נותנים בשיחות וידאו חיות, והנוכחות ההולכת וגוברת של שיחות וידאו בחיינו האישיים והמקצועיים, אנו מציעים שטכניקות לאימות שיחות וידאו (ואודיו) רק יגדלו בחשיבותן."
השמיים ללמוד מכונה זיהוי סרטוני וידאו עמוקים מזויפים בזמן אמת באמצעות תאורה פעילה, ומגיע מקנדיס ר. גרסטנר, מתמטיקאית מחקר יישומי במשרד ההגנה האמריקאי, ופרופסור האני פאריד מברקלי.
שחיקת אמון
סצנת המחקר נגד זיופים עמוקים התרחקה במיוחד בששת החודשים האחרונים, הרחק מזיהוי כללי של זיוף עמוק (כלומר התמקדות בסרטונים מוקלטים מראש ותכנים פורנוגרפיים) ולכיוון זיהוי 'חיות', בתגובה לגל הולך וגדל של מקרים של שימוש בזיוף עמוק ב שיחות ועידה בווידאו, ולאזהרה האחרונה של ה-FBI בנוגע לשימוש הגובר בטכנולוגיות כאלה ביישומים לעבודה מרחוק.
אפילו כאשר מסתבר ששיחת וידאו לא בוצעה בזיוף עמוק, ההזדמנויות המוגברות עבור חקייני וידאו מונעי בינה מלאכותית היא מתחיל ליצור פרנויה.
בעיתון החדש נכתב:
"יצירת זיופים עמוקים בזמן אמת [מהווה] איומים ייחודיים בגלל תחושת האמון הכללית סביב וידאו או שיחת טלפון בשידור חי, והאתגר של זיהוי זיופים עמוקים בזמן אמת, תוך כדי שיחה מתפתחת."
קהילת המחקר כבר מזמן שמה לעצמה למטרה למצוא סימנים בלתי תקינים של תוכן מזויף עמוק שלא ניתן לפצות עליהם בקלות. למרות שהתקשורת מאפיינת זאת בדרך כלל במונחים של מלחמה טכנולוגית בין חוקרי אבטחה ומפתחים מזויפים עמוקים, רוב השלילות של גישות מוקדמות (כגון ניתוח מצמוץ עיניים, כושר הבחנה בתנוחת הראש, ו ניתוח התנהגות) התרחשו פשוט בגלל שהמפתחים והמשתמשים ניסו לעשות זיופים עמוקים יותר מציאותיים באופן כללי, במקום להתייחס ספציפית ל'ספר' האחרון שזוהה על ידי קהילת האבטחה.
זורקים אור על וידאו דיפפיייק חי
זיהוי זיופים עמוקים בסביבות וידאו חי נושא בנטל של התחשבות בחיבורי וידאו לקויים, הנפוצים מאוד בתרחישים של שיחות ועידה בווידאו. אפילו ללא שכבת זיוף עמוק מתערבת, תוכן וידאו עשוי להיות כפוף לפיגור בסגנון נאס"א, חפצי עיבוד וסוגים אחרים של השפלה באודיו ובווידאו. אלה יכולים לשמש להסתרת הקצוות הגסים בארכיטקטורת Deepfaking חיה, הן במונחים של וידאו והן זיופי שמע עמוקים.
המערכת החדשה של המחברים משפרת את התוצאות והשיטות המופיעות ב-a פרסום 2020 מהמרכז למחשוב רשתי באוניברסיטת טמפל בפילדלפיה.
ההבדל בעבודה החדשה הוא שהיא לוקחת בחשבון את הדרך שבה מצלמות רשת מגיבות לשינויי תאורה. המחברים מסבירים:
"מכיוון שכל מצלמות הרשת המודרניות מבצעות חשיפה אוטומטית, סוג תאורה אקטיבית בעוצמה גבוהה [ששימש בעבודה הקודמת] עשוי להפעיל את החשיפה האוטומטית של המצלמה, אשר בתורה תבלבל את מראה הפנים המתועד. כדי להימנע מכך, אנו משתמשים בתאורה אקטיבית המורכבת משינוי בגוון איזולומיננטי.
"למרות שזה ימנע את החשיפה האוטומטית של המצלמה, זה עלול להפעיל את איזון הלבן של המצלמה, מה שיבלבל שוב את מראה הפנים המתועד. כדי להימנע מכך, אנו פועלים בטווח גוונים שקבענו אמפירית שאינו מפעיל איזון לבן״.
עבור יוזמה זו, המחברים שקלו גם מאמצים קודמים דומים, כגון Live Screen, שכופה על הצג של משתמש הקצה תבנית תאורה לא בולטת במאמץ לחשוף תוכן מזויף עמוק.
למרות שמערכת זו השיגה רמת דיוק של 94.8%, החוקרים מסכמים כי העדינות של דפוסי האור תקשה על יישום גישה סמויה כזו בסביבות מוארות, ובמקום זאת מציעים שמערכת משלהם, או אחת שתתמוטט בקווים דומים, ניתן לשלב באופן ציבורי וכברירת מחדל בתוכנת ועידת וידאו פופולרית:
"ההתערבות המוצעת שלנו יכולה להתממש על ידי משתתפת בשיחה שפשוט משתפת את המסך שלה ומציגה את הדפוס המשתנה בזמני, או, באופן אידיאלי, היא יכולה להשתלב ישירות בלקוח שיחת הווידאו."
בדיקות
המחברים השתמשו בתערובת של נושאים סינתטיים ונושאים מהעולם האמיתי כדי לבדוק אותם מונע על ידי דליב גלאי זיוף עמוק. עבור התרחיש הסינתטי, הם השתמשו מיצובה, מעבד קדימה והיפוך מהמכון הפדרלי השוויצרי לטכנולוגיה בלוזאן.
הסצנה המתוארת כוללת ראש CGI פרמטרי שצולם ממצלמה וירטואלית עם שדה ראייה של 90°. תכונת הראשים השתקפות למברטיאנית וגווני עור ניטרליים, וממוקמים 2 רגל מול המצלמה הווירטואלית.
כדי לבחון את המסגרת על פני מגוון של גווני עור והגדרות אפשריים, החוקרים ערכו סדרה של בדיקות, מגוונות היבטים מגוונים ברצף. ההיבטים שהשתנו כללו גוון עור, קרבה וגודל אור תאורה.
הערות המחברים:
"בסימולציה, כשההנחות השונות שלנו מתקיימות, הטכניקה המוצעת שלנו חזקה מאוד למגוון רחב של תצורות הדמיה."
לתרחיש של העולם האמיתי, החוקרים השתמשו ב-15 מתנדבים עם מגוון של גווני עור בסביבות מגוונות. כל אחד מהם היה נתון לשני מחזורים של וריאציה של גוון מוגבל, בתנאים שבהם קצב רענון תצוגה של 30 הרץ היה מסונכרן עם מצלמת האינטרנט, כלומר התאורה הפעילה תימשך רק לשנייה אחת בכל פעם. התוצאות היו בר השוואה עם הבדיקות הסינתטיות, אם כי המתאמים גדלו במיוחד עם ערכי הארה גדולים יותר.
כיוונים עתידיים
המערכת, מודים החוקרים, אינה מתייחסת לחסימות פנים אופייניות, כגון פוני, משקפיים או שיער פנים. עם זאת, הם מציינים שניתן להוסיף מיסוך מסוג זה למערכות מאוחרות יותר (באמצעות תיוג ופילוח סמנטי לאחר מכן), שניתן לאמן לקחת ערכים אך ורק מאזורי עור נתפסים בנבדק היעד.
המחברים גם מציעים שניתן להשתמש בפרדיגמה דומה כדי לזהות שיחות אודיו מזויפות עמוקות, וכי ניתן להשמיע את צליל הזיהוי הדרוש בתדר מחוץ לטווח השמיעה האנושי הרגיל.
אולי המעניין ביותר, החוקרים מציעים גם שהרחבת אזור ההערכה מעבר לפנים במסגרת לכידה עשירה יותר יכולה לשפר באופן משמעותי את האפשרות של זיהוי זיוף עמוק*:
״תלת מימד מתוחכם יותר הערכה של תאורה סביר להניח שיספק מודל מראה עשיר יותר שיהיה קשה עוד יותר לזייפן לעקוף. בעוד שהתמקדנו רק בפנים, תצוגת המחשב מאירה גם את הצוואר, פלג הגוף העליון והרקע שמסביב, שממנו ניתן לבצע מדידות דומות.
"המידות הנוספות הללו יאלצו את הזייפן לשקול את כל הסצנה התלת-ממדית, לא רק את הפנים."
* ההמרה שלי של הציטוטים המוטבעים של המחברים להיפר-קישורים.
פורסם לראשונה ב-6 ביולי 2022.