בדל זיהוי שיחות וידאו Deepfake באמצעות תאורת צג - Unite.AI
צור קשר

בינה מלאכותית

זיהוי שיחות וידאו Deepfake באמצעות תאורת צג

mm
מְעוּדכָּן on

שיתוף פעולה חדש בין חוקר מהסוכנות לביטחון לאומי של ארצות הברית (NSA) ואוניברסיטת קליפורניה בברקלי מציע שיטה חדשה לאיתור תוכן מזויף עמוק בהקשר וידאו חי - על ידי התבוננות בהשפעת תאורת המסך על המראה של אדם בקצה השני של שיחת הווידאו.

משתמש DeepFaceLive הפופולרי Druuzil Tech & Games מנסה את דגם Christian Bale DeepFaceLab שלו בסשן חי עם העוקבים שלו, בזמן שמקורות התאורה משתנים. מקור: https://www.youtube.com/watch?v=XPQLDnogLKA

משתמש DeepFaceLive הפופולרי Druuzil Tech & Games מנסה את דגם Christian Bale DeepFaceLab שלו בסשן חי עם העוקבים שלו, בזמן שמקורות התאורה משתנים. מקור: https://www.youtube.com/watch?v=XPQLDnogLKA

המערכת פועלת על ידי הצבת אלמנט גרפי על מסך המשתמש שמשנה טווח צר של צבעו מהר יותר ממה שמערכת Deepfake טיפוסית יכולה להגיב - גם אם, כמו יישום הזרמת Deepfake בזמן אמת DeepFaceLive (בתמונה למעלה), יש לו יכולת מסוימת לשמור על העברת צבעים חיה, ולהתייחס לתאורת הסביבה.

תמונת הצבע האחידה המוצגת על הצג של האדם בקצה השני (כלומר הרמאי העמוק הפוטנציאלי) עוברת וריאציה מוגבלת של שינויי גוון שנועדו לא להפעיל איזון לבן אוטומטי של מצלמת אינטרנט ועוד. אד הוק מערכות פיצוי תאורה, שיפגעו בשיטה.

מתוך העיתון, המחשה לשינוי בתנאי התאורה מהמוניטור מול משתמש, הפועל למעשה כ'אור שטח' מפוזר. מקור: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

מתוך העיתון, המחשה לשינוי בתנאי תאורה מהצג מול משתמש, הפועל למעשה כ'אור שטח' מפוזר. מקור: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

התיאוריה מאחורי הגישה היא שמערכות Deepfake חיות אינן יכולות להגיב בזמן לשינויים המתוארים בגרפיקה על המסך, מה שמגדיל את ה"פיגור" של אפקט ה-deepfake בחלקים מסוימים של ספקטרום הצבעים, וחושף את נוכחותו.

כדי להיות מסוגל למדוד את אור הצג המוחזר במדויק, המערכת צריכה לקחת בחשבון ולאחר מכן להפחית את ההשפעה של תאורה סביבתית כללית שאינה קשורה לאור מהצג. לאחר מכן, הוא מסוגל להבחין בחסר במדידת גוון התאורה הפעילה וגוון הפנים של משתמשים, המייצגים שינוי זמני של הפרש של 1-4 פריימים בין כל אחד מהם:

על ידי הגבלת וריאציות הגוון בגרפיקת 'הגלאי' על המסך, והבטחה שמצלמת האינטרנט של המשתמש לא תתבקש לכוונן אוטומטית את הגדרות הלכידה שלה על ידי שינוי מופרז בתאורת המסך, החוקרים הצליחו להבחין בפיגור מובהק בהתאמה של מערכת ה-deepfake לשינויי התאורה.

על ידי הגבלת וריאציות הגוון בגרפיקת ה'גלאי' על המסך, והבטחה שמצלמת האינטרנט של המשתמש לא תתבקש לכוונן אוטומטית את הגדרות הלכידה שלה על ידי שינויים מוגזמים ברמות תאורת המסך, החוקרים הצליחו להבחין ב- פיגור סיפור בהתאמת מערכת ה-deepfake לשינויי התאורה.

המאמר מסכם:

"בגלל האמון הסביר שאנו נותנים בשיחות וידאו חיות, והנוכחות ההולכת וגוברת של שיחות וידאו בחיינו האישיים והמקצועיים, אנו מציעים שטכניקות לאימות שיחות וידאו (ואודיו) רק יגדלו בחשיבותן."

השמיים ללמוד מכונה זיהוי סרטוני וידאו עמוקים מזויפים בזמן אמת באמצעות תאורה פעילה, ומגיע מקנדיס ר. גרסטנר, מתמטיקאית מחקר יישומי במשרד ההגנה האמריקאי, ופרופסור האני פאריד מברקלי.

שחיקת אמון

סצנת המחקר נגד זיופים עמוקים התרחקה במיוחד בששת החודשים האחרונים, הרחק מזיהוי כללי של זיוף עמוק (כלומר התמקדות בסרטונים מוקלטים מראש ותכנים פורנוגרפיים) ולכיוון זיהוי 'חיות', בתגובה לגל הולך וגדל של מקרים של שימוש בזיוף עמוק ב שיחות ועידה בווידאו, ולאזהרה האחרונה של ה-FBI בנוגע לשימוש הגובר בטכנולוגיות כאלה ביישומים לעבודה מרחוק.

אפילו כאשר מסתבר ששיחת וידאו לא בוצעה בזיוף עמוק, ההזדמנויות המוגברות עבור חקייני וידאו מונעי בינה מלאכותית היא מתחיל ליצור פרנויה.

בעיתון החדש נכתב:

"יצירת זיופים עמוקים בזמן אמת [מהווה] איומים ייחודיים בגלל תחושת האמון הכללית סביב וידאו או שיחת טלפון בשידור חי, והאתגר של זיהוי זיופים עמוקים בזמן אמת, תוך כדי שיחה מתפתחת."

קהילת המחקר כבר מזמן שמה לעצמה למטרה למצוא סימנים בלתי תקינים של תוכן מזויף עמוק שלא ניתן לפצות עליהם בקלות. למרות שהתקשורת מאפיינת זאת בדרך כלל במונחים של מלחמה טכנולוגית בין חוקרי אבטחה ומפתחים מזויפים עמוקים, רוב השלילות של גישות מוקדמות (כגון ניתוח מצמוץ עיניים, כושר הבחנה בתנוחת הראש, ו ניתוח התנהגות) התרחשו פשוט בגלל שהמפתחים והמשתמשים ניסו לעשות זיופים עמוקים יותר מציאותיים באופן כללי, במקום להתייחס ספציפית ל'ספר' האחרון שזוהה על ידי קהילת האבטחה.

זורקים אור על וידאו דיפפיייק חי

זיהוי זיופים עמוקים בסביבות וידאו חי נושא בנטל של התחשבות בחיבורי וידאו לקויים, הנפוצים מאוד בתרחישים של שיחות ועידה בווידאו. אפילו ללא שכבת זיוף עמוק מתערבת, תוכן וידאו עשוי להיות כפוף לפיגור בסגנון נאס"א, חפצי עיבוד וסוגים אחרים של השפלה באודיו ובווידאו. אלה יכולים לשמש להסתרת הקצוות הגסים בארכיטקטורת Deepfaking חיה, הן במונחים של וידאו והן זיופי שמע עמוקים.

המערכת החדשה של המחברים משפרת את התוצאות והשיטות המופיעות ב-a פרסום 2020 מהמרכז למחשוב רשתי באוניברסיטת טמפל בפילדלפיה.

מהעיתון של 2020, אנו יכולים לראות את השינוי בתאורת הפנים 'במילוי' כאשר תוכן המסך של המשתמש משתנה. מקור: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

מהעיתון של 2020, אנו יכולים לראות את השינוי בתאורת הפנים 'במילוי' כאשר תוכן המסך של המשתמש משתנה. מקור: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

ההבדל בעבודה החדשה הוא שהיא לוקחת בחשבון את הדרך שבה מצלמות רשת מגיבות לשינויי תאורה. המחברים מסבירים:

"מכיוון שכל מצלמות הרשת המודרניות מבצעות חשיפה אוטומטית, סוג תאורה אקטיבית בעוצמה גבוהה [ששימש בעבודה הקודמת] עשוי להפעיל את החשיפה האוטומטית של המצלמה, אשר בתורה תבלבל את מראה הפנים המתועד. כדי להימנע מכך, אנו משתמשים בתאורה אקטיבית המורכבת משינוי בגוון איזולומיננטי.

"למרות שזה ימנע את החשיפה האוטומטית של המצלמה, זה עלול להפעיל את איזון הלבן של המצלמה, מה שיבלבל שוב את מראה הפנים המתועד. כדי להימנע מכך, אנו פועלים בטווח גוונים שקבענו אמפירית שאינו מפעיל איזון לבן״.

עבור יוזמה זו, המחברים שקלו גם מאמצים קודמים דומים, כגון Live Screen, שכופה על הצג של משתמש הקצה תבנית תאורה לא בולטת במאמץ לחשוף תוכן מזויף עמוק.

למרות שמערכת זו השיגה רמת דיוק של 94.8%, החוקרים מסכמים כי העדינות של דפוסי האור תקשה על יישום גישה סמויה כזו בסביבות מוארות, ובמקום זאת מציעים שמערכת משלהם, או אחת שתתמוטט בקווים דומים, ניתן לשלב באופן ציבורי וכברירת מחדל בתוכנת ועידת וידאו פופולרית:

"ההתערבות המוצעת שלנו יכולה להתממש על ידי משתתפת בשיחה שפשוט משתפת את המסך שלה ומציגה את הדפוס המשתנה בזמני, או, באופן אידיאלי, היא יכולה להשתלב ישירות בלקוח שיחת הווידאו."

בדיקות

המחברים השתמשו בתערובת של נושאים סינתטיים ונושאים מהעולם האמיתי כדי לבדוק אותם מונע על ידי דליב גלאי זיוף עמוק. עבור התרחיש הסינתטי, הם השתמשו מיצובה, מעבד קדימה והיפוך מהמכון הפדרלי השוויצרי לטכנולוגיה בלוזאן.

דוגמאות ממערך הנתונים המדומים, הכוללות גוון עור משתנה, גודל מקור אור, עוצמת אור הסביבה וקרבה למצלמה.

דוגמאות מבדיקות הסביבה המדומות, הכוללות גוון עור משתנה, גודל מקור האור, עוצמת האור הסביבה וקרבה למצלמה.

הסצנה המתוארת כוללת ראש CGI פרמטרי שצולם ממצלמה וירטואלית עם שדה ראייה של 90°. תכונת הראשים השתקפות למברטיאנית וגווני עור ניטרליים, וממוקמים 2 רגל מול המצלמה הווירטואלית.

כדי לבחון את המסגרת על פני מגוון של גווני עור והגדרות אפשריים, החוקרים ערכו סדרה של בדיקות, מגוונות היבטים מגוונים ברצף. ההיבטים שהשתנו כללו גוון עור, קרבה וגודל אור תאורה.

הערות המחברים:

"בסימולציה, כשההנחות השונות שלנו מתקיימות, הטכניקה המוצעת שלנו חזקה מאוד למגוון רחב של תצורות הדמיה."

לתרחיש של העולם האמיתי, החוקרים השתמשו ב-15 מתנדבים עם מגוון של גווני עור בסביבות מגוונות. כל אחד מהם היה נתון לשני מחזורים של וריאציה של גוון מוגבל, בתנאים שבהם קצב רענון תצוגה של 30 הרץ היה מסונכרן עם מצלמת האינטרנט, כלומר התאורה הפעילה תימשך רק לשנייה אחת בכל פעם. התוצאות היו בר השוואה עם הבדיקות הסינתטיות, אם כי המתאמים גדלו במיוחד עם ערכי הארה גדולים יותר.

כיוונים עתידיים

המערכת, מודים החוקרים, אינה מתייחסת לחסימות פנים אופייניות, כגון פוני, משקפיים או שיער פנים. עם זאת, הם מציינים שניתן להוסיף מיסוך מסוג זה למערכות מאוחרות יותר (באמצעות תיוג ופילוח סמנטי לאחר מכן), שניתן לאמן לקחת ערכים אך ורק מאזורי עור נתפסים בנבדק היעד.

המחברים גם מציעים שניתן להשתמש בפרדיגמה דומה כדי לזהות שיחות אודיו מזויפות עמוקות, וכי ניתן להשמיע את צליל הזיהוי הדרוש בתדר מחוץ לטווח השמיעה האנושי הרגיל.

אולי המעניין ביותר, החוקרים מציעים גם שהרחבת אזור ההערכה מעבר לפנים במסגרת לכידה עשירה יותר יכולה לשפר באופן משמעותי את האפשרות של זיהוי זיוף עמוק*:

״תלת מימד מתוחכם יותר הערכה של תאורה  סביר להניח שיספק מודל מראה עשיר יותר שיהיה קשה עוד יותר לזייפן לעקוף. בעוד שהתמקדנו רק בפנים, תצוגת המחשב מאירה גם את הצוואר, פלג הגוף העליון והרקע שמסביב, שממנו ניתן לבצע מדידות דומות.

"המידות הנוספות הללו יאלצו את הזייפן לשקול את כל הסצנה התלת-ממדית, לא רק את הפנים."

 

* ההמרה שלי של הציטוטים המוטבעים של המחברים להיפר-קישורים.

פורסם לראשונה ב-6 ביולי 2022.