בינה מלאכותית

זהויות אמיתיות יכולות להיחשף מתוך מאגרי נתונים סינתטיים

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

אם 2022 היה הרגע בו הפוטנציאל המהפכני של אינטליגנציה מלאכותית תפס לראשונה את תשומת הלב הציבורית, 2024 היא השנה בה שאלות לגבי החוקיות של הנתונים העומדים בבסיסה עלו למרכז הבמה עבור עסקים המעוניינים לנצל את כוחה.

דוקטרינת השימוש ההוגן של ארצות הברית, לצד הרישיון האקדמי המרומז שאיפשר במשך זמן רב למגזרים האקדמיים והמסחריים לחקור אינטליגנציה מלאכותית יוצרת, הפכו לבלתי ניתנים להגנה ככל שגברו הראיות להפרת זכויות יוצרים. בעקבות כך, ארצות הברית אסרה, לשעה, את הרישום של תוכן שנוצר על ידי אינטליגנציה מלאכותית כזכויות יוצרים.

נושאים אלו רחוקים מלהיפתר, ורחוקים מלהיפתר בקרוב; ב-2023, בשל דאגות גוברות של התקשורת והציבור לגבי מעמדם החוקי של תוצרים של אינטליגנציה מלאכותית, משרד הקניין הרוחני של ארצות הברית השיק חקירה שתימשך שנים רבות לתחום זה של אינטליגנציה מלאכותית, ופרסם את החלק הראשון (העוסק בהעתקים דיגיטליים) ביולי 2024.

בינתיים, האינטרסים העסקיים נותרים מודאגים מהאפשרות שהמודלים היקרים שהם רוצים לנצל עלולים לחשוף אותם להשלכות משפטיות כאשר חוקים והגדרות סופיים יופיעו לבסוף.

הפתרון היקר בטווח הקצר היה ללגיטימציה של מודלים יוצרים על ידי אימונם על נתונים שחברות הן בעלות זכות לנצל. ארקיטקטורת Firefly של Adobe, המייצרת טקסט-תמונה (ועכשיו גם טקסט-וידאו), מונעת בעיקר על ידי רכישתה של מאגר התמונות המניותי Fotolia ב-2014, המשולב עם שימוש בנתונים ציבוריים מתוך הנחלת הכלל.

במקביל, ספקי תמונות מניות מובילים כמו Getty ו-Shutterstock הצליחו לנצל את הערך החדש של נתוניהם המורשים, עם מספר הולך וגדל של עסקאות לרישוי תוכן או לפיתוח מערכות GenAI המקיימות זכויות יוצרים.

פתרונות סינתטיים

מכיוון שהסרת נתונים מוגני זכויות יוצרים מתוך המרחב הבלתי נראה של מודל אינטליגנציה מלאכותית מלא בבעיות, טעויות בתחום זה עלולות להיות יקרות מאוד עבור חברות הניסיונות בפתרונות ללקוחות ועסקים המשתמשים בלמידת מכונה.

פתרון חלופי והרבה יותר זול עבור מערכות ראייה ממוחשבת (וגם למודלי שפה גדולים, או LLMs), הוא השימוש בנתונים סינתטיים, שבהם מאגר הנתונים מורכב מדוגמאות מקריות של התחום המיועד (כגון פנים, חתולים, כנסיות, או אפילו מאגר מופשט יותר).

אתרים כמו thispersondoesnotexist.com הפופולרו בעבר את הרעיון שניתן ליצור תמונות אותנטיות של ‘אנשים לא-אמיתיים’ באמצעות רשתות יריבות יוצרות (GANs) ללא קשר לאנשים שאכן קיימים בעולם.

מאזניים

הבעיה היא שהמערכות המייצרות נתונים סינתטיים מאומנות עצמן על נתונים אמיתיים. אם עקבות של נתונים אלו חודרות לתוך הנתונים הסינתטיים, זה עלול לספק ראיות שחומר מוגן או לא מורשה שימש לרווח.

כדי למנוע זאת, וכדי לייצר תמונות ‘אקראיות’ אמיתיות, דוגמאות כאלו צריכות להיות מאומנות היטב. הכללה היא מידת יכולתו של מודל אינטליגנציה מלאכותית מאומן להבין מושגים ברמה גבוהה (כגון ‘פנים’, ‘גבר’, ‘אישה’) בלי לחקות את הנתונים האמיתיים.

גילוי פנים

זה מביא אותנו למאמר מעניין חדש משווייץ, הטוען שהוא הראשון להדגים שהתמונות האמיתיות המקוריות שמניעות את הנתונים הסינתטיים יכולות להיחשף מתוך תמונות מונפות שאמורות להיות אקראיות לחלוטין:

דוגמאות לתמונות פנים שדלפו מנתוני האימון. בשורה העליונה, אנו רואים את התמונות האמיתיות; בשורה התחתונה, אנו רואים תמונות שנוצרו באופן אקראי, התואמות במידה ניכרת את התמונות האמיתיות. מקור: https://arxiv.org/pdf/2410.24015

התוצאות, טוענים המחברים, מראות ש’יוצרים סינתטיים’ אכן זכרו הרבה מנקודות הנתונים, בחיפוש אחר רמת פוטוריאליזם גבוהה יותר. הם גם מראים שמערכות הסומכות על נתונים סינתטיים כדי להגן על יוצרי אינטליגנציה מלאכותית מהשלכות משפטיות עלולות להיות לא אמינות בכל הנוגע לכך.

שיטה, נתונים ותוצאות

הפנים שזוכרו במחקר התגלו על ידי התקפת חברות. המושג, אף על פי שנשמע מסובך, הוא יחסית פשוט: התקפת חברות מתייחסת לתהליך של שאילת המערכת עד שהיא מגלה נתונים המתאימים לנתונים שאתה מחפש, או דומים להם במידה ניכרת.

דוגמאות נוספות של מקורות נתונים מוסקים, מהמחקר. במקרה זה, תמונות המקור הסינתטיות הן ממאגר DCFace.

החוקרים חקרו שישה מאגרי נתונים סינתטיים, שבהם מקור המאגר (האמיתי) היה ידוע. מאחר ששני סוגי המאגרים, האמיתיים והמונפים, מכילים כמות גדולה מאוד של תמונות, זה בעצם כמו חיפוש אחר קש בערימת תבן.

מסקנה

לאחרונה, תשומת לב תקשורתית הדגישה את התשואות הפוחתות שמתקבלות מאימון מודלי אינטליגנציה מלאכותית על נתונים שנוצרו על ידי אינטליגנציה מלאכותית.

המחקר השווייצרי החדש, עם זאת, מביא למרכז הדיון שיקול שעלול להיות דחוף יותר עבור החברות הרבות הרוצות לנצל ולהרוויח מאינטליגנציה מלאכותית יוצרת – הישרדותן של דפוסים מוגני זכויות יוצרים או לא מורשים, אפילו במאגרי נתונים שנועדו להילחם בתופעה זו. אם היינו צריכים לתת לזה הגדרה, במקרה זה זה עשוי להיקרא ‘שטיפת פנים’.

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai