Connect with us

ืฉื›ื—ื” ืžื‘ื•ืงืจืช: ื”ืืชื’ืจ ื”ื‘ื ื‘ื–ื™ื›ืจื•ืŸ ืฉืœ AI

ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช

ืฉื›ื—ื” ืžื‘ื•ืงืจืช: ื”ืืชื’ืจ ื”ื‘ื ื‘ื–ื™ื›ืจื•ืŸ ืฉืœ AI

mm

במשך שנים, תחום ה-AI התמקד במטרה אחת: להפוך מערכות לזוכרות טוב יותר. אימנו מודלים על מאגרי נתונים עצומים ושיפרנו בהדרגה את יכולתם לאחסן ולהיזכר במידע. אבל עכשיו אנו מבינים מציאות לא נוחה. אותן מערכות שאינן שוכחות, כעת כלואות בזיכרון שלהן. מה שנראה פעם כחוזק, הפך לחולשה רצינית.

בני אדם שוכחים באופן טבעי. אנו משחררים מידע, מסתגלים ומתקדמים. מערכות AI עובדות אחרת. הן זוכרות הכל, אלא אם נלמד אותן לשכוח. זה יוצר בעיות אמיתיות. AI מתמודדת עם הפרות פרטיות, מידע מיושן, הטיות מובנות ומערכות שמתפרקות כאשר לומדות משימות חדשות. האתגר שלפנינו אינו עוסק בהפיכת AI לזוכרת יותר. אנו צריכים ללמד AI כיצד לשכוח בחוכמה.

שני פנים של שכחה

שכחה ב-AI מופיעה בשני צורות שונות, כל אחת עם סט בעיות משלה.

הראשונה היא שכחה קטסטרופלית. זה קורה כאשר רשת עצבית מאבדת ידע שנלמד בעבר לאחר אימון על משימות חדשות. לדוגמה, מודל שאומן לזהות חתולים וכלבים, עלול לשכוח את היכולת הזו לאחר למידת זיהוי ציפורים.

הצורה השנייה היא שכחה מבוקרת. זה מכוון. הוא כולל הסרה מכוונת של מידע מסוים ממודלים מאומנים. חוקי פרטיות כמו GDPR נותנים לאנשים “זכות להישכח”, הדורשת מחברות למחוק נתונים על פי בקשה. זה לא עניין של תיקון מערכות שבורות. זה עניין של הסרה מכוונת של נתונים שלא היו אמורים להיאחסן או חייבים להיעלם על פי בקשה.

שתי הבעיות הללו נמשכות בכיוונים הפוכים. אחת דורשת שנמנע משכחה. השנייה דורשת שנעשה שכחה אפשרית. ניהול שניהם בו-זמנית הוא אחד מאתגריה הקשים ביותר של AI.

כאשר זיכרון הופך להפסד

מחקר AI התמקד במשך הרבה זמן בשיפור הזיכרון. מודלים גדלו, מאגרי נתונים התרחבו, וחלונות הקשב התארכו. מערכות כמו GPT-4o יכולות עכשיו להתמודד עם 128,000 טוקנים של הקשב, ו-Claude יכולה להגיע ל-200,000. התקדמויות אלו שיפרו את הביצועים, אך גם הציגו בעיות חדשות.

כאשר מודל זוכר מדי, הוא יכול להיזכר במידע מיושן או לא רלוונטי. זה בזבזת חישוב ויכול לבלבל משתמשים. לדוגמה, נחשוב על בוט תמיכה לקוחות שאומן על בסיס הידע של החברה. אתם מעדכנים מדיניות, אבל אחרי כמה אינטראקציות, הבוט חוזר למידע הישן. זה קורה מכיוון ש-AI אינה יכולה לייעד זיכרון כראוי. AI אינה יכולה להבדיל בין מהו נוכחי ומהו ישן.

חוקי פרטיות מקשים עוד יותר. תחת GDPR, כאשר משתמש מבקש למחוק את הנתונים שלו, חברות חייבות להסיר אותם. אבל מחיקת נתונים ממודל AI אינה כמו מחיקת קובץ ממחשב. כאשר נתונים אישיים הופכים לחלק מפרמטרים של המודל, הם מתפשטים ברחבי מיליוני חיבורים בתוך הרשת. אימון מחדש של המערכת כולה כדי להסיר את הנתונים הללו הוא יקר ולעיתים בלתי אפשרי. מחקר מראה כי מודלים גדולים יותר רגישים יותר להתקפות סייבר. ככל שהמודל גדול יותר, הוא נוטה לזכור, ויכול לשחזר נתונים פרטיים כאשר מבקשים אותו באמצעות פרומפטים מורכבים. תוקפים יכולים לחלץ מידע שאינם אמורים להגיע אליו.

מה גורם לשכחה להיות קשה

מודלי AI אינם אוחסנים דוגמאות אימון כמו קבצים בתיקייה. הם מדחיסים ומערבבים מידע אימון לתוך משקלים ופעילויות. הסרת חתיכת מידע אחת בלי להפריע לכל השאר היא קשה מאוד. גם, אין לנו דרך קלה לעקוב איך נתונים אימון ספציפיים משפיעים על משקלים פנימיים של המודל. פעם שמודל לומד מנתונים, הידע הזה מתפשט דרך פרמטרים בדרכים שקשה לעקוב.

אימון מחדש של מודלים מההתחלה לאחר כל בקשת מחיקה אינו מעשי. כאשר מישהו מבקש למחוק את הנתונים האישיים שלו תחת GDPR, יש להסיר אותם מהמערכת AI. אבל אימון מחדש של מודל מההתחלה כל פעם הוא יקר מדי ואיטי ברוב הסביבות המסחריות. למודלים גדולים של שפה שאומנו על מיליארדי נקודות נתונים, גישה זו תהיה בלתי נסבלת וארוכה.

אימות של שכחה מציג אתגר נוסף. כיצד אנו מוכיחים שנתונים אכן נשכחו? חברות זקוקות לביקורות חיצוניות כדי להוכיח שהן מחקו מידע. בלי שיטות אימות אמינות, עסקים אינם יכולים להוכיח ציות, ומשתמשים אינם יכולים לבטוח שנתוניהם אכן נמחקו.

אתגרים אלו הובילו לתחום חדש הנקרא machine unlearning. הוא מתמקד בטכניקות להסרת השפעתם של נתונים ספציפיים ממודלים מאומנים. אבל שיטות אלו עדיין בשלב התחלתי. איבוד מדויק דורש אימון מחדש של המודל, בעוד ששיטות מקורבות עלולות להשאיר עקבות של המידע המוסר.

דילמת יציבות-גמישות

האתגר העיקרי שעלינו לפתור הוא למנוע שכחה קטסטרופלית בעודנו מאפשרים שכחה מבוקרת. זה מוביל אותנו לאתגר מרכזי ש-AI פונה אליו: דילמת יציבות-גמישות. מודלים חייבים להיות גמישים מספיק כדי ללמוד מידע חדש, אך יציבים מספיק כדי לשמור ידע ישן. אם אנו דוחפים את המודל רחוק מדי לעבר יציבות, הוא אינו יכול להסתגל. מצד שני, אם אנו דוחפים אותו רחוק מדי לעבר גמישות, הוא יכול לשכוח הכל.

זיכרון אנושי מספק רמזים שימושיים לטיפול בדילמה הזו. נוירולוגיה מספרת לנו ששכחה אינה פגם. זוהי תהליך פעיל. המוח שוכח בכוונה כדי להפוך למידה לעבוד טוב יותר. הוא מוחק או מדכא מידע ישן או בעל ערך נמוך, כך שזיכרונות חדשים נותרים נגישים. כאשר אנשים לומדים שפה חדשה, הם אינם מוחקים את הישנה. אבל אם הם הופסיקו להשתמש בה, היכולת להיזכר בה הופכת קשה יותר. המידע עדיין שם, רק מוחלש.

חוקרי AI מתחילים לאמץ רעיונות דומים. טכניקות חזרה יוצרות חיקוי את האופן שבו המוח אוחסן זיכרונות. הן יוצרות ייצוגים מופשטים של ידע קודם, במקום לאחסן נתונים גולמיים. זה מפחית שכחה קטסטרופלית ושומר על זיכרון קומפקטי. רעיון מבטיח אחר הוא דעיכה אינטליגנטית. זיכרונות אוחסנים מדורגים על פי עדכניות, רלוונטיות ושימושיות. זיכרונות פחות חשובים הופכים בהדרגה לפחות מועדפים ונגישים פחות. זה שומר על המידע זמין, אך מוסתר, אלא אם נדרש.

המטרה אינה למחוק, אלא לאזן זיכרון ושכחה באופן אינטליגנטי.

מה נראה העתיד

התעשייה נעה בשלושה כיוונים עיקריים.

ראשית, ארכיטקטורות זיכרון היברידיות מתפתחות. מערכות אלו משלבות זיכרון אפיזודי (חוויות ספציפיות) עם זיכרון סמנטי (ידע כללי). הן משתמשות במנגנונים של דירוג וגזירה כדי לשמור על מידע חשוב בעודן מעמעמות מה שפחות רלוונטי. בסיסי נתונים וקטוריים כמו Pinecone ו-Weaviate עוזרים לנהל ולאחזר זיכרון כזה בצורה יעילה.

שנית, טכנולוגיות משפרות פרטיות זוכות לתאוצה. טכניקות כמו למידה פדרטיבית, פרטיות דיפרנציאלית ו-הצפנה הומומורפית מפחיתות את הצורך בנתונים אישיים רגישים. שיטות אלו מאפשרות למודלים ל-התאמן בשיתוף פעולה או באופן בטוח ללא איסוף מידע משתמשים רגיש. הן אינן פותרות את הבעיה של שכחה ישירות, אך הן מפחיתות את כמות הנתונים האישיים שיש לשכוח מאוחר יותר.

שלישית, שיפור של machine unlearning. שיטות חדשות יכולות להתאים פרמטרים של מודל הקשורים לנתונים ספציפיים בלי אימון מחדש מלא. גישות אלו עדיין בשלב התחלתי, אך הן מתקדמות לכיוון ציות לדרישות מחיקת נתונים. עדיין, אימות שאיבוד אמיתי מסיר את כל עקבות הנתונים נותר קשה. חוקרים מפתחים מבחנים למדוד כיצד זה עובד.

התחתית

מערכות AI הפכו למצוינות בזיכרון. אבל הן עדיין גרועות בשכחה. הפער הזה הופך לקשה יותר להתעלם. ככל ש-AI גדלה בעוצמה ורגולציות גדלות, היכולת לשכוח בחוכמה תהיה חשובה כמו היכולת לזכור. כדי להפוך את AI לבטוחה יותר, ניתנת להתאמה ומודעת לפרטיות, אנו חייבים ללמד אותה לשכוח בקפידה, בררנות ובאינטליגנציה. שכחה מבוקרת לא רק תגן על פרטיות הנתונים, אלא גם תעזור למערכות AI להתפתח ללא הילכדות בזיכרון שלהן.

ื“"ืจ ื˜ื”ืกื™ืŸ ื–ื™ืื” ื”ื•ื ืคืจื•ืคืกื•ืจ ื—ื‘ืจ ืงื‘ื•ืข ื‘ืื•ื ื™ื‘ืจืกื™ื˜ืช COMSATS ืืกืœืืžืื‘ืื“, ื‘ืขืœ ืชื•ืืจ PhD ื‘ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช ืžืื•ื ื™ื‘ืจืกื™ื˜ืช ื˜ื›ื ื•ืœื•ื’ื™ื” ืฉืœ ื•ื™ื ื”, ืื•ืกื˜ืจื™ื”. ื”ื•ื ืžืชืžื—ื” ื‘ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช, ืœืžื™ื“ืช ืžื›ื•ื ื”, ืžื“ืข ื ืชื•ื ื™ื ื•ืจืื™ื™ื” ืžืžื•ื—ืฉื‘ืช, ื•ืชืจื ืชืจื•ืžื•ืช ืžืฉืžืขื•ืชื™ื•ืช ืขื ืคืจืกื•ืžื™ื ื‘ื›ืชื‘ื™ ืขืช ืžื“ืขื™ื™ื ืืžื™ื ื™ื. ื“"ืจ ื˜ื”ืกื™ืŸ ื’ื ื”ื•ื‘ื™ืœ ืคืจื•ื™ืงื˜ื™ื ืชืขืฉื™ื™ืชื™ื™ื ืฉื•ื ื™ื ื›ื—ื•ืงืจ ืจืืฉื™ ื•ืฉื™ืžืฉ ื›ื™ื•ืขืฅ ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช.