בינה מלאכותית

ביטול למידה של נתונים המוגנים בזכויות יוצרים מ-LLM מאומן - האם זה אפשרי?

יצא לאור

לפני 3 חודשים

ינואר 23, 2024

בתחומים של בינה מלאכותית (AI) ולמידת מכונה (ML), מודלים של שפות גדולות (LLMs) מציגים הן הישגים והן אתגרים. מאומן על מערכי נתונים טקסטואליים נרחבים, דגמי LLM להטמיע שפה וידע אנושיים.

אולם היכולת שלהם לקלוט ולחקות את ההבנה האנושית מציבה אתגרים משפטיים, אתיים וטכנולוגיים. יתרה מכך, מערכי הנתונים האדירים המניעים את ה-LLM עשויים להכיל חומר רעיל, טקסטים המוגנים בזכויות יוצרים, אי דיוקים או נתונים אישיים.

לגרום ל-LLM לשכוח נתונים נבחרים הפך לנושא דחוף כדי להבטיח ציות לחוק ואחריות אתית.

הבה נחקור את הרעיון של לגרום ל-LLMs לבטל מידע המוגן בזכויות יוצרים כדי לענות על שאלה בסיסית: האם זה אפשרי?

מדוע יש צורך ב- LLM Unlearning?

LLMs מכילים לעתים קרובות נתונים שנויים במחלוקת, כולל נתונים המוגנים בזכויות יוצרים. קיום נתונים כאלה ב-LLMs מציב אתגרים משפטיים הקשורים למידע פרטי, מידע מוטה, נתוני זכויות יוצרים ואלמנטים כוזבים או מזיקים.

לפיכך, ביטול למידה חיוני כדי להבטיח ש-LLMs יעמדו בתקנות הפרטיות ויעמדו בהן זכויות יוצרים חוקים, קידום לימודי LLM אחראיים ואתיים.

עם זאת, הוצאת תוכן המוגן בזכויות יוצרים מהידע הרב שדגמים אלה רכשו היא מאתגרת. להלן כמה טכניקות ביטול למידה שיכולות לעזור לטפל בבעיה זו:

סינון נתונים: זה כולל זיהוי והסרה שיטתית של אלמנטים המוגנים בזכויות יוצרים, נתונים רועשים או מוטים, מנתוני ההדרכה של המודל. עם זאת, סינון יכול להוביל לאובדן פוטנציאלי של מידע בעל ערך שאינו מוגן בזכויות יוצרים במהלך תהליך הסינון.
שיטות הדרגתיות: שיטות אלה מתאימות את הפרמטרים של המודל בהתבסס על השיפוע של פונקציית האובדן, ומטפלות בבעיית הנתונים המוגנים בזכויות יוצרים במודלים של ML. עם זאת, התאמות עלולות להשפיע לרעה על הביצועים הכוללים של המודל בנתונים שאינם מוגנים בזכויות יוצרים.
ביטול למידה בהקשר: טכניקה זו מבטלת ביעילות את ההשפעה של נקודות אימון ספציפיות על המודל על ידי עדכון הפרמטרים שלו מבלי להשפיע על ידע לא קשור. עם זאת, השיטה עומדת בפני מגבלות בהשגת דיוק מבטל למידה, במיוחד עם מודלים גדולים, ויעילותו דורשת הערכה נוספת.

טכניקות אלו הן עתירות משאבים וגוזלות זמן, מה שמקשה על יישום.

מקרים לדוגמא

כדי להבין את המשמעות של לימוד LLM, מקרים אלו בעולם האמיתי מדגישים כיצד חברות רוחשות אתגרים משפטיים הנוגעים למודלים של שפה גדולה (LLMs) ונתונים המוגנים בזכויות יוצרים.

תביעות OpenAI: OpenAI, חברת בינה מלאכותית בולטת, נפגעה על ידי רבים תביעות על נתוני ההכשרה של תואר שני. פעולות משפטיות אלו מטילות ספק בשימוש בחומר המוגן בזכויות יוצרים בהכשרת LLM. כמו כן, הם הפעילו בירורים לגבי המנגנונים שמודלים משתמשים כדי להבטיח הרשאה לכל יצירה המוגנת בזכויות יוצרים המשולבת בתהליך ההכשרה שלהם.

תביעה של שרה סילברמן: השמיים תיק שרה סילברמן כולל טענה שמודל ChatGPT יצר סיכומים של ספריה ללא אישור. פעולה משפטית זו מדגישה את הנושאים החשובים בנוגע לעתיד של AI ונתונים המוגנים בזכויות יוצרים.

עדכון מסגרות משפטיות כדי להתיישר עם הקידמה הטכנולוגית מבטיח ניצול אחראי וחוקי של מודלים של AI. יתרה מכך, קהילת המחקר חייבת להתמודד עם אתגרים אלה באופן מקיף כדי להפוך את ה-LLMs אתיים והוגנים.

טכניקות לימוד מסורתיות של LLM

ביטול למידה של LLM הוא כמו הפרדת מרכיבים ספציפיים ממתכון מורכב, כדי להבטיח שרק הרכיבים הרצויים תורמים למנה הסופית. מָסוֹרתִי ביטול למידה LLM טכניקות, כמו כוונון עדין עם נתונים שנאספו והדרכה מחדש, חסרות מנגנונים פשוטים להסרת נתונים המוגנים בזכויות יוצרים.

הגישה הרחבה שלהם מתגלה לעתים קרובות כבלתי יעילה ועתירת משאבים עבור המשימה המתוחכמת של ביטול למידה סלקטיבי, שכן הם דורשים הסבה מקיפה.

בעוד ששיטות מסורתיות אלו יכולות להתאים את הפרמטרים של המודל, הן נאבקות למקד במדויק תוכן המוגן בזכויות יוצרים, תוך סיכון לאובדן נתונים לא מכוון ותאימות לא אופטימלית.

כתוצאה מכך, המגבלות של טכניקות מסורתיות ופתרונות חזקים מחייבים ניסוי עם טכניקות למידה חלופיות.

טכניקה חדשה: הסרת קבוצת משנה של נתוני אימון

השמיים מאמר מחקר של מיקרוסופט מציג טכניקה פורצת דרך להסרת נתונים המוגנים בזכויות יוצרים ב-LLMs. בהתמקדות בדוגמה של מודל Llama2-7b וספרי הארי פוטר, השיטה כוללת שלושה מרכיבי ליבה כדי לגרום ל-LLM לשכוח את עולמו של הארי פוטר. רכיבים אלה כוללים:

זיהוי דגם מחוזק: יצירת מודל מחוזק כרוכה בכוונון עדין של נתוני יעד (למשל, הארי פוטר) כדי לחזק את הידע שלו לגבי התוכן שיש לבטל.
החלפת ביטויים אידיוסינקרטיים: ביטויים ייחודיים של הארי פוטר בנתוני היעד מוחלפים בביטויים כלליים, מה שמאפשר הבנה כללית יותר.
כוונון עדין על תחזיות חלופיות: מודל הבסיס עובר כוונון עדין על בסיס תחזיות חלופיות אלו. בעיקרון, הוא מוחק ביעילות את הטקסט המקורי מהזיכרון שלו כאשר הוא מתמודד עם הקשר רלוונטי.

למרות שהטכניקה של מיקרוסופט נמצאת בשלב מוקדם ועשויות להיות לה מגבלות, היא מייצגת התקדמות מבטיחה לקראת לימודי LLM חזקים, אתיים וניתנים להתאמה.

התוצאה של טכניקת הרומן

השיטה החדשנית לגרום ל-LLMs לשכוח נתונים המוגנים בזכויות יוצרים המוצגים ב- מאמר מחקר של מיקרוסופט הוא צעד לקראת מודלים אחראיים ואתיים.

הטכניקה החדשנית כוללת מחיקת תוכן הקשור להארי פוטר ממודל Llama2-7b של Meta, הידוע שעבר הכשרה על מערך הנתונים "books3" המכיל יצירות המוגנות בזכויות יוצרים. יש לציין שהתגובות המקוריות של המודל הדגימו הבנה מורכבת של היקום של ג'יי קיי רולינג, אפילו עם הנחיות כלליות.

עם זאת, של מיקרוסופט הטכניקה המוצעת שינתה משמעותית את תגובותיה. להלן דוגמאות להנחיות המציגות את ההבדלים הבולטים בין דגם ה-Llama2-7b המקורי לבין הגרסה המכווננת.

מקור תמונה

טבלה זו ממחישה שהמודלים המכוונים לחוסר למידה שומרים על הביצועים שלהם על פני אמות מידה שונות (כגון Hellaswag, Winogrande, piqa, boolq ו-arc).

מקור תמונה

שיטת ההערכה, המסתמכת על הנחיות המודל וניתוח התגובה שלאחר מכן, מוכיחה את עצמה כיעילה אך עלולה להתעלם משיטות חילוץ מידע מורכבות יותר, יריבות.

למרות שהטכניקה מבטיחה, דרוש מחקר נוסף לצורך חידוד והרחבה, במיוחד בטיפול במשימות למידה רחבות יותר בתוך תואר שני.

אתגרים חדשים של טכניקת ביטול למידה

בעוד שטכניקת ההתנתקות של מיקרוסופט מראה הבטחה, קיימים מספר אתגרים ואילוצים של זכויות יוצרים בינה מלאכותית.

המגבלות והתחומים העיקריים לשיפור כוללים:

הדלפות של מידע על זכויות יוצרים: השיטה עשויה שלא להפחית לחלוטין את הסיכון של מידע זכויות יוצרים דליפות, מכיוון שהמודל עשוי לשמור על ידע מסוים על תוכן היעד במהלך תהליך הכוונון.
הערכה של מערכי נתונים שונים: כדי לאמוד את היעילות, הטכניקה חייבת לעבור הערכה נוספת על פני מערכי נתונים מגוונים, שכן הניסוי הראשוני התמקד אך ורק בספרי הארי פוטר.
מדרגיות: בדיקה על מערכי נתונים גדולים יותר ומודלים של שפה מורכבים יותר היא הכרחית כדי להעריך את הישימות וההסתגלות של הטכניקה בתרחישים בעולם האמיתי.

העלייה בתיקים משפטיים הקשורים לבינה מלאכותית, במיוחד תביעות זכויות יוצרים המכוונות לחברות LLM, מדגישה את הצורך בקווים מנחים ברורים. התפתחויות מבטיחות, כמו שיטת הבלתי למידה המוצעת על ידי מיקרוסופט, סוללות דרך לעבר AI אתי, משפטי ואחראי.

אל תפספסו את החדשות והניתוחים האחרונים ב-AI ו-ML - בקר unite.ai היום.