בינה מלאכותית

מהו LLM Hallucinations? גורמים, דאגות אתיות, ומניעה

Published April 29, 2023

Updated April 28, 2026

Haziqa Sajid

מודלי שפה גדולים (LLM) הם מערכות אינטליגנציה מלאכותית המסוגלות לנתח וליצור טקסטים דומים לאלו של בני אדם. אך הם הוא מוצג עם בעיה – LLMs הזיות, כלומר, המצאת דברים. LLM הזיות גרמו לחוקרים לדאוג לקדמה בתחום זה, מכיוון שאם החוקרים לא יכולים לשלוט בתוצאות המודלים, אז הם לא יכולים לבנות מערכות קריטיות לשרת את האנושות. יותר על כך מאוחר יותר.

באופן כללי, LLMs משתמשים בכמויות גדולות של נתוני אימון ואלגוריתמים למידה מורכבים כדי ליצור פלטים ריאליסטיים. במקרים מסוימים, למידה בהקשר משמשת לאימון את המודלים האלה באמצעות רק מספר דוגמאות. LLMs הופכים לפופולריים יותר ויותר ברחבי תחומי יישום שונים, החל מתרגום מכונה, ניתוח רגשות, עזרת AI וירטואלית, אנוטציה של תמונות, עיבוד שפה טבעית, וכו’.

בעל הטבע החדשני של LLMs, הם עדיין נוטים להיות רגישים להטיות, שגיאות והזיות. Yann LeCun, המדען הראשי של Meta, הזכיר לאחרונה את הלוגיקה המרכזית ב-LLMs שגורמת להזיות: “מודלי שפה גדולים אין מושג על המציאות התת-מובנית שהשפה מתארת. מערכות אלו מייצרות טקסט שנשמע טוב, תחבירית וסמנטית, אך הם לא באמת הם כל מטרה אחרת מלבד רק לספק עקביות סטטיסטית עם הפרומפט”.

הזיות ב-LLMs

תמונה מאת Gerd Altmann מ- Pixabay

הזיות מתייחסות למודל המייצר פלטים שהם תקינים תחבירית וסמנטית, אך מנותקים מהמציאות, ומבוססים על הנחות שגויות. הזיות היא אחד ה דאגות האתיות העיקריות של LLMs, והיא יכולה להיות בעלת השלכות הרסניות כאשר משתמשים ללא ידע תחומי מספיק מתחילים להישען יותר ויותר על מודלי שפה אלו ההולכים ונעשים משכנעים יותר.

רמה מסוימת של הזיות היא בלתי נמנעת בכל LLMs אוטורגרסיביים. לדוגמה, מודל יכול לייחס ציטוט מזויף לידוען שמעולם לא אמר. הם עשויים לטעון דבר מה על נושא מסוים שהוא שגוי מבחינה עובדתית או לצטט מקורות שאינם קיימים במאמרים, וכך להפיץ מידע שגוי.

אולם, קבלת AI מודלים להזיות לא תמיד היא בעלת השפעות שליליות. לדוגמה, מחקר חדש מצביע על כך שמדענים מגלים ‘חלבונים חדשים עם מערך בלתי מוגבל של תכונות’ דרך LLMs הזיות.

מה גורם ל-LLMs הזיות?

LLMs יכולים להזיות עקב גורמים שונים, החל משגיאות overfitting בקידוד ופענוח ועד הטיות באימון.

Overfitting

תמונה מאת janjf93 מ- Pixabay

Overfitting הוא בעיה שבה מודל AI מתאים את נתוני האימון טוב מדי. עם זאת, הוא לא יכול לייצג את כל טווח הקלטים שהוא עשוי לפגוש, כלומר, הוא נכשל בלכלל את כוחו הניבוי לנתונים חדשים ולא נראים. Overfitting יכול לגרום למודל לייצר תוכן מהולל.

שגיאות קידוד ופענוח

תמונה מאת geralt מ- Pixabay

אם יש שגיאות בקידוד ופענוח של טקסט וייצוגיהם, זה יכול גם לגרום למודל לייצר פלטים חסרי משמעות ושגויים.

הטיות באימון

תמונה מאת Quince Creative מ- Pixabay

גורם אחר הוא נוכחותן של הטיות מסוימות בנתוני האימון, שיכולות לגרום למודל לתת תוצאות שמייצגות את ההטיות האלו ולא את טבען של הנתונים. זה דומה למחסור בגיוון בנתוני האימון, שמגביל את יכולת המודל לכלל את כוחו לנתונים חדשים.

המבנה המורכב של LLMs הופך את זה למאתגר מאוד עבור חוקרי AI ומעשים לזהות, לפרש ולתקן את הגורמים העומדים מאחורי ההזיות.

דאגות אתיות של LLMs הזיות

LLMss יכולים להמשיך ולהגביר הטיות הרסניות דרך הזיות ויכולים, בתורם, להשפיע לרעה על המשתמשים ולהיות בעלי השלכות חברתיות שליליות. חלק מהדאגות האתיות החשובות ביותר הן:

תוכן מפלה ורעיל

תמונה מאת ar130405 מ- Pixabay

מכיוון שנתוני האימון של LLMs הם לעיתים קרובות מלאים בסטריאוטיפים חברתיים-תרבותיים בגלל ההטיות הטבועות והמחסור בגיוון. LLMs יכולים, לכן, לייצר ולחזק את הרעיונות ההרסניים האלו נגד קבוצות מוחלשות בחברה.

הם יכולים לייצר תוכן מפלה ושנאה על בסיס גזע, מין, דת, אתניות, וכו’.

בעיות פרטיות

תמונה מאת JanBaby מ- Pixabay

LLMss מאומנים על קורפוס אימון עצום שלרוב כולל מידע אישי של אנשים. היו מקרים שבהם מודלים כאלו הפרו את פרטיות אנשים. הם יכולים לדלוף מידע ספציפי כגון מספרי ביטוח לאומי, כתובות, מספרי טלפון ופרטים רפואיים.

מידע שגוי ותעמולה

תמונה מאת geralt מ- Pixabay

מודלי שפה יכולים לייצר תוכן שנראה מדויק אך למעשה שגוי ולא מבוסס על ראיות אמפיריות. זה יכול להיות בטעות, מה שמוביל למידע שגוי, או שיכול להיות בעל כוונה זדונית מאחוריו להפיץ תעמולה. אם זה לא נבדק, זה יכול ליצור מגמות חברתיות-תרבותיות-כלכליות-פוליטיות שליליות.

מניעת LLMs הזיות

תמונה מאת athree23 מ- Pixabay

חוקרים ומעשים לוקחים גישות שונות לטיפול בבעיה של הזיות ב-LLMs. אלו כוללים שיפור הגיוון של נתוני האימון, ביטול הטיות טבועות, שימוש בטכניקות רגולריזציה טובות יותר, ועיסוק באימון יריב ולמידת חיזוק, בין היתר:

פיתוח טכניקות רגולריזציה טובות יותר הוא בלב הטיפול בהזיות. הן עוזרות למנוע overfitting ובעיות אחרות שגורמות להזיות.
שיפור נתוני האימון יכול להפחית את תדירות ההזיות, כפי שנראה ב מחקר. שיפור נתוני האימון כולל הוספת טוקן אקראי בכל מקום במשפט. זה מכפיל את גודל קבוצת האימון וגורם לירידה בתדירות ההזיות.
OpenAI ו- Google’s DeepMind פיתחו טכניקה הנקראת למידת חיזוק עם משוב אנושי (RLHF) כדי לטפל בבעיה של הזיות ב-ChatGPT. זה כולל מעריך אנושי שבוחן לעיתים קרובות את תגובות המודל ובוחר את המתאימות ביותר לפרומפטים של המשתמש. משוב זה משמש לכוונון התנהגות המודל. Ilya Sutskever, המדען הראשי של OpenAI, הזכיר לאחרונה שגישה זו יכולה לפתור את הבעיה של הזיות ב-ChatGPT: “אני מאוד מלא תקווה שרק בשיפור שלב הלמידה הבא של משוב אנושי, נוכל ללמד אותו לא להזיות”.
זיהוי תוכן מהולל כדי להשתמש בו כדוגמה לאימון עתידי הוא גם שיטה לטיפול בהזיות. טכניקה חדשה בתחום זה מגלה הזיות ברמת הטוקן ומנבא אם כל טוקן בפלט הוא מהולל. זה כולל גם שיטה ללמידה בלתי מושגת של מגלי הזיות.