ืืื ื ืืืืืืชืืช
ืืืืข ืืืืื ืฉืคื ืืืืืื ืฉืืืืื ืืช ืืืืฆืข: ืืฉืืคืช ืื ืงืืื ืืขืืืืจืช ืืืืกืชืจืช ืฉื AI

כאשר מודלי שפה גדולים (LLM) משמשים בהרחבה למשימות כגון סיכום מסמכים, ניתוח משפטי והערכת היסטוריה רפואית, הדבר הכרחי להכיר במגבלות של מודלים אלו. בעוד שבעיות נפוצות כגון הזיות ואישור מוכרות היטב, חוקרים זיהו לאחרונה פגם משמעותי נוסף: כאשר מעבדים טקסטים ארוכים, LLMs נוטים לשמור מידע בתחילה ובסוף אך לעיתים קרובות מזנחים את האמצע.
בעיה זו, המכונה “איבוד באמצע“, יכולה לפגוע באופן משמעותי בביצועים של מודלים אלו ביישומים מעשיים. למשל, אם AI מוטלת עליה לסכמן מסמך משפטי ארוך, החסרת פרטים קריטיים מהאמצע עלולה להוביל לסיכומים מוטעים או לא שלמים. בהקשרים רפואיים, הזנחת מידע מהאמצע של היסטוריה של מטופל עלולה להוביל להמלצות לא מדויקות. הבנת הסיבה לכך שזה קורה נותרת משימה אתגרית עבור חוקרים המנסים לבנות AI בטוחה ואמינה יותר. עם זאת, לאחרונה מחקר מספק חלק מהתשובות הברורות ביותר, וחושף כי בעיה זו שורשית עמוקות בארכיטקטורה של מודלים אלו.
בעיית “איבוד באמצע”
תופעת “איבוד באמצע” מתייחסת לנטייה של LLMs לתת פחות תשומת לב למידע באמצע של רצפי קלט ארוכים. זה דומה לכך שבני אדם נוטים לזכור את הפריטים הראשונים והאחרונים ברשימה טוב יותר מאלו באמצע. הטיה קוגניטיבית זו בבני אדם מוכרת בדרך כלל כאפקט הקדימות והעדיפות. עבור LLMs, זה אומר שהם מבצעים טוב יותר כאשר המידע החשוב נמצא בתחילה או בסוף של טקסט, אך מתקשים כאשר הוא קבור באמצע. זה גורם לעקומת ביצועים בצורת “U”, שבה הדיוק גבוה בתחילה, יורד באופן משמעותי באמצע, ואז עולה שוב בסוף.
תופעה זו אינה רק בעיה תאורטית. היא נצפתה במגוון רחב של משימות, מענה לשאלות ועד סיכום מסמכים. לדוגמה, אם תשאל LLM שאלה שהתשובה לה נמצאת בפסקאות הראשונות של מאמר ארוך, היא כנראה תענה נכון. אותו הדבר נכון אם התשובה נמצאת בפסקאות האחרונות. אבל אם המידע הקריטי נמצא באמצע, דיוק המודל יורד באופן חד.
הבנת הארכיטקטורה של LLMs
כדי להבין למה LLMs שוכחים את האמצע, צריך להביט על הדרך בה הם בנויים. LLMs מודרניים מבוססים על ארכיטקטורה הנקראת Transformer. ה-Transformer היה פריצת דרך ב-AI משום שהוא הציג מנגנון הנקרא קשב עצמי. קשב עצמי מאפשר למודל לשקול את חשיבותן של מילים שונות בטקסט הקלט כאשר הוא מעבד מילה נתונה. למשל, כאשר מעבדים את המשפט “החתול ישב על השטיח”, מנגנון הקשב העצמי עשוי ללמוד ש-“חתול” ו-“ישב” קשורים באופן הדוק. זה מאפשר למודל לבנות הבנה עשירה יותר של היחסים בין המילים מאשר ארכיטקטורות קודמות.
רכיב נוסף הוא קידוד מיקומי. מכיוון שמנגנון הקשב העצמי בעצמו אין תחושה פנימית של סדר המילים, קידודים מיקומיים מוספים לקלט כדי לתת למודל מידע על מיקום כל מילה ברצף. בלעדי זאת, המודל היה רואה את הטקסט הקלט כ”שק של מילים” ללא מבנה. שני רכיבים אלו, קשב עצמי וקידוד מיקומי, עובדים ביחד כדי להפוך LLMs ליעילים יותר. עם זאת, המחקר החדש מראה כי האופן בו הם מיטיבים זה את זה הוא גם המקור לנקודה העיוורת המוסתרת הזו.
כיצד נוצרת הטיה המיקומית
מחקר אחרון משתמש בגישה חכמה כדי להסביר תופעה זו. הוא ממדל את זרימת המידע בתוך Transformer כגרף, שבו כל מילה היא צומת וחיבורי הקשב הם הקשתות. זה מאפשר לחוקרים לעקוב באופן מתמטי כיצד המידע ממיקומים שונים מעובד דרך השכבות הרבות של המודל.
הם גילו שני תובנות עיקריות. ראשית, השימוש במסיכת קאוזל ב-LLMs רבים יוצר באופן טבעי נטייה לעבר תחילת הרצף. מסיכת קאוזל היא טכניקה שמובטחת כי כאשר המודל מייצר מילה, הוא יכול להתמקד רק במילים שקדמו לו, לא באלו שבאו אחריו. זה הכרחי למשימות כגון יצירת טקסט. עם זאת, במהלך השכבות הרבות, זה יוצר אפקט מרכז. המילים הראשונות בטקסט מעובדות שוב ושוב, וייצוגיהן הופכים למשמעותיים יותר. לעומת זאת, מילים באמצע תמיד מביטות אחורה אל ההקשר המוכר היטב, ותרומתן הייחודית יכולה להיעלם.
שנית, החוקרים בדקו כיצד קידודים מיקומיים מיטיבים עם האפקט של מסיכת קאוזל. LLMs מודרניים רבים משתמשים בקידודים מיקומיים יחסיים, המתמקדים במרחק בין מילים ולא במיקום המוחלט. זה עוזר למודל לכלליות לטקסטים באורכים שונים. בעוד שזה נראה כרעיון טוב, הוא יוצר לחץ מנוגד. המסיכה הקאוזלית דוחפת את תשומת הלב של המודל לעבר ההתחלה, בעוד שקידוד המיקום היחסי מעודד אותו להתמקד במילים הסמוכות. תוצאת המאבק הזה היא שהמודל מקדיש את רוב תשומת הלב לתחילת הטקסט ולהקשר המקומי הקרוב של כל מילה. מידע שרחוק ולא בתחילה, כלומר האמצע, מקבל את הקשב הפחות.
המשמעויות הרחבות
תופעת “איבוד באמצע” היא בעלת משמעויות משמעותיות עבור יישומים המסתמכים על עיבוד טקסטים ארוכים. המחקר מראה כי הבעיה אינה רק אפקט אקראי, אלא תוצאה ישירה של הדרך בה עיצבנו את המודלים האלו. זה אומר שאימון אותם על יותר נתונים אינו מועיל לפתרון הבעיה. במקום זאת, אולי נצטרך לשקול מחדש חלק מהעקרונות האדריכליים הבסיסיים של Transformers.
עבור משתמשים ומפתחים של AI, זוהי אזהרה קריטית. עלינו להיות מודעים למגבלה זו כאשר מעצבים יישומים המסתמכים על LLMs. עבור משימות הכרוכות במסמכים ארוכים, אולי נצטרך לפתח אסטרטגיות למיתון הטיה זו. זה יכול לכלול שבירת המסמך לחלקים קטנים יותר או יצירת מודלים שמכוונים באופן ספציפי את תשומת הלב של המודל לחלקים שונים של הטקסט. זה גם מדגיש את חשיבות הבדיקה המדוקדקת. אין לנו אפשרות להניח ש-LLM שמבצע היטב בטקסטים קצרים יהיה אמין כאשר הוא מוצג בפני קלטים ארוכים ומורכבים יותר.
התוצאה
פיתוח AI תמיד התמקד בזיהוי מגבלות ומציאת דרכים להתגבר עליהן. בעיית “איבוד באמצע” היא פגם משמעותי במודלי שפה גדולים, שבו הם נוטים להזניח מידע באמצע רצפי טקסט ארוכים. בעיה זו נובעת מהטיות בארכיטקטורה של המודלים, במיוחד מהאינטראקציה בין מסיכת קאוזל וקידוד מיקומי יחסי. בעוד LLMs מבצעים טוב עם מידע בתחילה ובסוף של טקסט, הם מתקשים כאשר הפרטים החשובים נמצאים באמצע. מגבלה זו יכולה לפגוע בדיוק של LLMs במשימות כגון סיכום מסמכים וענה לשאלות, מה שיכול להיות בעל משמעויות חמורות בתחומים כגון משפטים ורפואה. מפתחים וחוקרים חייבים לפתור בעיה זו כדי לשפר את האמינות של LLMs ביישומים מעשיים.










