בינה מלאכותית

המאבק למנוע מ-AI לרמות במבחנים

Published June 3, 2021

Updated April 5, 2026

Martin Anderson

תוצאות מחקר חדשות מאוניברסיטה סינית מציעות תובנה לגבי מדוע מודלים של עיבוד שפה טבעית יוצרים כגון GPT-3 נוטים ‘לרמות’ כאשר נשאלים שאלה קשה, ומייצרים תשובות שעשויות להיות נכונות מבחינה טכנית, אך ללא הבנה אמיתית של למה התשובה נכונה; ולמה הם מדגימים מעט או אפס יכולת להסביר את הלוגיקה מאחורי התשובות ‘קלות’ שלהם. החוקרים גם מציעים שיטות חדשות להפוך את המערכות ‘ללמוד קשה’ יותר במהלך שלב האימון.

הבעיה היא כפולה: ראשית, אנו מעצבים מערכות שמנסות להשיג תוצאות מהר ועם שימוש אופטימלי במשאבים. אפילו שם, כמו עם GPT-3, המשאבים עשויים להיות רבים יותר מאשר מה שפרויקט מחקר NLP ממוצע יכול לספק, תרבות האופטימיזציה המבוססת על תוצאות עדיין שולטת במתודולוגיה, מכיוון שהיא הפכה לדומיננטית בקונבנציה האקדמית.

בעקבות כך, ארכיטקטורות האימון שלנו מגמדות מודלים שמתכנסים מהר ומייצרים תגובות נראות נכונות לשאלות, אפילו אם מודל NLP לא מסוגל להצדיק את תגובתו, או להדגים כיצד הוא הגיע למסקנותיו.

נטייה מוקדמת לרמות

זה קורה מכיוון שהמודל לומד ‘תגובות קיצור’ הרבה יותר מוקדם באימון מאשר שהוא לומד סוגים מורכבים יותר של רכישת ידע. מאחר שדיוק משופר מוענק לעיתים קרובות באופן לא מבחין במהלך האימון, המודל מעדיף כל גישה שתאפשר לו לענות על שאלה ‘בקלות’, ובלי אמת מובנת.

מכיוון שלמידת קיצור תיצג תמיד את ההצלחות הראשונות במהלך האימון, הפגישה תנטה בטבעיות הרחק מהמשימה הקשה יותר של רכישת פרספקטיבה אפיסטמולוגית שימושית ומלאה יותר, שעשויה להכיל שכבות עמוקות ומעניינות יותר של מיוחס ולוגיקה.

האכלת AI ‘תשובות קלות’

הבעיה השנייה היא שאף על פי שיוזמות מחקר אחרונות חקרו את נטיית ה-AI ‘לרמות’ בדרך זו, וזיהו את תופעת ‘קיצור’, לא היה עד עכשיו מאמץ לסווג ‘חומר מאפשר קיצור’ במאגר נתונים, שהיה צעד הגיוני ראשון בטיפול במה שעלול להיות פגם ארכיטקטוני בסיסי במערכות MRC.

המאמר החדש, שיתוף פעולה בין המכון Wangxuan לטכנולוגיה ממוחשבת ומעבדה MOE Key לבלשנות חישובית באוניברסיטת פקינג, בוחן מודלים שונים של שפה נגד מאגר נתונים מסומנים חדש שכולל סיווגים עבור ‘פתרונות קלים’ ו’קשים’ לשאלה אפשרית.

Source: https://arxiv.org/pdf/2106.01024.pdf

מאגר הנתונים משתמש בפרפרזה כקריטריון עבור תשובות עמוקות ומורכבות יותר, מכיוון שהבנה סמנטית נדרשת כדי לשכתב ידע שהושג. לעומת זאת, תשובות ‘קיצור’ יכולות להשתמש בטוקנים כגון תאריכים, ומילות מפתח אחרות, כדי לייצר תשובה שהיא מדויקת מבחינה עובדתית, אך ללא הקשר או תירוץ.

הרכיב הקיצור של הסימון מאפיין תאימות מילת שאלה (QWM) ותאימות פשוטה (SpM). עבור QWM, המודל משתמש בישויות שהופקו מנתונים טקסטואליים ומפטר מהקשר; עבור SpM, המודל מזהה חפיפה בין משפטי תשובות ושאלות, ששניהם מסופקים בנתונים המאומנים.

נתוני קיצור כמעט ‘ויראליים’ בהשפעה במאגר נתונים

החוקרים טוענים כי מאגרי נתונים נוטים להכיל אחוז גבוה של שאלות קיצור, שגורמים למודלים המאומנים להסתמך על תחבולות קיצור.

שני המודלים ששימשו בניסויים היו BiDAF ו-BERT-base של Google. החוקרים מצביעים על כך שאפילו כאשר הם מאומנים על וריאציות של מאגרי נתונים עם אחוז גבוה יותר של ‘שאלות קשות’, שני המודלים עדיין מבצעים טוב יותר על שאלות קיצור מאשר על שאלות פרפרזה קשות יותר, על אף מספר הדוגמאות הקטן במאגרי הנתונים.

זה מציג ‘נתוני קיצור’ כמעט בהקשר של ‘וירוס’ – כי יש צורך בכמות קטנה מאוד ממנו במאגר נתונים כדי שיתקבל ויעדיף באימון, תחת תקנים ונהלים קונבנציונליים ב-NLP.

הוכחת הרמאות

אחת השיטות שהמחקר משתמש בהן כדי להוכיח כיצד הרגישות של תשובת קיצור היא להחליף מילת ישות ‘קלה’ במילה אנומלית. היכן ששיטת קיצור שימשה, הלוגיקה של התשובה ‘מרמה’ לא יכולה להינתן; אבל היכן שהתשובה ניתנה מתוך הקשר עמוק יותר והערכה סמנטית של טקסט רחב יותר, זה אפשרי עבור המערכת לפרק את השגיאה ולבנות מחדש תשובה נכונה.

החלפת ‘Beyoncé’ (אדם) ב-‘America’ (מיקום), חושפת האם המודל הצליח להבין את הלוגיקה של התשובה.

קיצור בגלל דרישה כלכלית

באשר לחלק מהסיבות הארכיטקטוניות למה קיצורים מועדפים כל כך בזרימת עבודה של NLP, המחברים מציינים ‘מודלי MRC עשויים ללמוד תחבולות קיצור, כגון QWM, עם פחות משאבים חישוביים מאשר אתגרי הבנה, כגון זיהוי פרפרזה’.

זה, אז, עלול להיות תוצאה בלתי מכוונת של פילוסופיות תקניות של אופטימיזציה ושימור משאבים בגישות להבנת קריאה מכונה, והלחץ להשיג תוצאות עם משאבים מוגבלים בזמנים צפופים.

החוקרים גם מציינים:

‘[מכיוון ש] תחבולת הקיצור יכולה לשמש כדי לענות על רוב השאלות באימון בצורה נכונה, השאלות הבלתי פתורות המועטות שנותרו אינן מעודדות את המודלים לחקור פתרונות מתוחכמים שדורשים מיומנויות אתגריות.’

אם תוצאות המאמר יאושרו, זה יראה כי שדה עצום וגדל של עיבוד נתונים עשוי לצורך לשקול ‘דרכי עקיפין’ בנתונים כבעיה לטיפול בטווח הארוך, או לשנות ארכיטקטורות NLP כדי להעדיף רוטינות אתגריות יותר עבור בליעת נתונים.