ืืื ื ืืืืืืชืืช
ืืืืช NLP ืืืชืืจ ืฉืืืืช ืืืืขืืช

חלק מהשאלות אינן ניתנות לעניין משום שהן מכילות מידע שגוי – הנחות המשותפות שאותן המאזין חייב לסנן ולדחות. זאת מניחה, כמובן, שהמאזין מחזיק במספיק מידע נכון כדי לאתגר את השאלה, במקום להשתמש בשאלה עצמה כמקור למידע (שגוי).
זוהי אתגר עבור מערכות עיבוד שפה טבעית (NLP) כגון GPT-3, שיש להן נטייה ל’הזיות’ מידע כדי לשמור על הדיאלוג.
כרגע, שאילת שאלה ‘מתי מארי קירי המציאה אורניום?’ תקבל כנראה את התשובה ‘מארי קירי המציאה אורניום ב-1898’.

Source: https://beta.openai.com/playground (Da Vinci instruct beta).
בעצם, אורניום התגלה ב-1789 על ידי הכימאי הגרמני מרטין היינריך קלאפרות, בעוד שהתגלית של הזוג קירי ב-1898 הייתה בידוד של רדיום.
בעיית ה-NLP שמתעלמת מהנחות שגויות הפכה לנושא מרכזי במספר פרסומים השנה, כולל הדרך בה תוצאות החיפוש של Google עם AI יעלמו מידע שגוי בשאלה ‘מתי ניל ארמסטרונג נחת על מאדים?’ – שגיאה ש עדיין מוצגת בזמן כתיבת המאמר, ובאותה מידה חלה על Toy Story ‘s Buzz Lightyear, ש נחת על הירח ב-21 ביולי 1969.
טום הנקס, בוגר Toy Story אחר, מיוחס גם לו על ידי Google עם נחיתה על הירח ב-1970, בניגוד לעובדה שדמותו Apollo 13 , אסטרונאוט ג’ים לובל, הוא המפורסם ביותר לא השיג זאת.

טיפול בבעיות הנחות בחילופי NLP
כעת Google Research, יחד עם חוקרים מאוניברסיטת ג’ונס הופקינס ואוניברסיטת בראון, חוקרים שיטות למידת מכונה חדשות שבהן מערכות NLP יוכלו בסופו של דבר לאתגר שאלות שגויות מבחינת עובדות באותה צורה שבה זה חשוב למורים אנושיים לעשות במהלך שיחות עם תלמידים.
המאמר האחרון מי מהלשונאים המציא את נורת הליבון? אימות הנחות לשאלות ותשובות מתאר ניסיון מתואם לפתח מערכת חדשה לזיהוי הנחות ולבדיקת אמיתותן לפני המשך החילופים
האלגוריתם החדש מעבד מראש שאלות לפני שהוא חוזר לשיחה, ומפרק את ‘האימות’ של השאלה בתהליך שלוש-שלבי.

Does not compute! On the left, the ‘roadblock’ that occurs even when an advanced NLP system has been able to identify that the question does not make sense. On the right, a breakdown of a proposed algorithm that attempts to rectify the source error. Source: https://arxiv.org/pdf/2101.00391.pdf
אף על פי שזה נראה כמו שגרה פשוטה של אימות שצריכה להיות מובנית במערכות ידע מלכתחילה, רוב הנתיבים המבוססים על NLP לומדים מידע עם רמת אמון לא מידתית בנתונים, כולל דיבור (כגון חדשות כזב) שיכול להיות פורסם בערוצים ‘מהימנים’ לפני כן.
לכן, בעיה מרכזית היא לזהות בהסכמה מקור מהימן של עובדות באקלים שבו התפשטות של מידע שגוי ‘חדש’ דרך מדיה חברתית הייתה, ברירת מחדל, נותנת לו סמכות תחת הלוגיקה של הכללת מכונה, לפחות עד שתופעת החדשות הכוזבות הפכה לתחום עניין ביקורתי בתחום בשנים האחרונות.
קביעת הגישה הטובה ביותר לשאלות שאינן ניתנות לעניין
כדי לקבוע גישה מתאימה לפתרון שאלה שמכילה מידע שגוי, החוקרים רצו 100 שאלות כאלו דרך ארבעה מודלים שונים של שאלות ותשובות, וביקשו מנבדקים אנושיים לבחור את הפתרון הטוב ביותר או הפחות בעייתי שהמודלים יצרו.
ארבעה תוצאות ארכיטקטוניות אפשריות ל’שאלה רעה’ היו: ‘בלתי ניתנת לעניין’ – שבה מערכת שאלות ותשובות סגורה בעצם סוגרת את השאילתה בלי הרחבה נוספת; ‘הסבר המבוסס על כישלון הנחה’ – שבה המערכת נכשלת באימות ההנחה השגויה, בעצם תשובה ‘בלתי ניתנת לעניין’, עם הוספת הסבר; ‘הסבר מקוצר’ – שבה המערכת מוציאה ציטוט קשור מוויקיפדיה ומצרפת אותו ל’שאלה זו אינה ניתנת לעניין כי…’; ו ‘שכתוב תחום פתוח’ – שבה מערכת תחרותית מחפשת מקורות נוספים מוויקיפדיה.

This example of four possible answers to an apparently ‘unanswerable’ question illustrates the complexity of attempting a competitive domain-based solution to the problem.
במהלך המבחנים, חמישה משתתפים (גויסו בפלטפורמת קראודסורסינג פנימית של Google) העדיפו את התשובות המבוססות על הנחות, מה שהוביל את החוקרים לפתח מסגרת חדשה לפירוק ואימות שאלות.
במערכת החדשה, הגרויים הלשוניים מתקבלים מהשאלה על ידי יוצר כללים שמפרק את המשפט לטענות עובדה. אם מספר הנחות מופקות מהשאלה, כל אחת מהן תחקר, ותשתתף בתשובה הסופית אם הן תוקפות הנחות שגויות מהשאלה המקורית.
מאגרי נתונים
ההנחות שנוצרו בשלב הראשוני תוקנו באופן ידני כדי ליצור מאגר נתונים לאימות עם ‘זהב’ הנחות. כל הנחות שצצו מהסתעפות השאילתה, אך שלא היו נוכחות בשאלות המקוריות, הוסרו.
שניים ממחברי המאמר סימנו במו ידיהם 462 הנחות במונחים של כן/לא אימות, על בסיס דף ויקיפדיה רלוונטי הקשור לכל שאלה. מקרים של אי-הסכמה נפתרו בדיון לאחר מכן לפני שפורסמו במאגר הנתונים.
החוקרים השתמשו ב אימות NLI אפס, משימת סיווג משפט/השערה שדרשה פירוק מאמרי ויקיפדיה הקשורים לשאלות. מכיוון שתהליך זה מוביל להרבה יותר זוגות מאשר השאלה עשויה להעלות או שהמודל תומך, תוצאות הסינון אוגדו וסומנו.
תוצאות וניסוח תגובה
התוצאות היעילות ביותר הושגו על ידי הפתרון המעיין ביותר: היבריד ספציפי יותר, מבוסס כללים / NLI, שנוצר מ ALBERT QNLI עם משפטים והנחות של ויקי.

The performance of the verification models, where ‘Wiki sentences’ uses sentences obtained from question-related Wikipedia articles, and ‘Wiki presuppositions’ are generated presuppositions from those sentences.
באמצעות ניסוח זה, החוקרים פיתחו מערכת תבנית שבה עובדה מנוגדת מוויקיפדיה צורפה ל ‘שאלה זו אינה ניתנת לעניין כי… ‘ ומשפטים דומים. אף על פי שזהו פתרון אידיאלי, המחברים מציעים כי תשובות המבוססות על אי-אימות כנראה יפחיתו את מקרי השלילה השגויה.
המערכת יושמה לבסוף ב Extended Transformer Construction (ETC) מודל.
משמעויות
תלוי בביצועים הסופיים שלו בעולם האמיתי, ניתן לטעון כי גישה זו עלולה להוביל להחלפת ‘בלתי ניתנת לעניין’ ב ‘לא ניתנת לאימות’, במקרים שבהם מערכת המחקר התומכת לא יכולה להעריך תיקון שימושי להנחה השגויה של השאלה. בעצם, נראה שהיא בונה את התשתית למערכות אימות טובות יותר.
החוקרים כבר מודים כי עלות הבקשות API המבוססות טוקנים היא גורם מגביל בניסוח התשובות הארוכות יותר שמערכת זו תיצור, ויש להניח כי עלות המחקר ‘חי’ לשאלה כנראה תוסיף עיכוב גם למערכות גדולות כגון GPT-3, מכיוון שתגובתיות מערכות אלו הייתה עד כה תלויה בשילוב כללי של ידע בזמן אימון, ולא בנתיבי אימות מבוססי רשת.
למשל, מי פיפ מאמין שאסטלה היא אמא של has an embedded possessive under a nonfactive verb believe, but our generator would nevertheless generate ‘estella has ‘mother.’
עם זאת, הצוות שואף לפתח מערכות שאלות ותשובות חדשות וגמישות יותר שיתבססו על מחקר זה:
בעתיד, אנו מתכננים לבנות על עבודה זו על ידי הצעת מערכות QA שהן יותר עמידות ושיתופיות. למשל, סוגים שונים של כישלון הנחה יכולים להיות מטופלים על ידי אסטרטגיות תשובה גמישות יותר – למשל, הפרת הנחות ייחודיות עשויה להיות מטופלת טוב יותר על ידי הצגת כל התשובות האפשריות, במקום לומר שהנחת הייחודיות הופרה.












