בדל יצירת פרפראזה באמצעות למידת חיזוק עמוק - מובילי מחשבה - Unite.AI
צור קשר

בינה מלאכותית

יצירת פרפראזה באמצעות למידת חיזוק עמוק - מובילי מחשבה

mm
מְעוּדכָּן on

כשכותבים או מדברים כולנו תהינו האם יש דרך טובה יותר להעביר רעיון לאחרים. באילו מילים עלי להשתמש? כיצד עלי לבנות את המחשבה? איך הם צפויים להגיב? בְּ פרסי, אנו מבלים זמן רב במחשבה על שפה – מה עובד ומה לא.

תאר לעצמך שאתה כותב את שורת הנושא של מסע פרסום בדוא"ל שיגיע ל-10 מיליון אנשים ברשימה שלך ויקדם 20% הנחה על מחשב נייד חדש ומפואר.

באיזה קו היית בוחר:

  • עכשיו אתה יכול לקחת 20% הנחה נוספים על ההזמנה הבאה שלך
  • תתכוננו - 20% הנחה נוספים

בעוד שהם מעבירים את אותו מידע, אחד השיג שיעור פתיחה גבוה בכמעט 15% מהשני (ואני בטוח שאתה לא יכול לנצח את המודל שלנו בחזות איזה מהם?). בעוד שלעתים קרובות ניתן לבדוק את השפה באמצעות בדיקת A / B or שודדים מרובי זרועות, יצירה אוטומטית של פרפראזות נותרה בעיית מחקר מאתגרת באמת.

שני משפטים נחשבים לפרפראזות זה על זה אם הם חולקים את אותה משמעות וניתן להשתמש בהם לסירוגין. דבר חשוב נוסף שלעתים קרובות מובן מאליו הוא האם משפט שנוצר על ידי מכונה הוא שוטף.

בניגוד ללמידה מפוקחת, סוכני למידת חיזוק (RL) לומדים דרך אינטראקציה עם הסביבה שלהם והתבוננות בתגמול שהם מקבלים כתוצאה מכך. להבדל מעט ניואנסים זה יש השלכות מסיביות על האופן שבו האלגוריתמים פועלים ועל האופן שבו המודלים מאומנים. למידת חיזוק עמוק משתמש ברשתות עצביות כמקרב פונקציות כדי לאפשר לסוכן ללמוד כיצד להעלות על בני אדם בסביבות מורכבות כגון Go, עטרי ו סטארקרפט II.

למרות הצלחה זו, למידת חיזוק לא יושמה באופן נרחב לבעיות בעולם האמיתי כולל עיבוד שפה טבעית (NLP).

במסגרת שלי תזה לתואר שני במדעי הנתונים, אנו מדגימים כיצד ניתן להשתמש ב-Deep RL כדי לעלות על שיטות למידה בפיקוח בהפקה אוטומטית של פרפראזות של טקסט קלט. ניתן לראות את הבעיה של יצירת הפרפרזה הטובה ביותר כמציאת סדרת המילים אשר ממקסמת את הדמיון הסמנטי בין משפטים תוך שמירה על שטף בפלט. סוכני RL מתאימים היטב למציאת מערכת הפעולות הטובה ביותר להשגת התגמול המקסימלי הצפוי בסביבות בקרה.

בניגוד לרוב הבעיות בלמידת מכונה, הבעיה הגדולה ביותר ברוב יישומי Natural Language Generation (NLG) אינה טמונה במודלים אלא בהערכה. בעוד שהערכה אנושית נחשבת כיום לתקן הזהב בהערכת NLG, היא סובלת מחסרונות משמעותיים כולל היותה יקרה, גוזלת זמן, מאתגרת לכוונון וחוסר יכולת לשחזור בין ניסויים ומערכי נתונים (האן, 2016). כתוצאה מכך, חוקרים כבר זמן רב מחפשים מדדים אוטומטיים שהם פשוטים, ניתנים להכללה ואשר משקפים שיקול דעת אנושי (Papineni et al., 2002).

שיטות ההערכה האוטומטיות הנפוצות ביותר בהערכת כתוביות תמונה שנוצרו במכונה מסוכמות להלן עם היתרונות והחסרונות שלהן:

יצירת פרפראזה באמצעות צינור למידת חיזוק

פיתחנו מערכת בשם ParaPhrasee אשר מייצרת פרפרזות באיכות גבוהה. המערכת מורכבת ממספר שלבים על מנת ליישם למידת חיזוק בצורה יעילה מבחינה חישובית. סיכום קצר של הצינור ברמה הגבוהה מוצג להלן עם פרטים נוספים הכלולים ב תזה.

מערך נתונים

ישנם מספר מערכי נתונים של פרפרזה המשמשים במחקר, כולל: ה קורפוס פרפרזה של מיקרוסופט, תחרות דמיון טקסט סמנטי של ACL, Quora שאלות כפולות, ו קישורים משותפים של טוויטר. אנחנו בחרנו MS-COCO בהתחשב בגודלו, הניקיון והשימוש בו כאמת מידה לשני מאמרים בולטים של דור פרפראזה. MS-COCO מכיל 120 תמונות של סצנות נפוצות עם 5 כתוביות תמונה לכל תמונה שסופקו על ידי 5 כותבים אנושיים שונים.

למרות שהוא מיועד בעיקר לחקר ראייה ממוחשבת, הכיתובים נוטים להיות בעלי דמיון סמנטי גבוה והם פרפראזות מעניינות. בהתחשב בכתוביות התמונה מסופקות על ידי אנשים שונים, יש להם וריאציות קלות בפרטים הניתנים בסצנה ולכן המשפטים שנוצרו נוטים להזות פרטים.

דגם מפוקח

בעוד שלמידת חיזוק השתפרה במידה ניכרת מבחינת יעילות הדגימה, זמני האימון ושיטות העבודה המומלצות הכוללות, אימון מודלים של RL מאפס הוא עדיין איטי מאוד ולא יציב יחסית (Arulkumaran et al., 2017). לכן, במקום לאמן מאפס, אנו קודם כל מאמנים דגם בפיקוח ולאחר מכן מכווננים אותו באמצעות RL.

אנו משתמשים ב- מקודד-מפענח מסגרת מודל ולהעריך את הביצועים של מספר מודלים בפיקוח בסיסי. בעת כוונון עדין של הדגם באמצעות RL, אנו מכווננים רק את רשת המפענח ומתייחסים לרשת המקודד כסטטית. ככזה אנו רואים שתי מסגרות עיקריות:

  • אימון הדגם המפוקח מאפס באמצעות מפענח מקודד סטנדרטי/וניל עם GRUs
  • שימוש במודלים של הטבעת משפטים מאומנים מראש עבור המקודד, כולל: הטמעות מילים מאוחדות (GloVe), InferSent ו-BERT

הדגמים המפוקחים נוטים לביצועים דומים למדי בכל הדגמים, כאשר BERT ומקודד-מפענח וניל משיגים את הביצועים הטובים ביותר.

בעוד שהביצועים נוטים להיות סבירים, ישנם שלושה מקורות שגיאה נפוצים: גמגום, יצירת שברי משפטים והזיות. אלו הן הבעיות העיקריות ששימוש ב-RL שואף לפתור.

מודל למידת חיזוק

יישום אלגוריתמי RL הוא מאוד מאתגר במיוחד כאשר אינך יודע אם ניתן לפתור את הבעיה. יכולות להיות בעיות ביישום הסביבה שלך, הסוכנים שלך, הפרמטרים ההיפר, פונקציית התגמול שלך, או שילוב של כל האמור לעיל! הבעיות הללו מחמירות כאשר עושים RL עמוק כאשר אתה מקבל את הכיף מהמורכבות הנוספת של איתור באגים ברשתות עצביות.

כמו בכל ניפוי באגים, זה חיוני ל להתחיל פשוט. יישמנו וריאציות של שתי סביבות RL של צעצוע מובנות היטב (CartPole ו-FrozenLake) כדי לבדוק אלגוריתמי RL ולמצוא אסטרטגיה שניתן לחזור עליה להעברת ידע מהמודל המפוקח.

מצאנו ששימוש ב-an אלגוריתם שחקן-מבקר ביצועים טובים יותר מ-REINFORCE בסביבות אלו. מבחינת העברת ידע למודל השחקן-מבקר, מצאנו שאתחול המשקולות של השחקן עם המודל המפוקח המיומן והכשרה מוקדמת של המבקר השיג את הביצועים הטובים ביותר. מצאנו את זה מאתגר להכליל גישות מתוחכמות של זיקוק מדיניות לסביבות חדשות מכיוון שהן מציגות היפרפרמטרים חדשים רבים הדורשים כוונון כדי לעבוד.

בתמיכת התובנות הללו, אנו פונים לפיתוח גישה למשימת יצירת הפרפרזה. ראשית עלינו ליצור סביבה.

הסביבה מאפשרת לנו לבדוק בקלות את ההשפעה של שימוש במדדי הערכה שונים כפונקציות תגמול.

לאחר מכן אנו מגדירים את הסוכן, לאור יתרונותיו הרבים אנו משתמשים בארכיטקטורת שחקן-מבקר. השחקן משמש לבחירת המילה הבאה ברצף ומשקולות שלה מאתחלים באמצעות המודל המפוקח. המבקר מספק אומדן של התגמול הצפוי שמדינה צפויה לקבל כדי לעזור לשחקן ללמוד.

עיצוב פונקציית התגמול הנכונה

המרכיב החשוב ביותר בתכנון מערכת RL הוא פונקציית התגמול שכן זה מה שסוכן RL מנסה לייעל. אם פונקציית התגמול שגויה, התוצאות ייפגעו גם אם כל חלק אחר במערכת יעבוד!

דוגמה קלאסית לכך היא CoastRunners שבו החוקרים של OpenAI קבעו את פונקציית התגמול כמקסום הניקוד הכולל במקום ניצחון במירוץ. התוצאה של זה היא שהסוכן גילה לולאה שבה הוא יכול לקבל את הציון הגבוה ביותר על ידי פגיעה בטורבו מבלי להשלים את המירוץ.

בהתחשב בהערכת איכות הפרפראזות היא בעצמה בעיה בלתי פתורה, עיצוב פונקציית תגמול שתופס את המטרה הזו הוא אפילו קשה יותר. רוב ההיבטים של השפה אינם מתפרקים יפה למדדים ליניאריים והם תלויי משימה (נוביקובה וחב', 2017).

סוכן RL מגלה לעתים קרובות אסטרטגיה מעניינת למקסום התגמולים המנצלת את החולשות במדד ההערכה במקום לייצר טקסט באיכות גבוהה. זה נוטה לגרום לביצועים גרועים במדדים שהסוכן אינו מייעל ישירות.

אנו רואים שלוש גישות עיקריות:

  1. מדדי חפיפה במילים

מדדי הערכת NLP נפוצים מתייחסים לשיעור חפיפת המילים בין הפרפרזה שנוצרה למשפט ההערכה. ככל שהחפיפה גדולה יותר כך התגמול גדול יותר. האתגר עם גישות ברמת המילה הוא שהסוכן כולל יותר מדי מילים מקשרות כמו "a is on of" ואין מידה של שטף. זה מביא לפרפראזות באיכות נמוכה מאוד.

  1. מדדי דמיון ושטף ברמת המשפט

המאפיינים העיקריים של פרפרזה שנוצרה הם שהיא חייבת להיות שוטפת ודומה מבחינה סמנטית למשפט הקלט. לכן, אנו מנסים לקלוע במפורש אלה בנפרד ואז לשלב את המדדים. לדמיון סמנטי, אנו משתמשים בדמיון הקוסינוס בין הטבעות משפטים ממודלים שהוכשרו מראש כולל BERT. לצורך שטף, אנו משתמשים בניקוד המבוסס על התמיהה של משפט מ-GPT-2. ככל שדימיון הקוסינוס וציוני השטף גבוהים יותר כך התגמול גדול יותר.

ניסינו שילובים רבים ושונים של מודלים של הטבעת משפטים ומודלים של שטף, ולמרות שהביצועים היו סבירים, הבעיה העיקרית שאיתה התמודד הסוכן לא הייתה איזון מספיק בין דמיון סמנטי לשטף. ברוב התצורות, הסוכן העניק עדיפות לשטף שהביא להסרת פרטים ורוב הישויות הוצבו "באמצע" של משהו או הועברו "על שולחן" או "בצד הדרך".

למידת חיזוק רב-אובייקטיבית היא שאלת מחקר פתוחה והיא מאתגרת מאוד במקרה זה.

  1. שימוש במודל יריב כפונקציית תגמול

בהינתן שבני אדם נחשבים לתקן הזהב בהערכה, אנו מאמנים מודל נפרד שנקרא המאבחן כדי לחזות אם שני משפטים הם פרפראזות זה על זה או לא (בדומה לאופן שבו אדם היה מעריך). המטרה של מודל ה-RL היא לשכנע את המודל הזה שהמשפט שנוצר הוא פרפרזה על הקלט. המאבחן מייצר ציון של מידת הסיכוי ששני המשפטים יהיו פרפראזות זה על זה, המשמש כפרס לאימון הסוכן.

כל 5,000 ניחושים נאמר למבדיל איזו פרפרזה הגיעה ממערך הנתונים ואיזו נוצרה כדי שיוכל לשפר את הניחושים העתידיים שלו. התהליך נמשך מספר סבבים כאשר הסוכן מנסה לרמות את המפלה והמבדיל מנסה להבדיל בין הפרפראזות שנוצרו לפרפראזות ההערכה ממערך הנתונים.

לאחר מספר סבבי אימון, הסוכן מייצר פרפראזות שעוברות על המודלים המפוקחים ותפקודי תגמול אחרים.

מסקנה ומגבלות

גישות יריבות (כולל משחק עצמי למשחקים) מספקות גישה מבטיחה ביותר לאימון אלגוריתמי RL לחרוג מהביצועים ברמה האנושית במשימות מסוימות מבלי להגדיר פונקציית תגמול מפורשת.

בעוד RL הצליחה להתעלות על למידה מפוקחת במקרה זה, כמות התקורה הנוספת במונחים של קוד, חישוב ומורכבות אינה שווה את הרווח בביצועים עבור רוב היישומים. כדאי להשאיר את RL למצבים שבהם לא ניתן ליישם בקלות למידה מפוקחת, ופונקציית תגמול קלה להגדרה (כגון משחקי Atari). הגישות והאלגוריתמים בוגרים הרבה יותר בלמידה מפוקחת ואות השגיאה הרבה יותר חזק מה שמביא לאימון מהיר ויציב הרבה יותר.

שיקול נוסף הוא, כמו בגישות עצביות אחרות, שהסוכן יכול להיכשל בצורה דרמטית מאוד במקרים שבהם הקלט שונה מהתשומות שהוא ראה בעבר, מה שמצריך שכבה נוספת של בדיקות שפיות עבור יישומי ייצור.

פיצוץ העניין בגישות RL וההתקדמות בתשתית חישובית בשנים האחרונות יפתחו הזדמנויות עצומות ליישום RL בתעשייה, במיוחד בתוך NLP.

אנדרו גיבס-בראבו הוא מדען נתונים ב פרסי התמקד בשיפור הטכנולוגיה שמאחורי קופירייטינג המוביל בעולם בינה מלאכותית של Phrasee. הוא גם מארגן שותף של מפגש קהילת למידה חינוכית בלונדון ומתעניין בכל הקשור ל-RL, NLP ולמידת מכונה.