בינה מלאכותית

יצירת טורקים מכניים מלאכותיים עם מודלים של שפה מאומנים מראש

מְעוּדכָּן on דצמבר 9, 2022

חלק גדול מהפיתוח של מערכות למידת מכונה תלוי בתיוג של נתונים, שבו מאות, אפילו אלפי שאלות (כגון זו תמונה של חתול? ו האם הטקסט הזה פוגע?) יש ליישב על מנת לפתח מערכי נתונים סמכותיים שעליהם יוכשרו מערכות בינה מלאכותית.

למרות כולנו תורמים לתהליך זה בשלב מסוים, רוב משימות התיוג הללו הן בוצע תמורת כסף על ידי עובדים אנושיים במסגרות כמו Amazon Mechanical Turk, שבהן מסיימים משימות סיווג קלות ב-Amazon Mechanical Turk. כלכלת עבודה חתיכה.

פיתוח מודלים יהיה זול יותר אם מודלים של שפה מאומנים מראש (PLMs) יוכלו כשלעצמם לבצע כמה ממשימות המודיעין האנושי הבסיסיות יותר (HITs) שנמצאות כיום במקורות המונים ב-AMT ו פלטפורמות דומות.

מחקר אחרון מגרמניה ו-Huawei מציע זאת, ב- מאמר LMTurk: לומדים מעטים כעובדי מיקור המונים.

מודלים של שפה המבצעים למידה של מעט יריות

המחברים מציעים כי השכבות הפשוטות יותר של משימות המכוונות בדרך כלל לעובדים טורקים (אנושיים) דומות ל כמה יריות למידה, כאשר מסגרת אוטומטית צריכה להחליט על מיני משימה על סמך מספר קטן של דוגמאות שניתנו לה.

לכן הם מציעים שמערכות בינה מלאכותית יכולות ללמוד ביעילות מ-PLMs קיימים שהוכשרו במקור על ידי עובדי המונים - שהידע המרכזי שהועבר מאנשים למכונות כבר הושג ביעילות, ושאם ידע כזה הוא בלתי משתנה יחסית או אמפירי בדרך כלשהי, שפה אוטומטית מסגרות מודל יכולות לבצע משימות אלו בעצמן.

"הרעיון הבסיסי שלנו הוא שבמשימת NLP T, אנו מתייחסים ללומדים מועטים כאל עובדים שאינם מומחים, הדומים לעובדי מיקור המונים שמביאים הערות למשאבים לטכנולוגיה של שפה אנושית. אנו שואבים השראה מהעובדה שאנו יכולים לראות בעובד מיקור המונים סוג של לומד עם מעט יריות״.

ההשלכות כוללות את האפשרות שרבות מהאמיתות הבסיסיות שבהן תלויות מערכות בינה מלאכותית של העתיד נגזרו מבני אדם לא מעט שנים קודם לכן, לאחר מכן יטופלו כמידע מאומת מראש וניתן לניצול שאינו דורש יותר התערבות אנושית.

משרות עבור מודלים שפה בינוניים, ביצועים למחצה

מלבד המוטיבציה לצמצם את העלות של בני אדם במעגל, החוקרים מציעים ששימוש ב-PLMs 'בינוני' בתור באמת Mechanical Turks מספקת עבודה שימושית עבור המערכות ה'פעלו גם' אלו, אשר יותר ויותר מואפלות על ידי דגמי שפות תופסי כותרות, יתר קנה מידה ויקרים כגון GPT-3, שהם יקרים ומצויינים מדי עבור משימות כאלה.

"המטרה שלנו במאמר זה היא להמציא שיטות שעושות שימוש יעיל יותר בלומדים הנוכחיים. זה חיוני מכיוון שמספר גדל והולך של לומדי ענק מועטים מאומנים; כיצד להשתמש בהם ביעילות היא אפוא שאלה חשובה. בפרט, אנחנו רוצים אלטרנטיבה לדגמי ענק שקשה לפריסה.

"במקביל, אנחנו רוצים לנצל את מלוא היתרונות של ה-PLMs: הרבגוניות שלהם מבטיחה ישימות רחבה על פני משימות; מאגר הידע העצום שלהם על השפה והעולם (שנלמד בהכשרה מוקדמת) מתבטא ביעילות הנתונים של לומדים מועטים, תוך הפחתת עבודה וצריכת זמן בביאור נתונים.'

עד כה, טוענים המחברים, התייחסו ללומדי NLP מועטים כשלבי ביניים חד-פעמיים בדרך למערכות שפה טבעית ברמה גבוהה, עתירות משאבים הרבה יותר, וכי עבודה כזו נעשתה בצורה מופשטת וללא התחשבות ב שימוש אפשרי של מערכות אלו.

שִׁיטָה

הצעת המחברים LMTurk (מודל שפה בתור טורקי מכני), בזרימת עבודה שבה קלט מ-HIT אוטומטי זה מספק תוויות למודל NLP ברמה בינונית.

מודל קונספט בסיסי עבור LMTurk. מקור: https://arxiv.org/pdf/2112.07522.pdf

איטרציה ראשונה זו מסתמכת על נתוני 'זהב' עם תווית אנושית מועטה, כאשר הטורקים של כלי בשר ציינו תוויות עבור מספר מוגבל של משימות, והתוויות זכו לניקוד טוב, בין אם באמצעות פיקוח אנושי ישיר או באמצעות הצבעה בקונצנזוס. המשמעות של סכימה זו היא שייתכן שהמתפצלות או התפתחויות מנקודת ההתחלה המבוססת על האדם לא יזדקקו לקלט אנושי נוסף בהמשך הדרך.

אף על פי שהכותבים מציעים ניסויים נוספים עם מודלים היברידיים מאוחרים יותר (בהם קלט אנושי יהיה קיים, אך מופחת מאוד), הם לא הציבו, למטרות המחקר שלהם, מודלים של LMTurk מול תוצאות מקבילות של עובדי HIT שנוצרו על ידי אדם, בהתחשב בכך שה נתונים עם תווית זהב הם בעצמם 'קלט אנושי'.

ה-PLM שנועד לבצע פעולות טורק הותאם למשימה על ידי P-Tuning, שיטה שפורסמה על ידי חוקרים מסין בשנת 2021, שהציעה רציפה ניתנת לאימון הטמעות מיידיות כדי לשפר את הביצועים של מודלים בסגנון GPT-3 במשימות של הבנת שפה טבעית (NLU).

P-Tuning מנסה להעמיק את כוח הניבוי של מודל בסגנון GPT, ואת הופעתו של הבנה רעיונית של השפה, על ידי שילוב פסבדו-הנחיות משובצות. במקרה זה, שאילתת ההתחלה היא 'בירת בריטניה היא [x]'. מקור: https://arxiv.org/pdf/2103.10385.pdf

נתונים וארכיטקטורה

LMTurk הוערך על חמישה מערכי נתונים: שניים מה- סטנפורד סנטימנט Treebank; של AG קורפוס חדשות; זיהוי מעורבות טקסטואלית (RTE); וקורפוס של קבילות לשונית (קולה).

עבור הדגם הגדול יותר שלה, LMTurk משתמשת ב-PLMs הזמינים לציבור ALBERT-XXLarge-v2 (AXLV2) כמודל המקור להמרה לטורקי אוטומטי. הדגם כולל 223 מיליון פרמטרים (בניגוד ל- 175 מיליארד פרמטרים ב-GPT-3). AXLV2, מציינים המחברים, הוכיחה את עצמה מסוגלת להתעלות על דגמים בקנה מידה גבוה יותר כמו 334M BERT-Large.

לדגם זריז יותר, קל משקל וניתן לפריסה בקצה, הפרויקט משתמש ב-TinyBERT-General-4L-312D (TBG), הכולל 14.5 מיליון פרמטרים עם ביצועים דומים ל-BERT-base (שיש לו 110 מיליון פרמטרים).

הכשרה המותאמת מיידית התקיימה ב- PyTorch ו- HuggingFace עבור AXLV2 מעל 100 שלבי אצווה בגודל אצווה של 13, בקצב למידה של 5e-4, תוך שימוש בדעיכה ליניארית. כל ניסוי נוצר בשלושה זרעים אקראיים שונים.

תוצאות

פרויקט LMTurk מפעיל מודלים מגוונים כנגד כל כך הרבה תת-מגזרים ספציפיים של NLP, עד שלא קל לצמצם את התוצאות המורכבות של ניסויי החוקרים עד לראיות אמפיריות לכך ש-LMTurk מציע כשלעצמו גישה מעשית לשימוש חוזר בהיסטוריה, אנושית- מקורם של תרחישי למידה מעטים בסגנון HIT.

עם זאת, למטרות הערכה, המחברים משווים את השיטה שלהם לשתי עבודות קודמות: ניצול שאלות Cloze עבור מעט סיווג טקסט מצולם והסקת שפה טבעית על ידי החוקרים הגרמנים טימו שיק והינריך שוצה; ותוצאות מ אוטומטי מבוסס הנחיות, מופיע ב הפיכת מודלים של שפה שהוכשרו מראש לטובים יותר ללומדי מספר מועט מאת גאו, צ'ן ופיש (בהתאמה מפרינסטון ו-MIT).

תוצאות מניסויי LMTurk, כאשר החוקרים דיווחו על ביצועים 'ניתנים להשוואה'.

בקיצור, LMTurk מציעה קו חקירה מבטיח יחסית לחוקרים המבקשים להטמיע ולעגן נתונים שמקורם בתווית זהב במודלים מתפתחים של שפה בינונית, שבהם מערכות אוטומטיות עומדות בפני קלט אנושי.

בדומה לכמות הקטנה יחסית של עבודה קודמת בתחום זה, התפיסה המרכזית מסתמכת על חוסר השינוי של הנתונים האנושיים המקוריים, וההנחה שגורמים זמניים - שיכולים לייצג חסמים משמעותיים לפיתוח NLP - לא ידרשו התערבות אנושית נוספת שכן שושלת מכונה בלבד מתפתחת.

פורסם במקור ב-30 בדצמבר 2022