ืืื ื ืืืืืืชืืช
ืืฆืืจืช ืืืจืงืื ืืื ืืื ืืืืืืชืืื ืขื ืืืืื ืฉืคื ืืืืฉืจืื ืืจืืฉ

חלק גדול מפיתוח מערכות למידת מכונה תלוי בסימון נתונים, שם מאות, אפילו אלפי שאלות (כגון האם זה תמונה של חתול? ו האם הטקסט הזה מגונה?) חייבות להיפתר על מנת לפתח מאגרי נתונים מוסמכים שעליהם יתאמנו מערכות האינטליגנציה המלאכותית.
אף על פי ש כולנו תורמים לתהליך הזה בנקודת זמן מסוימת, רוב המשימות האלה מבוצעות תמורת כסף על ידי עובדים אנושיים במסגרות כגון Amazon Mechanical Turk, שם מעניקי סימון מלאים משימות סיווג מינוריות ב כלכלת עבודה.
פיתוח המודלים יהיה זול יותר אם מודלי שפה מוכשרים מראש (PLMs) יוכלו לבצע בעצמם חלק מהמשימות הבסיסיות יותר של Human Intelligence Tasks (HITs) הנמצאות כיום בשירות AMT ו פלטפורמות דומות.
מחקר אחרון מגרמניה ו-Huawei מציע זאת, ב מאמר LMTurk: Few-Shot Learners as Crowdsourcing Workers.
מודלי שפה המבצעים למידה בעלת כמות קטנה של דוגמאות
המחברים מציעים כי השכבות הפשוטות יותר של משימות המכוונות בדרך כלל לעובדים אנושיים דומות ל למידה בעלת כמות קטנה של דוגמאות, שם מסגרת אוטומטית חייבת להחליט על משימה קטנה על בסיס כמות קטנה של דוגמאות הניתנות לה.
הם מציעים, אפוא, כי מערכות אינטליגנציה מלאכותית יכולות ללמוד באופן יעיל ממודלי שפה מוכשרים מראש שהוכשרו במקור על ידי עובדים בקרודסורסינג – כי הידע הבסיסי שהועבר מאנשים למכונות הושלם בעצם, וכי שם ידע זה יחסית בלתי משתנה או אמפירי באופן כלשהו, מסגרות מודלי שפה אוטומטיות יכולות לבצע את המשימות האלה בעצמן.
‘הרעיון הבסיסי שלנו הוא שב-NLP, ניתן לראות few-shot learners כפועלים לא מומחים, הדומים לעובדים בקרודסורסינג שמסמנים משאבים לטכנולוגיית שפה אנושית. אנו מושפעים מהעובדה שניתן לראות עובד קרודסורסינג כסוג של few-shot learner.’
המשמעויות כוללות את האפשרות שרבות מהאמיתות הגרעיניות עליהן מערכות האינטליגנציה המלאכותית של העתיד תלויות יהיו מושגות מבני אדם כמה שנים קודם, ולאחר מכן יוחזקו כמידע מוכח וניתן לניצול, שלא יוסיף לדרוש התערבות אנושית.
משרות עבור מודלי שפה בינוניים, בעלי ביצועים חלקיים
מלבד המניע לקצץ את עלות העובדים האנושיים, החוקרים מציעים כי השימוש במודלי שפה מוכשרים מראש ‘בינוניים’ כ אמיתי טורקים מכניים, מספק עבודה שימושית עבור מערכות אלו, שנמצאות ביחס למודלי שפה גדולים, יקרים ומושכי ההדים כגון GPT-3, שהם יקרים מדי ומפותחים יתר על המידה עבור משימות כאלו.
‘מטרתנו במאמר זה היא לפתח שיטות שיעשו שימוש יעיל יותר ב few-shot learners הנוכחיים. זה חשוב מאוד, מכיוון שמספר גדול של few-shot learners ענקיים מאומנים; איך להשתמש בהם באופן יעיל הוא שאלה חשובה. בפרט, אנו רוצים חלופה למודלים ענקיים שקשה להטמיעם.’
‘בו-זמנית, אנו רוצים לנצל את חוזקיהם של PLMs: גמישותם מבטיחה יישומים רחבים ברחבי משימות; הידע העצום שלהם על שפה ועולם (שנלמד באימון מוקדם) מתבטא ביעילות הנתונים של few-shot learners, ומקטין את צריכת העבודה והזמן בסימון נתונים.’
עד כה, טוענים המחברים, few-shot learners ב-NLP טופלו כשלבים זמניים וביניים בדרך למערכות שפה טבעית ברמה גבוהה, שהן רבות יותר במשאבים, וכי עבודה זו בוצעה באופן מופשט וללא התייחסות לתועלת האפשרית של מערכות אלו.
שיטה
המחברים מציעים LMTurk (Language Model as mechanical Turk), בזרימת עבודה שבה קלט ממערכת אוטומטית זו מספק תוויות עבור מודל NLP ברמה בינונית.

A basic concept model for LMTurk. Source: https://arxiv.org/pdf/2112.07522.pdf
גרסה ראשונית זו מסתמכת על נתונים ‘זהב’ מסומנים על ידי בני אדם, שבהם עובדים אנושיים סימנו תוויות עבור מספר מוגבל של משימות, והתוויות נסקרו היטב, הן באמצעות פיקוח אנושי ישיר או באמצעות הצבעת קונצנזוס. המשמעות לסכמה זו היא כי ענפים או פיתוחים מנקודת התחלה זו אולי לא יזדקקו לקלט אנושי נוסף בדרך.
אף על פי שהמחברים מציעים ניסויים נוספים עם מודלים היברידיים מאוחרים (שבהם קלט אנושי יהיה נוכח, אך מופחת באופן משמעותי), הם לא, לצורך מחקרם, השוו LMTurk מול תוצאות שקולות מעובדי HIT אנושיים, בהתחשב בעובדה כי הנתונים המסומנים ‘זהב’ הם בעצם ‘קלט אנושי’.
ה-PLM שתוכנן לבצע פעולות טורק הותאם למשימה על ידי P-Tuning, שיטה שפורסמה על ידי חוקרים מסין ב-2021, שהציעה הטמעות רציף מאומנות לשיפור ביצועים של מודלים בסגנון GPT-3 במשימות הבנת שפה טבעית (NLU).
![P-Tuning attempts to deepen a GPT-style model's predictive power, and its appearance of conceptual understanding of language, by incorporating embedded pseudo-prompts. In this case, the start query is 'The capital of Britain is a [x]'. Source: https://arxiv.org/pdf/2103.10385.pdf](https://www.unite.ai/wp-content/uploads/2021/12/p-tuning.jpg)
P-Tuning attempts to deepen a GPT-style model’s predictive power, and its appearance of conceptual understanding of language, by incorporating embedded pseudo-prompts. In this case, the start query is ‘The capital of Britain is a [x]’. Source: https://arxiv.org/pdf/2103.10385.pdf
נתונים וארכיטקטורה
LMTurk הוערך על חמישה מאגרי נתונים: שניים מ Stanford Sentiment Treebank; AG’s News Corpus; Recognizing Textual Entailment (RTE); ו-Corpus of Linguistic Acceptability (CoLA).
בשביל המודל הגדול יותר, LMTurk משתמש ב-PLMs הזמינים באופן ציבורי ALBERT-XXLarge-v2 (AXLV2) כמודל המקור להמרה לטורק אוטומטי. המודל מציג 223 מיליון פרמטרים (לעומת 175 מיליארד פרמטרים ב-GPT-3). AXLV2, המחברים מציינים, הוכח כמסוגל להתגבר על מודלים בקנה מידה גדול יותר כגון 334M BERT-Large.
בשביל מודל יותר זריז, קל ומותקן בקצה, הפרויקט משתמש ב-TinyBERT-General-4L-312D (TBG), שמציג 14.5 מיליון פרמטרים עם ביצועים דומים ל-BERT-base (שיש לו 110 מיליון פרמטרים).
אימון עם פרומפטים התרחש על PyTorch ו-HuggingFace עבור AXLV2 ב-100 צעדי batch בגודל batch של 13, בקצב למידה של 5e-4, באמצעות ירידה ליניארית. כל ניסוי התחיל עם שלושה זרעים אקראיים שונים.
תוצאות
LMTurk project runs diverse models against so many specific sub-sectors of NLP that the complex results of the researchers’ experiments are not easy to reduce down to empirical evidence that LMTurk offers in itself a viable approach to re-use of historical, human-originated HIT-style few shot learning scenarios.
However, for evaluation purposes, the authors compare their method to two prior works: Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference by German researchers Timo Schick and Hinrich Schutze; and results from Prompt-Based Auto, featured in Making Pre-trained Language Models Better Few-shot Learners by Gao, Chen and Fisch (respectively from Princeton and MIT).

Results from the LMTurk experiments, with the researchers reporting ‘comparable’ performance.
In short, LMTurk offers a relatively promising line-of-inquiry for researchers seeking to embed and enshrine gold-labeled human-originated data into evolving, mid-complexity language models where automated systems stand in for human input.
As with the relatively small amount of prior work in this field, the central concept relies on the immutability of the original human data, and the presumption that temporal factors – which can represent significant roadblocks to NLP development – will not require further human intervention as the machine-only lineage evolves.
Originally published 30th December 2022












