Connect with us

ืœืงืจืืช ื›ืชื™ื‘ืช ืžื“ืข ืื•ื˜ื•ืžื˜ื™ืช

ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช

ืœืงืจืืช ื›ืชื™ื‘ืช ืžื“ืข ืื•ื˜ื•ืžื˜ื™ืช

mm

בבוקר, כאשר גלשתי במדורי מדעי המחשב בארכיון Arxiv, כפי שאני עושה ברוב הבקרים, נתקלתי במאמר אחרון מאמר מאוניברסיטה הפדרלית של סיארה בברזיל, המציע כיוון חדש של עיבוד שפה טבעית לאוטומציה של סיכום וחילוץ נתונים מרכזיים ממאמרים מדעיים.

מכיוון שזה בערך מה שאני עושה כל יום, המאמר הביא לזכרי הערה על חוט כותבים ב-Reddit מוקדם יותר השנה – נבואה לפיה כתיבת מדע תהיה בין המשרות העיתונאיות הראשונות שייתפסו על ידי למידת מכונה.

תנו לי להיות ברור –  אני מאמין באופן מוחלט שהכותב המדעי האוטומטי בא, ושכל האתגרים שאני מתאר במאמר זה הם או פתירים כעת, או בסופו של דבר ייפתרו. במקומות בהם אפשר, אני נותן דוגמאות לכך. בנוסף, אני לא עוסק בשאלה האם כותבי מדע אוטומטיים נוכחיים או בעתיד הקרוב יוכלו לכתוב באופן קוהרנטי; על בסיס רמת העניין הנוכחית בתחום זה של NLP, אני מניח שאתגר זה בסופו של דבר ייפתר.

במקום זאת, אני שואל אם כותב מדעי אוטומטי יוכל לזהות סיפורים מדעיים רלוונטיים בהתאם לתוצאות הרצויות (והמשתנות במידה רבה) של מו”לים.

אני לא חושב שזה קרוב; על בסיס גלישה דרך כותרות ו/או עותק של כ-2000 מאמרים מדעיים חדשים על למידת מכונה כל שבוע, יש לי גישה צינית יותר להיקף שבו ניתן לפרק הגשות אקדמיות באופן אלגוריתמי, הן לצורכי אינדקס אקדמי והן לעיתונאות מדעית. כרגיל, זה אנשים שמפריעים.

דרישות לכותב מדע אוטומטי

בואו נבחן את האתגר של אוטומציה של דיווח מדעי על מחקר אקדמי אחרון. כדי לשמור על הוגנות, נגביל זאת בעיקר לקטגוריות CS של הדומיין Arxiv הפופולרי והפתוח Arxiv מאוניברסיטת קורנל, שלפחות יש לו מספר תכונות מוסכמות ומתועדות שניתן לחבר לצינור מיצוי נתונים.

בואו נניח גם כי המשימה שלפנינו, כמו המאמר החדש מברזיל, היא לעבור דרך כותרות, סיכומים, מטא-נתונים ו(אם מוצדק) תוכן גוף של מאמרים מדעיים חדשים בחיפוש אחר קבועים, פרמטרים אמינים, טוקנים ומידע תחום פעיל וניתן להפחתה.

מסבך את התבנית

שכבה מעודדת של התאמה ורגולציה היא ש-Arxiv מחייב תבנית מאוד מוסכמת להגשות, ומספק הוראות מפורטות למחברים. לפיכך, מאמרים בדרך כלל עומדים בחלקים מהפרוטוקול שחלים על העבודה המתוארת.

כך שמערכת ה-NLP לכתיבה מדעית אוטומטית יכולה בדרך כלל לטפל בחלקים כאלו כתת-תחומים: תקציר, מבוא, עבודה קודמת/קשורה, מתודולוגיה/נתונים, תוצאות/ממצאים, מחקרי ביטול, דיון, מסקנה.

אולם, בפועל, חלק מהחלקים האלה עשויים להיעדר, להיקרא מחדש, או להכיל תוכן שמבחינה טכנית שייך לחלק אחר. עוד, מחברים יכולים לכלול כותרות ותת-כותרות שאינן עומדות בתבנית. לפיכך, זה ייפול על NLP/NLU לזהות תוכן קשור לחלק מההקשר.

כיוון לצרות

היררכיה של כותרות היא דרך קלה עבור מערכות NLP לקטלג באופן ראשוני בלוקים של תוכן. הרבה מהגשות Arxiv מיוצאות מ-Microsoft Word (כפי שניתן לראות ב-PDF של Arxiv שהותירו ‘Microsoft Word’ בכותרת העמוד – ראו תמונה למטה). אם תשתמש בכותרות מתאימות ב-Word, ייצוא ל-PDF ייצר מחדש אותם ככותרות היררכיות שימושיות לתהליכי מיצוי נתונים של מכונה.

אולם, זה מניח שהמחברים באמת משתמשים בתכונות האלו ב-Word, או במסגרות יצירת מסמכים אחרות, כגון TeX ונגזרות (נדירות שמסופקות כפורמטים ילידים בהגשות Arxiv, עם רוב ההצעות מוגבלות ל-PDF ולעיתים קרובות גם PostScript).

… (rest of the translation remains the same, following the exact same structure and formatting as the original, without any modifications or additions)

ื›ื•ืชื‘ ืขืœ ืœืžื™ื“ืช ืžื›ื•ื ื”, ืžื•ืžื—ื” ืชื—ื•ื ื‘ืกื™ื ืชื–ื” ืฉืœ ืชืžื•ื ื•ืช ืื ื•ืฉื™ื•ืช. ืœืฉืขื‘ืจ ืจืืฉ ืชื•ื›ืŸ ืžื—ืงืจ ื‘- Metaphysic.ai.
ืืชืจ ืื™ืฉื™: martinanderson.ai
ืฆื•ืจ ืงืฉืจ: [email protected]
ื˜ื•ื•ื™ื˜ืจ: @manders_ai