Connect with us

ืœืžื™ื“ืช ืžื›ื•ื ื” ืžื•ืฆื™ืื” ื ืชื•ื ื™ ืชืงื™ืคื” ืžื“ื•”ื—ื•ืช ืื™ื•ืžื™ื ืžืคื•ืจื˜ื™ื

ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช

ืœืžื™ื“ืช ืžื›ื•ื ื” ืžื•ืฆื™ืื” ื ืชื•ื ื™ ืชืงื™ืคื” ืžื“ื•”ื—ื•ืช ืื™ื•ืžื™ื ืžืคื•ืจื˜ื™ื

mm
NLP mining

מחקר חדש מאוניברסיטת שיקגו מדגים את הסכסוך שצמח בעשור האחרון בין היתרונות של תוכן ארוך-טווח ל-SEO, לבין הקושי שמערכות למידת מכונה הוא מתמודדות עם היא בליעת נתונים חיוניים ממנו.

בפיתוח מערכת ניתוח NLP להיטמעות מידע איום חיוני מדו”חות Unite.AI מודיעין איומים סייבר (CTI), החוקרים משיקגו התמודדו עם שלושה בעיות: הדו”חות הם בדרך כלל ארוכים מאוד, עם רק חלק קטן המוקדש להתנהגות התקיפה האמיתית; הסגנון צפוף ומורכב מבחינה דקדוקית, עם מידע ספציפי לתחום שמניח ידע קודם בחלקו של הקורא; והחומר דורש ידע על מערכות קשרים בין-תחומי, שחייב “להיזכר” כדי להבין אותו בהקשר (בעיה נמשכת, החוקרים מציינים).

דו”חות איומים ארוכים

הבעיה העיקרית היא ריבוי מילים. לדוגמה, הנייר של שיקגו מציין כי בין 42 עמודים של דו”ח האיום של ClearSky מ-2019 עבור ה- DustySky (aka NeD Worm) מלוור, רק 11 משפטים עוסקים בהתנהגות התקיפה ומתארים אותה.

המכשול השני הוא מורכבות הטקסט, ובעצם, אורך המשפט: החוקרים מציינים כי בין 4020 דו”חות איומים ממרכז דו”חות האיומים של Microsoft, המשפט הממוצע כולל 52 מילים – רק תשע מילים פחות מאורך המשפט הממוצע 500 שנים לפני (בהקשר לעובדה שאורך המשפט ירד ב-75% מאז).

NLP להיטמעות מידע איום בולט

צינור הלמידה של מכונה שפיתחו החוקרים משיקגו כדי לטפל בזה נקרא EXTRACTOR, ומשתמש בטכניקות NLP כדי ליצור גרפים שמרכזים ומסכמים התנהגות תקיפה מדו”חות ארוכים ומפורטים. התהליך מוותר על ההיסטורי, הנרטיבי ואפילו הגאוגרפי המקשטים את ה”סיפור” בעלות היעילות והמידע.

Source: https://arxiv.org/pdf/2104.08618.pdf

Source: https://arxiv.org/pdf/2104.08618.pdf

מאחר שההקשר הוא אתגר כה גדול בדו”חות איומים מפורטים וארוכים, החוקרים בחרו ב- BERT (בידירקציונל אנקודר רפרזנטיישנס מ-Transformer) מודל לשוני על פני Word2Vec של Google או GloVe (Global Vectors for Word Representation) של Stanford.

BERT מעריך מילים מההקשר הסובב, וכן פיתח אינטגרציות לתת-מילים (כלומר, launch, launching ו- launches כולם מתפתחים ל- launch). זה עוזר ל- EXTRACTOR להתמודד עם מילים טכניות שאינן נמצאות במודל האימון של BERT, ולסווג משפטים כ- “פרודוקטיבי” (מכיל מידע רלוונטי) או “לא פרודוקטיבי”.

הגדלת אוצר המילים המקומי

באופן בלתי נמנע, חלק מהידע הספציפי לתחום חייב להתאים לצינור NLP העוסק בחומר מסוג זה, שכן צורות מילים רלוונטיות ביותר כגון כתובות IP ושמות תהליכים טכניים לא ייזרקו.

חלקים מאוחרים יותר של התהליך משתמשים ב- BiLSTM (Bidirectional LSTM) רשת לטיפול בריבוי מילים, גזירת תפקידים סמנטיים לחלקי משפט, לפני הסרת מילים לא פרודוקטיביות. BiLSTM מתאים היטב לכך, שכן הוא יכול לשייך תלות בין-מרחקית ארוכה המופיעה במסמכים מפורטים, שם תשומת לב ואחיזה גדולה יותר נחוצה כדי להסיק הקשר.

EXTRACTOR ืžื’ื“ื™ืจ ืชืคืงื™ื“ื™ื ืกืžื ื˜ื™ื™ื ื•ื™ื—ืกื™ื ื‘ื™ืŸ ืžื™ืœื™ื, ืขื ืชืคืงื™ื“ื™ื ืฉื ื•ืฆืจื• ืขืœ ื™ื“ื™ ืื ื•ื˜ืฆื™ื•ืช PropBank (PropBank).

EXTRACTOR מגדיר תפקידים סמנטיים ויחסים בין מילים, עם תפקידים שנוצרו על ידי אנוטציות PropBank (PropBank).

בבדיקות, EXTRACTOR (באופן חלקי ממומן על ידי DARPA) התגלה כמסוגל להתאים להיטמעות נתונים אנושית מדו”חות DARPA. המערכת רצה גם נגד כמות גדולה של דו”חות לא מובנים מ- Microsoft Security Intelligence ו- TrendMicro Threat Encyclopedia, והצליחה להיטמע מידע רלוונטי ברוב המקרים.

החוקרים מודים כי ביצועי EXTRACTOR כנראה י

ื›ื•ืชื‘ ืขืœ ืœืžื™ื“ืช ืžื›ื•ื ื”, ืžื•ืžื—ื” ืชื—ื•ื ื‘ืกื™ื ืชื–ื” ืฉืœ ืชืžื•ื ื•ืช ืื ื•ืฉื™ื•ืช. ืœืฉืขื‘ืจ ืจืืฉ ืชื•ื›ืŸ ืžื—ืงืจ ื‘- Metaphysic.ai.
ืืชืจ ืื™ืฉื™: martinanderson.ai
ืฆื•ืจ ืงืฉืจ: [email protected]
ื˜ื•ื•ื™ื˜ืจ: @manders_ai

ื’ื™ืœื•ื™ ื ืื•ืช ืœืžืคืจืกืžื™ื: Unite.AI ืžื—ื•ื™ื‘ืช ืœืกื˜ื ื“ืจื˜ื™ื ืžืขืจื›ืชื™ื™ื ืžื—ืžื™ืจื™ื ื›ื“ื™ ืœืกืคืง ืœืงื•ืจืื™ื ืžื™ื“ืข ื•ื—ื“ืฉื•ืช ืžื“ื•ื™ืงื™ื. ื™ื™ืชื›ืŸ ืฉื ืงื‘ืœ ืชื’ืžื•ืœ ื›ืืฉืจ ืชืœื—ืฆื• ืขืœ ืงื™ืฉื•ืจื™ื ืœืžื•ืฆืจื™ื ืฉืกืงืจื ื•.