בינה מלאכותית

כיצד משפרים את עיבוד השפה באמצעות מודל BERT בקוד פתוח של גוגל

מְעוּדכָּן on דצמבר 9, 2022

ייצוגי מקודד דו-כיווני של רובוטריקים, הידוע גם בשם BERT; הוא מודל אימון ששיפר באופן דרסטי את היעילות והאפקט של מודלים של NLP. כעת, כשגוגל הפכה את דגמי BERT לקוד פתוח, היא מאפשרת שיפור של מודלים של NLP בכל הענפים. במאמר, נבחן כיצד BERT הופך את NLP לאחד מפתרונות הבינה המלאכותית החזקים והשימושיים ביותר בעולם של ימינו.

החלת מודלים של BERT לחיפוש

מנוע החיפוש של גוגל הוא בעל שם עולמי ביכולתו להציג תוכן רלוונטי והם הפכו את תוכנית עיבוד השפה הטבעית הזו לקוד פתוח לעולם.

היכולת של מערכת לקרוא ולפרש שפה טבעית הופכת יותר ויותר חיונית ככל שהעולם מייצר נתונים חדשים באופן אקספוננציאלי. ספריית משמעויות המילים, הביטויים והיכולת הכללית של גוגל להציג תוכן רלוונטי, היא OPEN SOURCE. מעבר לעיבוד שפה טבעית, למודל BERT שלהם יש את היכולת לחלץ מידע מכמויות גדולות של נתונים לא מובנים וניתן ליישם אותו ליצירת ממשקי חיפוש עבור כל ספרייה. במאמר זה נראה כיצד ניתן ליישם טכנולוגיה זו במגזר האנרגיה.

BERT (ייצוגי קודן דו-כיווני מרובוטריקים) היא גישה קדם-הכשרה המוצעת על ידי שפת AI של גוגל הקבוצה, שפותחה כדי להתגבר על בעיה שכיחה של מודלים מוקדמים של NLP: היעדר נתוני אימון מספיקים.

הבה נרחיב, מבלי להיכנס יותר מדי לפרטים:

דגמי הדרכה

משימות NLP ברמה נמוכה (למשל זיהוי ישות בשם, פילוח נושאים) וברמה גבוהה (למשל ניתוח סנטימנטים, זיהוי דיבור) דורשות מערכי נתונים מוערים ספציפיים למשימה. למרות שקשה להשיג אותם ויקרים להרכבה, מערכי נתונים מסומנים ממלאים תפקיד מכריע בביצועים של מודלים של רשת עצבית רדודה ועמוקה כאחד. ניתן היה להשיג תוצאות מסקנות באיכות גבוהה רק כאשר מיליוני או אפילו מיליארדי דוגמאות אימון מוערות היו זמינות. וזו הייתה בעיה שהפכה משימות NLP רבות לבלתי ניתנות לגישה. זאת עד שפותח BERT.

BERT הוא מודל ייצוג שפה למטרות כלליות, מאומן על קורפוסים גדולים של טקסט ללא הערות. כאשר המודל נחשף לכמויות גדולות של תוכן טקסט, הוא לומד להבין הקשר ויחסים בין מילים במשפט. בניגוד למודלים קודמים של למידה שייצגו רק משמעות ברמת המילה (בנק פירושו אותו הדבר ב"חשבון בנק" ו"בנק עשב"), BERT למעשה דואג להקשר. כלומר, מה שבא לפני ואחרי המילה במשפט. ההקשר התברר כיכולת חסרה גדולה של דגמי NLP, עם השפעה ישירה על ביצועי המודל. עיצוב מודל מודע להקשר כגון BERT ידוע על ידי רבים כתחילתו של עידן חדש ב-NLP.

אימון BERT על כמויות גדולות של תוכן טקסט הוא טכניקה המכונה אימון מקדים. המשמעות היא שהמשקלים של הדגם מותאמים למשימות הבנת טקסט כלליות וניתן לבנות עליו מודלים עדינים יותר. המחברים הוכיחו את עליונותה של טכניקה כזו כאשר השתמשו במודלים מבוססי BERT ב-11 משימות NLP והשיגו תוצאות עדכניות.

דגמים מוכשרים מראש

הדבר הטוב ביותר הוא: דגמי BERT שהוכשרו מראש הם קוד פתוח וזמינים לציבור. המשמעות היא שכל אחד יכול להתמודד עם משימות NLP ולבנות את המודלים שלו על גבי BERT. שום דבר לא יכול לנצח את זה, נכון? אה, רגע: זה גם אומר שניתן לאמן (כוונן עדין) מודלים של NLP על מערכי נתונים קטנים יותר, ללא צורך באימון מאפס. תחילתו של עידן חדש, באמת.

מודלים אלה שהוכשרו מראש עוזרים לחברות לצמצם את העלות והזמן לפריסה עבור מודלים של NLP לשימוש פנימי או חיצוני. האפקטיביות של דגמי NLP מאומנים היטב מודגשת על ידי מייקל אלכסיס, מנכ"ל חברת בניית תרבות צוות וירטואלית, teambuilding.com.

"היתרון הגדול ביותר של NLP הוא ההסקה והעיבוד הניתן להרחבה ועקבית של מידע." – מייקל אלכסיס מנכ"ל teambuilding.com

מייקל מציין כיצד ניתן ליישם NLP על תוכניות לטיפוח תרבות כגון שוברי קרח או סקרים. חברה יכולה לקבל תובנה חשובה לגבי מצב התרבות החברה על ידי ניתוח התגובות של העובדים. זה מושג לא רק באמצעות ניתוח טקסט אלא ניתוח ההערה של הטקסט. בעיקרו של דבר, המודל גם "קורא בין השורות" כדי להסיק מסקנות לגבי רגש, תחושה והשקפה כללית. BERT יכול לסייע במצבים כמו זה על ידי אימון מקדים של מודלים עם בסיס של אינדיקטורים שהוא יכול לפעול כדי לחשוף את הניואנסים של השפה ולספק תובנות מדויקות יותר.

שיפור שאילתות

היכולת לדגמן את ההקשר הפכה את BERT לגיבור NLP וחוללה מהפכה בחיפוש Google עצמו. להלן ציטוט מצוות המוצר של Google Search וחוויות הבדיקה שלהם, בזמן שהם כוונו את BERT כדי להבין את הכוונה מאחורי שאילתה.

"הנה כמה מהדוגמאות שמדגימות את היכולת של BERT להבין את הכוונה מאחורי החיפוש שלך. הנה חיפוש עבור "נוסע ברזיל 2019 לארה"ב צריך ויזה." המילה "אל" והקשר שלה למילים האחרות בשאילתה חשובים במיוחד להבנת המשמעות. זה על ברזילאי שנוסע לארה"ב ולא להיפך. בעבר, האלגוריתמים שלנו לא הבינו את החשיבות של הקשר הזה, והחזרנו תוצאות לגבי אזרחי ארה"ב הנוסעים לברזיל. עם BERT, חיפוש מסוגל לתפוס את הניואנס הזה ולדעת שהמילה הנפוצה מאוד "to" באמת חשובה כאן, ואנחנו יכולים לספק תוצאה הרבה יותר רלוונטית עבור השאילתה הזו."
- הבנת חיפושים טוב יותר מאי פעם, מאת Pandu Nayak, עמית Google וסגן נשיא חיפוש.

דוגמה לחיפוש BERT, לפני ואחרי. מָקוֹר בלוג

בקטע האחרון שלנו בנושא NLP ו-OCR, הדגמנו כמה שימושים ב-NLP במגזר הנדל"ן. הזכרנו גם כיצד "כלי NLP הם כלי איסוף מידע אידיאליים". הבה נסתכל על מגזר האנרגיה ונראה כיצד טכנולוגיות NLP משבשות כמו BERT מאפשרות שימוש באפליקציות חדשות.

מודלים של NLP יכולים לחלץ מידע מכמויות גדולות של נתונים לא מובנים

דרך אחת שבה ניתן להשתמש במודלים של NLP היא לחילוץ מידע קריטי מנתוני טקסט לא מובנים. הודעות דואר אלקטרוני, יומנים, הערות, יומנים ודוחות הם כולם דוגמאות למקורות נתוני טקסט שהם חלק מהפעילות היומיומית של עסקים. חלק מהמסמכים הללו עשויים להתברר כמכריעים במאמצים ארגוניים להגביר את היעילות התפעולית ולהפחית עלויות.

כאשר שואפים ליישם תחזוקה חזויה של טורבינות רוח, דוחות כשל עשוי להכיל מידע קריטי על התנהגותם של רכיבים שונים. אבל מכיוון שלצרניות שונות של טורבינות רוח יש נורמות שונות לאיסוף נתונים (כלומר דוחות תחזוקה מגיעים בפורמטים שונים ואפילו בשפות), זיהוי ידני של פריטי נתונים רלוונטיים עלול להתייקר במהירות עבור בעל המפעל. כלי NLP יכולים לחלץ מושגים, תכונות ואירועים רלוונטיים מתוכן לא מובנה. לאחר מכן ניתן להשתמש בניתוח טקסט כדי למצוא מתאמים ודפוסים במקורות נתונים שונים. זה נותן לבעלי המפעלים את ההזדמנות ליישם תחזוקה חזויה המבוססת על מדדים כמותיים שזוהו בדוחות הכשל שלהם.

מודלים של NLP יכולים לספק ממשקי חיפוש בשפה טבעית

באופן דומה, מדעני גיאוגרפיה העובדים עבור חברות נפט וגז בדרך כלל צריכים לסקור מסמכים רבים הקשורים לפעולות קידוח קודמות, יומני בארות ונתונים סייסמיים. מכיוון שמסמכים כאלה מגיעים גם בפורמטים שונים ולרוב מפוזרים על פני מספר מיקומים (הן פיזיים והן דיגיטליים), הם מבזבזים זמן רב בחיפוש אחר המידע במקומות הלא נכונים. פתרון בר-קיימא במקרה כזה יהיה א ממשק חיפוש מבוסס NLP, מה שיאפשר למשתמשים לחפש נתונים בשפה טבעית. לאחר מכן, מודל NLP יכול לתאם נתונים על פני מאות מסמכים ולהחזיר קבוצה של תשובות לשאילתה. לאחר מכן העובדים יכולים לאמת את הפלט בהתבסס על ידע המומחה שלהם והמשוב ישפר עוד יותר את המודל.

עם זאת, ישנם גם שיקולים טכניים לפריסת מודלים כאלה. היבט אחד יהיה שהז'רגון הספציפי לתעשייה יכול לבלבל מודלים מסורתיים של למידה שאין להם את ההבנה הסמנטית המתאימה. שנית, ביצועי המודלים עשויים להיות מושפעים מגודל מערך ההדרכה. זה כאשר מודלים שהוכשרו מראש כמו BERT יכולים להיות מועילים. ייצוגים קונטקסטואליים יכולים לעצב את משמעות המילה המתאימה ולהסיר כל בלבול שנגרם על ידי מונחים ספציפיים לתעשייה. על ידי שימוש במודלים מאומנים מראש, ניתן לאמן את הרשת על מערכי נתונים קטנים יותר. זה חוסך זמן, אנרגיה ומשאבים שאחרת היו נחוצים לאימון מאפס.

מה עם העסק שלך?

האם אתה יכול לחשוב על משימות NLP שעשויות לעזור לך לצמצם עלויות ולהגביר את היעילות התפעולית?

השמיים כחול כתום דיגיטלי צוות מדעי הנתונים שמח לצבוט את BERT גם לטובתך!

צבא ארה"ב מתקרב לרכבי שטח אוטונומיים קרביים

לא לפספס

היצירה החדשה ביותר של Quantum Stat היא ה-NLP Model Forge

ג'וש מיראמנט

ג'וש מיראמנט הוא המנכ"ל והמייסד של כחול כתום דיגיטלי, סוכנות מדורגת נתונים ולמידת מכונה עם משרדים בניו יורק ובוושינגטון הבירה. Miramant היא דוברת פופולרית, עתידנית, ויועץ עסקי וטכנולוגי אסטרטגי לחברות ארגוניות וסטארט-אפים. הוא עוזר לארגונים לייעל ולהפוך את העסקים שלהם לאוטומטיים, ליישם טכניקות אנליטיות מונעות נתונים ולהבין את ההשלכות של טכנולוגיות חדשות כמו בינה מלאכותית, ביג דאטה ואינטרנט של הדברים.