Connect with us

Baidu Beats Out Google And Microsoft, Creates New Technique For Language Understanding

ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช

Baidu Beats Out Google And Microsoft, Creates New Technique For Language Understanding

mm

Baidu, אחד מהחברות הטכנולוגיות הגדולות ביותר בסין, פיתחה לאחרונה שיטה חדשה ללמוד AIs להבין שפה. כפי ש דווח על ידי TechnologyReview, החברה זכתה לאחרונה בתחרות General Language and Understanding Evaluation (GLUE), והשיגה תוצאות מצטיינות.

GLUE מורכב מתשעה מבחנים שונים, כאשר כל מבחן מודד משימה שונה החשובה להבנת השפה, כגון הבחנה בין שמות של ישויות במשפט והבחנה בהקשר בו הוא משתמש בכינוי גוף “זה” כאשר יש מועמדים רבים. האדם הממוצע צובר בממוצע נקודות 87 ב-GLUE, מתוך 100 נקודות אפשריות. המודל החדש של Baidu, ERNIE, עבר את רף 90 הנקודות.

חוקרים מנסים תמיד לשפר את ביצועיהם של המודלים ב-GLUE, ולכן הסטנדרט הנוכחי שנקבע על ידי Baidu כנראה יושווה בקרוב. עם זאת, מה שהופך את הישגי Baidu לבולטים הוא שגישת הלמידה שהם משתמשים בה נראית כי היא יכולה להתאים לשפות אחרות. אף על פי שהמודל פותח כדי לפרש את השפה הסינית, עקרונות דומים הופכים אותו לטוב יותר בפירוש השפה האנגלית. ERNIE הוא ראשי תיבות של “Enhanced Representation through knowledge Integration”, והוא בא בעקבות פיתוח המודל BERT (“Bidirectional Encoder Representations from Transformers”).

BERT קבע סטנדרט חדש להבנת שפה בשל העובדה שהוא היה מודל דו-כיווני. מודלים קודמים של שפה היו מסוגלים רק לפרש נתונים שזרמו בכיוון אחד, ובוחנים מילה שבאה לפני או אחרי המילה היעד כהקשר. BERT היה מסוגל ליישם גישה דו-כיוונית שיכולה להשתמש הן במילים קודמות והן במילים מאוחרות יותר במשפט כדי לעזור לקבוע את משמעות המילה היעד. BERT משתמש בטכניקה הנקראת “מסיכה” כדי לאפשר ניתוח דו-כיווני, בוחר מילה במשפט ומסתיר אותה, מה שמפריד את ההקשר האפשרי של המילה ההיא לרמזים קודמים ומאוחרים.

בשפה האנגלית, המילה היא היחידה הסמנטית הדומיננטית, אנשים מסתכלים על מילים שלמות ולא על תווים בודדים כדי לקבוע משמעות. המילה יכולה להילקח מהקשר שלה ועדיין לשמור על משמעותה, והמשמעות של תווים בודדים כמעט תמיד זהה. לעומת זאת, השפה הסינית מסתמכת הרבה יותר על האופן בו התווים משולבים עם תווים אחרים כדי לקבוע משמעות. תווים יכולים להיות משמעות שונה בהתאם לתווים שסביבם.

צוות המחקר של Baidu לקח בעצם את המודל ש-BERT השתמש בו והרחיב אותו, מסתיר רצפים של תווים במקום מילים שלמות. מערכת ה-AI גם אומנה להבדיל בין רצפים אקראיים לרצפים משמעותיים כדי שרצפי התווים הנכונים יוכלו להיות מוסתרים. זה הופך את ERNIE למיומן באיסוף מידע ממסמך טקסט וביצוע תרגום מכונה. צוות המחקר גם גילה כי שיטת האימון שלהם תוצאה במודל שיכול להבדיל בין ביטויים אנגליים טוב יותר מאשר מודלים רבים אחרים. זה בגלל שהשפה האנגלית לפעמים, אם כי נדיר, משתמשת בשילובי מילים שמבטאים משמעויות שונות כאשר הם מחוברים זה לזה, לעומת כאשר הם נפרדים. שמות פרטיים וביטויים או ביטויים סלנג, כגון “chip off the old block” הם דוגמאות לתופעות לשוניות כאלה.

ERNIE משתמש במספר טכניקות אימון אחרות כדי לאופטימיזציה של ביצועים, כולל ניתוח סדר משפט ומרחק כאשר מפרשים סעיפים. שיטת אימון רציפה גם משמשת, המאפשרת ל-ERNIE להתאמן על נתונים חדשים וללמוד דפוסים חדשים מבלי לשכוח ידע שנרכש קודם.

Baidu כרגע משתמשת ב-ERNIE כדי לשפר את איכות תוצאות החיפוש. הארכיטקטורה האחרונה של ERNIE תפורט במאמר עתידי שיוצג בוועידת 2020 Association for the Advancement of Artificial Intelligence.

ื‘ืœื•ื’ืจ ื•ืžืชื›ื ืช ืขื ื”ืชืžื—ื•ื™ื•ืช ื‘ื ื•ืฉืื™ื Machine Learning ื• Deep Learning. ื“ื ื™ืืœ ืžืงื•ื•ื” ืœืขื–ื•ืจ ืœืื—ืจื™ื ืœื”ืฉืชืžืฉ ื‘ื›ื•ื— ืฉืœ AI ืœื˜ื•ื‘ืช ื”ื—ื‘ืจื”.

ื’ื™ืœื•ื™ ื ืื•ืช ืœืžืคืจืกืžื™ื: Unite.AI ืžื—ื•ื™ื‘ืช ืœืกื˜ื ื“ืจื˜ื™ื ืžืขืจื›ืชื™ื™ื ืžื—ืžื™ืจื™ื ื›ื“ื™ ืœืกืคืง ืœืงื•ืจืื™ื ืžื™ื“ืข ื•ื—ื“ืฉื•ืช ืžื“ื•ื™ืงื™ื. ื™ื™ืชื›ืŸ ืฉื ืงื‘ืœ ืชื’ืžื•ืœ ื›ืืฉืจ ืชืœื—ืฆื• ืขืœ ืงื™ืฉื•ืจื™ื ืœืžื•ืฆืจื™ื ืฉืกืงืจื ื•.