בדל Baidu מנצח את גוגל ומיקרוסופט, יוצר טכניקה חדשה להבנת שפה - Unite.AI
צור קשר

בינה מלאכותית

Baidu מנצח את גוגל ומיקרוסופט, יוצר טכניקה חדשה להבנת השפה

mm
מְעוּדכָּן on

Baidu, אחת מחברות הטכנולוגיה הגדולות בסין, פיתחה לאחרונה שיטה חדשה להוראת AIs להבין שפה. כפי ש דווח על ידי TechnologyReview, החברה ניצחה לאחרונה את מיקרוסופט וגוגל בתחרות כללית להערכת שפה והבנה (GLUE), והשיגה תוצאות מתקדמות.

GLUE מורכב מתשעה מבחנים שונים, כאשר כל מבחן מודד משימה אחרת החשובה להבנת השפה, כגון הבחנה בשמות של ישויות במשפט והבחנה באיזה הקשר משמש הכינוי "זה" כאשר ישנם מועמדים פוטנציאליים רבים . האדם הממוצע מקבל בדרך כלל בסביבות 87 נקודות ב-GLUE, מתוך 100 אפשריות. הדגם החדש של Baidu, ארני, פצח את רף 90 הנקודות.

חוקרים תמיד מנסים לשפר את הביצועים של הדגמים שלהם ב-GLUE, ולכן הסטנדרט הנוכחי שנקבע על ידי Baidu כנראה יעלה בקרוב. עם זאת, מה שהופך את ההישגים של Baidu בולטים הוא שגישת הלמידה שבה הם משתמשים נראית מסוגלת להכליל לשפות אחרות. למרות שהמודל פותח כדי לפרש סינית, אותם עקרונות הופכים אותו לטוב יותר ולפרש את השפה האנגלית. ERNIE מייצג "ייצוג משופר באמצעות אינטגרציה של ידע", והוא עוקב אחר הפיתוח של ברט  ("ייצוגי מקודדים דו-כיווניים של רובוטריקים") מודל שפה.

BERT קבע סטנדרט חדש להבנת שפה בשל העובדה שזה היה מודל דו-כיווני. מודלים קודמים של שפה היו מסוגלים לפרש רק נתונים שזרמו ב"כיוון אחד", תוך הסתכלות על מילה שהגיעה לפני או אחרי מילת המטרה כהקשר. BERT הצליח ליישם גישה דו-כיוונית שיכולה להשתמש במילים קודמות וגם במילים מאוחרות יותר במשפט כדי לעזור להבין את המשמעות של מילת יעד. BERT משתמש בטכניקה הנקראת מיסוך כדי לאפשר ניתוח דו-כיווני, בחירת מילה במשפט והסתרתה, מה שמפצל את ההקשר האפשרי למילה זו ברמזים קודמים להקשרים הבאים ואחריו.

בשפה האנגלית, המילה היא היחידה הסמנטית השלטת, אנשים מסתכלים על מילים שלמות ולא על תווים בודדים כדי להבחין במשמעות. אפשר להסיר מילה מהקשר שלה ועדיין שהמילה הזו תשמור על משמעותה, והמשמעות של תווים בודדים כמעט תמיד זהה. לעומת זאת, השפה הסינית מסתמכת הרבה יותר על האופן שבו תווים מותאמים יחד עם תווים אחרים כאשר מבינים משמעות. דמויות יכולות להיות דברים שונים בהתאם לדמויות הסובבות אותן.

צוות המחקר של Baidu למעשה לקח את המודל שבו השתמש BERT והרחיב אותו, והסתיר מחרוזות של תווים במקום מילים מלאות. מערכת ה-AI גם הוכשרה להבדיל בין מחרוזות אקראיות למחרוזות משמעותיות על מנת שניתן יהיה להסוות את המחרוזות הנכונות של התווים. זה הופך את ERNIE למיומן באחזור מידע ממסמך טקסט ובביצוע תרגום מכונה. צוות המחקר גם גילה ששיטת האימון שלהם הביאה גם למודל שיכול להבחין בין ביטויים באנגלית טוב יותר מאשר מודלים רבים אחרים יכולים. הסיבה לכך היא שאנגלית לפעמים, אם כי לעתים רחוקות, משתמשת בצירופי מילים המבטאים משמעויות שונות כשהן מחוברות יחד לעומת כשהן לבד. שמות פרטיים וניבים או לשון הרע, כגון "שבב את הבלוק הישן" הם דוגמאות לתופעות לשוניות כאלה.

ERNIE עושה שימוש במספר טכניקות אימון אחרות על מנת לייעל את הביצועים, כולל ניתוח סדר המשפטים והמרחק בעת פירוש פסקאות. נעשה שימוש גם בשיטת אימון מתמשך, המאפשרת ל-ERNIE להתאמן על נתונים חדשים וללמוד דפוסים חדשים מבלי לשכוח ידע שנרכש בעבר.

Baidu משתמשת כעת ב-ERNIE כדי לשפר את איכות תוצאות החיפוש. הארכיטקטורה האחרונה של ERNIE תפורט במאמר הקרוב שיוצג בכנס האגודה לקידום בינה מלאכותית לשנת 2020.