בינה מלאכותית

עתיד ניקוד הדיבור - מובילי מחשבה

מְעוּדכָּן on דצמבר 9, 2022

ברחבי העולם, מספר הלומדים בשפה האנגלית ממשיך לעלות. מוסדות חינוך ומעסיקים צריכים להיות מסוגלים להעריך את מיומנות האנגלית של לומדי השפה - בפרט, את יכולת הדיבור שלהם, שכן השפה המדוברת נותרה בין יכולות השפה החיוניות ביותר. האתגר, הן עבור מפתחי הערכה והן עבור משתמשי הקצה, הוא למצוא דרך לעשות זאת מדויקת, מהירה וכדאית כלכלית. כחלק מאתגר זה, ניקוד הערכות אלו מגיע עם סט גורמים משלו, במיוחד כאשר אנו רואים את התחומים השונים (דיבור, כתיבה וכו') עליהם נבחנים. מכיוון שהביקוש לכישורי השפה האנגלית על פני הגלובוס רק צפוי לגדול, איך יראה עתיד ניקוד הדיבור כדי לענות על צרכים אלה?

התשובה לשאלה זו, בחלקה, נמצאת באבולוציה של ניקוד הדיבור עד כה. דירוג תגובות מדוברות בנויות נעשה באופן היסטורי באמצעות מדרגים אנושיים. תהליך זה, לעומת זאת, נוטה להיות יקר ואיטי, ויש לו אתגרים נוספים, כולל מדרגיות וחסרונות שונים של המדרגים האנושיים עצמם (למשל, סובייקטיביות המדרגים או הטיה). כפי שנדון בספר שלנו הערכת דיבור אוטומטית: שימוש בטכנולוגיות שפה לניקוד דיבור ספונטני, על מנת להתמודד עם אתגרים אלו, מספר הולך וגדל של הערכות משתמש כעת בטכנולוגיית ניקוד דיבור אוטומטית כמקור הניקוד היחיד או בשילוב עם מדרגים אנושיים. עם זאת, לפני פריסת מנועי ניקוד אוטומטיים, יש להעריך ביסודיות את הביצועים שלהם, במיוחד ביחס למהימנות הציון, תוקף (האם המערכת מודדת את מה שהיא אמורה לעשות?) והגינות (כלומר, המערכת לא צריכה להטות הקשורות תת קבוצות אוכלוסיות כגון מגדר או שפת אם).

מאז 2006, מנוע ניקוד הדיבור של ETS, SpeechRater®, מופעל בהערכת TOEFL® Practice Online (TPO) (בשימוש על ידי נבחנים פוטנציאליים כדי להתכונן להערכת TOEFL iBT®), ומאז 2019, נעשה שימוש גם ב-SpeechRater , יחד עם מדרגים אנושיים, עבור ניקוד קטע הדיבור של הערכת TOEFL iBT®. המנוע מעריך מגוון רחב של מיומנות דיבור עבור דיבור ספונטני שאינו ילידי, כולל הגייה ושטף, טווח אוצר מילים ודקדוק, ויכולות דיבור ברמה גבוהה יותר הקשורות לקוהרנטיות ולהתקדמות של רעיונות. תכונות אלו מחושבות באמצעות אלגוריתמים של עיבוד שפה טבעית (NLP) ועיבוד דיבור. לאחר מכן מוחל מודל סטטיסטי על תכונות אלו על מנת להקצות ציון סופי לתגובת הנבחן.

בעוד מודל זה מאומן על נתונים שנצפו בעבר על ידי מדורגים אנושיים, הוא נבדק גם על ידי מומחי תוכן כדי למקסם את תקפותו. אם התגובה לא ניתנת לניקוד עקב איכות שמע או בעיות אחרות, המנוע יכול לסמן אותה לבדיקה נוספת כדי למנוע יצירת ניקוד שעלול להיות לא אמין או לא חוקי. מדרגים אנושיים מעורבים תמיד בניקוד התגובות המדוברות בהערכת הדיבור הגבוהה של TOEFL iBT.

מכיוון שמדרגים אנושיים ו-SpeechRater משמשים כיום יחד כדי לקבל ציון תשובות של נבחנים בהערכות דיבור גבוהות, שניהם משחקים חלק בעתיד של ציון שליטה בשפה האנגלית. למדרגים אנושיים יש את היכולת להבין את התוכן וארגון השיח של תגובה מדוברת בצורה עמוקה. לעומת זאת, מנועי ניקוד דיבור אוטומטיים יכולים למדוד בצורה מדויקת יותר היבטים מפורטים מסוימים של דיבור, כגון שטף או הגייה, להפגין עקביות מושלמת לאורך זמן, יכולים להפחית את זמן הניקוד הכולל ואת העלות, והם מותאמים בקלות רבה יותר כדי לתמוך בנפחי בדיקה גדולים. כאשר משולבים מדורגים אנושיים ומערכות דיבור אוטומטיות, המערכת המתקבלת יכולה להפיק תועלת מהיתרונות של כל גישת ניקוד.

על מנת לפתח ללא הרף מנועי ניקוד דיבור אוטומטיים, המחקר והפיתוח צריכים להתמקד בהיבטים הבאים, בין היתר:

בניית מערכות זיהוי דיבור אוטומטיות עם דיוק גבוה יותר: מכיוון שרוב התכונות של מערכת ניקוד דיבור מסתמכות באופן ישיר או עקיף על רכיב זה של המערכת הממיר את הדיבור של הנבחן לתעתוק טקסט, זיהוי דיבור אוטומטי מדויק ביותר הוא חיוני להשגת תכונות תקפות;
חקר דרכים חדשות לשילוב ציונים אנושיים ואוטומטיים: על מנת לנצל את מלוא החוזקות המתאימות של ציוני מדרג אנושי וציוני מנוע אוטומטיים, יש לחקור דרכים נוספות לשילוב עדויות אלה;
התחשבות בחריגות בתגובות, הן טכניות והן התנהגותיות: מסננים בעלי ביצועים גבוהים המסוגלים לסמן תגובות כאלה ולהדיר אותן מהניקוד האוטומטי נחוצים כדי להבטיח את התקפות והאמינות של ציוני ההערכה המתקבלים;
הערכה של דיבור ספונטני או שיחה המתרחש לרוב בחיי היום-יום: בעוד ניקוד אוטומטי של דיבור אינטראקטיבי כזה הוא מטרה חשובה, פריטים אלה מציגים אתגרי ניקוד רבים, כולל הערכה כללית וניקוד;
בחינת טכנולוגיות למידה עמוקה לניקוד אוטומטי של דיבור: פרדיגמה עדכנית יחסית זו בתוך למידת מכונה יצרה עליות ביצועים משמעותיות במשימות רבות של בינה מלאכותית (AI) בשנים האחרונות (למשל, זיהוי דיבור אוטומטי, זיהוי תמונות), ולכן סביר להניח כי אוטומטי ניקוד עשוי גם להפיק תועלת משימוש בטכנולוגיה זו. עם זאת, מכיוון שרוב המערכות הללו יכולות להיחשב לגישות "קופסה שחורה", תשומת לב לאפשרות הפירוש של הציון המתקבל תהיה חשובה כדי לשמור על רמה מסוימת של שקיפות.

כדי להתאים לאוכלוסיית לומדי השפה האנגלית הגדלה ומשתנה, מערכות ניקוד הדיבור של הדור הבא חייבות להרחיב את האוטומציה ואת מגוון מה שהן מסוגלות למדוד, ולאפשר עקביות ומדרגיות. זה לא אומר שהאלמנט האנושי יוסר, במיוחד עבור הערכות עם סיכון גבוה. סביר להניח שמדרגים אנושיים יישארו חיוניים ללכידת היבטים מסוימים של דיבור שיישאר קשה להעריך במדויק על ידי מערכות ניקוד אוטומטיות עוד זמן מה, כולל ההיבטים המפורטים של תוכן מדובר ושיח. שימוש במערכות ניקוד אוטומטיות בדיבור בבידוד להערכות תוצאתיות עלול גם להוביל לאי זיהוי תגובות בעייתיות על ידי נבחנים - למשל, תגובות שאינן קשורות לנושא או גניבה גניבה, וכתוצאה מכך, עלולות להוביל להפחתת התוקף ומהימנות. שימוש הן במדרגים אנושיים והן במערכות ניקוד אוטומטיות בשילוב עשוי להיות הדרך הטובה ביותר לניקוד דיבור בהערכות גבוהות לעתיד הנראה לעין, במיוחד אם דיבור ספונטני או שיחה מוערך.

נכתב על ידי: קילן אווניני, מנהל מחקר דיבור, ETS & קלאוס זכנר, מדען מחקר בכיר מנהל, דיבור, ETS

ETS עובדת עם מוסדות חינוך, עסקים וממשלות כדי לבצע מחקר ולפתח תוכניות הערכה המספקות מידע משמעותי שעליו הם יכולים לסמוך כדי להעריך אנשים ותוכניות. ETS מפתחת, מנהלת ומקבלת ציונים של יותר מ-50 מיליון מבחנים מדי שנה ביותר מ-180 מדינות ביותר מ-9,000 מיקומים ברחבי העולם. אנו מעצבים את ההערכות שלנו עם תובנות מובילות בתעשייה, מחקר קפדני ומחויבות בלתי מתפשרת לאיכות, כך שנוכל לעזור לחינוך ולקהילות במקום העבודה לקבל החלטות מושכלות. למידע נוסף בקר ETS.