الذكاء الاصطناعي

مستقبل تقييم الكلام – قادة الفكر

Published May 21, 2020

Updated April 28, 2026

Keelan Evanini and Klaus Zechner

على مستوى العالم، يزداد عدد متعلمي اللغة الإنجليزية باستمرار. تحتاج المؤسسات التعليمية وأصحاب العمل إلى القدرة على تقييم إتقان اللغة الإنجليزية لمتعلمي اللغة – ولا سيما قدرتهم على التحدث، منذ أن تبقى اللغة المنطوقة من بين أهم مهارات اللغة. التحدي، لكل من مطوري التقييمات ومستخدميها النهائيين، هو إيجاد طريقة لفعل ذلك بطريقة دقيقة وسريعة ومالية قابلة للتطبيق. كجزء من هذا التحدي، يأتي تقييم هذه التقييمات مع مجموعة من العوامل، خاصة عند النظر في المجالات المختلفة (الكلام، الكتابة، إلخ.) التي يتم اختبارها. مع زيادة الطلب على مهارات اللغة الإنجليزية في جميع أنحاء العالم، ما هو شكل مستقبل تقييم الكلام لتلبي هذه الاحتياجات؟

الجواب على هذا السؤال، جزئيًا، يوجد في تطور تقييم الكلام حتى الآن. تم تقييم الاستجابات المنطوقة البنائية تاريخيًا باستخدام مقيمين بشريين. ومع ذلك، فإن هذا العملية تميل إلى أن تكون مكلفة وبطيئة، وتشمل تحديات إضافية، بما في ذلك قابلية التوسع وعدم كفاية المقيمين البشريين أنفسهم (مثل انحياز المقيم أو التحيز). كما ناقشنا في كتابنا تقييم الكلام الآلي: استخدام تكنولوجيا اللغة لتقييم الكلام الصريح، من أجل مواجهة هذه التحديات، يعتمد عدد متزايد من التقييمات على تقنية تقييم الكلام الآلي كالمصدر الوحيد للتقييم أو بالاشتراك مع المقيمين البشريين. ومع ذلك، قبل نشر محركات التقييم الآلية، يجب تقييم أدائها بدقة، ولا سيما فيما يتعلق بموثوقية التقييم وصدقه (هل يقيس النظام ما هو من المفترض أن يقيس؟) وعدله (أي أن النظام لا يجب أن يُقدم تحيزًا متعلقًا بفئات فرعية من السكان مثل الجنس أو اللغة الأصلية).

منذ عام 2006، تم تشغيل محرك تقييم الكلام الخاص بشركة ETS، SpeechRater®، في تقييم TOEFL® Practice Online (TPO) (الذي يستخدمه المتقدمون للاختبار للاستعداد لتقييم TOEFL iBT®)، ومنذ عام 2019، تم استخدام SpeechRater أيضًا، إلى جانب المقيمين البشريين، لتقييم قسم الكلام في تقييم TOEFL iBT®. يقيم المحرك مجموعة واسعة من مهارات التحدث، بما في ذلك النطق والاستهلاك والتراكب، ونطاق المفردات والقواعد، والقدرات العليا للتحدث المتعلقة بالترابط وتقدم الأفكار. يتم حساب هذه الميزات باستخدام معالجة اللغة الطبيعية ومعالجة الكلام الخوارزمية. ثم يتم تطبيق نموذج إحصائي على هذه الميزات من أجل تعيين درجة نهائية لاستجابة المتقدم للاختبار.

في حين يتم تدريب هذا النموذج على بيانات سابقة تم تقييمها بواسطة المقيمين البشريين، يتم أيضًا استعراضه بواسطة خبراء المحتوى لتعظيم صلاحيته. إذا تم العثور على استجابة لتكون غير قابلة للتقييم بسبب جودة الصوت أو مشاكل أخرى، يمكن للمحرك وضع علامة عليها للمراجعة الإضافية لتجنب توليد درجة غير موثوقة أو غير صالحة. يتماشى المقيمون البشريون دائمًا في تقييم استجابات الكلام في تقييم TOEFL iBT ذو الحصانة العالية.

كما يتم استخدام المقيمين البشريين ومحرك SpeechRater حاليًا معًا لتقييم استجابات المتقدمين للاختبار في تقييمات الكلام ذو الحصانة العالية، كلاهما يلعب دورًا فيما يمكن أن يكون مستقبل تقييم إتقان اللغة الإنجليزية. لديهم المقيمون البشريون القدرة على فهم محتوى المنظمة والتنظيم الخطابي لاستجابة منطوقة بعمق. في المقابل، يمكن لمحركات تقييم الكلام الآلي قياس جوانب معينة من الكلام بدقة، مثل السهولة أو النطق، وتعرض التماسك المثالي مع مرور الوقت، ويمكن أن تقلل من الوقت الإجمالي للتقييم والتكلفة، ويمكن أن تكون أكثر سهولة للتوسيع لدعم حجم الاختبارات الكبيرة. عندما يتم الجمع بين المقيمين البشريين ومحركات تقييم الكلام الآلي، يمكن أن يستفيد النظام الناتج من نقاط قوة كل نهج تقييم.

من أجل التطور المستمر لمحركات تقييم الكلام الآلي، يجب أن يركز البحث والتطوير على الجوانب التالية، من بين أمور أخرى:

بناء أنظمة التعرف على الكلام الآلي بدقة أعلى: منذ أن تعتمد معظم ميزات نظام تقييم الكلام بشكل مباشر أو غير مباشر على هذا المكون من النظام الذي يتحول كلام المتقدم للاختبار إلى نص مكتوب، فإن التعرف على الكلام الآلي بدقة عالية ضروري للحصول على ميزات صالحة؛
استكشاف طرق جديدة لدمج التقييمات البشرية والآلية: من أجل الاستفادة الكاملة من نقاط قوة تقييمات المقيمين البشريين وتقييمات المحرك الآلي، هناك حاجة لاستكشاف طرق أكثر لدمج هذه الأدلة؛
معالجة الشذوذ في الاستجابات، سواء كانت فنية أو سلوكية: من الضروري وجود مرشحات عالية الأداء قادرة على وضع علامة على هذه الاستجابات واستبعادها من التقييم الآلي لمساعدة ضمان صلاحية وثبات درجات التقييم الناتجة؛
تقييم الكلام الصريح أو المحادثي الذي يحدث أكثر في الحياة اليومية: في حين أن تقييم الكلام التفاعلي الآلي هو هدف مهم، فإن هذه العناصر تقدم تحديات تقييمية عديدة، بما في ذلك التقييم والتصنيف العام؛
استكشاف تقنيات التعلم العميق لتقييم الكلام الآلي: هذا المنهج المتعلق بالتعلم الآلي قد أنتج زيادات كبيرة في الأداء على العديد من مهام الذكاء الاصطناعي (مثل التعرف على الكلام، التعرف على الصور) في السنوات الأخيرة، وبالتالي من المحتمل أن يستفيد تقييم الكلام الآلي أيضًا من استخدام هذه التكنولوجيا. ومع ذلك، منذ أن يمكن اعتبار معظم هذه الأنظمة نهجًا “الغامض”، سيكون الاهتمام بفهم الدرجة الناتجة مهمًا للحفاظ على بعض مستويات الشفافية.

لتحقيق توافق مع سكان متعلمي اللغة الإنجليزية الذين ينمون ويتغيرون، يجب أن توسع أنظمة تقييم الكلام التالية جيلها الآلي ومدى ما يمكن قياسه، مما يسمح بالتماسك والقابلية للتوسيع. هذا لا يعني أن يتم إزالة العنصر البشري، خاصة في التقييمات ذو الحصانة العالية. من المحتمل أن يبقى المقيمون البشريون ضروريين لالتقاط جوانب معينة من الكلام التي ستبقى صعبة التقييم بدقة بواسطة أنظمة التقييم الآلية لفترة من الوقت، بما في ذلك جوانب محتوى الكلام والمنظمة الخطابية. استخدام أنظمة تقييم الكلام الآلية بشكل منفصل لتقييمات ذات عواقب قد يتعرض لخطر عدم تحديد استجابات مشكلة من المتقدمين للاختبار – على سبيل المثال، الاستجابات التي هي خارج الموضوع أو المقلدة، ويمكن أن يؤدي ذلك إلى انخفاض الصلاحية والثبات. استخدام المقيمين البشريين وأنظمة التقييم الآلية معًا قد يكون أفضل طريقة لتقييم الكلام في التقييمات ذو الحصانة العالية لمستقبل قريب، خاصة إذا تم تقييم الكلام الصريح أو المحادثي.

كتب بواسطة: Keelan Evanini، مدير أبحاث الكلام، ETS & Klaus Zechner، مدير أبحاث أول، الكلام، ETS

تعمل ETS مع المؤسسات التعليمية والشركات والحكومات لإجراء البحوث وتطوير برامج التقييم التي توفر معلومات ذات معنى يمكنهم الاعتماد عليها لتقييم الأشخاص والبرامج. تقوم ETS بإنشاء وتنفيذ وتقييم أكثر من 50 مليون اختبار سنويًا في أكثر من 180 دولة في أكثر من 9,000 موقع في جميع أنحاء العالم. نصمم تقييماتنا مع رؤية رائدة في الصناعة وأبحاث صارمة والتزام غير قابل للمساومة بالجودة حتى نتمكن من مساعدة مجتمعات التعليم والعمل على اتخاذ قرارات مستنيرة. لمعرفة المزيد، قم بزيارة ETS.

Keelan Evanini

مدير أبحاث الكلام في البحث والتطوير في Educational Testing Service (ETS).

Klaus Zechner

Managing Senior Research Scientist, Speech, in Research and Development at Educational Testing Service
(ETS).

Unite.AI

مستقبل تقييم الكلام – قادة الفكر

You may like