Connect with us

Kecerdasan buatan

Masa Depan Penilaian Ucapan – Pemimpin Pikiran

mm mm

Di seluruh dunia, jumlah pelajar bahasa Inggris terus meningkat. Lembaga pendidikan dan pemberi kerja perlu dapat menilai kemampuan bahasa Inggris pelajar bahasa – khususnya, kemampuan berbicara mereka, karena bahasa lisan tetap menjadi salah satu kemampuan bahasa yang paling penting. Tantangan, baik bagi pengembang penilaian dan pengguna akhir, adalah menemukan cara untuk melakukan penilaian tersebut dengan akurat, cepat, dan layak secara finansial. Sebagai bagian dari tantangan ini, penilaian penilaian tersebut datang dengan serangkaian faktor, terutama ketika kita mempertimbangkan berbagai bidang (ucapan, penulisan, dll.) yang sedang diuji. Dengan permintaan keterampilan bahasa Inggris di seluruh dunia hanya diharapkan meningkat, bagaimana masa depan penilaian ucapan perlu terlihat untuk memenuhi kebutuhan tersebut?

Jawaban untuk pertanyaan tersebut, sebagian, ditemukan dalam evolusi penilaian ucapan hingga saat ini. Penilaian respons ucapan yang dibangun secara historis telah dilakukan menggunakan penilai manusia. Proses ini, bagaimanapun, cenderung mahal dan lambat, dan memiliki tantangan tambahan termasuk skalabilitas dan berbagai kelemahan penilai manusia itu sendiri (misalnya, subjektivitas atau bias penilai). Seperti yang dibahas dalam buku Automated Speaking Assessment: Using Language Technologies to Score Spontaneous Speech, untuk mengatasi tantangan ini, jumlah penilaian yang semakin banyak sekarang menggunakan teknologi penilaian ucapan otomatis sebagai sumber penilaian tunggal atau dalam kombinasi dengan penilai manusia. Sebelum mengirimkan mesin penilaian otomatis, bagaimanapun, kinerja mereka perlu dievaluasi secara menyeluruh, terutama dalam kaitannya dengan keandalan skor, validitas (apakah sistem mengukur apa yang seharusnya?), dan keadilan (yaitu, sistem tidak boleh memperkenalkan bias terkait subkelompok populasi seperti jenis kelamin atau bahasa asli).

Sejak 2006, mesin penilaian ucapan ETS sendiri, SpeechRater®, telah dioperasikan dalam penilaian TOEFL® Practice Online (TPO) (digunakan oleh calon pengujian untuk mempersiapkan penilaian TOEFL iBT®), dan sejak 2019, SpeechRater juga telah digunakan, bersama dengan penilai manusia, untuk penilaian bagian berbicara dari penilaian TOEFL iBT®. Mesin ini mengevaluasi berbagai kemampuan berbicara, termasuk pengucapan dan kelancaran, kisaran kosakata dan tata bahasa, dan kemampuan berbicara tingkat tinggi yang terkait dengan koherensi dan kemajuan ide. Fitur-fitur ini dihitung dengan menggunakan pemrosesan bahasa alami (NLP) dan algoritma pemrosesan ucapan. Sebuah model statistik kemudian diterapkan pada fitur-fitur ini untuk menetapkan skor akhir untuk respons pengujian.

Sementara model ini dilatih pada data yang sebelumnya diamati yang dinilai oleh penilai manusia, juga ditinjau oleh ahli konten untuk memaksimalkan validitasnya. Jika respons ditemukan tidak dapat dinilai karena kualitas audio atau masalah lain, mesin dapat menandainya untuk ditinjau lebih lanjut untuk menghindari menghasilkan skor yang tidak dapat diandalkan atau tidak valid. Penilai manusia selalu terlibat dalam penilaian respons ucapan dalam penilaian berbicara TOEFL iBT yang memiliki konsekuensi tinggi.

Karena penilai manusia dan SpeechRater saat ini digunakan bersama untuk menilai respons pengujian dalam penilaian berbicara yang memiliki konsekuensi tinggi, keduanya memainkan peran dalam apa yang akan menjadi penilaian kemampuan bahasa Inggris di masa depan. Penilai manusia memiliki kemampuan untuk memahami konten dan organisasi wacana dari respons ucapan dengan cara yang mendalam. Di sisi lain, mesin penilaian ucapan otomatis dapat lebih tepat mengukur aspek-aspek ucapan yang terperinci, seperti kelancaran atau pengucapan, menunjukkan konsistensi yang sempurna seiring waktu, dapat mengurangi waktu dan biaya penilaian secara keseluruhan, dan lebih mudah diskalakan untuk mendukung volume pengujian yang besar. Ketika penilai manusia dan sistem penilaian ucapan otomatis digabungkan, sistem yang dihasilkan dapat memanfaatkan kekuatan dari masing-masing pendekatan penilaian.

Untuk terus mengembangkan mesin penilaian ucapan otomatis, penelitian dan pengembangan perlu fokus pada aspek-aspek berikut, antara lain:

  • Membangun sistem pengenalan ucapan otomatis dengan akurasi yang lebih tinggi: Karena sebagian besar fitur dari sistem penilaian ucapan bergantung langsung atau tidak langsung pada komponen sistem yang mengubah ucapan pengujian menjadi transkripsi teks, pengenalan ucapan otomatis yang sangat akurat sangat penting untuk mendapatkan fitur yang valid;
  • Penjelajahan cara baru untuk menggabungkan skor manusia dan otomatis: Untuk memanfaatkan kekuatan masing-masing skor penilai manusia dan skor mesin otomatis, cara-cara baru untuk menggabungkan bukti ini perlu dijelajahi;
  • Menghitung abnormalitas dalam respons, baik teknis maupun perilaku: Filter berkinerja tinggi yang dapat menandai respons tersebut dan mengecualikannya dari penilaian otomatis diperlukan untuk membantu memastikan validitas dan keandalan skor penilaian yang dihasilkan;
  • Penilaian ucapan spontan atau percakapan yang terjadi paling sering dalam kehidupan sehari-hari: Sementara penilaian otomatis ucapan interaktif seperti ini merupakan tujuan penting, item-item ini menyajikan tantangan penilaian yang beragam, termasuk evaluasi dan penilaian secara keseluruhan;
  • Penjelajahan teknologi pembelajaran dalam untuk penilaian ucapan otomatis: Paradigma yang relatif baru ini dalam pembelajaran mesin telah menghasilkan peningkatan kinerja yang substansial pada banyak tugas kecerdasan buatan (AI) dalam beberapa tahun terakhir (misalnya, pengenalan ucapan otomatis, pengenalan gambar), dan oleh karena itu, kemungkinan penilaian otomatis juga dapat memanfaatkan teknologi ini. Namun, karena sebagian besar sistem ini dapat dianggap sebagai “pendekatan black-box”, perhatian terhadap interpretasi skor yang dihasilkan akan penting untuk mempertahankan beberapa tingkat transparansi.

Untuk mengakomodasi populasi pelajar bahasa Inggris yang tumbuh dan berubah, sistem penilaian ucapan generasi berikutnya harus memperluas otomatisasi dan rentang apa yang mereka ukur, memungkinkan konsistensi dan skalabilitas. Itu tidak berarti bahwa elemen manusia akan dihilangkan, terutama untuk penilaian yang memiliki konsekuensi tinggi. Penilai manusia kemungkinan akan tetap penting untuk menangkap aspek-aspek ucapan tertentu yang akan tetap sulit untuk dievaluasi secara akurat oleh sistem penilaian otomatis untuk waktu yang akan datang, termasuk aspek-aspek rinci dari konten ucapan dan wacana. Menggunakan sistem penilaian ucapan otomatis secara terisolasi untuk penilaian yang memiliki konsekuensi juga berisiko tidak mengidentifikasi respons yang bermasalah oleh pengujian—misalnya, respons yang tidak sesuai topik atau plagiat, dan, sebagai konsekuensinya, dapat mengarah pada validitas dan keandalan yang berkurang. Menggunakan penilai manusia dan sistem penilaian otomatis dalam kombinasi mungkin merupakan cara terbaik untuk menilai ucapan dalam penilaian yang memiliki konsekuensi tinggi untuk waktu yang akan datang, terutama jika ucapan spontan atau percakapan dievaluasi.

Ditulis oleh: Keelan Evanini, Direktur Penelitian Ucapan, ETS & Klaus Zechner, Ilmuwan Penelitian Senior Manajemen, Ucapan, ETS

ETS bekerja dengan lembaga pendidikan, bisnis, dan pemerintah untuk melakukan penelitian dan mengembangkan program penilaian yang menyediakan informasi yang bermakna yang dapat diandalkan untuk menilai orang dan program. ETS mengembangkan, mengadministrasi, dan menilai lebih dari 50 juta tes setiap tahun di lebih dari 180 negara di lebih dari 9.000 lokasi di seluruh dunia. Kami merancang penilaian kami dengan wawasan industri yang memimpin, penelitian yang ketat, dan komitmen yang tidak kompromi terhadap kualitas sehingga kami dapat membantu komunitas pendidikan dan tempat kerja membuat keputusan yang tepat. Untuk mempelajari lebih lanjut, kunjungi ETS.

Direktur Penelitian Pembicaraan di Penelitian dan Pengembangan di Educational Testing Service (ETS).

Managing Senior Research Scientist, Speech, in Research and Development at Educational Testing Service
(ETS).