Kecerdasan buatan

Anastassia Loukina, Ilmuwan Peneliti Senior (NLP/Speech) di ETS – Seri Wawancara

Published March 30, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Anastassia Loukina adalah seorang ilmuwan peneliti di Educational Testing Services (ETS) di mana dia bekerja pada skoring otomatis ucapan.

Minat penelitiannya mencakup berbagai topik. Dia telah bekerja pada dialek Yunani Modern, irama ucapan dan analisis prosodi otomatis.

Saat ini, pekerjaannya berfokus pada menggabungkan alat dan metode dari teknologi ucapan dan pembelajaran mesin dengan wawasan dari studi tentang persepsi/produksi ucapan untuk membangun model skoring otomatis untuk mengevaluasi ucapan non-asli.

Anda jelas memiliki cinta bahasa, apa yang memperkenalkan Anda pada passion ini?

Saya tumbuh dengan berbicara bahasa Rusia di St. Petersburg, Rusia dan saya ingat betapa saya terkesan ketika saya pertama kali diperkenalkan dengan bahasa Inggris: untuk beberapa kata, ada pola yang membuatnya mungkin untuk “mengubah” kata Rusia menjadi kata Inggris. Dan kemudian saya akan menemukan kata di mana “polanya” gagal dan mencoba membuat aturan yang lebih baik dan lebih umum. Pada saat itu, tentu saja, saya tidak tahu apa-apa tentang tipologi linguistik atau perbedaan antara kata serapan dan kata pinjaman, tetapi ini memicu rasa ingin tahu dan keinginan saya untuk belajar lebih banyak bahasa. Passion ini untuk mengidentifikasi pola dalam cara orang berbicara dan mengujinya pada data adalah yang membawa saya ke fonetik, pembelajaran mesin dan pekerjaan yang saya lakukan sekarang.

Sebelum pekerjaan Anda saat ini di Natural Language Processing (NLP) Anda adalah penerjemah antara bahasa Inggris-Rusia dan Modern Greek-Rusia. Apakah Anda percaya bahwa pekerjaan Anda sebagai penerjemah telah memberikan wawasan tambahan tentang beberapa nuansa dan masalah yang terkait dengan NLP?

Identitas utama saya selalu sebagai seorang peneliti. Memang benar bahwa saya memulai karir akademis saya sebagai seorang sarjana bahasa Yunani Modern, atau lebih khusus, fonetik bahasa Yunani Modern. Untuk disertasi saya, saya mengeksplorasi perbedaan fonetik antara beberapa dialek bahasa Yunani Modern dan bagaimana perbedaan antara dialek-dialek tersebut dapat dikaitkan dengan sejarah daerah tersebut. Saya berargumen bahwa beberapa perbedaan antara dialek-dialek tersebut dapat muncul sebagai hasil dari kontak bahasa antara setiap dialek dan bahasa lain yang digunakan di daerah tersebut. Meskipun saya tidak lagi bekerja pada bahasa Yunani Modern, perubahan yang terjadi ketika dua bahasa saling kontak masih menjadi inti dari pekerjaan saya: hanya saja kali ini saya fokus pada apa yang terjadi ketika seorang individu belajar bahasa baru dan bagaimana teknologi dapat membantu melakukan ini dengan paling efisien.

Ketika datang ke bahasa Inggris, ada banyak aksen. Bagaimana Anda merancang NLP dengan kemampuan untuk memahami semua dialek yang berbeda? Apakah ini hanya masalah memberi makan algoritma pembelajaran dalam dengan data besar tambahan dari setiap jenis aksen?

Ada beberapa pendekatan yang telah digunakan di masa lalu untuk menangani ini. Selain membangun satu model besar yang mencakup semua aksen, Anda bisa pertama-tama mengidentifikasi aksen dan kemudian menggunakan model khusus untuk aksen tersebut, atau Anda bisa mencoba beberapa model sekaligus dan memilih yang mana yang paling baik. Pada akhirnya, untuk mencapai kinerja yang baik pada berbagai aksen, Anda memerlukan data pelatihan dan evaluasi yang representatif dari banyak aksen yang mungkin ditemui sistem.

Di ETS kami melakukan evaluasi komprehensif untuk memastikan bahwa skor yang dihasilkan oleh sistem otomatis kami mencerminkan perbedaan dalam keterampilan yang sebenarnya kami ingin ukur dan tidak dipengaruhi oleh karakteristik demografis pembelajar seperti jenis kelamin, ras, atau negara asal.

Anak-anak dan/atau pembelajar bahasa sering memiliki kesulitan dengan pengucapan yang sempurna. Bagaimana Anda mengatasi masalah pengucapan?

Tidak ada yang namanya pengucapan yang sempurna: cara kita berbicara erat terkait dengan identitas kita dan sebagai pengembang dan peneliti, tujuan kita adalah memastikan bahwa sistem kita adil untuk semua pengguna.

Baik pembelajar bahasa maupun anak-anak menawarkan tantangan khusus bagi sistem berbasis ucapan. Misalnya, suara anak tidak hanya memiliki kualitas akustik yang sangat berbeda, tetapi anak-anak juga berbicara secara berbeda dari orang dewasa dan ada banyak variabilitas antara anak-anak. Sebagai hasilnya, mengembangkan pengenalan ucapan otomatis untuk anak-anak biasanya merupakan tugas terpisah yang memerlukan sejumlah besar data ucapan anak.

Demikian pula, meskipun ada banyak kesamaan antara pembelajar bahasa dari latar belakang yang sama, pembelajar dapat bervariasi secara luas dalam penggunaan pola fonetik, gramatikal, dan leksikal, membuat pengenalan ucapan menjadi tugas yang sangat menantang. Ketika membangun sistem kami untuk menilai kemampuan berbahasa Inggris, kami menggunakan data dari pembelajar bahasa dengan berbagai tingkat kemampuan dan bahasa asli.

Pada Januari 2018, Anda menerbitkan ‘Menggunakan respons contoh untuk pelatihan dan evaluasi sistem penilaian ucapan otomatis‘. Apa saja temuan utama yang harus dipahami dari makalah ini?

Dalam makalah ini, kami melihat bagaimana kualitas data pelatihan dan pengujian mempengaruhi kinerja sistem penilaian otomatis.

Sistem penilaian otomatis, seperti banyak sistem otomatis lainnya, dilatih pada data yang telah diberi label oleh manusia. Dalam hal ini, ini adalah skor yang diberikan oleh penilai manusia. Penilai manusia tidak selalu setuju dalam skor yang mereka berikan. Ada beberapa strategi yang digunakan dalam penilaian untuk memastikan bahwa skor akhir yang dilaporkan kepada peserta tes tetap sangat andal meskipun ada variasi dalam kesepakatan manusia pada tingkat pertanyaan individu. Namun, karena mesin penilaian otomatis biasanya dilatih menggunakan skor tingkat respons, inkonsistensi dalam skor tersebut karena berbagai alasan yang disebutkan di atas dapat mempengaruhi negatif kinerja sistem.

Kami dapat mengakses sejumlah besar data dengan kesepakatan yang berbeda antara penilai manusia dan membandingkan kinerja sistem di bawah kondisi yang berbeda. Apa yang kami temukan adalah bahwa melatih sistem pada data yang sempurna tidak benar-benar meningkatkan kinerjanya dibandingkan dengan sistem yang dilatih pada data dengan label yang lebih berisik. Label yang sempurna hanya memberikan keuntungan ketika ukuran set pelatihan Anda sangat kecil. Di sisi lain, kualitas label manusia memiliki efek besar pada evaluasi sistem: perkiraan kinerja Anda dapat hingga 30% lebih tinggi jika Anda mengevaluasi pada label yang bersih.

Pesan yang diambil adalah bahwa jika Anda memiliki banyak data dan sumber daya untuk membersihkan label standar emas, mungkin lebih cerdas untuk membersihkan label dalam set evaluasi daripada label dalam set pelatihan. Dan temuan ini berlaku tidak hanya untuk penilaian otomatis tetapi juga untuk banyak bidang lainnya.

Apakah Anda dapat menjelaskan beberapa pekerjaan Anda di ETS?

Saya bekerja pada sistem mesin penilaian ucapan yang memproses bahasa lisan dalam konteks pendidikan. Salah satu sistem seperti itu adalah SpeechRater®, yang menggunakan teknologi pengenalan ucapan dan analisis canggih untuk menilai dan memberikan umpan balik rinci tentang kemampuan berbicara bahasa Inggris. SpeechRater adalah aplikasi yang sangat matang yang telah ada selama lebih dari 10 tahun. Saya membangun model penilaian untuk aplikasi yang berbeda dan bekerja dengan rekan-rekan lain di ETS untuk memastikan bahwa skor kami andal, adil, dan valid untuk semua peserta tes. Kami juga bekerja dengan kelompok lain di ETS untuk terus memantau kinerja sistem.

Selain memelihara dan meningkatkan sistem operasional kami, kami juga membuat prototipe sistem baru. Salah satu proyek yang saya sangat antusias adalah RelayReader™: aplikasi yang dirancang untuk membantu pembaca yang sedang berkembang memperoleh kelancaran dan kepercayaan diri. Ketika membaca dengan RelayReader, pengguna bergiliran mendengarkan dan membaca keras-keras sebuah buku. Pembacaan mereka kemudian dikirim ke server kami untuk memberikan umpan balik. Dalam hal pengolahan ucapan, tantangan utama aplikasi ini adalah bagaimana mengukur pembelajaran dan memberikan umpan balik yang dapat diandalkan dan berarti tanpa mengganggu keterlibatan pembaca dengan buku.

Apa bagian favorit Anda dalam bekerja dengan ETS?

Apa yang awalnya menarik saya ke ETS adalah bahwa ini adalah organisasi nirlaba dengan misi untuk meningkatkan kualitas pendidikan untuk semua orang di seluruh dunia. Meskipun tentu saja sangat baik ketika penelitian mengarah ke produk, saya menghargai memiliki kesempatan untuk bekerja pada proyek yang lebih mendasar sifatnya tetapi akan membantu dengan pengembangan produk di masa depan. Saya juga menghargai fakta bahwa ETS sangat serius dalam masalah privasi data dan keadilan dan semua sistem kami menjalani penilaian yang sangat ketat sebelum diterapkan secara operasional.

Tapi apa yang benar-benar membuat ETS menjadi tempat yang hebat untuk bekerja adalah orang-orangnya. Kami memiliki komunitas ilmuwan, insinyur, dan pengembang yang luar biasa dari berbagai latar belakang yang memungkinkan banyak kolaborasi menarik.

Apakah Anda percaya bahwa AI akan pernah bisa lulus Tes Turing?

Sejak 1950-an, ada banyak interpretasi tentang bagaimana Tes Turing harus dilakukan dalam prakteknya. Ada kemungkinan kesepakatan umum bahwa Tes Turing belum lulus dalam arti filosofis bahwa tidak ada sistem AI yang berpikir seperti manusia. Namun, ini juga telah menjadi subjek yang sangat khusus. Kebanyakan orang tidak membangun sistem mereka untuk lulus Tes Turing – kami ingin mereka mencapai tujuan tertentu.

Untuk beberapa tugas, misalnya pengenalan ucapan atau pemahaman bahasa alami, kinerja manusia mungkin dianggap sebagai standar emas. Tetapi ada juga banyak tugas lain di mana kami mengharapkan sistem otomatis untuk melakukan jauh lebih baik daripada manusia atau di mana sistem otomatis dan ahli manusia perlu bekerja sama untuk mencapai hasil terbaik. Misalnya, dalam konteks pendidikan, kami tidak ingin sistem AI menggantikan seorang guru: kami ingin membantu guru, baik melalui mengidentifikasi pola dalam jalur pembelajaran siswa, membantu dengan penilaian atau menemukan bahan ajar terbaik.

Apakah ada yang lain yang Anda ingin bagikan tentang ETS atau NLP?

Banyak orang mengenal ETS karena asesmen dan sistem penilaian otomatisnya. Tetapi kami melakukan banyak hal lain. Kami memiliki banyak kemampuan, dari biometrik suara hingga aplikasi dialog lisan, dan kami selalu mencari cara baru untuk mengintegrasikan teknologi ke dalam pembelajaran. Sekarang bahwa banyak siswa belajar dari rumah, kami telah membuka beberapa kemampuan penelitian kami kepada umum.

Terima kasih atas wawancara dan untuk menawarkan wawasan ini tentang kemajuan terbaru dalam NLP dan pengenalan ucapan. Siapa saja yang ingin mempelajari lebih lanjut dapat mengunjungi Educational Testing Services.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.

Unite.AI

Anastassia Loukina, Ilmuwan Peneliti Senior (NLP/Speech) di ETS – Seri Wawancara

You may like