Connect with us

Tương lai của Đánh giá Nói – Lãnh đạo Tư tưởng

Trí tuệ nhân tạo

Tương lai của Đánh giá Nói – Lãnh đạo Tư tưởng

mm mm

Trên toàn thế giới, số lượng người học tiếng Anh tiếp tục tăng. Các cơ sở giáo dục và nhà tuyển dụng cần phải đánh giá khả năng tiếng Anh của người học ngôn ngữ – đặc biệt, khả năng nói, vì ngôn ngữ nói vẫn là một trong những kỹ năng ngôn ngữ quan trọng nhất. Thử thách, đối với cả nhà phát triển đánh giá và người dùng cuối, là tìm cách làm như vậy một cách chính xác, nhanh chóng và tiết kiệm chi phí. Như một phần của thử thách này, việc chấm điểm những đánh giá này đi kèm với một tập hợp các yếu tố, đặc biệt là khi chúng ta xem xét các lĩnh vực khác nhau (nói, viết, v.v.) mà một người được kiểm tra. Với nhu cầu về kỹ năng tiếng Anh trên toàn cầu chỉ dự kiến sẽ tăng, tương lai của việc chấm điểm nói cần phải như thế nào để đáp ứng những nhu cầu này?

Câu trả lời cho câu hỏi đó, một phần, được tìm thấy trong sự tiến hóa của việc chấm điểm nói cho đến nay. Việc chấm điểm các phản hồi nói được xây dựng đã được thực hiện lịch sử bằng cách sử dụng người chấm điểm. Quá trình này, tuy nhiên, có xu hướng tốn kém và chậm, và có những thách thức bổ sung bao gồm khả năng mở rộng và các điểm yếu của chính người chấm điểm (ví dụ: chủ quan hoặc thiên vị của người chấm điểm). Như đã thảo luận trong cuốn sách Đánh giá Nói Tự động: Sử dụng Công nghệ Ngôn ngữ để Chấm điểm Nói Tự phát, để giải quyết những thách thức này, ngày càng nhiều đánh giá hiện đang sử dụng công nghệ chấm điểm nói tự động như nguồn chấm điểm duy nhất hoặc kết hợp với người chấm điểm. Trước khi triển khai động cơ chấm điểm tự động, tuy nhiên, hiệu suất của chúng cần được đánh giá kỹ lưỡng, đặc biệt là liên quan đến độ tin cậy của điểm, tính hợp lệ (hệ thống đo lường những gì nó được cho là?) và tính công bằng (tức là hệ thống không nên giới thiệu thiên vị liên quan đến các phân khúc dân số như giới tính hoặc ngôn ngữ bản địa).

Kể từ năm 2006, động cơ chấm điểm nói của ETS, SpeechRater®, đã được vận hành trong đánh giá Trực tuyến Thực hành TOEFL (TPO) (được sử dụng bởi những người tham gia kiểm tra tiềm năng để chuẩn bị cho đánh giá TOEFL iBT®), và kể từ năm 2019, SpeechRater cũng đã được sử dụng, cùng với người chấm điểm, để chấm điểm phần nói của đánh giá TOEFL iBT®. Động cơ này đánh giá một loạt các kỹ năng nói, bao gồm phát âm và lưu loát, phạm vi từ vựng và ngữ pháp, và các kỹ năng nói cấp cao hơn liên quan đến sự mạch lạc và tiến triển của ý tưởng. Những tính năng này được tính toán bằng cách sử dụng xử lý ngôn ngữ tự nhiên (NLP) và thuật toán xử lý giọng nói. Một mô hình thống kê sau đó được áp dụng cho những tính năng này để gán một điểm cuối cùng cho phản hồi của người tham gia kiểm tra.

Mặc dù mô hình này được đào tạo trên dữ liệu đã quan sát trước đó được chấm điểm bởi người chấm điểm, nhưng nó cũng được xem xét bởi các chuyên gia nội dung để tối đa hóa tính hợp lệ của nó. Nếu một phản hồi được tìm thấy là không thể chấm điểm được do chất lượng âm thanh hoặc các vấn đề khác, động cơ có thể đánh dấu nó để xem xét thêm để tránh tạo ra một điểm không đáng tin cậy hoặc không hợp lệ. Người chấm điểm luôn tham gia vào việc chấm điểm các phản hồi nói trong đánh giá nói TOEFL iBT có mức độ cao.

Khi người chấm điểm và SpeechRater hiện đang được sử dụng cùng nhau để chấm điểm phản hồi của người tham gia kiểm tra trong các đánh giá nói có mức độ cao, cả hai đều đóng vai trò trong tương lai của việc chấm điểm khả năng tiếng Anh. Người chấm điểm có khả năng hiểu nội dung và tổ chức diễn ngôn của phản hồi nói một cách sâu sắc. Ngược lại, động cơ chấm điểm nói tự động có thể đo lường chính xác hơn một số khía cạnh chi tiết của giọng nói, chẳng hạn như lưu loát hoặc phát âm, thể hiện sự nhất quán hoàn hảo theo thời gian, có thể giảm thời gian và chi phí chấm điểm tổng thể, và có thể dễ dàng mở rộng để hỗ trợ số lượng kiểm tra lớn. Khi người chấm điểm và hệ thống chấm điểm nói tự động được kết hợp, hệ thống kết quả có thể tận dụng được điểm mạnh của mỗi phương pháp chấm điểm.

Để liên tục phát triển động cơ chấm điểm nói tự động, nghiên cứu và phát triển cần tập trung vào các khía cạnh sau, trong số những khía cạnh khác:

  • Xây dựng hệ thống nhận dạng giọng nói tự động với độ chính xác cao: Vì hầu hết các tính năng của hệ thống chấm điểm nói phụ thuộc trực tiếp hoặc gián tiếp vào thành phần của hệ thống chuyển đổi giọng nói của người tham gia kiểm tra thành bản chuyển录 văn bản, việc nhận dạng giọng nói tự động chính xác cao là rất quan trọng để có được các tính năng hợp lệ;
  • Khám phá các cách mới để kết hợp điểm của người chấm điểm và điểm tự động: Để tận dụng tối đa điểm mạnh của điểm người chấm điểm và điểm động cơ tự động, cần phải khám phá thêm các cách kết hợp bằng chứng này;
  • Định lượng các phản hồi bất thường, cả về mặt kỹ thuật và hành vi: Cần có các bộ lọc hiệu suất cao có thể đánh dấu các phản hồi như vậy và loại chúng khỏi việc chấm điểm tự động để giúp đảm bảo tính hợp lệ và độ tin cậy của điểm đánh giá kết quả;
  • Đánh giá giọng nói tự phát hoặc hội thoại xảy ra thường nhất trong cuộc sống hàng ngày: Mặc dù việc chấm điểm tự động các loại giọng nói tương tác như vậy là một mục tiêu quan trọng, nhưng những mục này đưa ra nhiều thách thức về chấm điểm, bao gồm cả việc đánh giá và chấm điểm tổng thể;
  • Khám phá các công nghệ học sâu cho việc chấm điểm nói tự động: Công nghệ này tương đối mới trong học máy đã tạo ra sự tăng hiệu suất đáng kể trên nhiều nhiệm vụ trí tuệ nhân tạo (AI) trong những năm gần đây (ví dụ: nhận dạng giọng nói tự động, nhận dạng hình ảnh), và do đó, có khả năng chấm điểm tự động cũng có thể được hưởng lợi từ việc sử dụng công nghệ này. Tuy nhiên, vì hầu hết các hệ thống này có thể được coi là “hộp đen” tiếp cận, chú ý đến khả năng giải thích của điểm kết quả sẽ rất quan trọng để duy trì một mức độ minh bạch nhất định.

Để thích ứng với một dân số học tiếng Anh đang phát triển và thay đổi, các hệ thống chấm điểm nói thế hệ tiếp theo phải mở rộng tự động hóa và phạm vi những gì chúng có thể đo lường, cho phép sự nhất quán và khả năng mở rộng. Điều đó không có nghĩa là yếu tố con người sẽ bị loại bỏ, đặc biệt là đối với các đánh giá có mức độ cao. Người chấm điểm có khả năng vẫn sẽ rất quan trọng để nắm bắt các khía cạnh nhất định của giọng nói mà sẽ vẫn khó đánh giá chính xác bởi các hệ thống chấm điểm tự động trong một thời gian dài, bao gồm cả các khía cạnh chi tiết của nội dung nói và diễn ngôn. Sử dụng các hệ thống chấm điểm nói tự động riêng lẻ cho các đánh giá có mức độ cao cũng có nguy cơ không xác định được các phản hồi có vấn đề của người tham gia kiểm tra – ví dụ, các phản hồi không đúng chủ đề hoặc đạo văn, và như một hệ quả, có thể dẫn đến giảm tính hợp lệ và độ tin cậy. Sử dụng cả người chấm điểm và hệ thống chấm điểm tự động kết hợp có thể là cách tốt nhất để chấm điểm nói trong các đánh giá có mức độ cao trong tương lai gần, đặc biệt là nếu giọng nói tự phát hoặc hội thoại được đánh giá.

Được viết bởi: Keelan Evanini, Giám đốc Nghiên cứu Giọng nói, ETS & Klaus Zechner, Nhà khoa học Nghiên cứu Senior Quản lý, Giọng nói, ETS

ETS làm việc với các cơ sở giáo dục, doanh nghiệp và chính phủ để tiến hành nghiên cứu và phát triển các chương trình đánh giá cung cấp thông tin có ý nghĩa mà họ có thể dựa vào để đánh giá người và chương trình. ETS phát triển, quản lý và chấm điểm hơn 50 triệu bài kiểm tra mỗi năm tại hơn 180 quốc gia tại hơn 9.000 địa điểm trên toàn thế giới. Chúng tôi thiết kế các đánh giá của mình với sự hiểu biết hàng đầu trong ngành, nghiên cứu nghiêm ngặt và cam kết chất lượng không thể thỏa hiệp để chúng tôi có thể giúp các cộng đồng giáo dục và nơi làm việc đưa ra quyết định sáng suốt. Để tìm hiểu thêm, hãy truy cập ETS.

Giám đốc Nghiên cứu Giọng nói trong Nghiên cứu và Phát triển tại Educational Testing Service (ETS).

Managing Senior Research Scientist, Speech, in Research and Development at Educational Testing Service
(ETS).