Trí tuệ nhân tạo
Nitin Madnani, Nhà khoa học nghiên cứu cao cấp tại ETS – Loạt phỏng vấn

Nitin Madnan là một Nhà khoa học nghiên cứu cao cấp với nhóm nghiên cứu Xử lý ngôn ngữ tự nhiên (NLP) tại Dịch vụ Kiểm tra Giáo dục (ETS). ETS được thành lập vào năm 1947 và là tổ chức phi lợi nhuận tư nhân lớn nhất thế giới về kiểm tra và đánh giá giáo dục.
Bạn có thể bắt đầu bằng cách giải thích sứ mệnh của ETS?
Sứ mệnh của ETS là thúc đẩy chất lượng và công bằng trong giáo dục cho tất cả người học trên toàn thế giới. Sứ mệnh này là nền tảng cho các sản phẩm, dịch vụ, nghiên cứu và nỗ lực phát triển của chúng tôi với mục tiêu thúc đẩy việc học, hỗ trợ giáo dục, phát triển chuyên môn và đo lường kiến thức và kỹ năng cho mọi người.
Chúng tôi tin rằng bất kỳ ai, ở bất kỳ nơi nào, đều có thể tạo ra sự khác biệt trong cuộc sống của họ thông qua việc học và công việc nghiên cứu, đánh giá, đo lường và chính sách của ETS có thể đóng vai trò quan trọng trong việc làm cho việc học đó trở nên khả thi.
Điều gì về NLP khiến bạn đam mê?
Tất cả các ngôn ngữ của con người đều đẹp và phức tạp. Chúng cho phép chúng ta thể hiện một loạt các cảm xúc trong lời nói và thậm chí trong văn viết của chúng ta và chúng tiến hóa theo thời gian. Mặt khác, một máy tính rất quyết đoán và lâm sàng trong việc xử lý các đầu vào của nó. Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực của trí tuệ nhân tạo nhằm cố gắng làm cho thiết bị phi nhân này hiểu được sự phức tạp đẹp của ngôn ngữ của con người bằng cách kết hợp các kỹ thuật từ Khoa học máy tính, Ngôn ngữ học và Thống kê. Bạn không thể không thấy điều này hấp dẫn?
ETS NLP & nhà khoa học ngôn ngữ đã phát triển công cụ RSMTool gần đây. Bạn có thể chia sẻ với chúng tôi về những gì RSMTool làm?
Như chúng ta đã thấy trong những năm qua, tất cả các mô hình học máy đều có thể表现 ra hành vi thiên vị bất kể lĩnh vực mà chúng được áp dụng, giáo dục không phải là ngoại lệ. Các hệ thống chấm điểm tự động được sử dụng để gán điểm hoặc điểm cho bài nói hoặc bài viết của học sinh trong các bài kiểm tra hoặc trong lớp học thường sử dụng các mô hình học máy. Do đó, hoàn toàn có thể cho các hệ thống như vậy hành xử một cách thiên vị. Sự thiên vị như vậy có thể có hậu quả nghiêm trọng đặc biệt nếu điểm từ các hệ thống như vậy được sử dụng để đưa ra quyết định quan trọng.
RSMTool là một công cụ mã nguồn mở mà đồng nghiệp của tôi Anastassia Loukina (trước đây được giới thiệu trên Unite.AI) và tôi đã phát triển tại ETS để giúp đảm bảo rằng bất kỳ thiên vị có hại nào trong các hệ thống chấm điểm tự động được xác định càng sớm càng tốt, hy vọng là trước khi các hệ thống được triển khai trong thế giới thực. RSMTool được thiết kế để cung cấp một đánh giá toàn diện về các động cơ chấm điểm AI bao gồm không chỉ các chỉ số chuẩn của độ chính xác dự đoán, mà còn các biện pháp về công bằng của mô hình và các chỉ số dựa trên lý thuyết kiểm tra, giúp các nhà phát triển của các động cơ này xác định các thiên vị hoặc vấn đề có thể xảy ra trong hệ thống của họ.
Tên RSMTool đến từ đâu?
Trong lĩnh vực đánh giá giáo dục, người ta thường gọi người gán điểm cho một bài viết là “người chấm”. Có người chấm tự động và người chấm tự nhiên. RSMTool – viết tắt của Công cụ Mô hình hóa Đánh giá – được thiết kế để giúp xây dựng (và đánh giá) các mô hình chấm điểm được sử dụng bởi người chấm tự động.
Làm thế nào công cụ này có thể giúp các nhà phát triển xác định các thiên vị hoặc vấn đề có thể xảy ra trong các động cơ chấm điểm AI của họ?
Trong năm thập kỷ qua, các nhà khoa học đo lường giáo dục – bao gồm nhiều đồng nghiệp của chúng tôi tại ETS – đã thực hiện nghiên cứu có giá trị về những gì làm cho chấm điểm tự động công bằng. Trong quá trình nghiên cứu này, họ đã phát triển nhiều phân tích thống kê và tâm lý học để tính toán các chỉ số của thiên vị hệ thống. Tuy nhiên, vì cộng đồng tâm lý học và NLP hiếm khi tương tác, nên có rất ít cơ hội cho việc trao đổi ý tưởng. Kết quả là các nhà nghiên cứu và nhà phát triển NLP đang xây dựng các hệ thống chấm điểm tự động thực sự – đặc biệt là các nhà nghiên cứu cá nhân và những người trong các công ty nhỏ – không có quyền truy cập dễ dàng vào các phân tích tâm lý học mà họ nên sử dụng để kiểm tra hệ thống của mình về thiên vị. RSMTool cố gắng giải quyết vấn đề này bằng cách cung cấp một tập hợp lớn và đa dạng các phân tích tâm lý học trong một gói Python đơn giản và dễ sử dụng có thể được kết hợp dễ dàng bởi bất kỳ nhà nghiên cứu NLP nào vào đường ống nghiên cứu hoặc hoạt động của họ.
Trong một trường hợp sử dụng điển hình, một nhà nghiên cứu sẽ cung cấp một tệp hoặc khung dữ liệu với điểm hệ thống số, điểm chuẩn (con người) và siêu dữ liệu, nếu có. RSMTool xử lý dữ liệu này và tạo ra một báo cáo HTML chứa một đánh giá toàn diện bao gồm thống kê mô tả cũng như nhiều biện pháp về hiệu suất và công bằng của hệ thống trong số các yếu tố khác. Một báo cáo mẫu RSMTool có thể được tìm thấy tại https://bit.ly/fair-tool. RSMTool có thể làm việc với các mô hình học máy truyền thống (ví dụ: từ thư viện scikit-learn) và với các mô hình học sâu. Mặc dù đầu ra chính của RSMTool là báo cáo HTML giúp chia sẻ dễ dàng hơn, nhưng nó cũng tạo ra các tệp dữ liệu bảng (ở định dạng CSV, TSV hoặc XLSX) làm đầu ra trung gian cho người dùng nâng cao. Cuối cùng, để giữ mọi thứ có thể tùy chỉnh cao, RSMTool thực hiện mỗi phần của báo cáo của nó như một sổ tay Jupyter để người dùng không chỉ có thể chọn các phần nào liên quan đến mô hình chấm điểm cụ thể của họ, mà còn có thể dễ dàng thực hiện các phân tích tùy chỉnh và bao gồm chúng trong báo cáo với rất ít công việc.
Có nhiều nghiên cứu gần đây về chấm điểm tự động đã sử dụng RSMTool để đánh giá các mô hình chấm điểm được đề xuất của họ.
Loại thiên vị nào thường ảnh hưởng đến các hệ thống chấm điểm tự động?
Loại thiên vị phổ biến nhất ảnh hưởng đến một hệ thống chấm điểm tự động là hiệu suất của phân nhóm khác nhau, tức là khi hệ thống tự động hoạt động khác nhau đối với các phân nhóm dân số khác nhau. Ví dụ, một hệ thống chấm điểm thiên vị có thể tạo ra điểm hệ thống thấp hơn một cách có hệ thống cho các bài viết được viết bởi, ví dụ, phụ nữ da đen so với những bài viết cho nam giới da trắng, ngay cả khi có thể không có sự khác biệt hệ thống trong các kỹ năng viết thực tế được hiển thị bởi hai phân nhóm đó trong các bài viết của họ, về mặt con người.
ETS có một lịch sử phong phú về việc thực hiện nghiên cứu về sự công bằng cho các động cơ chấm điểm tự động. Ví dụ, chúng tôi đã xem xét liệu e-rater® – động cơ chấm điểm tự động AI của chúng tôi – có表现 ra hiệu suất khác nhau cho các phân nhóm được xác định bởi sắc tộc, giới tính và quốc gia (họ tìm thấy một số sự khác biệt nhỏ đã được giải quyết bởi các thay đổi chính sách sau đó). Các nghiên cứu cũng đã xem xét liệu e-rater® có đối xử với các phản hồi được viết bởi những người tham gia kiểm tra GRE® có khuyết tật học tập và/hoặc ADHD khác biệt một cách có hệ thống về trung bình (nó không). Gần đây nhất, một nghiên cứu kịp thời xem xét liệu một hệ thống tự động để chấm điểm thành thạo ngôn ngữ có表现 ra thiên vị hệ thống đối với những người tham gia kiểm tra phải đeo mặt nạ so với những người không đeo mặt nạ (nó không). RSMTool chứa một số phân tích tâm lý học nhằm lượng hóa hiệu suất phân nhóm khác nhau trên các phân nhóm mà người dùng có thể xác định trên dữ liệu của riêng họ.
ETS đã chọn làm cho RSMTool mã nguồn mở, bạn có thể giải thích lý do và tầm quan trọng đằng sau điều này?
Có, RSMTool có sẵn trên GitHub với giấy phép Apache 2.0. Chúng tôi tin rằng điều quan trọng là một công cụ như vậy phải là mã nguồn mở và không độc quyền để cộng đồng có thể (a) kiểm tra mã nguồn của các phân tích đã có để đảm bảo tuân thủ các tiêu chuẩn công bằng và (b) đóng góp các phân tích mới khi các tiêu chuẩn phát triển và thay đổi. Chúng tôi cũng muốn làm cho nó dễ dàng cho các nhà nghiên cứu và nhà phát triển NLP sử dụng RSMTool trong công việc của họ và giúp chúng tôi cải thiện nó. Việc làm cho RSMTool mã nguồn mở là một ví dụ rõ ràng về cam kết liên tục của ETS đối với việc sử dụng AI có trách nhiệm trong giáo dục.
Bạn đã học được những bài học gì từ việc phát triển và duy trì RSMTool?
Trong hơn năm năm qua mà Anastassia và tôi đã phát triển và duy trì RSMTool – với sự giúp đỡ của nhiều đồng nghiệp ETS và những người đóng góp GitHub không thuộc ETS – chúng tôi đã học được hai bài học bao quát. Bài học đầu tiên là các người dùng khác nhau có nhu cầu khác nhau và việc có một phương pháp phù hợp với tất cả sẽ không hoạt động cho phần mềm liên ngành như RSMTool. Bài học thứ hai chúng tôi đã học được là để làm cho nó có nhiều khả năng phần mềm mã nguồn mở được áp dụng, bạn thực sự phải đi thêm dặm để làm cho nó mạnh mẽ nhất có thể.
Trong thời gian chúng tôi là người duy trì RSMTool, chúng tôi đã xác định được nhiều loại người dùng của RSMTool. Một số trong số họ là “người dùng mạnh” (ví dụ: nhà nghiên cứu và nhà phát triển NLP) những người muốn chọn và chọn các chức năng RSMTool cụ thể để kết nối vào đường ống học máy của riêng họ trong khi cũng sử dụng các gói Python khác. Để đáp ứng những người dùng như vậy, chúng tôi đã tạo ra một API khá toàn diện để hiển thị các chức năng tiền xử lý và hậu xử lý cũng như các chỉ số tùy chỉnh có trong RSMTool. Một nhóm người dùng khác là những gì chúng tôi gọi là “người dùng tối giản”: các nhà phân tích dữ liệu và kỹ sư có thể thiếu nền tảng thống kê hoặc lập trình để tương tác với API và thích một đường ống sẵn sàng sử dụng thay vào đó. Để đáp ứng những người dùng như vậy, chúng tôi đã tạo ra các công cụ dòng lệnh có thể dễ dàng được gọi trong các kịch bản shell bọc, ví dụ. Chúng tôi cũng đã tìm thấy rằng người dùng tối giản thường không muốn đọc qua danh sách tùy chọn cấu hình RSMTool (admittedly lớn). Do đó, chúng tôi đã xây dựng một bộ tạo cấu hình tương tác với tự động hoàn thành có thể giúp những người dùng như vậy tạo tệp cấu hình dựa trên nhu cầu cụ thể của họ.
Để đáp ứng nhu cầu của tất cả các nhóm người dùng của chúng tôi, chúng tôi đã phải áp dụng các phương pháp mà chúng tôi tin là cần thiết để làm cho RSMTool mạnh mẽ. Điều gì chúng tôi có nghĩa là phần mềm mạnh mẽ? Để mạnh mẽ, bất kỳ phần mềm nào phải đáp ứng các tiêu chí sau: tác động của bất kỳ thay đổi mã nào đối với độ chính xác và hiệu suất của nó có thể được đo lường (được kiểm tra tốt), tài liệu của nó luôn được cập nhật (được ghi lại tốt) và phần mềm (cùng với các phụ thuộc của nó) có thể được cài đặt dễ dàng bởi người dùng. Đối với RSMTool, chúng tôi đã tận dụng một số công cụ và dịch vụ mã nguồn mở để làm cho nó đáp ứng định nghĩa của chúng tôi. Chúng tôi có một bộ thử nghiệm toàn diện (>90% phạm vi mã được bao phủ) mà chúng tôi tự động chạy qua tích hợp liên tục cho mọi thay đổi được gửi đến mã. Chúng tôi duy trì tài liệu rộng rãi (bao gồm nhiều hướng dẫn thực tế) và bất kỳ chức năng mới nào được đề xuất cho RSMTool phải bao gồm một thành phần tài liệu cũng được xem xét như một phần của quá trình xem xét mã. Cuối cùng, chúng tôi phát hành RSMTool dưới dạng gói có thể được cài đặt dễ dàng (bằng cách sử dụng pip hoặc conda) và tất cả các phụ thuộc cần thiết cũng được cài đặt tự động.
ETS hy vọng đạt được điều gì bằng cách phát hành RSMTool?
Ngành giáo dục đã chứng kiến một trong những sự mở rộng lớn nhất của AI trong những năm qua với việc chấm điểm tự động của văn bản và lời nói trở thành một ứng dụng ngày càng phổ biến của NLP. ETS đã lâu là một nhà lãnh đạo trong lĩnh vực chấm điểm tự động và, kể từ khi thành lập, đã cam kết xây dựng các sản phẩm và đánh giá công bằng được thiết kế để phục vụ người học trên toàn thế giới. Bằng cách phát hành RSMTool, được phát triển trong sự hợp tác chặt chẽ giữa các nhà khoa học NLP và tâm lý học, ETS muốn tiếp tục vận động cho việc sử dụng AI có trách nhiệm trong giáo dục theo một cách cụ thể; cụ thể, chúng tôi muốn làm rõ rằng khi các nhà nghiên cứu AI nghĩ về “hiệu suất” của một hệ thống chấm điểm tự động, họ nên xem xét không chỉ các chỉ số chuẩn của độ chính xác dự đoán (ví dụ: hệ số tương quan Pearson) mà còn các chỉ số về công bằng của mô hình. Một cách rộng hơn, chúng tôi cũng muốn RSMTool phục vụ như một ví dụ về cách các nhà nghiên cứu NLP và tâm lý học có thể và nên làm việc cùng nhau.
Có điều gì khác bạn muốn chia sẻ về RSMTool?
Chúng tôi muốn khuyến khích người đọc giúp chúng tôi cải thiện RSMTool! Họ không cần phải là một nhà tâm lý học hoặc một chuyên gia NLP để đóng góp. Chúng tôi có nhiều vấn đề mở liên quan đến tài liệu và lập trình Python mà sẽ rất phù hợp cho bất kỳ lập trình viên Python nào từ người mới bắt đầu đến người trung cấp. Chúng tôi cũng mời đóng góp cho SKLL (Scikit-Learn Laboratory) – một gói mã nguồn mở khác của ETS để chạy các thí nghiệm học máy có thể cấu hình người dùng, theo lô – được sử dụng cơ bản bởi RSMTool.












