Trí tuệ nhân tạo

Anastassia Loukina, Nhà khoa học nghiên cứu cao cấp (NLP/Speech) tại ETS – Loạt phỏng vấn

Published March 30, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Anastassia Loukina là một nhà khoa học nghiên cứu tại Dịch vụ Kiểm tra Giáo dục (ETS) nơi cô làm việc về việc chấm điểm tự động của giọng nói.

Các lĩnh vực nghiên cứu của cô bao gồm nhiều chủ đề rộng lớn. Cô đã làm việc trong số các lĩnh vực khác về các phương ngữ Hy Lạp hiện đại, nhịp điệu giọng nói và phân tích ngữ điệu tự động.

Công việc hiện tại của cô tập trung vào việc kết hợp các công cụ và phương pháp từ công nghệ giọng nói và học máy với những hiểu biết từ các nghiên cứu về nhận thức và sản xuất giọng nói để xây dựng các mô hình chấm điểm tự động để đánh giá giọng nói không bản địa.

Bạn rõ ràng có tình yêu với ngôn ngữ, điều gì đã giới thiệu bạn đến niềm đam mê này?

Tôi lớn lên nói tiếng Nga tại St. Petersburg, Nga và tôi nhớ mình đã bị thu hút khi tôi lần đầu tiên được giới thiệu đến ngôn ngữ tiếng Anh: đối với một số từ, có một mẫu cho phép “chuyển đổi” một từ Nga sang một từ tiếng Anh. Và sau đó tôi sẽ gặp một từ nơi “mẫu” của tôi không thành công và cố gắng nghĩ ra một quy tắc tốt hơn, tổng quát hơn. Tại thời điểm đó, tôi không biết gì về loại hình ngôn ngữ học hoặc sự khác biệt giữa các từ đồng nguồn và từ vay mượn, nhưng điều này đã kích thích sự tò mò và mong muốn học thêm nhiều ngôn ngữ của tôi. Niềm đam mê này trong việc xác định mẫu trong cách mọi người nói và kiểm tra chúng trên dữ liệu là điều đã dẫn tôi đến lĩnh vực ngữ âm, học máy và công việc tôi đang làm hiện nay.

Trước khi làm việc trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên (NLP) hiện tại, bạn từng là một phiên dịch viên giữa tiếng Anh-Nga và tiếng Hy Lạp hiện đại-Nga. Bạn có tin rằng công việc của bạn với tư cách là một phiên dịch viên đã mang lại cho bạn những hiểu biết thêm về một số sắc thái và vấn đề liên quan đến NLP?

Danh tính chính của tôi luôn là một nhà nghiên cứu. Đúng là tôi bắt đầu sự nghiệp học thuật của mình với tư cách là một học giả về tiếng Hy Lạp hiện đại, hoặc cụ thể hơn, về ngữ âm của tiếng Hy Lạp hiện đại. Đối với luận án tiến sĩ của tôi, tôi đã khám phá các khác biệt ngữ âm giữa một số phương ngữ tiếng Hy Lạp hiện đại và cách các khác biệt giữa các phương ngữ này có thể liên quan đến lịch sử của khu vực. Tôi cho rằng một số khác biệt giữa các phương ngữ có thể đã xuất hiện do tiếp xúc ngôn ngữ giữa mỗi phương ngữ và các ngôn ngữ khác được nói trong khu vực. Mặc dù tôi không còn làm việc về tiếng Hy Lạp hiện đại, nhưng những thay đổi xảy ra khi hai ngôn ngữ tiếp xúc với nhau vẫn là trung tâm của công việc tôi: chỉ là lần này tôi tập trung vào những gì xảy ra khi một cá nhân học một ngôn ngữ mới và cách công nghệ có thể giúp việc này một cách hiệu quả nhất.

Khi nói đến ngôn ngữ tiếng Anh, có rất nhiều giọng nói khác nhau. Bạn thiết kế một NLP với khả năng hiểu tất cả các phương ngữ khác nhau như thế nào? Liệu đó có phải là một vấn đề đơn giản khi cho thuật toán học sâu thêm dữ liệu lớn từ mỗi loại giọng nói?

Có một số cách tiếp cận đã được sử dụng trong quá khứ để giải quyết vấn đề này. Ngoài việc xây dựng một mô hình lớn bao gồm tất cả các giọng nói, bạn có thể xác định giọng nói và sau đó sử dụng một mô hình tùy chỉnh cho giọng nói đó, hoặc bạn có thể thử nhiều mô hình cùng một lúc và chọn mô hình hoạt động tốt nhất. Cuối cùng, để đạt được hiệu suất tốt trên nhiều giọng nói, bạn cần dữ liệu đào tạo và đánh giá đại diện cho nhiều giọng nói mà hệ thống có thể gặp phải.

Tại ETS, chúng tôi thực hiện các đánh giá toàn diện để đảm bảo rằng các điểm số được tạo ra bởi các hệ thống tự động của chúng tôi phản ánh sự khác biệt trong các kỹ năng thực sự mà chúng tôi muốn đo lường và không bị ảnh hưởng bởi các đặc征 nhân khẩu học của người học như giới tính, chủng tộc hoặc quốc gia xuất xứ.

Trẻ em và/hoặc người học ngôn ngữ thường gặp khó khăn với phát âm hoàn hảo. Bạn vượt qua vấn đề phát âm như thế nào?

Không có gì là phát âm hoàn hảo: cách chúng ta nói gắn liền với bản dạng của chúng ta và với tư cách là nhà phát triển và nhà nghiên cứu, mục tiêu của chúng tôi là đảm bảo rằng các hệ thống của chúng tôi là công bằng với tất cả người dùng.

Cả trẻ em và người học ngôn ngữ đều đưa ra những thách thức đặc biệt cho các hệ thống dựa trên giọng nói. Ví dụ, giọng nói của trẻ em không chỉ có chất lượng âm thanh khác biệt mà trẻ em cũng nói khác với người lớn và có rất nhiều sự biến thiên giữa các trẻ em. Do đó, việc phát triển một hệ thống nhận dạng giọng nói tự động cho trẻ em thường là một nhiệm vụ riêng biệt đòi hỏi một lượng lớn dữ liệu giọng nói của trẻ em.

Tương tự, mặc dù có nhiều điểm tương đồng giữa những người học ngôn ngữ từ cùng một nền tảng, nhưng người học có thể khác nhau rất nhiều về việc sử dụng các mẫu ngữ âm, ngữ pháp và từ vựng, khiến việc nhận dạng giọng nói trở thành một nhiệm vụ đặc biệt khó khăn. Khi xây dựng các hệ thống của chúng tôi để chấm điểm trình độ tiếng Anh, chúng tôi sử dụng dữ liệu từ những người học ngôn ngữ với nhiều trình độ và ngôn ngữ bản địa khác nhau.

Vào tháng 1 năm 2018, bạn đã xuất bản ‘Sử dụng phản hồi ví dụ để đào tạo và đánh giá các hệ thống chấm điểm giọng nói tự động‘. Những đột phá cơ bản nào nên được hiểu từ bài báo này?

Trong bài báo này, chúng tôi đã xem xét cách chất lượng của dữ liệu đào tạo và kiểm tra ảnh hưởng đến hiệu suất của các hệ thống chấm điểm tự động.

Các hệ thống chấm điểm tự động, như nhiều hệ thống tự động khác, được đào tạo trên dữ liệu đã được gắn nhãn cho con người. Trong trường hợp này, những thứ này là điểm số được giao bởi các người chấm điểm. Những người chấm điểm không luôn đồng ý về điểm số họ giao. Có một số chiến lược khác nhau được sử dụng trong đánh giá để đảm bảo rằng điểm số cuối cùng được báo cáo cho người tham gia kiểm tra vẫn rất đáng tin cậy mặc dù có sự biến thiên trong thỏa thuận của con người ở cấp độ câu hỏi riêng lẻ. Tuy nhiên, vì các động cơ chấm điểm tự động thường được đào tạo bằng cách sử dụng điểm số ở cấp độ phản hồi, bất kỳ sự không nhất quán nào trong các điểm số như vậy do nhiều lý do khác nhau có thể ảnh hưởng tiêu cực đến hệ thống.

Chúng tôi đã có thể tiếp cận một lượng lớn dữ liệu với sự đồng ý khác nhau giữa các người chấm điểm và so sánh hiệu suất của hệ thống trong các điều kiện khác nhau. Những gì chúng tôi tìm thấy là đào tạo hệ thống trên dữ liệu hoàn hảo không thực sự cải thiện hiệu suất của nó so với hệ thống được đào tạo trên dữ liệu có nhãn nhiễu hơn. Các nhãn hoàn hảo chỉ mang lại cho bạn lợi thế khi kích thước tập đào tạo của bạn rất thấp. Mặt khác, chất lượng của nhãn con người có tác động rất lớn đến việc đánh giá hệ thống: ước tính hiệu suất của bạn có thể cao hơn 30% nếu bạn đánh giá trên các nhãn sạch.

Thông điệp chính là nếu bạn có nhiều dữ liệu và tài nguyên để làm sạch các nhãn tiêu chuẩn vàng, thì có thể thông minh hơn khi làm sạch các nhãn trong tập đánh giá thay vì các nhãn trong tập đào tạo. Và phát hiện này áp dụng không chỉ cho chấm điểm tự động mà còn cho nhiều lĩnh vực khác.

Có thể bạn mô tả một số công việc của mình tại ETS?

Tôi làm việc trên một hệ thống chấm điểm giọng nói xử lý ngôn ngữ nói trong một ngữ cảnh giáo dục. Một hệ thống như vậy là SpeechRater®, sử dụng công nghệ nhận dạng và phân tích giọng nói tiên tiến để đánh giá và cung cấp phản hồi chi tiết về trình độ nói tiếng Anh. SpeechRater là một ứng dụng rất trưởng thành đã tồn tại hơn 10 năm. Tôi xây dựng các mô hình chấm điểm cho các ứng dụng khác nhau và làm việc với các đồng nghiệp khác trên toàn ETS để đảm bảo rằng các điểm số của chúng tôi là đáng tin cậy, công bằng và hợp lệ cho tất cả những người tham gia kiểm tra. Chúng tôi cũng làm việc với các nhóm khác tại ETS để liên tục theo dõi hiệu suất của hệ thống.

Ngoài việc duy trì và cải tiến các hệ thống hoạt động của chúng tôi, chúng tôi cũng tạo mẫu các hệ thống mới. Một trong những dự án tôi rất hào hứng là RelayReader™: một ứng dụng được thiết kế để giúp người đọc đang phát triển đạt được sự流暢 và tự tin. Khi đọc với RelayReader, người dùng sẽ lần lượt nghe và đọc to một cuốn sách. Việc đọc của họ sau đó sẽ được gửi đến máy chủ của chúng tôi để cung cấp phản hồi. Về mặt xử lý giọng nói, thách thức chính của ứng dụng này là đo lường việc học và cung cấp phản hồi đáng tin cậy và có thể hành động một cách không xâm phạm, không can thiệp vào việc tham gia của người đọc với cuốn sách.

Phần yêu thích của bạn khi làm việc với ETS là gì?

Điều gì đã thu hút tôi đến ETS ban đầu là đó là một tổ chức phi lợi nhuận có sứ mệnh nâng cao chất lượng giáo dục cho tất cả mọi người trên thế giới. Mặc dù rõ ràng là khi nghiên cứu dẫn đến một sản phẩm, tôi đánh giá cao việc có cơ hội làm việc trên các dự án mang tính nền tảng hơn nhưng sẽ giúp phát triển sản phẩm trong tương lai. Tôi cũng trân trọng việc ETS coi trọng các vấn đề như quyền riêng tư của dữ liệu và công bằng và tất cả các hệ thống của chúng tôi đều trải qua đánh giá nghiêm ngặt trước khi được triển khai hoạt động.

Nhưng điều thực sự làm cho ETS trở thành một nơi tuyệt vời để làm việc là con người của chúng tôi. Chúng tôi có một cộng đồng tuyệt vời gồm các nhà khoa học, kỹ sư và nhà phát triển từ nhiều nền tảng khác nhau, cho phép nhiều sự hợp tác thú vị.

Bạn có tin rằng một AI sẽ bao giờ có thể vượt qua Bài kiểm tra Turing?

Kể từ những năm 1950, đã có rất nhiều cách giải thích về cách Bài kiểm tra Turing nên được thực hiện trong thực tế. Có lẽ có một thỏa thuận chung rằng Bài kiểm tra Turing chưa được vượt qua trong một nghĩa triết học rằng không có hệ thống AI nào nghĩ giống như con người. Tuy nhiên, điều này cũng đã trở thành một chủ đề rất hẹp. Hầu hết mọi người không xây dựng hệ thống của mình để vượt qua Bài kiểm tra Turing – chúng tôi muốn chúng đạt được các mục tiêu cụ thể.

Đối với một số nhiệm vụ này, ví dụ, nhận dạng giọng nói hoặc hiểu ngôn ngữ tự nhiên, hiệu suất của con người có thể được coi là tiêu chuẩn vàng. Nhưng cũng có nhiều nhiệm vụ khác mà chúng tôi mong đợi một hệ thống tự động hoạt động tốt hơn con người hoặc nơi một hệ thống tự động và một chuyên gia con người cần làm việc cùng nhau để đạt được kết quả tốt nhất. Ví dụ, trong một ngữ cảnh giáo dục, chúng tôi không muốn một hệ thống AI thay thế một giáo viên: chúng tôi muốn nó giúp giáo viên, cho dù đó là xác định các mẫu trong đường cong học tập của học sinh, giúp chấm điểm hoặc tìm kiếm các tài liệu giảng dạy tốt nhất.

Có điều gì khác mà bạn muốn chia sẻ về ETS hoặc NLP?

Nhiều người biết đến ETS vì các bài kiểm tra và hệ thống chấm điểm tự động của chúng tôi. Nhưng chúng tôi làm được nhiều hơn thế. Chúng tôi có nhiều khả năng từ sinh trắc học giọng nói đến các ứng dụng đối thoại nói và chúng tôi luôn tìm kiếm các cách mới để tích hợp công nghệ vào học tập. Bây giờ nhiều sinh viên đang học từ nhà, chúng tôi đã mở một số khả năng nghiên cứu của mình cho công chúng.

Cảm ơn bạn đã phỏng vấn và cung cấp cái nhìn sâu sắc về những tiến bộ mới nhất trong NLP và nhận dạng giọng nói. Bất kỳ ai muốn tìm hiểu thêm có thể truy cập Dịch vụ Kiểm tra Giáo dục.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.

Unite.AI

Anastassia Loukina, Nhà khoa học nghiên cứu cao cấp (NLP/Speech) tại ETS – Loạt phỏng vấn

You may like