Kết nối với chúng tôi

Vượt ra ngoài chuẩn mực: Tại sao đánh giá AI cần phải kiểm tra thực tế

Trí tuệ nhân tạo

Vượt ra ngoài chuẩn mực: Tại sao đánh giá AI cần phải kiểm tra thực tế

mm

Nếu bạn theo dõi AI những ngày này, bạn có thể đã thấy các tiêu đề báo cáo về những thành tựu đột phá của các mô hình AI đạt được kỷ lục chuẩn mực. Từ các nhiệm vụ nhận dạng hình ảnh ImageNet đến việc đạt được điểm số siêu phàm trong dịch thuật và chẩn đoán hình ảnh y tế, chuẩn mực từ lâu đã là tiêu chuẩn vàng để đo lường hiệu suất AI. Tuy nhiên, dù những con số này có ấn tượng đến đâu, chúng không phải lúc nào cũng nắm bắt được sự phức tạp của các ứng dụng trong thế giới thực. Một mô hình hoạt động hoàn hảo trên chuẩn mực vẫn có thể không đạt yêu cầu khi đưa vào thử nghiệm trong môi trường thế giới thực. Trong bài viết này, chúng ta sẽ đi sâu vào lý do tại sao các chuẩn mực truyền thống không nắm bắt được giá trị thực sự của AI và khám phá các phương pháp đánh giá thay thế phản ánh tốt hơn những thách thức năng động, đạo đức và thực tế khi triển khai AI trong thế giới thực.

Sự hấp dẫn của các chuẩn mực

Trong nhiều năm, các chuẩn mực đã là nền tảng của việc đánh giá AI. Chúng cung cấp các tập dữ liệu tĩnh được thiết kế để đo lường các tác vụ cụ thể như nhận dạng đối tượng hoặc dịch máy. IMAGEnet, ví dụ, là một chuẩn mực được sử dụng rộng rãi để kiểm tra phân loại đối tượng, trong khi BleuĐỎ chấm điểm chất lượng văn bản do máy tạo ra bằng cách so sánh với văn bản tham khảo do con người viết. Các bài kiểm tra chuẩn hóa này cho phép các nhà nghiên cứu so sánh tiến độ và tạo ra sự cạnh tranh lành mạnh trong lĩnh vực này. Các điểm chuẩn đã đóng vai trò quan trọng trong việc thúc đẩy những tiến bộ lớn trong lĩnh vực này. Ví dụ, cuộc thi ImageNet chơi đóng vai trò quan trọng trong cuộc cách mạng học sâu bằng cách cải thiện đáng kể độ chính xác.

Tuy nhiên, các chuẩn mực thường đơn giản hóa thực tế. Vì các mô hình AI thường được đào tạo để cải thiện một nhiệm vụ được xác định rõ ràng trong các điều kiện cố định, điều này có thể dẫn đến tối ưu hóa quá mức. Để đạt được điểm cao, các mô hình có thể dựa vào các mẫu tập dữ liệu không vượt quá chuẩn mực. Một ví dụ là một mô hình thị giác được đào tạo để phân biệt chó sói với chó husky. Thay vì học cách phân biệt các đặc điểm của động vật, mô hình dựa vào sự hiện diện của nền tuyết thường liên quan đến chó sói trong dữ liệu đào tạo. Kết quả là, khi mô hình được trình bày với một con chó husky trên tuyết, nó tự tin dán nhãn sai là một con sói. Điều này cho thấy việc quá khớp với một chuẩn mực có thể dẫn đến các mô hình lỗi. Như Luật của Goodhart nói rằng, “Khi một biện pháp trở thành mục tiêu, nó không còn là một biện pháp tốt nữa”. Do đó, khi điểm chuẩn trở thành mục tiêu, các mô hình AI minh họa cho Luật Goodhart: chúng tạo ra điểm số ấn tượng trên bảng xếp hạng nhưng lại gặp khó khăn khi giải quyết các thách thức trong thế giới thực.

Kỳ vọng của con người so với Điểm số đo lường

Một trong những hạn chế lớn nhất của chuẩn mực là chúng thường không nắm bắt được những gì thực sự quan trọng đối với con người. Hãy xem xét bản dịch máy. Một mô hình có thể đạt điểm cao về số liệu BLEU, đo lường sự chồng chéo giữa bản dịch do máy tạo ra và bản dịch tham khảo. Mặc dù số liệu này có thể đánh giá mức độ hợp lý của bản dịch về mặt chồng chéo ở cấp độ từ, nhưng nó không tính đến sự trôi chảy hoặc ý nghĩa. Một bản dịch có thể đạt điểm thấp mặc dù tự nhiên hơn hoặc thậm chí chính xác hơn, chỉ đơn giản vì nó sử dụng cách diễn đạt khác với tài liệu tham khảo. Tuy nhiên, người dùng quan tâm đến ý nghĩa và sự trôi chảy của bản dịch, không chỉ là sự khớp chính xác với tài liệu tham khảo. Vấn đề tương tự cũng áp dụng cho bản tóm tắt văn bản: điểm ROUGE cao không đảm bảo rằng bản tóm tắt có mạch lạc hoặc nắm bắt được những điểm chính mà người đọc mong đợi.

Đối với các mô hình AI tạo sinh, vấn đề trở nên thậm chí còn khó khăn hơn. Ví dụ, các mô hình ngôn ngữ lớn (LLM) thường được đánh giá trên một chuẩn mực MMLU để kiểm tra khả năng trả lời câu hỏi của họ trên nhiều lĩnh vực. Mặc dù điểm chuẩn có thể giúp kiểm tra hiệu suất của LLM để trả lời câu hỏi, nhưng nó không đảm bảo độ tin cậy. Các mô hình này vẫn có thể “ảo giác,” trình bày những sự thật sai lầm nhưng nghe có vẻ hợp lý. Khoảng cách này không dễ dàng phát hiện ra bằng các chuẩn mực tập trung vào câu trả lời đúng mà không đánh giá tính trung thực, ngữ cảnh hoặc tính mạch lạc. Trong một trường hợp, một trợ lý AI được sử dụng để soạn thảo một bản tóm tắt pháp lý trích dẫn hoàn toàn các vụ kiện tụng giả mạo. AI có thể trông có vẻ thuyết phục trên giấy tờ nhưng không đáp ứng được kỳ vọng cơ bản của con người về tính trung thực.

Những thách thức của chuẩn mực tĩnh trong bối cảnh động

  • Thích ứng với môi trường thay đổi

Tiêu chuẩn tĩnh đánh giá hiệu suất AI trong điều kiện được kiểm soát, nhưng các tình huống thực tế là không thể đoán trước. Ví dụ, một AI đàm thoại có thể vượt trội trong các câu hỏi theo kịch bản, một lượt trong tiêu chuẩn, nhưng lại gặp khó khăn trong một cuộc đối thoại nhiều bước bao gồm các câu hỏi tiếp theo, tiếng lóng hoặc lỗi đánh máy. Tương tự như vậy, xe tự lái thường hoạt động tốt trong các bài kiểm tra phát hiện vật thể trong điều kiện lý tưởng nhưng không trong những trường hợp bất thường, chẳng hạn như ánh sáng kém, thời tiết xấu hoặc chướng ngại vật bất ngờ. Ví dụ, biển báo dừng được thay đổi bằng nhãn dán có thể bối rối hệ thống thị giác của ô tô, dẫn đến hiểu sai. Những ví dụ này nhấn mạnh rằng các chuẩn mực tĩnh không đo lường được độ phức tạp của thế giới thực một cách đáng tin cậy.

  • Những cân nhắc về đạo đức và xã hội

Các chuẩn mực truyền thống thường không đánh giá được hiệu suất đạo đức của AI. Một mô hình nhận dạng hình ảnh có thể đạt được độ chính xác cao nhưng xác định sai cá nhân từ một số nhóm dân tộc nhất định do dữ liệu đào tạo thiên vị. Tương tự như vậy, các mô hình ngôn ngữ có thể đạt điểm cao về ngữ pháp và sự trôi chảy trong khi tạo ra nội dung thiên vị hoặc có hại. Những vấn đề này, không được phản ánh trong số liệu chuẩn, có hậu quả đáng kể trong các ứng dụng thực tế.

  • Không có khả năng nắm bắt các khía cạnh tinh tế

Tiêu chuẩn đánh giá rất tuyệt vời trong việc kiểm tra các kỹ năng ở mức bề mặt, chẳng hạn như liệu một mô hình có thể tạo ra văn bản đúng ngữ pháp hay hình ảnh chân thực hay không. Nhưng chúng thường gặp khó khăn với các phẩm chất sâu hơn, chẳng hạn như lý luận thông thường hoặc tính phù hợp về mặt ngữ cảnh. Ví dụ, một mô hình có thể vượt trội ở tiêu chuẩn đánh giá bằng cách tạo ra một câu hoàn hảo, nhưng nếu câu đó không đúng về mặt thực tế, thì nó vô dụng. AI cần hiểu khi nàolàm thế nào để nói điều gì đó, không chỉ để nói. Các tiêu chuẩn hiếm khi kiểm tra mức độ thông minh này, điều này rất quan trọng đối với các ứng dụng như chatbot hoặc tạo nội dung.

  • Thích ứng theo ngữ cảnh

Các mô hình AI thường gặp khó khăn trong việc thích ứng với các bối cảnh mới, đặc biệt là khi phải đối mặt với dữ liệu bên ngoài tập dữ liệu đào tạo của chúng. Các điểm chuẩn thường được thiết kế với dữ liệu tương tự như dữ liệu mà mô hình được đào tạo. Điều này có nghĩa là chúng không kiểm tra đầy đủ mức độ xử lý đầu vào mới lạ hoặc bất ngờ của mô hình —một yêu cầu quan trọng trong các ứng dụng thực tế. Ví dụ, một chatbot có thể hoạt động tốt hơn đối với các câu hỏi được đánh giá chuẩn nhưng lại gặp khó khăn khi người dùng hỏi những điều không liên quan, như tiếng lóng hoặc chủ đề chuyên sâu.

  • Lý luận và suy luận

Trong khi các chuẩn mực có thể đo lường khả năng nhận dạng mẫu hoặc tạo nội dung, chúng thường không đủ khả năng suy luận và lập luận ở cấp độ cao hơn. AI cần phải làm nhiều hơn là bắt chước các mẫu. Nó phải hiểu được các hàm ý, tạo ra các kết nối hợp lý và suy ra thông tin mới. Ví dụ, một mô hình có thể tạo ra phản hồi đúng về mặt thực tế nhưng không thể kết nối phản hồi đó một cách hợp lý với một cuộc trò chuyện rộng hơn. Các chuẩn mực hiện tại có thể không nắm bắt đầy đủ các kỹ năng nhận thức nâng cao này, khiến chúng ta không có cái nhìn đầy đủ về khả năng của AI.

Vượt qua chuẩn mực: Một cách tiếp cận mới để đánh giá AI

Để thu hẹp khoảng cách giữa hiệu suất chuẩn và thành công trong thế giới thực, một cách tiếp cận mới để đánh giá AI đang nổi lên. Sau đây là một số chiến lược đang được chú ý:

  • Phản hồi của con người trong vòng lặp: Thay vì chỉ dựa vào các số liệu tự động, hãy để những người đánh giá con người tham gia vào quá trình này. Điều này có nghĩa là các chuyên gia hoặc người dùng cuối đánh giá đầu ra của AI về chất lượng, tính hữu ích và tính phù hợp. Con người có thể đánh giá tốt hơn các khía cạnh như giọng điệu, sự liên quan và cân nhắc về mặt đạo đức so với các chuẩn mực.
  • Kiểm tra triển khai thực tế: Hệ thống AI nên được thử nghiệm trong môi trường càng gần với điều kiện thực tế càng tốt. Ví dụ, xe tự lái có thể trải qua thử nghiệm trên đường mô phỏng với các tình huống giao thông không thể đoán trước, trong khi chatbot có thể được triển khai trong môi trường thực tế để xử lý các cuộc trò chuyện đa dạng. Điều này đảm bảo rằng các mô hình được đánh giá trong các điều kiện mà chúng thực sự phải đối mặt.
  • Kiểm tra độ bền và ứng suất: Điều quan trọng là phải thử nghiệm các hệ thống AI trong điều kiện bất thường hoặc đối nghịch. Điều này có thể bao gồm thử nghiệm mô hình nhận dạng hình ảnh với hình ảnh bị méo hoặc nhiễu hoặc đánh giá mô hình ngôn ngữ với các đoạn hội thoại dài và phức tạp. Bằng cách hiểu cách AI hoạt động dưới áp lực, chúng ta có thể chuẩn bị tốt hơn cho các thách thức trong thế giới thực.
  • Chỉ số đánh giá đa chiều: Thay vì dựa vào một điểm chuẩn duy nhất, hãy đánh giá AI trên nhiều chỉ số, bao gồm độ chính xác, tính công bằng, độ mạnh mẽ và các cân nhắc về mặt đạo đức. Cách tiếp cận toàn diện này cung cấp sự hiểu biết toàn diện hơn về điểm mạnh và điểm yếu của mô hình AI.
  • Các bài kiểm tra theo lĩnh vực cụ thể: Đánh giá nên được tùy chỉnh theo lĩnh vực cụ thể mà AI sẽ được triển khai. Ví dụ, AI y tế nên được thử nghiệm trên các nghiên cứu trường hợp do các chuyên gia y tế thiết kế, trong khi AI cho thị trường tài chính nên được đánh giá về tính ổn định của nó trong những biến động kinh tế.

Lời kết

Trong khi các chuẩn mực đã thúc đẩy nghiên cứu AI, chúng vẫn chưa nắm bắt được hiệu suất thực tế. Khi AI chuyển từ phòng thí nghiệm sang các ứng dụng thực tế, việc đánh giá AI phải lấy con người làm trung tâm và toàn diện. Kiểm tra trong điều kiện thực tế, kết hợp phản hồi của con người và ưu tiên tính công bằng và mạnh mẽ là rất quan trọng. Mục tiêu không phải là đứng đầu bảng xếp hạng mà là phát triển AI đáng tin cậy, thích ứng và có giá trị trong thế giới năng động, phức tạp.

Tiến sĩ Tehseen Zia là Phó Giáo sư chính thức tại Đại học COMSATS Islamabad, có bằng Tiến sĩ về AI tại Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ nhân tạo, Học máy, Khoa học dữ liệu và Thị giác máy tính, ông đã có những đóng góp đáng kể với các công bố trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã lãnh đạo nhiều dự án công nghiệp khác nhau với tư cách là Điều tra viên chính và là Nhà tư vấn AI.