Đạo đức

Các nhà nghiên cứu phát triển thuật toán nhằm ngăn chặn hành vi không mong muốn trong Trí tuệ nhân tạo

Published November 26, 2019

Updated April 5, 2026

Ljubinko Zivkovic

Cùng với tất cả các tiến bộ và lợi thế mà trí tuệ nhân tạo đã thể hiện cho đến nay, cũng có những báo cáo về các tác dụng phụ không mong muốn như thiên vị chủng tộc và giới tính trong Trí tuệ nhân tạo. Vì vậy, như sciencealert.com đặt câu hỏi “làm thế nào các nhà khoa học có thể đảm bảo rằng các hệ thống suy nghĩ tiên tiến có thể công bằng, hoặc thậm chí an toàn?”

Câu trả lời có thể nằm trong báo cáo của các nhà nghiên cứu tại Stanford và Đại học Massachusetts Amherst, có tiêu đề Ngăn chặn hành vi không mong muốn của máy móc thông minh. Như eurekaalert.org lưu ý trong câu chuyện về báo cáo này, Trí tuệ nhân tạo hiện đang bắt đầu xử lý các nhiệm vụ nhạy cảm, vì vậy “các nhà hoạch định chính sách đang yêu cầu các nhà khoa học máy tính cung cấp đảm bảo rằng các hệ thống tự động đã được thiết kế để giảm thiểu, nếu không hoàn toàn tránh, các kết quả không mong muốn như rủi ro quá mức hoặc thiên vị chủng tộc và giới tính.”

Báo cáo mà nhóm nghiên cứu này trình bày “phác thảo một kỹ thuật mới chuyển đổi một mục tiêu không rõ ràng, chẳng hạn như tránh thiên vị giới tính, thành các tiêu chí toán học chính xác mà cho phép một thuật toán học máy đào tạo một ứng dụng Trí tuệ nhân tạo để tránh hành vi đó.”

Mục đích là, như Emma Brunskill, giáo sư trợ lý khoa học máy tính tại Stanford và là tác giả chính của bài báo chỉ ra “chúng tôi muốn phát triển Trí tuệ nhân tạo tôn trọng các giá trị của người dùng và chứng minh sự tin cậy mà chúng tôi đặt vào các hệ thống tự động.”

Ý tưởng là định nghĩa “không an toàn” hoặc “không công bằng” kết quả hoặc hành vi bằng các thuật ngữ toán học. Điều này, theo các nhà nghiên cứu, sẽ có thể “tạo ra các thuật toán có thể học từ dữ liệu về cách tránh các kết quả không mong muốn với độ tin cậy cao.”

Mục tiêu thứ hai là “phát triển một tập hợp các kỹ thuật sẽ làm cho nó dễ dàng cho người dùng chỉ định các loại hành vi không mong muốn mà họ muốn hạn chế và cho phép các nhà thiết kế học máy dự đoán với sự tin cậy rằng một hệ thống được đào tạo bằng dữ liệu trong quá khứ có thể được tin cậy khi nó được áp dụng trong các tình huống thực tế.”

ScienceAlert nói rằng nhóm này đã đặt tên cho hệ thống mới này là ‘Seldonian’ thuật toán, theo nhân vật trung tâm của loạt tiểu thuyết khoa học viễn tưởng nổi tiếng Foundation của Isaac Asimov. Philip Thomas, giáo sư trợ lý khoa học máy tính tại Đại học Massachusetts Amherst và là tác giả đầu tiên của bài báo lưu ý, “Nếu tôi sử dụng một thuật toán Seldonian cho điều trị bệnh tiểu đường, tôi có thể chỉ định rằng hành vi không mong muốn có nghĩa là lượng đường trong máu thấp nguy hiểm hoặc hạ đường huyết.”

“Tôi có thể nói với máy, ‘Trong khi bạn đang cố gắng cải thiện bộ điều khiển trong máy bơm insulin, đừng thực hiện các thay đổi sẽ tăng tần suất hạ đường huyết.’ Hầu hết các thuật toán không cung cấp cho bạn cách đặt loại hạn chế về hành vi này; nó không được bao gồm trong các thiết kế ban đầu.”

Thomas thêm rằng “khung Seldonian này sẽ làm cho nó dễ dàng hơn cho các nhà thiết kế học máy xây dựng các hướng dẫn tránh hành vi vào tất cả các loại thuật toán, theo cách mà cho phép họ đánh giá xác suất rằng các hệ thống được đào tạo sẽ hoạt động đúng trong thế giới thực.”

Về phần mình, Emma Brunskill cũng lưu ý rằng “suy nghĩ về cách chúng tôi có thể tạo ra các thuật toán tôn trọng các giá trị như an toàn và công bằng là điều cần thiết khi xã hội ngày càng phụ thuộc vào Trí tuệ nhân tạo.”

Unite.AI

Các nhà nghiên cứu phát triển thuật toán nhằm ngăn chặn hành vi không mong muốn trong Trí tuệ nhân tạo

You may like