Trí tuệ nhân tạo
Các nhà khoa học máy tính giải quyết sự thiên vị trong Trí tuệ nhân tạo

Các nhà khoa học máy tính từ Đại học Princeton và Stanford hiện đang giải quyết các vấn đề về sự thiên vị trong trí tuệ nhân tạo (AI). Họ đang làm việc trên các phương pháp dẫn đến các tập dữ liệu công bằng hơn chứa hình ảnh của con người. Các nhà nghiên cứu làm việc chặt chẽ với ImageNet, đây là một cơ sở dữ liệu của hơn 13 triệu hình ảnh. Trong suốt thập kỷ qua, ImageNet đã giúp thúc đẩy tầm nhìn máy tính. Với việc sử dụng các phương pháp của họ, các nhà nghiên cứu sau đó đã đề xuất các cải tiến cho cơ sở dữ liệu.
ImageNet bao gồm hình ảnh của các vật thể, phong cảnh và con người. Các nhà nghiên cứu tạo ra các thuật toán học máy phân loại hình ảnh sử dụng ImageNet như một nguồn dữ liệu. Do kích thước lớn của cơ sở dữ liệu, việc thu thập hình ảnh tự động và chú thích hình ảnh được thực hiện bởi đám đông là cần thiết. Hiện tại, nhóm ImageNet đang làm việc để sửa chữa các thiên vị và các vấn đề khác. Các hình ảnh thường chứa những người là hậu quả không mong muốn của việc xây dựng ImageNet.
Olga Russakovsky là đồng tác giả và là giáo sư trợ lý về khoa học máy tính tại Princeton.
“Tầm nhìn máy tính hiện đang hoạt động thực sự tốt, điều này có nghĩa là nó đang được triển khai mọi nơi trong tất cả các ngữ cảnh,” ông nói. “Điều này có nghĩa là bây giờ là thời điểm để nói về tác động mà nó đang có trên thế giới và suy nghĩ về các vấn đề công bằng này.”
Trong bài báo mới, nhóm ImageNet đã xác định hệ thống các khái niệm phi hình ảnh và các danh mục xúc phạm. Những danh mục này bao gồm các đặc điểm chủng tộc và tính cách, và nhóm đã đề xuất loại bỏ chúng khỏi cơ sở dữ liệu. Nhóm cũng đã phát triển một công cụ cho phép người dùng chỉ định và lấy các tập hợp hình ảnh của con người, và nó có thể làm như vậy theo độ tuổi, biểu hiện giới tính và màu da. Mục tiêu là tạo ra các thuật toán phân loại khuôn mặt và hoạt động của con người trong hình ảnh một cách công bằng hơn.
Công việc được thực hiện bởi các nhà nghiên cứu đã được trình bày vào ngày 30 tháng 1 tại Hội nghị về Công bằng, trách nhiệm và minh bạch của Hiệp hội Máy tính tại Barcelona, Tây Ban Nha.
“Có rất nhiều nhu cầu đối với các nhà nghiên cứu và phòng thí nghiệm có chuyên môn kỹ thuật cốt lõi trong những cuộc trò chuyện này,” Russakovsky nói. “Nhìn vào thực tế rằng chúng ta cần thu thập dữ liệu với quy mô lớn, nhìn vào thực tế rằng nó sẽ được thực hiện với sự tham gia của đám đông vì đó là đường ống đã được thiết lập, làm thế nào chúng ta làm điều đó một cách công bằng hơn — điều đó không rơi vào những cái bẫy trước đó? Thông điệp cốt lõi của bài báo này là về các giải pháp xây dựng.”
ImageNet được ra mắt vào năm 2009 bởi một nhóm các nhà khoa học máy tính tại Princeton và Stanford. Nó được thiết kế để phục vụ như một tài nguyên cho các nhà nghiên cứu và giáo viên học thuật. Việc tạo ra hệ thống này được dẫn dắt bởi cựu sinh viên và thành viên giảng dạy của Princeton Fei-Fei Li.
ImageNet đã có thể trở thành một cơ sở dữ liệu lớn của hình ảnh được gắn nhãn thông qua việc sử dụng sự tham gia của đám đông. Một trong những nền tảng chính được sử dụng là Amazon Mechanical Turk (MTurk), và công nhân được trả tiền để xác minh hình ảnh ứng viên. Điều này gây ra một số vấn đề, và có nhiều thiên vị và phân loại không phù hợp.
Tác giả chính Kaiyu Yang là một sinh viên sau đại học về khoa học máy tính.
“Khi bạn yêu cầu mọi người xác minh hình ảnh bằng cách chọn hình ảnh chính xác từ một tập hợp lớn các ứng viên, mọi người cảm thấy áp lực để chọn một số hình ảnh và những hình ảnh đó thường là những hình ảnh có đặc điểm hoặc đặc điểm nổi bật,” anh nói.
Phần đầu tiên của nghiên cứu liên quan đến việc lọc ra các danh mục người có thể xúc phạm hoặc nhạy cảm từ ImageNet. Các danh mục xúc phạm được định nghĩa là những danh mục chứa lời lạm dụng hoặc xúc phạm chủng tộc hoặc giới tính. Một danh mục nhạy cảm như vậy là việc phân loại người dựa trên xu hướng tính dục hoặc tôn giáo. 12 sinh viên sau đại học từ các nền tảng đa dạng được đưa vào để chú thích các danh mục, và họ được hướng dẫn để gắn nhãn một danh mục nhạy cảm nếu họ không chắc chắn về nó. Khoảng 54% các danh mục đã bị loại bỏ, hoặc 1.593 trong số 2.932 danh mục người trong ImageNet.
Các công nhân MTurk sau đó đã đánh giá “khả năng hình ảnh” của các danh mục còn lại trên thang điểm từ 1 đến 5. 158 danh mục được phân loại là an toàn và có thể hình ảnh, với điểm 4 hoặc cao hơn. Tập hợp các danh mục đã lọc bao gồm hơn 133.000 hình ảnh, điều này có thể rất hữu ích cho việc đào tạo các thuật toán tầm nhìn máy tính.
Các nhà nghiên cứu đã nghiên cứu về sự đại diện dân số của con người trong hình ảnh, và mức độ thiên vị trong ImageNet đã được đánh giá. Nội dung được tìm kiếm từ các công cụ tìm kiếm thường cung cấp kết quả quá đại diện cho nam giới, người có làn da sáng và người lớn từ 18 đến 40 tuổi.
“Mọi người đã phát hiện ra rằng sự phân bố dân số trong kết quả tìm kiếm hình ảnh bị thiên vị cao, và đây là lý do tại sao sự phân bố trong ImageNet cũng bị thiên vị,” Yang nói. “Trong bài báo này, chúng tôi đã cố gắng hiểu mức độ thiên vị và cũng đề xuất một phương pháp để cân bằng sự phân bố.”
Các nhà nghiên cứu đã xem xét ba thuộc tính cũng được bảo vệ theo luật chống phân biệt đối xử của Hoa Kỳ: màu da, biểu hiện giới tính và tuổi tác. Các công nhân MTurk sau đó đã chú thích từng thuộc tính của từng người trong hình ảnh.
Kết quả cho thấy nội dung của ImageNet có sự thiên vị đáng kể. Những người bị đại diện dưới mức nhất là những người có làn da sẫm màu, nữ giới và người lớn trên 40 tuổi.
Một công cụ giao diện web đã được thiết kế cho phép người dùng nhận được một tập hợp hình ảnh được cân bằng về mặt dân số theo cách mà người dùng chọn.
“Chúng tôi không muốn nói về cách đúng đắn để cân bằng dân số, vì đó không phải là một vấn đề đơn giản,” Yang nói. “Sự phân bố có thể khác nhau ở các phần khác nhau của thế giới — sự phân bố màu da ở Hoa Kỳ khác với ở các quốc gia châu Á, ví dụ. Vì vậy, chúng tôi để lại câu hỏi đó cho người dùng của chúng tôi, và chúng tôi chỉ cung cấp một công cụ để lấy một tập hợp con được cân bằng của hình ảnh.”
Nhóm ImageNet hiện đang làm việc trên các bản cập nhật kỹ thuật cho phần cứng và cơ sở dữ liệu của họ. Họ cũng đang cố gắng thực hiện việc lọc các danh mục người và công cụ cân bằng được phát triển trong nghiên cứu này. ImageNet sẽ được phát hành lại với các bản cập nhật, cùng với một lời kêu gọi phản hồi từ cộng đồng nghiên cứu tầm nhìn máy tính.
Bài báo cũng được đồng tác giả bởi sinh viên sau đại học Princeton Klint Qinami và Giáo sư trợ lý Khoa học máy tính Jia Deng. Nghiên cứu được hỗ trợ bởi Quỹ Khoa học Quốc gia.










