Trí tuệ nhân tạo

Một Tập Đoàn Dữ Liệu Có Ảnh Hưởng Đang Chi Phối Nghiên Cứu Học Máy, Một Nghiên Cứu Mới Đề Xuất

Published December 6, 2021

Updated April 28, 2026

Martin Anderson

Một bài báo mới từ Đại học California và Google Research đã phát hiện ra rằng một số lượng nhỏ các tập dữ liệu ‘tiêu chuẩn’ học máy, chủ yếu từ các tổ chức phương Tây có ảnh hưởng, và thường từ các tổ chức chính phủ, đang ngày càng chi phối lĩnh vực nghiên cứu AI.

Các nhà nghiên cứu kết luận rằng xu hướng ‘mặc định’ để sử dụng các tập dữ liệu mã nguồn mở phổ biến, chẳng hạn như ImageNet, đưa ra một số lý do thực tế, đạo đức và thậm chí chính trị để lo ngại.

Trong số các phát hiện của họ – dựa trên dữ liệu cốt lõi từ dự án cộng đồng do Facebook dẫn đầu Papers With Code (PWC) – các tác giả cho rằng ‘các tập dữ liệu được sử dụng rộng rãi được giới thiệu bởi chỉ một số ít các tổ chức ưu tú’, và rằng sự ‘tập trung’ này đã tăng lên 80% trong những năm gần đây.

‘[Chúng tôi] phát hiện ra rằng có sự bất bình đẳng ngày càng tăng trong việc sử dụng tập dữ liệu trên toàn cầu, và hơn 50% tất cả các lần sử dụng tập dữ liệu trong mẫu 43.140 của chúng tôi tương ứng với các tập dữ liệu được giới thiệu bởi mười hai tổ chức ưu tú, chủ yếu là các tổ chức phương Tây.’

Một bản đồ về việc sử dụng tập dữ liệu không cụ thể cho nhiệm vụ trong mười năm qua. Tiêu chí để bao gồm là nơi tổ chức hoặc công ty chiếm hơn 50% số lần sử dụng đã biết. Bên phải là hệ số Gini về sự tập trung của tập dữ liệu theo thời gian cho cả tổ chức và tập dữ liệu. Nguồn: https://arxiv.org/pdf/2112.01716.pdf

Các tổ chức ưu tú bao gồm Đại học Stanford, Microsoft, Princeton, Facebook, Google, Viện Max Planck và AT&T. Bốn trong số mười nguồn tập dữ liệu hàng đầu là các tổ chức doanh nghiệp.

Bài báo cũng mô tả việc sử dụng ngày càng nhiều các tập dữ liệu ưu tú này như ‘một phương tiện cho sự bất bình đẳng trong khoa học’. Điều này là vì các nhóm nghiên cứu tìm kiếm sự công nhận của cộng đồng có động lực hơn để đạt được kết quả tốt nhất (SOTA) đối với một tập dữ liệu nhất quán hơn là tạo ra các tập dữ liệu gốc không có uy tín như vậy, và sẽ yêu cầu các đồng nghiệp phải thích nghi với các chỉ số mới thay vì các chỉ số tiêu chuẩn.

Trong mọi trường hợp, như bài báo thừa nhận, việc tạo ra tập dữ liệu của riêng mình là một việc tốn kém quá mức đối với các tổ chức và nhóm ít nguồn lực hơn.

‘prima facie tính hợp lệ khoa học được cấp bởi việc đánh giá SOTA bị lẫn lộn với uy tín xã hội mà các nhà nghiên cứu có được bằng cách chứng minh họ có thể cạnh tranh trên một tập dữ liệu được công nhận rộng rãi, ngay cả khi một tập dữ liệu chuẩn hơn có thể phù hợp về mặt kỹ thuật hơn.

‘Chúng tôi cho rằng những động lực này tạo ra một “Hiệu ứng Matthew” (tức là “người giàu trở nên giàu hơn và người nghèo trở nên nghèo hơn”) nơi các tiêu chuẩn thành công, và các tổ chức ưu tú giới thiệu chúng, có được uy tín vượt trội trong lĩnh vực này.

Bài báo này có tiêu đề Giảm, Tái Sử Dụng và Tái Chế: Cuộc Sống Của Một Tập Dữ Liệu Trong Nghiên Cứu Học Máy, và đến từ Bernard Koch và Jacob G. Foster tại UCLA, và Emily Denton và Alex Hanna tại Google Research.

Công việc này đặt ra một số vấn đề với xu hướng tập trung ngày càng tăng mà nó ghi lại, và đã được đáp ứng với sự công nhận chung tại Open Review. Một người đánh giá từ NeurIPS 2021 đã bình luận rằng công việc này là ‘rất liên quan đến bất kỳ ai tham gia vào nghiên cứu học máy.’ và dự đoán việc bao gồm nó như một phần đọc bắt buộc trong các khóa học tại trường đại học.

Từ Sự Cần Thiết Đến Sự Tham Nhũng

Các tác giả lưu ý rằng văn hóa ‘đánh bại tiêu chuẩn’ hiện tại xuất hiện như một phương pháp chữa trị cho sự thiếu các công cụ đánh giá khách quan đã gây ra sự sụt giảm интерес và đầu tư vào AI lần thứ hai hơn ba mươi năm trước, sau sự suy giảm của sự hào hứng kinh doanh đối với nghiên cứu mới trong ‘Hệ Thống Chuyên Gia’:

‘Các tiêu chuẩn thường chính thức hóa một nhiệm vụ cụ thể thông qua một tập dữ liệu và một thước đo định lượng liên quan. Thực tiễn này ban đầu được giới thiệu cho [nghiên cứu học máy] sau “Mùa Đông AI” của những năm 1980 bởi các nhà tài trợ chính phủ, những người tìm cách đánh giá chính xác hơn giá trị nhận được từ các khoản trợ cấp.’

Bài báo cho rằng những lợi thế ban đầu của văn hóa không chính thức này (giảm các rào cản tham gia, các chỉ số nhất quán và các cơ hội phát triển linh hoạt hơn) đang bắt đầu bị vượt qua bởi những bất lợi tự nhiên xảy ra khi một tập dữ liệu trở nên mạnh mẽ đến mức có thể định nghĩa ‘điều kiện sử dụng’ và phạm vi ảnh hưởng của nó.

Các tác giả đề xuất, phù hợp với nhiều suy nghĩ gần đây trong ngành và học thuật về vấn đề này, rằng cộng đồng nghiên cứu không còn đặt ra các vấn đề mới nếu những vấn đề này không thể được giải quyết thông qua các tập dữ liệu tiêu chuẩn hiện có.

Họ cũng lưu ý rằng việc tuân thủ mù quáng các tập dữ liệu ‘vàng’ này khuyến khích các nhà nghiên cứu đạt được kết quả quá vừa vặn (tức là những kết quả chỉ đặc hiệu cho tập dữ liệu và không có khả năng hoạt động tốt trên dữ liệu thế giới thực, trên các tập dữ liệu học thuật mới hoặc gốc, hoặc thậm chí trên các tập dữ liệu khác trong ‘tiêu chuẩn vàng’).

‘Đưa ra sự tập trung nghiên cứu cao vào một số tập dữ liệu tiêu chuẩn, chúng tôi tin rằng việc đa dạng hóa các hình thức đánh giá là đặc biệt quan trọng để tránh quá vừa vặn với các tập dữ liệu hiện có và misrepresenting tiến bộ trong lĩnh vực này.’

Sự Ảnh Hưởng Của Chính Phủ Trong Nghiên Cứu Thị Giác Máy Tính

Theo bài báo, nghiên cứu Thị Giác Máy Tính bị ảnh hưởng đáng kể bởi hội chứng mà nó phác thảo hơn các lĩnh vực khác, với các tác giả lưu ý rằng nghiên cứu Xử Lý Ngôn Ngữ Tự Nhiên (NLP) ít bị ảnh hưởng hơn. Các tác giả đề xuất rằng điều này có thể là do các cộng đồng NLP ‘đồng nhất hơn’ và lớn hơn về quy mô, và vì các tập dữ liệu NLP dễ tiếp cận và dễ dàng thu thập hơn, cũng như nhỏ hơn và ít tốn kém hơn về mặt thu thập dữ liệu.

Trong Thị Giác Máy Tính, và đặc biệt là về các tập dữ liệu Nhận Dạng Khuôn Mặt (FR), các tác giả cho rằng các lợi ích của doanh nghiệp, nhà nước và tư nhân thường va chạm:

‘Các tổ chức doanh nghiệp và chính phủ có các mục tiêu có thể mâu thuẫn với quyền riêng tư (ví dụ, giám sát), và việc cân nhắc các ưu tiên này có khả năng khác với những ưu tiên được các học giả hoặc các bên liên quan rộng lớn hơn của AI nắm giữ.’

Đối với các nhiệm vụ nhận dạng khuôn mặt, các nhà nghiên cứu đã tìm thấy rằng sự xuất hiện của các tập dữ liệu thuần túy học thuật giảm mạnh so với trung bình:

‘[Bốn] trong số tám tập dữ liệu (33,69% tổng số lần sử dụng) được tài trợ hoàn toàn bởi các công ty, quân đội Mỹ hoặc chính phủ Trung Quốc (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). MS-Celeb-1M cuối cùng đã bị rút lại vì những tranh cãi xung quanh giá trị của quyền riêng tư cho các bên liên quan khác nhau.’

Các tập dữ liệu hàng đầu được sử dụng trong các cộng đồng nghiên cứu Tạo Hình Ảnh và Nhận Dạng Khuôn Mặt.

Trong biểu đồ trên, như các tác giả lưu ý, chúng ta cũng thấy rằng lĩnh vực Tạo Hình Ảnh (hoặc Tổng Hợp Hình Ảnh) tương đối mới đang phụ thuộc nặng nề vào các tập dữ liệu hiện có, cũ hơn nhiều mà không được thiết kế cho mục đích này.

Trên thực tế, bài báo quan sát thấy một xu hướng ngày càng tăng trong việc ‘di cư’ của các tập dữ liệu khỏi mục đích ban đầu, đặt ra câu hỏi về sự phù hợp của chúng với nhu cầu của các lĩnh vực nghiên cứu mới hoặc ngoài lề, và mức độ mà các hạn chế ngân sách có thể ‘chung chung hóa’ phạm vi tham vọng của các nhà nghiên cứu vào khuôn khổ hẹp hơn được cung cấp bởi cả vật liệu có sẵn và văn hóa quá tập trung vào xếp hạng tiêu chuẩn hàng năm mà các tập dữ liệu mới gặp khó khăn trong việc thu hút sự chú ý.

‘Các phát hiện của chúng tôi cũng cho thấy rằng các tập dữ liệu thường xuyên di chuyển giữa các cộng đồng nhiệm vụ khác nhau. Ở mức độ cực đoan nhất, đa số các tập dữ liệu tiêu chuẩn trong lưu thông cho một số cộng đồng nhiệm vụ được tạo ra cho các nhiệm vụ khác.’

Về các chuyên gia học máy hàng đầu (bao gồm cả Andrew Ng) những người đã ngày càng kêu gọi sự đa dạng và thu thập các tập dữ liệu trong những năm gần đây, các tác giả ủng hộ quan điểm này, nhưng tin rằng nỗ lực này, ngay cả khi thành công, có thể bị suy yếu bởi sự phụ thuộc của văn hóa hiện tại vào kết quả SOTA và các tập dữ liệu đã thành lập:

‘Nghiên cứu của chúng tôi cho thấy rằng chỉ đơn giản kêu gọi các nhà nghiên cứu học máy phát triển nhiều tập dữ liệu hơn, và thay đổi cấu trúc khuyến khích để phát triển tập dữ liệu được đánh giá cao và được thưởng, có thể không đủ để đa dạng hóa việc sử dụng tập dữ liệu và các quan điểm cuối cùng định hình và thiết lập chương trình nghị sự nghiên cứu MLR.

‘Ngoài việc khuyến khích phát triển tập dữ liệu, chúng tôi chủ trương can thiệp chính sách theo định hướng công bằng, ưu tiên tài trợ đáng kể cho những người ở các tổ chức ít nguồn lực hơn để tạo ra các tập dữ liệu chất lượng cao. Điều này sẽ đa dạng hóa – từ góc độ xã hội và văn hóa – các tập dữ liệu tiêu chuẩn được sử dụng để đánh giá các phương pháp học máy hiện đại.’

6 tháng 12 năm 2021, 4:49 chiều GMT + 2 – Đã sửa đổi sở hữu trong tiêu đề. – MA

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]