sơ khai Một nhóm các bộ dữ liệu có ảnh hưởng đang thống trị nghiên cứu học máy, đề xuất nghiên cứu mới - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Một nhóm các bộ dữ liệu có ảnh hưởng đang thống trị nghiên cứu học máy, đề xuất nghiên cứu mới

mm
cập nhật on

Một bài báo mới của Đại học California và Google Research đã phát hiện ra rằng một số lượng nhỏ bộ dữ liệu học máy 'chuẩn mực', phần lớn từ các tổ chức có ảnh hưởng của phương Tây và thường là từ các tổ chức chính phủ, đang ngày càng thống trị lĩnh vực nghiên cứu AI.

Các nhà nghiên cứu kết luận rằng xu hướng này 'mặc định' cho các bộ dữ liệu nguồn mở rất phổ biến, chẳng hạn như IMAGEnet, đưa ra một số nguyên nhân thực tế, đạo đức và thậm chí chính trị cần quan tâm.

Trong số những phát hiện của họ – dựa trên dữ liệu cốt lõi từ dự án cộng đồng do Facebook dẫn đầu Giấy tờ có mã (PWC) – các tác giả cho rằng 'bộ dữ liệu được sử dụng rộng rãi chỉ được giới thiệu bởi một số tổ chức ưu tú'và rằng 'sự hợp nhất' này đã tăng lên 80% trong những năm gần đây.

'[Chúng tôi] thấy rằng có sự bất bình đẳng ngày càng tăng trong việc sử dụng tập dữ liệu trên toàn cầu và hơn 50% tất cả các cách sử dụng tập dữ liệu trong mẫu 43,140 của chúng tôi tương ứng với các tập dữ liệu do mười hai tổ chức ưu tú, chủ yếu là phương Tây, giới thiệu.'

Bản đồ về việc sử dụng tập dữ liệu phi nhiệm vụ cụ thể trong mười năm qua. Tiêu chí để đưa vào là nơi tổ chức hoặc công ty chiếm hơn 50% các tập quán đã biết. Hình bên phải là hệ số Gini để tập trung các tập dữ liệu theo thời gian cho cả tổ chức và tập dữ liệu. Nguồn: https://arxiv.org/pdf/2112.01716.pdf

Bản đồ về việc sử dụng tập dữ liệu phi nhiệm vụ cụ thể trong mười năm qua. Tiêu chí để đưa vào là nơi tổ chức hoặc công ty chiếm hơn 50% các tập quán đã biết. Hiển thị bên phải là Hệ số Gini để tập trung các bộ dữ liệu theo thời gian cho cả tổ chức và bộ dữ liệu. Nguồn: https://arxiv.org/pdf/2112.01716.pdf

Các tổ chức thống trị bao gồm Đại học Stanford, Microsoft, Princeton, Facebook, Google, Viện Max Planck và AT&T. Bốn trong số mười nguồn dữ liệu hàng đầu là các tổ chức doanh nghiệp.

Bài báo cũng mô tả việc sử dụng ngày càng nhiều các bộ dữ liệu ưu tú này như 'phương tiện cho sự bất bình đẳng trong khoa học'. Điều này là do các nhóm nghiên cứu đang tìm kiếm sự chấp thuận của cộng đồng có nhiều động lực hơn để đạt được kết quả hiện đại (SOTA) dựa trên một bộ dữ liệu nhất quán hơn là tạo ra các bộ dữ liệu gốc không có vị thế như vậy và sẽ yêu cầu các đồng nghiệp phải thích ứng với tiểu thuyết. số liệu thay vì các chỉ số tiêu chuẩn.

Trong mọi trường hợp, như bài báo thừa nhận, việc tạo tập dữ liệu của riêng mình là một mục tiêu cực kỳ tốn kém đối với các tổ chức và nhóm có nguồn lực hạn chế.

'The prima facie giá trị khoa học do điểm chuẩn SOTA cấp thường bị nhầm lẫn với độ tin cậy xã hội mà các nhà nghiên cứu có được bằng cách cho thấy họ có thể cạnh tranh trên một bộ dữ liệu được công nhận rộng rãi, ngay cả khi điểm chuẩn theo ngữ cảnh cụ thể hơn có thể phù hợp hơn về mặt kỹ thuật.

'Chúng tôi cho rằng những động lực này tạo ra “Hiệu ứng Matthew” (tức là “người giàu trở nên giàu hơn và người nghèo trở nên nghèo hơn”), nơi các điểm chuẩn thành công và các tổ chức ưu tú giới thiệu chúng, đạt được tầm vóc vượt trội trong lĩnh vực này.

Sản phẩm giấy có tiêu đề Giảm thiểu, Tái sử dụng và Tái chế: Vòng đời của Tập dữ liệu trong Nghiên cứu Máy học, và đến từ Bernard Koch và Jacob G. Foster tại UCLA, và Emily Denton và Alex Hanna tại Google Research.

Công việc đặt ra một số vấn đề với xu hướng hợp nhất ngày càng tăng mà nó ghi lại và đã được đáp ứng với sự chấp thuận chung tại Đánh giá mở. Một người đánh giá từ NeurIPS 2021 đã nhận xét rằng công việc 'cực kỳ phù hợp với bất kỳ ai tham gia nghiên cứu máy học.' và thấy trước việc đưa nó vào bài đọc được chỉ định tại các khóa học đại học.

Từ cần thiết đến tham nhũng

Các tác giả lưu ý rằng văn hóa 'đánh bại điểm chuẩn' hiện tại nổi lên như một biện pháp khắc phục cho việc thiếu các công cụ đánh giá khách quan khiến sự quan tâm và đầu tư vào AI bị sụp đổ lần thứ hai hơn ba mươi năm trước, sau sự suy giảm nhiệt tình kinh doanh đối với nghiên cứu mới trong 'Hệ thống chuyên gia':

'Điểm chuẩn thường chính thức hóa một nhiệm vụ cụ thể thông qua tập dữ liệu và thước đo đánh giá định lượng có liên quan. Phương pháp này ban đầu được đưa vào [nghiên cứu máy học] sau “Mùa đông AI” của những năm 1980 bởi các nhà tài trợ của chính phủ, những người đã tìm cách đánh giá chính xác hơn giá trị nhận được từ các khoản tài trợ.'

Bài báo lập luận rằng những lợi thế ban đầu của văn hóa tiêu chuẩn hóa không chính thức này (giảm rào cản đối với sự tham gia, số liệu nhất quán và cơ hội phát triển nhanh hơn) đang bắt đầu bị lấn át bởi những bất lợi xảy ra một cách tự nhiên khi một khối dữ liệu trở nên đủ mạnh để xác định hiệu quả nó. 'điều khoản sử dụng' và phạm vi ảnh hưởng.

Các tác giả đề nghị, phù hợp với nhiều suy nghĩ học thuật và công nghiệp gần đây về vấn đề này, rằng cộng đồng nghiên cứu không còn đặt ra những vấn đề mới nếu những điều này không thể được giải quyết thông qua bộ dữ liệu điểm chuẩn hiện có.

Ngoài ra, họ lưu ý rằng việc tuân thủ một cách mù quáng số lượng nhỏ bộ dữ liệu 'vàng' này khuyến khích các nhà nghiên cứu đạt được kết quả trang bị quá nhiều (tức là dành riêng cho bộ dữ liệu và không có khả năng hoạt động ở bất kỳ đâu gần như tốt trên dữ liệu trong thế giới thực, trên bộ dữ liệu gốc hoặc học thuật mới hoặc thậm chí nhất thiết phải trên các bộ dữ liệu khác nhau trong 'tiêu chuẩn vàng').

'Với mức độ tập trung nghiên cứu cao được quan sát trên một số lượng nhỏ bộ dữ liệu điểm chuẩn, chúng tôi tin rằng việc đa dạng hóa các hình thức đánh giá là đặc biệt quan trọng để tránh trang bị quá mức cho các bộ dữ liệu hiện có và trình bày sai tiến độ trong lĩnh vực này.'

Ảnh hưởng của chính phủ trong nghiên cứu thị giác máy tính

Theo bài báo, nghiên cứu về Thị giác Máy tính bị ảnh hưởng nhiều hơn bởi hội chứng mà nó nêu ra so với các lĩnh vực khác, và các tác giả lưu ý rằng nghiên cứu Xử lý Ngôn ngữ Tự nhiên (NLP) ít bị ảnh hưởng hơn nhiều. Các tác giả cho rằng điều này có thể là do cộng đồng NLP đang 'mạch lạc hơn' và có kích thước lớn hơn, và bởi vì bộ dữ liệu NLP dễ truy cập hơn và dễ quản lý hơn, cũng như nhỏ hơn và ít tốn tài nguyên hơn về mặt thu thập dữ liệu.

Trong Computer Vision, và đặc biệt liên quan đến bộ dữ liệu Nhận dạng khuôn mặt (FR), các tác giả cho rằng lợi ích của công ty, nhà nước và tư nhân thường xung đột:

'Các tổ chức chính phủ và doanh nghiệp có các mục tiêu có thể xung đột với quyền riêng tư (ví dụ: giám sát) và việc họ cân nhắc các ưu tiên này có thể khác với các mục tiêu của các học giả hoặc các bên liên quan xã hội rộng lớn hơn của AI.'

Đối với các nhiệm vụ nhận dạng khuôn mặt, các nhà nghiên cứu nhận thấy rằng tỷ lệ các bộ dữ liệu thuần túy học thuật giảm đáng kể so với mức trung bình:

'[Bốn] trong số tám bộ dữ liệu (33.69% tổng số sử dụng) được tài trợ độc quyền bởi các tập đoàn, quân đội Hoa Kỳ hoặc chính phủ Trung Quốc (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). MS-Celeb-1M cuối cùng đã bị rút lại vì tranh cãi xung quanh giá trị của quyền riêng tư đối với các bên liên quan khác nhau.'

Các bộ dữ liệu hàng đầu được sử dụng trong các cộng đồng nghiên cứu Tạo hình ảnh và Nhận dạng khuôn mặt.

Các bộ dữ liệu hàng đầu được sử dụng trong các cộng đồng nghiên cứu Tạo hình ảnh và Nhận dạng khuôn mặt.

Trong biểu đồ trên, như các tác giả lưu ý, chúng ta cũng thấy rằng lĩnh vực Tạo hình ảnh (hoặc Tổng hợp hình ảnh) tương đối gần đây phụ thuộc rất nhiều vào các bộ dữ liệu cũ hơn hiện có không dành cho mục đích sử dụng này.

Trên thực tế, bài báo quan sát thấy xu hướng 'di chuyển' ngày càng tăng của các bộ dữ liệu ra khỏi mục đích dự định của chúng, đặt ra câu hỏi về tính phù hợp của chúng đối với nhu cầu của các lĩnh vực nghiên cứu mới hoặc xa lạ, và mức độ hạn chế về ngân sách có thể 'khái quát hóa' dữ liệu phạm vi tham vọng của các nhà nghiên cứu vào khung hẹp hơn được cung cấp bởi cả các tài liệu có sẵn và bởi một nền văn hóa bị ám ảnh bởi xếp hạng điểm chuẩn hàng năm đến nỗi các bộ dữ liệu mới gặp khó khăn trong việc thu hút.

'Phát hiện của chúng tôi cũng chỉ ra rằng các bộ dữ liệu thường xuyên chuyển giữa các cộng đồng nhiệm vụ khác nhau. Cuối cùng, phần lớn các bộ dữ liệu điểm chuẩn đang được lưu hành cho một số cộng đồng nhiệm vụ đã được tạo cho các nhiệm vụ khác.'

Về các ngôi sao sáng học máy (trong đó có Andrew Ng), những người ngày càng kêu gọi đa dạng hóa và quản lý các bộ dữ liệu trong những năm gần đây, các tác giả ủng hộ quan điểm này, nhưng tin rằng loại nỗ lực này, ngay cả khi thành công, có thể bị hủy hoại bởi sự phụ thuộc của nền văn hóa hiện tại vào kết quả SOTA và các bộ dữ liệu đã thiết lập :

'Nghiên cứu của chúng tôi cho thấy rằng chỉ cần kêu gọi các nhà nghiên cứu ML phát triển thêm bộ dữ liệu và thay đổi cấu trúc khuyến khích để việc phát triển bộ dữ liệu được đánh giá cao và khen thưởng, có thể không đủ để đa dạng hóa việc sử dụng bộ dữ liệu và các quan điểm cuối cùng đang định hình và thiết lập các chương trình nghiên cứu MLR.

'Ngoài việc khuyến khích phát triển bộ dữ liệu, chúng tôi ủng hộ các can thiệp chính sách theo định hướng công bằng, ưu tiên tài trợ đáng kể cho những người trong các tổ chức có ít nguồn lực hơn để tạo bộ dữ liệu chất lượng cao. Điều này sẽ đa dạng hóa — từ góc độ xã hội và văn hóa — các bộ dữ liệu chuẩn được sử dụng để đánh giá các phương pháp ML hiện đại.'

 

 Ngày 6 tháng 2021 năm 4, 49:2 chiều GMT+XNUMX – Đã sửa từ sở hữu trong dòng tiêu đề. – Th.S