Trí tuệ nhân tạo

Liệu Các Bộ Dữ Liệu AI Hyperscale Chưa Được Cải Tiến Có Kém Hơn Chính Mạng Internet?

Published October 6, 2021

Updated April 28, 2026

Martin Anderson

Các nhà nghiên cứu từ Ireland, Vương quốc Anh và Mỹ đã cảnh báo rằng sự tăng trưởng của các bộ dữ liệu đào tạo AI hyperscale đe dọa lan truyền những khía cạnh tồi tệ nhất của các nguồn internet, cho rằng một bộ dữ liệu học thuật vừa được phát hành có chứa ‘hình ảnh và cặp văn bản gây khó chịu và rõ ràng về cưỡng hiếp, khiêu dâm, định kiến ác tính, lời lộng ngôn chủng tộc và dân tộc, và các nội dung cực kỳ vấn đề khác’.

Các nhà nghiên cứu tin rằng một làn sóng mới của các bộ dữ liệu đa phương tiện lớn chưa được cải tiến hoặc lọc không chính xác có thể gây hại hơn trong khả năng củng cố các tác động của nội dung tiêu cực như vậy, vì các bộ dữ liệu này bảo tồn hình ảnh và nội dung khác có thể đã bị xóa khỏi các nền tảng trực tuyến thông qua khiếu nại của người dùng, kiểm duyệt địa phương hoặc thuật toán.

Họ còn quan sát thấy rằng có thể mất nhiều năm – trong trường hợp của bộ dữ liệu ImageNet hùng mạnh, một thập kỷ – để giải quyết các khiếu nại lâu dài về nội dung của bộ dữ liệu, và rằng những sửa đổi sau này không luôn được phản ánh ngay cả trong các bộ dữ liệu mới được tạo ra từ chúng.

Bài báo này, có tiêu đề Bộ dữ liệu đa phương tiện: sự ghét phụ nữ, khiêu dâm và định kiến ác tính, đến từ các nhà nghiên cứu tại Đại học College Dublin & Lero, Đại học Edinburgh, và Nhà khoa học trưởng tại nền tảng xác thực UnifyID.

Mặc dù công việc tập trung vào việc phát hành gần đây của bộ dữ liệu CLIP-filtered LAION-400M, các tác giả đang lập luận chống lại xu hướng chung của việc ném ngày càng nhiều dữ liệu vào các khung máy học như mô hình ngôn ngữ thần kinh GPT-3, và cho rằng động lực tập trung vào kết quả để đạt được suy luận tốt hơn (và thậm chí là Trí tuệ Nhân tạo Tổng quát [AGI]) đang dẫn đến việc sử dụng các nguồn dữ liệu có hại một cách tùy tiện với sự giám sát bản quyền bất cẩn; tiềm năng gây ra và thúc đẩy tổn hại; và khả năng không chỉ duy trì dữ liệu bất hợp pháp có thể đã biến mất khỏi lĩnh vực công cộng, mà còn kết hợp các mô hình đạo đức như vậy vào các triển khai AI hạ nguồn.

LAION-400M

Tháng trước, bộ dữ liệu LAION-400M đã được phát hành, bổ sung vào số lượng ngày càng tăng của các bộ dữ liệu ngôn ngữ đa phương tiện dựa trên kho lưu trữ Common Crawl, kho này thu thập internet một cách không phân biệt và chuyển trách nhiệm lọc và cải tiến cho các dự án sử dụng nó. Bộ dữ liệu này chứa 400 triệu cặp văn bản/hình ảnh.

LAION-400M là một biến thể mã nguồn mở của bộ dữ liệu WIT (WebImageText) đóng của Google AI được phát hành vào tháng 3 năm 2021, và có các cặp văn bản-hình ảnh, nơi một hình ảnh trong cơ sở dữ liệu đã được liên kết với văn bản hoặc siêu dữ liệu đi kèm (ví dụ, văn bản thay thế của một hình ảnh trong một thư viện web). Điều này cho phép người dùng thực hiện việc thu hồi hình ảnh dựa trên văn bản, tiết lộ các mối quan hệ mà AI cơ bản đã hình thành về các lĩnh vực này (tức là ‘động vật’, ‘xe đạp’, ‘người’, ‘người đàn ông’, ‘người phụ nữ’).

Mối quan hệ giữa hình ảnh và văn bản, và sự tương tự cosine có thể nhúng thiên vị vào kết quả truy vấn, là trung tâm của cuộc gọi trong bài báo để cải thiện phương pháp luận, vì các truy vấn rất đơn giản đối với cơ sở dữ liệu LAION-400M có thể tiết lộ thiên vị.

Ví dụ, hình ảnh của nữ phi hành gia tiên phong Eileen Collins trong thư viện scitkit-image lấy hai chú thích liên kết trong LAION-400M: ‘Đây là một bức chân dung của một phi hành gia với lá cờ Mỹ’ và ‘Đây là một bức ảnh của một người phụ nữ微笑 trong bộ đồ màu cam với lá cờ Mỹ’.

Phi hành gia Mỹ Eileen Collins nhận được hai đánh giá rất khác nhau về thành tựu của cô trong không gian dưới LAION-400M. Nguồn: https://arxiv.org/pdf/2110.01963.pdf

Tương tự cosine được báo cáo khiến cho cả hai chú thích đều có khả năng được áp dụng là rất gần nhau, và các tác giả cho rằng các hệ thống AI sử dụng LAION-400M sẽ có khả năng trình bày cả hai như một chú thích phù hợp.

Khiêu Dâm Lại Nổi Lên

LAION-400M đã tạo ra một giao diện có thể tìm kiếm có sẵn, nơi bỏ chọn nút ‘tìm kiếm an toàn’ sẽ tiết lộ mức độ mà hình ảnh và liên kết văn bản khiêu dâm chiếm ưu thế trong các nhãn và lớp. Ví dụ, tìm kiếm ‘nữ tu’ (NSFW nếu bạn tắt chế độ an toàn sau đó) trong cơ sở dữ liệu sẽ trả về kết quả chủ yếu liên quan đến kinh dị, cosplay và trang phục, với rất ít nữ tu thực sự có sẵn.

Tắt Chế độ An toàn trên cùng một tìm kiếm sẽ tiết lộ một loạt hình ảnh khiêu dâm liên quan đến thuật ngữ, điều này sẽ đẩy các hình ảnh không khiêu dâm xuống trang kết quả tìm kiếm, tiết lộ mức độ mà LAION-400M đã gán trọng số lớn hơn cho hình ảnh khiêu dâm, vì chúng phổ biến cho thuật ngữ ‘nữ tu’ trong các nguồn trực tuyến.

Sự kích hoạt mặc định của Chế độ An toàn là một đặc điểm giao diện người dùng lừa đảo, vì nó đại diện cho một bộ lọc, sẽ không nhất thiết phải được kích hoạt trong các hệ thống AI phái sinh, nhưng đã được tổng quát hóa vào lĩnh vực ‘nữ tu’ theo cách không dễ dàng phân biệt với kết quả SFW (an toàn cho công sở) về mặt sử dụng thuật toán.

Bài báo có các ví dụ mờ trên các thuật ngữ tìm kiếm khác nhau trong tài liệu phụ ở cuối. Chúng không thể được trình bày ở đây do ngôn ngữ trong văn bản đi kèm với các bức ảnh mờ, nhưng các nhà nghiên cứu lưu ý rằng việc kiểm tra và làm mờ các hình ảnh đã ảnh hưởng đến họ, và thừa nhận thách thức trong việc cải tiến vật liệu như vậy cho giám sát của con người đối với các cơ sở dữ liệu lớn:

‘Chúng tôi (và các đồng nghiệp đã giúp đỡ chúng tôi) đã trải qua các mức độ khó chịu, buồn nôn và đau đầu khác nhau trong quá trình kiểm tra bộ dữ liệu. Ngoài ra, loại công việc này gặp phải sự chỉ trích tiêu cực đáng kể trên toàn bộ lĩnh vực học thuật AI khi phát hành, điều này không chỉ thêm một gánh nặng cảm xúc cho nhiệm vụ nặng nề của việc nghiên cứu và phân tích các bộ dữ liệu như vậy mà còn ngăn cản các công việc tương tự trong tương lai, gây tổn hại cho lĩnh vực AI và xã hội nói chung.’

Các nhà nghiên cứu cho rằng mặc dù việc cải tiến của con người trong vòng lặp là tốn kém và có chi phí cá nhân liên quan, nhưng các hệ thống lọc tự động được thiết kế để loại bỏ hoặc giải quyết nội dung như vậy rõ ràng không đủ để thực hiện nhiệm vụ, vì các hệ thống NLP có khó khăn trong việc cô lập hoặc loại bỏ nội dung gây khó chịu có thể chiếm ưu thế trong một bộ dữ liệu thu thập và sau đó được coi là đáng kể do khối lượng lớn.

Đóng Vai và Loại Bỏ Bảo Vệ Bản Quyền

Bài báo cho rằng các bộ dữ liệu chưa được cải tiến như vậy ‘rất có khả năng’ sẽ tiếp tục khai thác các cá nhân thiểu số, và giải quyết vấn đề liệu các dự án dữ liệu mã nguồn mở tương tự có quyền, về mặt pháp lý hoặc đạo đức, để chuyển trách nhiệm về tài liệu cho người dùng cuối:

‘Các cá nhân có thể xóa dữ liệu của họ từ một trang web và giả định rằng nó đã biến mất mãi mãi, trong khi nó vẫn có thể tồn tại trên máy chủ của nhiều nhà nghiên cứu và tổ chức. Có một câu hỏi về việc ai chịu trách nhiệm xóa dữ liệu đó khỏi việc sử dụng trong bộ dữ liệu? Đối với LAION-400M, các nhà tạo ra đã ủy thác nhiệm vụ này cho người dùng bộ dữ liệu. Dữ liệu cho thấy các quy trình như vậy được thực hiện một cách phức tạp và người dùng trung bình thiếu kiến thức kỹ thuật để xóa dữ liệu của họ, liệu đây có phải là một cách tiếp cận hợp lý?’

Họ còn cho rằng LAION-400M có thể không phù hợp để phát hành dưới mô hình giấy phép Creative Common CC-BY 4.0 được áp dụng, mặc dù những lợi ích tiềm năng cho việc dân chủ hóa các bộ dữ liệu lớn, trước đây là lĩnh vực độc quyền của các công ty lớn như Google và OpenAI.

Miền LAION-400M khẳng định rằng các hình ảnh trong bộ dữ liệu ‘được bảo vệ bởi bản quyền của riêng họ’ – một cơ chế ‘truyền qua’ được kích hoạt chủ yếu bởi các bản án của tòa án và hướng dẫn của chính phủ trong những năm gần đây, rộng rãi chấp thuận việc thu thập web cho mục đích nghiên cứu. Nguồn: https://rom1504.github.io/clip-retrieval/

Các tác giả đề xuất rằng các tình nguyện viên (tức là tình nguyện viên được huy động) có thể giải quyết một số vấn đề của bộ dữ liệu, và các nhà nghiên cứu có thể phát triển các kỹ thuật lọc cải tiến.

‘Tuy nhiên, quyền của chủ thể dữ liệu vẫn chưa được giải quyết. Điều đó vô trách nhiệm và nguy hiểm khi đánh giá thấp những tác hại vốn có trong các bộ dữ liệu lớn như vậy và khuyến khích sử dụng chúng trong các môi trường công nghiệp và thương mại. Trách nhiệm của chương trình giấy phép mà bộ dữ liệu được cung cấp thuộc về nhà tạo ra bộ dữ liệu.’

Các Vấn Đề Của Việc Dân Chủ Hóa Dữ Liệu Hyperscale

Bài báo cho rằng các bộ dữ liệu visio-ngôn ngữ như LAION-400M trước đây không có sẵn ngoài các công ty công nghệ lớn và số lượng hạn chế các cơ sở nghiên cứu có nguồn lực để thu thập, cải tiến và xử lý chúng. Họ còn chào đón tinh thần của bản phát hành mới, trong khi chỉ trích việc thực hiện.

Các tác giả cho rằng định nghĩa được chấp nhận của ‘dân chủ hóa’, như nó áp dụng cho các bộ dữ liệu hyperscale mã nguồn mở, quá hạn chế, và ‘không tính đến quyền, phúc lợi và lợi ích của các cá nhân và cộng đồng dễ bị tổn thương, nhiều trong số họ có khả năng chịu ảnh hưởng nặng nề nhất từ các tác động hạ nguồn của bộ dữ liệu này và các mô hình được đào tạo trên nó’.

Vì sự phát triển của các mô hình mở nguồn GPT-3 quy mô lớn cuối cùng được thiết kế để phân phối cho hàng triệu (và bằng cách này, có thể hàng tỷ) người dùng trên toàn thế giới, và vì các dự án nghiên cứu có thể áp dụng các bộ dữ liệu trước khi chúng được chỉnh sửa hoặc thậm chí xóa, việc duy trì các vấn đề mà các sửa đổi được thiết kế để giải quyết, các tác giả cho rằng việc phát hành cẩn thận các bộ dữ liệu chưa được cải tiến không nên trở thành một tính năng thường xuyên trong học máy mã nguồn mở.

Đặt Genie Trở Lại Vào Chai

Một số bộ dữ liệu đã bị đàn áp lâu sau khi nội dung của chúng đã đi qua, có thể không thể tách rời, vào các dự án AI dài hạn, đã bao gồm bộ dữ liệu Duke MTMC (Multi-Target, Multi-Camera), cuối cùng đã bị rút lại do lo ngại lặp lại từ các tổ chức nhân quyền về việc sử dụng nó bởi các cơ quan đàn áp ở Trung Quốc; Microsoft Celeb (MS-Celeb-1M), một bộ dữ liệu gồm 10 triệu hình ảnh ‘người nổi tiếng’ đã xảy ra bao gồm các nhà báo, nhà hoạt động, nhà hoạch định chính sách và nhà văn, những người đã phơi bày dữ liệu sinh trắc học trong bản phát hành đã bị chỉ trích nặng nề; và bộ dữ liệu Tiny Images, rút lại vào năm 2020 vì ‘thiên vị, hình ảnh và ngôn ngữ định kiến và xúc phạm’.

Về các bộ dữ liệu đã được sửa đổi thay vì bị rút lại sau khi bị chỉ trích, các ví dụ bao gồm bộ dữ liệu ImageNet phổ biến rộng rãi, mà các nhà nghiên cứu lưu ý, đã mất mười năm (2009-2019) để giải quyết các khiếu nại lặp lại về quyền riêng tư và các lớp không thể hình dung.

Bài báo quan sát thấy rằng LAION-400M thực sự đặt thậm chí những cải tiến chậm chạp này trở lại, bằng cách ‘phần lớn bỏ qua’ những sửa đổi được đề cập trong biểu diễn của ImageNet trong bản phát hành mới, và phát hiện ra một xu hướng rộng lớn hơn trong khía cạnh này*:

‘Điều này được nhấn mạnh trong sự xuất hiện của các bộ dữ liệu lớn hơn như bộ dữ liệu hình ảnh ML của Tencent (vào tháng 2 năm 2020) bao gồm hầu hết các lớp không thể hình dung, sự sẵn có liên tục của các mô hình được đào tạo trên toàn bộ bộ dữ liệu ImageNet-21k trong các kho lưu trữ như TF-hub, việc sử dụng liên tục bộ dữ liệu ImageNet-21k chưa được lọc trong các mô hình SotA mới nhất (như EfficientNetV2 và CoAtNet của Google) và việc công bố rõ ràng cho phép sử dụng bộ dữ liệu ImageNet-21k chưa được lọc để tiền huấn luyện trong các cuộc thi uy tín như thử thách LVIS 2021.

‘Chúng tôi nhấn mạnh quan sát quan trọng này: Một nhóm có uy tín như ImageNet quản lý ít hơn 15 triệu hình ảnh đã vật lộn và thất bại trong những nỗ lực giải độc như vậy cho đến nay.

‘Quy mô của nỗ lực cẩn thận cần thiết để giải độc hoàn toàn bộ dữ liệu đa phương tiện khổng lồ này và các mô hình được đào tạo trên bộ dữ liệu này, trải dài hàng tỷ cặp hình ảnh-văn bản, sẽ không thể phủ nhận là khổng lồ.’

* Tôi đã chuyển đổi các trích dẫn nội tuyến của tác giả thành các liên kết.

Related Topics:AI bias Bias data analysis research