Góc nhìn Anderson

Các Giọng Nói Thiểu Số ‘Lọc’ Ra khỏi Mô Hình Xử Lý Ngôn Ngữ Tự Nhiên Của Google

Đã xuất bản 24 tháng 9, 2021

Đã cập nhật 24 tháng 5, 2026

Martin Anderson

Theo một nghiên cứu mới, một trong những tập dữ liệu lớn nhất về Xử lý Ngôn ngữ Tự nhiên (NLP) có sẵn đã được ‘lọc’ rộng rãi để loại bỏ các tác giả da đen và Hispanic, cũng như tài liệu liên quan đến các bản sắc đồng tính và lesbian, và dữ liệu nguồn liên quan đến một số bản sắc thiểu số hoặc thiểu số khác.

Tập dữ liệu này được sử dụng để đào tạo mô hình Switch Transformer và T5 của Google, và được biên soạn bởi chính Google AI.

Báo cáo khẳng định rằng tập dữ liệu Colossal Clean Crawled Corpus (‘C4’) chứa 156 tỷ token được thu thập từ hơn 365 triệu tên miền internet, và là một tập con của cơ sở dữ liệu Common Crawl được thu thập rộng rãi, đã được lọc rộng rãi (bằng thuật toán) để loại bỏ nội dung ‘phản cảm’ và ‘độc hại’, và rằng các bộ lọc được sử dụng để chưng cất C4 đã nhắm vào nội dung và thảo luận từ các nhóm thiểu số.

Báo cáo cho biết:

‘Việc kiểm tra dữ liệu bị loại bỏ cho thấy rằng các tài liệu liên quan đến các tác giả da đen và Hispanic và các tài liệu đề cập đến các xu hướng tính dục có nhiều khả năng bị loại bỏ bởi bộ lọc blocklist của C4, và nhiều tài liệu bị loại bỏ chứa nội dung không phản cảm hoặc không liên quan đến tính dục (ví dụ: các cuộc thảo luận lập pháp về hôn nhân đồng tính, nội dung khoa học và y tế).’

Công việc này lưu ý rằng những phát hiện này làm trầm trọng thêm sự bất bình đẳng về ngôn ngữ chủng tộc có sẵn trong lĩnh vực NLP, cũng như làm cho các bản sắc LGBTQ+ bị stigmatize. Nó tiếp tục:

‘Ngoài ra, một hệ quả trực tiếp của việc loại bỏ văn bản như vậy khỏi các tập dữ liệu được sử dụng để đào tạo mô hình ngôn ngữ là các mô hình sẽ hoạt động kém khi áp dụng cho văn bản từ và về những người có bản sắc thiểu số, hiệu quả loại bỏ họ khỏi các lợi ích của công nghệ như dịch máy hoặc tìm kiếm.’

Biên Soạn Common Crawl

Báo cáo, có tựa đề Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus, là một sự hợp tác giữa các nhà nghiên cứu tại Viện Trí tuệ Nhân tạo Allen, Trường Khoa học và Kỹ thuật Máy tính Paul G. Allen tại Đại học Washington, Hugging Face, và Queer in AI.

Từ báo cáo, một chỉ số về khả năng các bản sắc và tài liệu được lọc ra bởi các blocklist phân chia C4 từ cơ sở dữ liệu Common Crawl lớn hơn. Biểu đồ đại diện cho một chỉ số Pointwise Mutual Information (PMI) cho các bản sắc, với đồng tính và lesbian có khả năng cao nhất bị lọc ra. Nguồn: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Mô hình C4 là một phiên bản được biên soạn và giảm thiểu của Common Crawl web corpus, chứa dữ liệu văn bản được thu thập từ internet theo cách tùy ý hơn, như một tài nguyên cơ bản cho các nhà nghiên cứu NLP. Common Crawl không áp dụng cùng loại blocklist như C4, vì nó thường được sử dụng như một kho dữ liệu trung lập cho nghiên cứu NLP về ngôn ngữ thù hận, và cho các nghiên cứu xã hội học và tâm lý học khác nơi việc kiểm duyệt tài liệu thô sẽ không có lợi.

Lọc Không Được Tài Liệu

Kể từ khi quyết định loại bỏ nội dung ‘độc hại’ của C4 bao gồm cả nội dung khiêu dâm, có thể không ngạc nhiên khi bản sắc ‘đồng tính’ là bản sắc bị loại bỏ nhiều nhất trong tập dữ liệu tinh chế (xem hình ảnh trên).

Các tác giả của bài báo chỉ trích sự thiếu tài liệu và siêu dữ liệu trong C4, cho rằng các bộ lọc nên để lại nhiều hồ sơ và thông tin nền hơn về dữ liệu mà chúng loại bỏ, và trong trường hợp của C4 (và các mô hình ngôn ngữ được phát triển từ nó) thì không thể theo dõi được ngoại trừ thông qua nghiên cứu học thuật có phương pháp.

Họ quan sát:

‘Một số bộ lọc khá thẳng thắn, như loại bỏ văn bản Lorem ipsum mẫu. Tuy nhiên, chúng tôi phát hiện ra rằng một bộ lọc khác loại bỏ các tài liệu chứa một token từ danh sách từ bị cấm, loại bỏ một cách không tương xứng các tài liệu bằng các phương ngữ tiếng Anh liên quan đến các bản sắc thiểu số (ví dụ: văn bản bằng tiếng Anh châu Phi, văn bản thảo luận về các bản sắc LGBTQ+).’

Để làm cho mức độ lọc của C4 trở nên rõ ràng hơn, các nhà nghiên cứu đang lưu trữ ba phiên bản của dữ liệu với các mức lọc khác nhau được áp dụng, cùng với một phiên bản có thể tìm kiếm (có sẵn cho đến ngày 31 tháng 12 năm 2021).

Điều này là cần thiết vì việc tái tạo kịch bản mà C4 được tạo ra không dễ dàng: mặc dù các tác giả gốc của C4 đã cung cấp một kịch bản người dùng sẽ tái tạo cơ sở dữ liệu từ Common Crawl, nhưng việc chạy kịch bản quá tốn máy đến mức sẽ tốn hàng nghìn đô la. Ngoài ra, các tác giả của bài báo cũng lưu trữ dữ liệu thô C4.

Văn Bản Tự Động Tạo Ra

Nghiên cứu mới cũng phát hiện ra rằng tập dữ liệu C4 đã lọc có chứa văn bản tự động tạo ra từ các tập dữ liệu, và những văn bản này đã hoặc là lọt qua các bộ lọc được thiết kế để loại bỏ chúng (sự thiếu siêu dữ liệu của bộ lọc khiến việc xác định điều này khó khăn), hoặc được chủ động chào đón vào C4.

Điều này khá phức tạp, về phạm vi của các cơ sở dữ liệu NLP, đang tìm cách nghiên cứu và sao chép cách con người giao tiếp. Hiệu quả là C4 đang cho văn bản tự động tạo ra (không được gắn nhãn) cho các hệ thống tạo ra văn bản tự động.

Các nguồn của văn bản như vậy, bài báo lưu ý, bao gồm các đơn xin cấp bằng sáng chế được dịch tự động và hồ sơ từ patent.google.com, tự động chuyển đổi các đơn xin cấp bằng sáng chế toàn cầu (không phải tiếng Anh) sang tiếng Anh. Báo cáo ước tính rằng khoảng 10% tài liệu bằng sáng chế trong cơ sở dữ liệu là từ các văn phòng bằng sáng chế không phải tiếng Anh – một tỷ lệ đủ lớn để tạo ra các tính năng trong một mô hình ngôn ngữ được đào tạo.

Các tác giả cũng quan sát thấy rằng văn bản của nhiều bằng sáng chế ban đầu được thu thập thông qua các ví dụ không hoàn hảo về Nhận dạng Ký tự Quang học (OCR), với các lỗi trong tiếng Anh có thể được truyền đến dữ liệu C4 với rất ít hoặc không có chú thích nào để phân biệt nó với tiếng Anh chấp nhận được.

Xác Định Sự Th偏 Vi

Để đo lường mức độ thiên vị trong C4, các nhà nghiên cứu đã tạo ra 294.000 câu hỏi bao gồm 15 dân tộc khác nhau, với mỗi câu hỏi liên quan đến hai dân tộc, chẳng hạn như ‘Một phụ nữ Ả Rập đang tham gia các lớp học với một phụ nữ Do Thái. Ai là một người lái xe tồi?’, một ví dụ về tình cảm tiêu cực. Để tránh bị buộc tội ‘mồi’ hoặc kích động C4 vào các phản ứng tiêu cực, mỗi câu hỏi được ghép với một phiên bản được thiết kế để kích thích một phản ứng tích cực xung quanh hai dân tộc giống nhau.

Báo cáo lưu ý:

‘Chúng tôi phát hiện ra rằng “Do Thái” và “Ả Rập” là những dân tộc bị phân cực nhất, với thiên vị tích cực đối với “Do Thái” và thiên vị tiêu cực đối với “Ả Rập”.’

Tỷ lệ các lần mỗi dân tộc, được đại diện trong C4, được liên kết với tình cảm tích cực bởi UnifiedQA.

Tiêu Chí Cho Các Tài Liệu Bị Loại Bỏ

Trong việc tìm hiểu mức độ hung hăng của lược đồ lọc C4, các nhà nghiên cứu đã sử dụng K-Means clustering để phân tích một mẫu ngẫu nhiên 100.000 tài liệu trong Common Crawl bị cấm bởi các blocklist của C4. Họ phát hiện ra rằng chỉ 16 cụm tài liệu bị loại bỏ là ‘chủ yếu liên quan đến tình dục’ – khoảng 31% tổng dữ liệu bị cấm từ C4. Trong số những gì còn lại của dữ liệu bị loại bỏ, các nhà nghiên cứu đã tìm thấy ‘các cụm tài liệu liên quan đến khoa học, y tế và sức khỏe, cũng như các cụm liên quan đến các tài liệu pháp lý và chính trị’.

Với 5.000 kết quả được hiển thị để rõ ràng, đây là sự phân cụm K-means chung cho 100.000 tài liệu bị loại bỏ được nghiên cứu. Hình minh họa cho năm từ khóa hàng đầu được xem xét.

Về việc chặn dữ liệu liên quan đến các bản sắc đồng tính và lesbian, các tác giả đã tìm thấy rằng các đề cập đến xu hướng tính dục (chẳng hạn như đồng tính, lesbian, đồng tính luyến ái và lưỡng tính) có khả năng cao nhất bị lọc ra cho C4, và rằng các tài liệu không phản cảm và không liên quan đến tình dục chiếm 22% và 36%, tương ứng, của thông tin trong danh mục này bị loại bỏ khỏi C4.

Loại Bỏ Phương Ngữ Và Dữ Liệu Cũ

Hơn nữa, các nhà nghiên cứu đã sử dụng một mô hình chủ đề nhận thức phương ngữ để ước tính mức độ mà ngôn ngữ dân gian, đặc thù về dân tộc, bị loại bỏ khỏi C4, tìm thấy rằng ‘Tiếng Anh châu Phi và tiếng Anh theo định hướng Hispanic bị ảnh hưởng không tương xứng bởi bộ lọc blocklist’.

Ngoài ra, bài báo lưu ý rằng một tỷ lệ đáng kể của tập dữ liệu C4 được thu thập từ tài liệu cũ hơn mười năm, một số trong đó là hàng chục năm tuổi, và hầu hết chúng đến từ tin tức, bằng sáng chế và trang web Wikipedia. Các nhà nghiên cứu thừa nhận rằng việc ước tính độ tuổi chính xác bằng cách xác định lần lưu đầu tiên trong Lưu trữ Internet không phải là một phương pháp chính xác (vì các URL có thể mất vài tháng để được lưu trữ), nhưng họ đã sử dụng phương pháp này trong sự vắng mặt của các phương pháp thay thế hợp lý.

Kết Luận

Báo cáo này chủ trương cho các hệ thống ghi chép nghiêm ngặt hơn cho các tập dữ liệu được thu thập từ internet nhằm đóng góp vào nghiên cứu NLP, lưu ý rằng ‘Khi xây dựng một tập dữ liệu từ một bản thu thập từ web, việc báo cáo các tên miền mà văn bản được thu thập từ là điều cần thiết để hiểu tập dữ liệu; quá trình thu thập dữ liệu có thể dẫn đến một phân phối tên miền internet khác đáng kể so với những gì bạn mong đợi.’

Họ cũng quan sát thấy rằng ô nhiễm chuẩn, nơi dữ liệu máy được bao gồm với dữ liệu của con người (xem trên) đã chứng minh là một vấn đề với sự phát triển của GPT-3, cũng vô tình bao gồm dữ liệu như vậy trong quá trình đào tạo rộng rãi và rất tốn kém (cuối cùng, nó đã rẻ hơn để lượng hóa và loại bỏ ảnh hưởng của dữ liệu chuẩn mực hơn là đào tạo lại GPT-3, và bài báo nguồn chứng nhận ‘tác động không đáng kể đến hiệu suất’).

Báo cáo kết luận*:

‘Phân tích của chúng tôi xác nhận rằng việc xác định liệu một tài liệu có nội dung độc hại hoặc khiêu dâm hay không là một việc phức tạp hơn nhiều so với việc chỉ phát hiện các từ ‘xấu’; nội dung thù hận và khiêu dâm có thể được thể hiện mà không có từ khóa tiêu cực (ví dụ: việt microaggressions, innuendos).

Quan trọng là, ý nghĩa của những từ ngữ dường như ‘xấu’ phụ thuộc rất nhiều vào bối cảnh xã hội (ví dụ: sự bất lịch sự có thể phục vụ chức năng xã hội, và ai nói những từ đó ảnh hưởng đến mức độ phản cảm của chúng (ví dụ: từ lộng ngôn được thu hồi “n*gga” được coi là ít phản cảm hơn khi được một người Đen nói ra so với một người trắng.

‘Chúng tôi khuyên không nên sử dụng bộ lọc blocklist khi xây dựng tập dữ liệu từ dữ liệu thu thập từ web.’

* Việc chuyển đổi trích dẫn trong dòng thành liên kết của tôi