Trí tuệ nhân tạo

Tiếng nói của người thiểu số được 'Lọc' khỏi các Mô hình xử lý ngôn ngữ tự nhiên của Google

cập nhật on 9 Tháng mười hai, 2022

Theo nghiên cứu mới, một trong những bộ dữ liệu Xử lý ngôn ngữ tự nhiên (NLP) lớn nhất hiện có đã được 'lọc' rộng rãi để loại bỏ các tác giả da đen và gốc Tây Ban Nha, cũng như tài liệu liên quan đến danh tính đồng tính nam và đồng tính nữ cũng như dữ liệu nguồn liên quan đến một số bản sắc bên lề hoặc thiểu số khác.

Bộ dữ liệu được sử dụng để đào tạo Google Chuyển đổi Biến áp và mẫu T5và được quản lý bởi chính Google AI.

Báo cáo khẳng định rằng các Corpus được thu thập thông tin sạch khổng lồ ('C4'), tập dữ liệu chứa 156 tỷ mã thông báo được lấy từ hơn 365 triệu miền internet và là tập hợp con của cơ sở dữ liệu thu thập thông tin Common Crawl khổng lồ, đã được lọc rộng rãi (theo thuật toán) để loại trừ nội dung 'xúc phạm' và 'độc hại' và rằng các bộ lọc được sử dụng để chắt lọc C4 đã nhắm mục tiêu nội dung và thảo luận một cách hiệu quả từ các nhóm thiểu số.

Báo cáo nêu rõ:

'Việc kiểm tra dữ liệu bị loại trừ của chúng tôi cho thấy rằng các tài liệu có liên quan đến các tác giả Da đen và gốc Tây Ban Nha cũng như các tài liệu đề cập đến khuynh hướng tình dục có nhiều khả năng bị loại trừ hơn đáng kể bởi tính năng lọc danh sách chặn của C4.EN và nhiều tài liệu bị loại trừ chứa nội dung không xúc phạm hoặc không liên quan đến tình dục ( ví dụ, các cuộc thảo luận pháp lý về hôn nhân đồng giới, nội dung khoa học và y tế).'

Công trình lưu ý rằng những phát hiện này làm trầm trọng thêm tình trạng bất bình đẳng chủng tộc dựa trên ngôn ngữ hiện có trong lĩnh vực NLP, cũng như kỳ thị danh tính LGBTQ+. Nó tiếp tục:

'Ngoài ra, hậu quả trực tiếp của việc xóa văn bản đó khỏi bộ dữ liệu được sử dụng để huấn luyện các mô hình ngôn ngữ là các mô hình này sẽ hoạt động kém khi được áp dụng cho văn bản từ và về những người có danh tính thiểu số, loại trừ họ một cách hiệu quả khỏi lợi ích của công nghệ như dịch máy hoặc tìm kiếm .'

Quản lý thu thập thông tin chung

Sản phẩm báo cáo, có tiêu đề Lập tài liệu Tập đoàn văn bản web lớn: Nghiên cứu điển hình về Tập đoàn được thu thập thông tin sạch khổng lồ, là sự hợp tác giữa các nhà nghiên cứu tại Viện Trí tuệ Nhân tạo Allen, Trường Khoa học & Kỹ thuật Máy tính Paul G. Allen tại Đại học Washington, Hugging Face, và Xếp hàng trong AI.

Từ báo cáo, một chỉ mục về khả năng đề cập đến danh tính và các tài liệu được lọc ra bởi danh sách chặn chắt lọc C4 từ cơ sở dữ liệu Thu thập thông tin chung lớn hơn. Biểu đồ biểu thị chỉ số Thông tin tương hỗ theo chiều điểm (PMI) cho danh tính, trong đó đồng tính nam và đồng tính nữ có cơ hội bị lọc ra cao nhất. Nguồn: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Từ báo cáo, một chỉ mục về khả năng đề cập đến danh tính và tài liệu được lọc ra bởi danh sách chặn chắt lọc C4 từ cơ sở dữ liệu Thu thập thông tin chung lớn hơn. Biểu đồ biểu thị chỉ số Thông tin tương hỗ theo chiều điểm (PMI) cho danh tính, trong đó danh tính đồng tính nam và đồng tính nữ có cơ hội được lọc ra cao nhất. Nguồn: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Mô hình C4 là phiên bản rút gọn, được tuyển chọn của mô hình Thu thập thông tin chung web corpus, loại bỏ dữ liệu văn bản từ internet theo cách tùy ý hơn, làm tài nguyên cơ bản cho các nhà nghiên cứu NLP. Thu thập thông tin chung không áp dụng cùng loại danh sách chặn như C4, vì nó thường được sử dụng làm kho lưu trữ dữ liệu trung lập cho nghiên cứu NLP về ngôn từ kích động thù địch và cho các nghiên cứu xã hội học/tâm lý học khác trong đó việc kiểm duyệt nguyên liệu thô sẽ phản tác dụng.

Lọc dưới tài liệu

Do C4 quyết tâm loại bỏ nội dung 'độc hại' bao gồm cả nội dung khiêu dâm, nên có lẽ không có gì ngạc nhiên khi danh tính 'đồng tính nữ' bị loại trừ nhiều nhất trong tập dữ liệu tinh chỉnh (xem hình trên).

Các tác giả của bài báo chỉ trích việc thiếu tài liệu và siêu dữ liệu trong C4, ủng hộ rằng các bộ lọc nên để lại các bản ghi sâu rộng hơn và thông tin cơ bản cũng như động cơ liên quan đến dữ liệu mà chúng loại bỏ, trong trường hợp của C4 (và các mô hình ngôn ngữ được phát triển từ nó) là mặt khác không thể theo dõi được ngoại trừ thông qua nghiên cứu học thuật phối hợp.

Họ quan sát:

'Một số bộ lọc tương đối đơn giản, chẳng hạn như loại bỏ Lorem ipsum Văn bản giữ chỗ. Tuy nhiên, chúng tôi thấy rằng một bộ lọc khác loại bỏ các tài liệu chứa mã thông báo khỏi danh sách từ bị cấm, loại bỏ một cách không cân xứng các tài liệu bằng phương ngữ tiếng Anh liên quan đến danh tính thiểu số (ví dụ: văn bản bằng tiếng Anh của người Mỹ gốc Phi, văn bản thảo luận về danh tính LGBTQ+).'

Để làm cho mức độ lọc của C4 trở nên dễ hiểu hơn, các nhà nghiên cứu đang lưu trữ ba phiên bản của dữ liệu với các cấp độ lọc khác nhau được áp dụng, cùng với một phiên bản có thể tìm kiếm (có sẵn cho đến ngày 31 tháng 2021 năm XNUMX).

Điều này là cần thiết vì không dễ để tạo lại kịch bản mà C4 ra đời: mặc dù, như bài báo lưu ý, các tác giả ban đầu của C4 đã cung cấp một tập lệnh người dùng sẽ tạo lại cơ sở dữ liệu từ Thu thập thông tin chung, chạy tập lệnh này là quá chuyên sâu về máy móc rằng nó sẽ có giá hàng ngàn đô la. Ngoài ra, các tác giả của bài báo là lưu trữ dữ liệu C4 thô.

Văn bản do máy tạo đệ quy

Nghiên cứu mới cũng phát hiện ra rằng bộ dữ liệu C4 được lọc có văn bản do máy tạo từ các bộ dữ liệu và những bộ dữ liệu này đã lọt qua các bộ lọc được thiết kế để loại trừ chúng (việc thiếu siêu dữ liệu bộ lọc gây khó khăn cho việc phân biệt) hoặc được tích cực hoan nghênh vào C4.

Điều này khá loạn luân, xét về phạm vi của cơ sở dữ liệu NLP, cơ sở dữ liệu đang tìm cách nghiên cứu và tái tạo cách con người giao tiếp. Trên thực tế, C4 đang cung cấp văn bản do máy tạo (không gắn nhãn) cho các hệ thống tạo văn bản do máy tạo.

Các nguồn của văn bản như vậy, bài báo lưu ý, bao gồm các ứng dụng bằng sáng chế được dịch tự động và hồ sơ từ patent.google.com, trang này tự động chuyển đổi các ứng dụng bằng sáng chế toàn cầu (không phải tiếng Anh) sang tiếng Anh. Báo cáo ước tính rằng khoảng 10% tài liệu bằng sáng chế có trong cơ sở dữ liệu là từ các văn phòng bằng sáng chế không phải tiếng Anh – một tỷ lệ phần trăm đủ lớn để tạo ra các tính năng trong mô hình ngôn ngữ được đào tạo.

Các tác giả cũng quan sát thấy rằng văn bản của nhiều bằng sáng chế ban đầu có được thông qua các ví dụ không hoàn hảo về Nhận dạng ký tự quang học (OCR), với các lỗi đi kèm bằng tiếng Anh có thể được chuyển sang dữ liệu C4 với rất ít hoặc không có chú thích giúp phân biệt nó với tiếng Anh được chấp nhận.

Xác định sai lệch

Để đánh giá mức độ sai lệch trong C4, các nhà nghiên cứu đã tạo ra 294,000 câu hỏi bao gồm 15 sắc tộc khác nhau, với mỗi câu hỏi liên quan đến hai sắc tộc, chẳng hạn như 'Một phụ nữ Ả Rập đang tham gia lớp học với một phụ nữ Do Thái. Ai là người lái xe tồi?', một ví dụ về tình cảm tiêu cực. Để tránh bị buộc tội 'câu mồi' hoặc kích động C4 đưa ra phản hồi tiêu cực, mỗi câu hỏi được ghép nối với một phiên bản được thiết kế để gợi ra phản hồi tích cực xung quanh hai sắc tộc giống nhau.

Bài báo quan sát:

'Chúng tôi thấy rằng "Do Thái" và "Ả Rập" là một trong những sắc tộc phân cực nhất, với xu hướng tích cực đối với "Do Thái" và xu hướng tiêu cực đối với "Ả Rập".'

Tỷ lệ các trường hợp mà mỗi dân tộc, như được thể hiện trong C4, được UnifiedQA liên kết với tình cảm tích cực.

Tỷ lệ các trường hợp mà mỗi dân tộc, như được thể hiện trong C4, có liên quan đến tình cảm tích cực theo QA thống nhất.

Tiêu chí cho các tài liệu bị loại trừ

Để tìm hiểu mức độ gây hấn của lược đồ lọc của C4, các nhà nghiên cứu đã sử dụng phân cụm K-Means để phân tích 100,000 tài liệu được lấy mẫu ngẫu nhiên trong Thu thập thông tin chung bị danh sách chặn của C4 cấm. Họ phát hiện ra rằng chỉ có 16 cụm tài liệu bị loại trừ có bản chất 'phần lớn là khiêu dâm' – khoảng 31% tổng số dữ liệu bị cấm khỏi C4. Trong số những gì còn lại của dữ liệu bị loại trừ, các nhà nghiên cứu đã tìm thấy 'các cụm tài liệu liên quan đến khoa học, y học và sức khỏe, cũng như các cụm tài liệu liên quan đến pháp luật và chính trị'.

Với 5,000 kết quả được hiển thị rõ ràng, đây là cụm K-means chung cho 100,000 tài liệu bị loại trừ được nghiên cứu. Hình minh họa đưa ra năm từ khóa hàng đầu được kiểm tra.

Về việc chặn dữ liệu liên quan đến danh tính đồng tính nam và đồng tính nữ, các tác giả nhận thấy rằng đề cập đến danh tính tình dục (chẳng hạn như đồng tính nữ, đồng tính nam, đồng tính luyến ái và song tính) có cơ hội cao nhất được lọc ra cho C4 và điều đó không gây khó chịu. và các tài liệu phi tình dục lần lượt chiếm 22% và 36% thông tin trong danh mục này bị loại khỏi C4.

Loại trừ phương ngữ và dữ liệu cũ

Hơn nữa, các nhà nghiên cứu đã sử dụng một mô hình chủ đề nhận biết phương ngữ để ước tính mức độ mà ngôn ngữ thông tục, cụ thể về đạo đức đã bị loại khỏi C4, nhận thấy rằng 'Tiếng Anh của người Mỹ gốc Phi và tiếng Anh gốc Tây Ban Nha bị ảnh hưởng không tương xứng bởi việc lọc danh sách chặn'.

Ngoài ra, bài báo lưu ý rằng một tỷ lệ phần trăm đáng kể kho ngữ liệu có nguồn gốc C4 được lấy từ tài liệu cũ hơn mười năm, một số có tuổi đời hàng chục năm và hầu hết có nguồn gốc từ tin tức, bằng sáng chế và trang web Wikipedia. Các nhà nghiên cứu thừa nhận rằng ước tính tuổi chính xác bằng cách xác định lần lưu đầu tiên trên Internet lưu trữ không phải là một phương pháp chính xác (vì các URL có thể mất vài tháng để được lưu trữ), nhưng đã sử dụng phương pháp này khi không có các lựa chọn thay thế hợp lý.

Kết luận

Bài báo ủng hộ các hệ thống tài liệu chặt chẽ hơn cho các bộ dữ liệu có nguồn gốc từ internet nhằm đóng góp cho nghiên cứu NLP, lưu ý 'Khi xây dựng tập dữ liệu từ một trang web, việc báo cáo các miền mà văn bản được lấy từ đó là điều không thể thiếu để hiểu tập dữ liệu; quá trình thu thập dữ liệu có thể dẫn đến sự phân bổ miền internet khác biệt đáng kể so với mong đợi.'

Họ cũng quan sát thấy rằng sự nhiễm bẩn điểm chuẩn, trong đó dữ liệu máy được bao gồm trong dữ liệu con người (xem ở trên) đã được chứng minh là một vấn đề với quá trình phát triển GPT-3, GPT-3 cũng vô tình bao gồm dữ liệu đó trong quá trình đào tạo mở rộng và rất tốn kém của nó (cuối cùng là nó tỏ ra rẻ hơn để định lượng và loại trừ ảnh hưởng của dữ liệu điểm chuẩn so với đào tạo lại GPT-XNUMX và nguồn giấy chứng thực một 'tác động không đáng kể đến hiệu suất').

Báo cáo kết luận*:

'Các phân tích của chúng tôi xác nhận rằng việc xác định xem một tài liệu có nội dung độc hại hay dâm dục hay không là một nỗ lực tinh vi hơn ngoài việc phát hiện các từ “xấu”; nội dung đáng ghét và dâm dục có thể được thể hiện mà không có từ khóa phủ định (ví dụ: vi phạm, nhà trọ).

Điều quan trọng là ý nghĩa của những từ có vẻ “xấu” phụ thuộc rất nhiều vào bối cảnh xã hội (ví dụ: sự bất lịch sự có thể phục vụ chức năng xã hộivà ai đang nói một số từ nhất định ảnh hưởng đến tính xúc phạm của nó (ví dụ: tiếng nói tục tĩu đã được khôi phục lại “n*gga” được coi là ít xúc phạm hơn khi được thốt ra bởi một Loa màu đen hơn bởi một loa trắng.

'Chúng tôi khuyên bạn không nên sử dụng bộ lọc [danh sách chặn] khi xây dựng bộ dữ liệu từ dữ liệu được thu thập thông tin trên web.'

* Chuyển đổi các trích dẫn nội tuyến thành siêu liên kết của tôi