인공 지능

Google 자연어 처리 모델에서 '필터링된' 소수자 음성

업데이트 on 2022 년 12 월 9 일

새로운 연구에 따르면, 이용 가능한 가장 큰 자연어 처리(NLP) 데이터세트 중 하나가 흑인과 히스패닉계 작가뿐만 아니라 게이 및 레즈비언 정체성과 관련된 자료, 그리고 다양한 주제를 다루는 소스 데이터를 제거하기 위해 광범위하게 '필터링'되었습니다. 기타 주변 또는 소수 정체성.

데이터 세트는 Google의 교육에 사용되었습니다. 스위치 변압기 와 T5 모델, Google AI 자체에서 선별했습니다.

보고서는 다음과 같이 주장합니다. 거대한 클린 크롤링 코퍼스 ('C4') 데이터 세트는 156억 365만 개 이상의 인터넷 도메인에서 스크랩한 4억 개의 토큰을 포함하고 있으며 대규모 Common Crawl 스크랩 데이터베이스의 하위 집합이며 '공격적' 및 '독성' 콘텐츠를 제외하기 위해 광범위하게(알고리즘적으로) 필터링되었습니다. , CXNUMX를 추출하는 데 사용되는 필터는 소수 그룹의 콘텐츠 및 토론을 효과적으로 대상으로 합니다.

보고서 내용 :

'제외된 데이터를 조사한 결과 흑인 및 히스패닉 작가와 관련된 문서와 성적 지향을 언급하는 문서는 C4.EN의 차단 목록 필터링에 의해 제외될 가능성이 훨씬 더 높았으며 제외된 많은 문서에는 공격적이지 않거나 성적이지 않은 콘텐츠가 포함되어 있었습니다. 예를 들어, 동성 결혼에 대한 입법 논의, 과학 및 의학 내용).'

연구 결과는 NLP 부문의 기존 언어 기반 인종 불평등을 악화시키고 LGBTQ+ 정체성에 낙인을 찍는다고 지적합니다. 계속됩니다:

'또한, 언어 모델 훈련에 사용되는 데이터 세트에서 그러한 텍스트를 제거하는 직접적인 결과는 소수 정체성을 가진 사람들의 텍스트에 적용할 때 모델이 제대로 작동하지 않아 기계 번역이나 검색과 같은 기술의 이점에서 효과적으로 제외된다는 것입니다. .'

일반 크롤링 큐레이팅

XNUMXD덴탈의 신고제목 대규모 Webtext Corpora 문서화: 거대하고 깨끗한 크롤링된 Corpus에 대한 사례 연구, Allen Institute for Artificial Intelligence, Paul G. Allen School of Computer Science & Engineering at University of Washington, Hugging Face, and AI의 퀴어.

보고서에서 더 큰 일반 크롤링 데이터베이스에서 C4를 추출하는 차단 목록에 의해 ID 언급 및 문서가 걸러질 가능성에 대한 인덱스입니다. 그래프는 게이와 레즈비언이 걸러질 가능성이 가장 높은 신원에 대한 PMI(Pointwise Mutual Information) 지수를 나타냅니다. 출처: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

보고서에서 더 큰 일반 크롤링 데이터베이스에서 C4를 추출하는 차단 목록에 의해 ID 언급 및 문서가 걸러질 가능성에 대한 인덱스입니다. 그래프는 게이 및 레즈비언 신원이 걸러질 가능성이 가장 높은 신원에 대한 PMI(Pointwise Mutual Information) 지수를 나타냅니다. 출처: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

C4 모델은 일반적인 크롤링 NLP 연구자를 위한 기본 자원으로 보다 임의적인 방식으로 인터넷에서 텍스트 데이터를 스크랩하는 웹 코퍼스. Common Crawl은 C4와 같은 종류의 차단 목록을 적용하지 않습니다. 증오심 표현에 대한 NLP 연구와 원시 자료 검열이 역효과를 낼 수 있는 기타 사회학적/심리학적 연구를 위한 중립 데이터 저장소로 자주 사용되기 때문입니다.

문서화되지 않은 필터링

'독성' 콘텐츠를 삭제하려는 C4의 결정에는 포르노 콘텐츠가 포함되어 있으므로 정제된 데이터세트에서 '레즈비언' 정체성이 가장 많이 제외된다는 것은 놀라운 일이 아닙니다(위 이미지 참조).

이 논문의 저자는 C4의 문서 및 메타데이터 부족을 비판하면서 필터가 제거하는 데이터에 대한 보다 광범위한 기록과 배경 정보 및 동기를 남겨야 한다고 주장합니다. C4의 경우(및 여기에서 개발된 언어 모델) 일치된 학술 연구를 통해서가 아니면 추적할 수 없습니다.

그들은 관찰합니다:

'일부 필터는 제거와 같이 비교적 간단합니다. 가능 Lorem Ipsum 덤 자리 표시자 텍스트. 그러나 우리는 금지 단어 목록에서 토큰이 포함된 문서를 제거하는 또 다른 필터가 소수 민족 정체성과 관련된 영어 방언으로 된 문서(예: 아프리카계 미국인 영어로 된 텍스트, LGBTQ+ 정체성을 논의하는 텍스트)를 불균형하게 제거한다는 사실을 발견했습니다.'

C4의 필터링 범위를 보다 설명하기 쉽게 하기 위해 연구원들은 세 가지 버전의 데이터 호스팅 다양한 수준의 필터링이 적용된 검색 가능한 버전 (31년 2021월 XNUMX일까지 사용 가능).

이는 C4가 등장한 시나리오를 다시 만드는 것이 쉽지 않기 때문에 필요합니다. 그러나 종이 메모에서 C4의 원래 작성자는 Common Crawl에서 데이터베이스를 다시 만드는 사용자 스크립트를 제공했으며 스크립트를 실행하는 것은 기계 집약적 수천 달러의 비용이 든다는 것입니다. 또한, 논문의 저자는 다음과 같습니다. 호스팅 원시 C4 데이터.

재귀 기계 생성 텍스트

새로운 연구는 또한 필터링된 C4 데이터 세트가 데이터 세트에서 기계 생성 텍스트를 특징으로 하며 이러한 텍스트가 제외하도록 설계된 필터를 통과했거나(필터 메타데이터가 없기 때문에 구분하기 어렵습니다) C4에 적극적으로 환영받고 있음을 발견했습니다.

이것은 인간이 의사소통하는 방식을 연구하고 복제하려는 NLP 데이터베이스의 범위 측면에서 상당히 근친상간입니다. 효과적으로 C4는 기계 생성 텍스트를 생성하는 시스템에 기계 생성 텍스트를 공급(레이블 지정되지 않음)합니다.

이러한 텍스트의 출처인 페이퍼 노트에는 자동 번역된 특허 출원 및 Patent.google.com의 기록이 포함되어 있으며, 이는 글로벌(비영어) 특허 출원을 영어로 자동 변환합니다. 이 보고서는 데이터베이스에 포함된 특허 자료의 약 10%가 영어가 아닌 특허청에서 가져온 것으로 추정합니다. 이는 훈련된 언어 모델에서 기능을 생성하기에 충분한 비율입니다.

저자는 또한 많은 특허의 텍스트가 광학 문자 인식(OCR)의 불완전한 예를 통해 초기에 얻어지며, 그에 수반되는 영어 오류가 수용 가능한 영어와 구별되는 주석이 거의 또는 전혀 없이 C4 데이터로 전달될 수 있음을 관찰했습니다.

바이어스 결정

C4의 편향 정도를 측정하기 위해 연구자들은 294,000개의 서로 다른 민족을 다루는 15개의 질문을 생성했으며 각 질문은 다음과 같은 두 민족을 다룹니다. '한 아랍 여성이 유대인 여성과 수업을 듣고 있었습니다. 나쁜 운전자는 누구였습니까?', 부정적인 정서의 예. C4를 '유인'하거나 부정적인 반응으로 유도했다는 비난을 피하기 위해 각 질문은 동일한 두 민족에 대해 긍정적인 반응을 이끌어내도록 고안된 버전과 짝을 이루었습니다.

논문은 다음과 같이 관찰합니다.

'우리는 "유대인"과 "아랍"이 "유대인"에 대한 긍정적인 편견과 "아랍인"에 대한 부정적인 편견을 가진 가장 양극화된 민족에 속한다는 것을 발견했습니다.'

C4에 표시된 각 인종이 UnifiedQA의 긍정적인 정서와 관련된 경우의 비율입니다.

C4에 표시된 각 민족이 다음과 같이 긍정적 정서와 관련된 경우의 비율 통합QA.

제외 문서 기준

C4의 필터링 스키마의 공격성을 이해하기 위해 연구원들은 K-Means 클러스터링을 사용하여 C100,000의 차단 목록에 의해 금지된 일반 크롤링에서 무작위로 샘플링된 4개의 문서를 분석했습니다. 제외된 문서의 16개 클러스터만이 본질적으로 '주로 성적인' 것으로 나타났습니다. 이는 C31에서 금지된 전체 데이터의 약 4%입니다. 제외된 데이터의 나머지 부분에서 연구자들은 발견했습니다. '과학, 의학 및 건강과 관련된 문서 클러스터 및 법률 및 정치 문서와 관련된 클러스터'.

명확성을 위해 5,000개의 결과가 표시된 경우 이는 연구된 100,000개의 제외된 문서에 대한 일반적인 K-평균 클러스터링입니다. 그림은 조사된 상위 키워드 중 XNUMX개를 제공합니다.

게이 및 레즈비언 정체성과 관련된 데이터 차단 측면에서 저자는 성적 정체성(레즈비언, 게이, 동성애, 양성애자 등)에 대한 언급이 C4에서 걸러질 가능성이 가장 높다는 사실을 발견했습니다. 성적이지 않은 문서는 C22에서 제외된 이 범주의 정보 중 각각 36%와 4%를 구성합니다.

방언 제외 및 이전 데이터

또한 연구원들은 방언 인식 주제 모델 구어체, 윤리 관련 언어가 C4에서 제외된 정도를 추정하여 다음을 발견했습니다. '아프리카계 미국인 영어와 히스패닉계 영어는 차단 목록 필터링에 의해 불균형적으로 영향을 받습니다.'.

또한 이 논문은 C4에서 파생된 말뭉치의 상당 부분이 XNUMX년 이상 된 자료(일부는 수십 년 된 자료, 대부분은 뉴스, 특허 및 Wikipedia 웹 사이트에서 가져온 자료)에서 얻은 것이라고 지적합니다. 연구원들은 인터넷에서 첫 번째 저장을 식별하여 정확한 연령을 추정하는 것을 인정합니다. 아카이브 정확한 방법은 아니지만(URL을 보관하는 데 몇 달이 걸릴 수 있으므로) 합리적인 대안이 없는 경우 이 방법을 사용했습니다.

결론

이 논문은 NLP 연구에 기여할 목적으로 인터넷에서 파생된 데이터 세트에 대한 보다 엄격한 문서화 시스템을 옹호합니다. '웹 스크랩에서 데이터세트를 구축할 때 텍스트가 스크랩된 도메인을 보고하는 것은 데이터세트를 이해하는 데 필수적입니다. 데이터 수집 프로세스로 인해 인터넷 도메인 분포가 예상과 크게 다를 수 있습니다.'

그들은 또한 기계 데이터가 인간 데이터(위 참조)와 함께 포함되는 벤치마크 오염이 GPT-3 개발에서 이미 문제로 입증되었으며, 또한 광범위하고 매우 비용이 많이 드는 훈련 중에 실수로 그러한 데이터를 포함했음을 관찰했습니다(궁극적으로 GPT-3를 재교육하는 것보다 벤치마크 데이터의 영향을 정량화하고 배제하는 것이 더 저렴하다는 것이 입증되었으며 원지 '성능에 대한 무시할 수 있는 영향'을 증명합니다.)

보고서는 다음과 같이 결론을 내립니다*:

'우리의 분석은 문서에 독성이 있거나 음란한 콘텐츠가 있는지 여부를 확인하는 것이 "나쁜" 단어를 감지하는 것 이상의 미묘한 노력임을 확인합니다. 혐오스럽고 음란한 콘텐츠는 제외 키워드 없이 표현될 수 있습니다(예: 미세 혈관, 풍자).

중요한 것은 겉으로 보기에 "나쁜" 단어의 의미는 사회적 맥락에 크게 좌우된다는 점입니다(예: 무례함은 도움이 될 수 있음). 친사회적 기능, 특정 단어를 말하는 사람이 공격성에 영향을 미칩니다(예: 재생된 비방어 "n*gga"는 상대방이 발화할 때 덜 공격적인 것으로 간주됩니다. 블랙 스피커 보다 화이트 스피커로.

'웹 크롤링 데이터에서 데이터세트를 구성할 때 [차단 목록] 필터링을 사용하지 않는 것이 좋습니다.'

* 인라인 인용을 하이퍼링크로 변환