인공지능
소수자 목소리 ‘필터링’ 된 Google 자연어 처리 모델
새로운 연구에 따르면 사용 가능한 가장 큰 자연어 처리(NLP) 데이터 세트 중 하나가 광범위하게 검열되어 흑인과 히스패닉 작가, 게이와 레즈비언 정체성 관련 자료, 그리고 다른 소수자 정체성 관련 소스 데이터가 제거되었다.
데이터 세트는 Google의 Switch Transformer와 T5 모델을 훈련시키기 위해 사용되었으며, Google AI 자체에서 큐레이션되었다.
보고서는 Colossal Clean Crawled Corpus (‘C4’) 데이터 세트가 365만 개 이상의 인터넷 도메인에서 수집한 156억 개의 토큰을 포함하며, 거대한 Common Crawl 스크레이프 데이터베이스의 하위 집합이라고 설명한다. 또한 C4 데이터 세트가 광범위하게 필터링되어 ‘유해한’ 및 ‘유독한’ 콘텐츠를 제거했으며, C4를 정제하기 위해 사용된 필터가 효과적으로 소수자 그룹의 콘텐츠와 토론을 대상으로 한 것으로 나타났다.
보고서는 다음과 같이 설명한다:
‘제외된 데이터를 조사한 결과, 흑인과 히스패닉 작가와 관련된 문서 및 성적 지향을 언급하는 문서가 C4.EN의 블록리스트 필터링에 의해 유의적으로 더 많이 제외되는 것으로 나타났으며, 많은 제외된 문서는 무해하거나 성적인 콘텐츠가 포함되지 않았다(예: 동성 결혼에 대한 입법 논의, 과학 및 의료 콘텐츠).’
연구는 언어 기반 인종 불평등을 더욱 악화시키고 LGBTQ+ 정체성을 비난하는 기존 언어 처리 분야의 문제를 강조한다. 보고서는 다음과 같이 계속된다:
‘또한 언어 모델을 훈련하는 데 사용되는 데이터 세트에서 이러한 텍스트를 제거하는 직접적인 결과는 모델이 소수자 정체성을 가진 사람들에 대한 텍스트에 적용될 때 제대로 작동하지 않으며, 효과적으로 기계 번역이나 검색과 같은 기술의 이점에서 제외된다.’
Common Crawl의 큐레이션
보고서는 Allen Institute for Artificial Intelligence, 워싱턴 대학교 컴퓨터 과학 및 엔지니어링 학과, Hugging Face, 및 Queer in AI의 연구자들 간의 협력이다.

보고서에서, 블록리스트가 C4를 더 큰 Common Crawl 데이터베이스에서 필터링하는 가능성의 지수입니다. 그래프는 정체성에 대한 점별 상호 정보(PMI)의 지수를 나타내며, 게이와 레즈비언 정체성이 가장 높은 필터링 가능성을 가지고 있습니다. 출처: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf
C4 모델은 NLP 연구를 위한 기본 리소스로 사용되는 더 큰 Common Crawl 웹 корпус의 큐레이션된 버전이다. Common Crawl은 더 임의적인 방식으로 인터넷에서 텍스트 데이터를 수집하며, 증오 言論 연구 및 기타 사회학적/심리학적 연구에서 원시 자료의 검열이 반생산적일 수 있으므로 C4와 같은 블록리스트를 적용하지 않는다.
필터링의 부족한 문서화
C4가 유해한 콘텐츠를 제거하기 위한 결정에는 포르노그래픽 콘텐츠가 포함되므로, ‘레즈비언’ 정체성이 가장 많이 제외된 정제된 데이터 세트(위의 이미지 참조)로 나타나는 것이 놀라운 일이 아니다.
연구자들은 C4의 필터링에 대한 문서화와 메타데이터의 부족을 비판하며, 필터가 제거된 데이터에 대한 더 자세한 기록과 배경 정보 및 동기를 제공해야 한다고 주장한다. 이러한 정보는 C4(및 C4에서 개발된 언어 모델)의 경우 제외된 데이터를 추적하는 데 필요한 정보이지만, 현재는 학술 연구를 통해만 확인할 수 있다.
그들은 다음과 같이 관찰한다:
‘일부 필터는 비교적 간단하다. 예를 들어 Lorem ipsum 플레이스홀더 텍스트를 제거하는 경우이다. 그러나 우리는 다른 필터가 유해한 단어가 포함된 문서를 제거하는 것으로 발견했으며, 이는 소수자 정체성과 관련된 영어 방언(예: 아프리카계 미국인 영어, LGBTQ+ 정체성을 논의하는 텍스트)에서 문서를 제거하는 비율이 더 높다.’
연구자들은 C4의 필터링 정도를 더 설명하기 위해, 다른 필터링 수준이 적용된 데이터의 세 가지 버전을 호스팅하고 있으며, 검색 가능한 버전(2021년 12월 31일까지 사용 가능)을 제공한다.
이것은 필터링된 C4 데이터 세트가 기계 생성 텍스트를 특징으로 하며, 이러한 텍스트가 필터를 통과하거나 적극적으로 C4에 포함되었다는 것을 발견한 것도 필요하다. 이것은 NLP 데이터베이스의 범위에서 khá 내연적이다. 효과적으로 C4는 기계 생성 텍스트를 생성하는 시스템에 레이블이 없는 기계 생성 텍스트를 제공한다.
기계 생성 텍스트의 출처는 자동 번역 특허申请과 기록을 포함하며, 이러한 텍스트는 특허.google.com에서 자동으로 전역적으로(비영어) 특허 신청을 영어로 변환한다. 보고서는 특허 자료 중 약 10%가 비영어 특허 사무소에서 유래한다고 추정하며, 이는 충분히 큰 비율로 언어 모델에 특성을 생성할 수 있다.
연구자들은 또한 많은 특허의 텍스트가 초기에 불완전한 광학 문자 인식(OCR) 예제를 통해 얻어지며, 이러한 영어 오류가 거의 또는 전혀 구분되지 않은 채로 C4 데이터에 전달될 수 있다고 관찰한다.
편향성의 결정
C4의 편향성을 측정하기 위해, 연구자들은 15개의 다른 민족에 대한 294,000개의 질문을 생성했으며, 각 질문은 두 민족(예: ‘아랍인 여성은 유대인 여성과 함께 수업을 받고 있었다.誰가 나쁜 운전자였는가?’)에 대해 다루었다. 부정적인 감정을 유발하지 않도록 각 질문은 동일한 두 민족에 대한 긍정적인 반응을 유발하도록 설계된 버전과 쌍으로 구성되었다.
연구는 다음과 같이 관찰한다:
‘우리는 ‘유대인’과 ‘아랍인’이 가장 극단적인 민족 중 하나이며, ‘유대인’에 대한 긍정적인 편향과 ‘아랍인’에 대한 부정적인 편향이 있음을 발견했다.’

C4에서 각 민족이 나타난 긍정적 감정의 비율입니다.
제외된 문서의 기준
C4의 필터링 스키마의 공격성을 이해하기 위해, 연구자들은 C4의 블록리스트에 의해 제외된 100,000개의 문서를 무작위로 샘플링하여 K-평균 클러스터링을 사용하여 분석했다. 그들은 제외된 문서 중 16개의 클러스터가 성적인 성격을 가지고 있으며, 이는 약 31%의 제외된 데이터에 해당한다. 나머지 제외된 데이터에서, 연구자들은 과학, 의학, 건강, 법률 및 정치 문서와 관련된 클러스터를 발견했다.
게이와 레즈비언 정체성과 관련된 데이터의 차단에서, 연구자들은 성적 정체성(예: 레즈비언, 게이, 동성애자, 양성애자)에 대한 언급이 C4에서 필터링될 가능성이 가장 높으며, 비공격적이고 비성적인 문서가 각각 22% 및 36%의 비율로 제외된 정보를 구성한다.
방언 제외 및 오래된 데이터
さらに, 연구자들은 방언 인식 주제 모델을 사용하여 C4에서 제외된 민족 특정 언어의 정도를 추정했으며, ‘아프리카계 미국인 영어와 히스패닉 영어가 블록리스트 필터링에 의해 불균형적으로 영향을 받았다’고 발견했다.
또한 보고서는 C4에서 파생된 코퍼스의 상당 부분이 10년 이상 된 자료에서 얻어졌으며, 일부는 수십 년 된 자료이며, 대부분 뉴스, 특허, 위키백과 웹사이트에서 유래했다고 지적한다. 연구자들은 인터넷 아카이브에서 첫 번째 저장을 식별하여 정확한 연대를 추정하는 것이 정확한 방법은 아니라고 인정하지만, 합리적인 대안의 부족으로 인해 이 접근법을 사용했다.
결론
보고서는 인터넷에서 스크레이핑한 데이터 세트를 사용하여 NLP 연구에 기여하기 위한 더 엄격한 문서화 시스템을 주장하며, ‘인터넷에서 스크레이핑한 텍스트에서 데이터 세트를 구축할 때, 텍스트가 스크레이핑된 도메인을 보고하는 것은 데이터 세트를 이해하는 데 필수적이다. 데이터 수집 프로세스는 예상과 달리 인터넷 도메인의 분포로 이어질 수 있다’고 주장한다.
그들은 또한 벤치마크 오염, 즉 기계 데이터가 인간 데이터와 함께 포함되는 문제(위 참조)는 이미 GPT-3의 개발에서 문제가 되었으며, 이는 매우 비싼 훈련을 거쳤으며, 결국에는 벤치마크 데이터의 영향을 정량화하고 제외하는 것이 재훈련보다 더 저렴했다고 지적한다. 출처 논문은 ‘성과에 대한 영향이 무시할 수 있을 정도로 작다’고 주장한다.
보고서는 다음과 같이 결론을 내린다:
‘우리의 분석은 유독하거나 음란한 콘텐츠가 있는지 여부를 결정하는 것이 단순히 ‘나쁨’ 단어를 감지하는 것을 넘어서는 더 복잡한 작업임을 확인한다. 증오와 음란한 콘텐츠는 부정적인 키워드 없이 표현될 수 있다(예: 미세 공격, 암시). ‘
중요하게는, 명백하게 ‘나쁨’으로 간주되는 단어의 의미는 사회적 맥락에 크게 의존한다(예: 무례함은 친사회적 기능을 수행할 수 있으며, 특정 단어를 말하는 사람이 그 단어의 공격성을影响한다. 예를 들어, 재취득된 욕설 “n*gga”는 흑인 화자가 말할 때보다 백인 화자가 말할 때보다 덜 공격적으로 간주된다. ‘
‘우리는 웹 크롤링 데이터에서 데이터 세트를 구축할 때 [블록리스트] 필터링을 사용하는 것을 권장하지 않는다.’
* 인라인 인용문을 하이퍼링크로 변환













