인공지능

새로운 연구, 증오 言論 감지 알고리즘 개선 시도

Published July 12, 2020

Updated April 28, 2026

Alex McFarland

소셜 미디어 회사, 특히 Twitter는 오랫동안 言論을 표시하고 계정을 금지하는 방식으로 비판을 받았다. 기본적인 문제는 거의 항상 言論을 모니터링하는 데 사용되는 알고리즘과 관련이 있다. 인공 지능 시스템은 이 작업에 대해 완벽하지 않지만 지속적으로 개선되고 있다.

그 작업에 포함된 것은 새로운 연구로, 남부 캘리포니아 대학교에서 진행되었으며 인종적 편향으로 이어질 수 있는 특정 오류를 줄이려고 시도한다.

컨텍스트 인식 실패

주의를 받지 못하는 문제 중 하나는 증오 言論을 중단하기 위한 알고리즘이 실제로 인종적 편향을 증폭한다는 것이다. 이것은 알고리즘이 컨텍스트를 인식하지 못하고 소수자 그룹의 트윗을 표시하거나 차단할 때 발생한다.

알고리즘의 컨텍스트와 관련된 가장 큰 문제는 “블랙”, “게이”, “트랜스젠더”와 같은 그룹 식별자에 대해 과민한 반응을 보인다는 것이다. 알고리즘은 이러한 것을 증오 言論 분류자로 간주하지만, 종종 해당 그룹의 구성원에 의해 사용되며 설정이 중요하다.

컨텍스트盲点 문제를 해결하기 위해 연구자들은 더 컨텍스트에 민감한 증오 言論 분류자를 만들었다. 새로운 알고리즘은 증오 言論으로 잘못 표시될 가능성이 낮다.

알고리즘

연구자들은 두 가지 새로운 요소를 고려하여 새로운 알고리즘을 개발했다. 첫 번째는 그룹 식별자에 대한 컨텍스트이고, 두 번째는 증오 言論의 다른 특징이 게시물에 존재하는지 여부이다. 예를 들어, 비인간화 언어가 있다.

Brendan Kennedy는 컴퓨터 과학 박사 과정 학생이자 연구의 공동 저자이다. 연구는 2020년 7월 6일 ACL에서 발표되었다.

“우리는 증오 言論 감지기를 실제 세계 응용 프로그램에 준비되도록 더 가까이 이동시키고 싶다”라고 케네디는 말했다.

“증오 言論 감지 모델은 종종 실제 세계 데이터, 즉 소셜 미디어 또는 기타 온라인 텍스트 데이터에 소개될 때 ‘깨지거나’ 나쁨 예측을 생성한다. 왜냐하면它们는 증오 言論과 관련된 사회 식별자 출현과 관련된 훈련 데이터에 편향되기 때문이다.”

알고리즘이 정확하지 않은 이유는 그것들이 매우 높은 증오 言論 비율을 가진 불균형 데이터셋으로 훈련되기 때문이다. 그 결과, 알고리즘은 실제 세계의 소셜 미디어가 어떻게 보이는지 다루는 방법을 배우지 못한다.

교수 Xiang는 자연 언어 처리의 전문가이다.

“모델이 식별자를 무시하지 않고 올바른 컨텍스트와 일치시키는 것이 중요하다”라고 렌은 말했다.

“불균형 데이터셋으로 모델을 가르치면, 모델은 이상한 패턴을 학습하고 사용자를 부적절하게 차단한다.”

알고리즘을 테스트하기 위해 연구자들은 증오 言論 비율이 높은 두 개의 소셜 미디어 사이트에서 랜덤 샘플링한 텍스트를 사용했다. 텍스트는 처음에 인간에 의해 편견적이거나 비인간화된 것으로 표시되었다. 상태-of-the-아트 모델은 12,500개의 뉴욕 타임즈 기사(증오 言論이 없는)에서 부적절하게 표시된 비-증오 言論을 측정하여 연구자의 모델과 비교되었다. 상태-of-the-아트 모델은 증오 言論과 비-증오 言論을 식별하는 데 77%의 정확도를 달성할 수 있었지만, 연구자의 모델은 90%였다.

“이 작업은 증오 言論 감지기를 완벽하게 만들지 않는다. 그것은 많은 사람들이 작업하고 있는 큰 프로젝트이지만, 점진적인 진행을 만든다”라고 케네디는 말했다.

“보호된 그룹의 구성원에 의해 작성된 소셜 미디어 게시물을 부적절하게 검열하지 않도록 방지하는 것 외에도, 우리는 우리의 연구가 증오 言論 감지기가 불필요한 피해를 입히지 않도록 하여, 편견과 비인간화의 가짜 연관성을 사회 그룹과 함께 강화하지 않도록 도와줄 것이라고 희망한다”