인공 지능

기계 학습으로 선전 생성 및 식별

업데이트 on 2022 년 12 월 9 일

미국과 카타르의 새로운 연구는 인간이 조작한 방식으로 작성된 가짜 뉴스를 식별하는 새로운 방법을 제공합니다. 실제로 쓰다 가짜 뉴스 – 대체로 진실한 맥락에 부정확한 진술을 삽입하고 다음과 같은 대중적인 선전 기술을 사용합니다. 권위에 호소하다 및 로드된 언어.

이 프로젝트는 새로운 가짜 뉴스 탐지 훈련 데이터 세트를 생성했습니다. 프로파뉴스, 이러한 기술을 통합합니다. 이 연구의 저자는 새로운 데이터 세트에 대해 훈련된 탐지기가 이전의 최첨단 접근 방식보다 사람이 작성한 허위 정보를 탐지하는 데 7.3-12% 더 정확하다는 것을 발견했습니다.

새 논문에서 '권위에 호소'와 '부담된 언어'의 예. 출처 : https://arxiv.org/pdf/2203.05386.pdf

저자는 그들이 아는 한, 이 프로젝트가 가짜 뉴스 탐지기에 연료를 공급하기 위한 기계 생성 텍스트 예제에 선전 기술(단순한 사실적 부정확성보다는)을 통합한 최초의 프로젝트라고 주장합니다.

그들은 이 분야의 가장 최근 연구에서 편견을 연구했거나 편견의 맥락에서 '선전' 데이터를 재구성했다고 주장합니다(아마도 편견은 Analytica 시대 이후에 자금 조달이 가능한 기계 학습 부문이 되었기 때문일 것입니다).

저자는 다음과 같이 말합니다.

'대조적으로 우리 작업은 선전 기술을 통합하고 대부분의 올바른 정보를 보존하여 가짜 뉴스를 생성합니다. 따라서 우리의 접근 방식은 사람이 작성한 가짜 뉴스에 대한 방어를 연구하는 데 더 적합합니다.'

더욱 정교한 선전 탐지 기술*이 점점 더 시급해지고 있음을 보여줍니다.

특정 인구를 조작하는 데 자주 사용되는 [인간이 작성한] 허위 정보는 다음과 같은 여러 사건에 치명적인 영향을 미쳤습니다. 2016 미국 대통령 선거, BrexitWalk Through California 프로그램, COVID-19 유행성, 그리고 최근 러시아의 우크라이나 공격. 따라서 인간이 작성한 허위 정보에 대한 방어 메커니즘이 시급합니다.'

XNUMXD덴탈의 종이 제목이 진짜 가짜 뉴스 감지를 위한 가짜 가짜 뉴스: 프로파간다 탑재 훈련 데이터 생성, 일리노이 대학교 어바나-섐페인 대학교, 컬럼비아 대학교, 카타르 하마드 빈 칼리파 대학교, 워싱턴 대학교, 앨런 AI 연구소의 연구원 XNUMX명에서 나왔습니다.

거짓 정의

프로파간다를 정량화하는 문제는 대체로 논리적인 문제입니다. 교육 데이터 세트에 포함하기 위해 프로파간다와 유사한 특성을 가진 실제 자료를 인식하고 주석을 달기 위해 인간을 고용하는 것은 매우 비용이 많이 들고 잠재적으로 높은 수준의 기능을 추출하고 활용하는 데 훨씬 저렴합니다. '보이지 않는' 미래 데이터에서 작동할 가능성이 있는 것입니다.

보다 확장 가능한 솔루션을 제공하기 위해 연구원들은 처음에 Media Bias Fact Check 사이트를 통해 사실 정확도가 낮은 것으로 간주되는 뉴스 소스에서 사람이 만든 허위 정보 기사를 수집했습니다.

그들은 조사한 기사의 33%가 다음을 포함하여 솔직하지 못한 선전 기술을 사용했음을 발견했습니다. 감정을 자극하는 용어, 논리적 인 오류및 당국에 호소. 추가로 55%의 기사에는 정확한 정보와 부정확한 정보가 섞여 있었습니다.

권위에 대한 호소 생성

XNUMXD덴탈의 권위에 호소하다 접근 방식에는 두 가지 사용 사례가 있습니다. 부정확한 진술의 인용과 완전히 허구적인 진술의 인용입니다. 연구는 두 번째 사용 사례에 중점을 둡니다.

새 프로젝트에서 자연어 추론 프레임워크인 RoBERTa는 권위와 로드된 언어에 호소하는 두 가지 추가 예를 식별합니다.

새로운 데이터 세트에 대한 기계 생성 프로파간다 생성을 목표로 연구원들은 사전 훈련된 seq2seq 아키텍처를 사용했습니다. 바트 나중에 선전으로 변경될 수 있는 두드러진 문장을 식별합니다. 이 작업과 관련하여 공개적으로 사용 가능한 데이터 세트가 없었기 때문에 작성자는 추출 요약 모델을 사용했습니다. 2019 제안 문장 돌출도를 추정합니다.

연구한 각 뉴스 매체의 기사 하나에 대해 연구원들은 이 '표시된' 문장을 위키데이터 쿼리 서비스와 기사에 언급된 권위(즉, 사람 및/또는 조직) 모두에서 파생된 '권한'의 가짜 주장으로 대체했습니다.

로드된 언어 생성

로드된 언어 사실을 전달하는 맥락에 얽힌 암묵적인 가치 판단을 포함하는 단어, 종종 선정적인 부사 및 형용사(위의 예에서와 같이)를 포함합니다.

로드된 언어에 관한 데이터를 도출하기 위해 작성자는 2019 연구 2,547 개 포함 로드된 언어 인스턴스. 2019년 데이터의 모든 예가 감정을 유발하는 부사 또는 형용사를 포함하지 않았기 때문에 연구원들은 스페이시 종속성 구문 분석 및 품사(PoS) 태깅을 수행하고 프레임워크에 포함할 적절한 예만 유지합니다.

필터링 프로세스를 통해 1,017개의 유효한 샘플이 생성되었습니다. 로드된 언어. BART의 또 다른 사례는 로드된 언어로 소스 문서의 중요한 문장을 가리고 교체하는 데 사용되었습니다.

프로파뉴스 데이터셋

2015년에 실시한 중급 모델 교육 후 CNN/DM 데이터 세트 Google Deep Mind와 옥스퍼드 대학의 연구원들은 PropaNews 데이터 세트를 생성하여 다음과 같은 '신뢰할 수 있는' 출처의 사소한 기사를 변환했습니다 뉴욕 타임즈 및 가디언 조작된 알고리즘 선전을 포함하는 '수정된' 버전으로.

실험은 다음을 모델로 했습니다. 2013 연구 Hanover에서 17개의 뉴스 이벤트에 대한 뉴스 기사의 타임라인 요약과 총 4,535개의 기사를 자동으로 생성했습니다.

생성된 허위 정보는 400개의 HIT(Human Intelligence Tasks)에 걸쳐 Amazon Mechanical Turk(AMT)의 고유 작업자 2000명에게 제출되었습니다. 간주되는 선전이 가득한 기사만 정확한 노동자에 의해 PropaNews의 최종 버전에 포함되었습니다. 불일치에 대한 판결은 총계와의 근로자 계약에 의해 채점되었습니다.와와) 방법.

PropaNews의 최종 버전에는 2,256개의 기사가 포함되어 있으며 가짜와 실제 출력이 균형을 이루고 있으며 그 중 30%는 레버리지입니다. 권위에 호소하다, 추가로 30% 사용 로드된 언어. 나머지는 단순히 이 연구 분야의 이전 데이터 세트를 주로 채운 유형의 부정확한 정보를 포함합니다.

데이터는 교육, 테스트 및 검증 분포에 걸쳐 1,256:500:500으로 분할되었습니다.

휴먼뉴스 데이터셋

훈련된 선전 탐지 루틴의 효과를 평가하기 위해 연구원들은 Politifact가 폭로한 기사를 포함하여 200개의 사람이 작성한 뉴스 기사를 편집하고 2015-2020년 사이에 게시했습니다.

이 데이터는 신뢰할 수 없는 뉴스 매체의 추가 기사와 컴퓨터 과학 전공 대학원생이 사실을 확인한 합계로 보강되었습니다.

HumanNews라는 제목의 최종 데이터 세트에는 또한 100개의 기사가 포함되어 있습니다. 로스 앤젤레스 타임스.

테스트

탐지 프로세스는 두 가지 형태로 이전 프레임워크와 비교되었습니다. PN-실버, AMT 어노테이터 검증을 무시하고 PN-골드, 검증을 기준으로 포함합니다.

경쟁 프레임워크에는 2019 오퍼링이 포함됨 그로버-GEN, 2020년 사실-GEN및 가짜 이벤트, 여기서 PN-Silver의 기사는 이러한 이전 방법으로 생성된 문서로 대체됩니다.

Grover 및 RoBERTa의 변종은 새로운 PropaNews 데이터 세트에서 교육을 받았을 때 가장 효과적인 것으로 입증되었으며 연구원들은 다음과 같이 결론을 내렸습니다. 'PROPANEWS에서 훈련된 탐지기는 다른 데이터 세트에 대한 훈련에 비해 사람이 작성한 허위 정보를 식별하는 데 더 잘 수행됩니다.'.

연구자들은 또한 반 절름발이 제거 데이터 세트 PN-Silver도 다른 데이터 세트에서 이전 방법보다 성능이 우수함을 관찰했습니다.

구식입니까?

저자는 자동화된 생성 및 선전 중심의 가짜 뉴스 식별에 관한 현재까지의 연구 부족을 반복하고 중요한 이벤트(예: COVID 또는 틀림없이 동부 지역의 현재 상황) 이전에 데이터에 대해 훈련된 모델의 사용이 경고합니다. 유럽)은 최적의 성능을 기대할 수 없습니다.

'잘못 분류된 사람이 작성한 허위 정보의 약 48%는 새로운 뉴스 소스에서 역동적인 지식을 얻을 수 없기 때문에 발생합니다. 예를 들어, COVID 관련 기사는 일반적으로 2020년 이후에 게시되는 반면 ROBERTA는 2019년 이전에 발표된 뉴스 기사에 대해 사전 교육을 받았습니다. 탐지기가 동적 지식을 획득하는 기능을 갖추고 있지 않는 한 ROBERTA가 그러한 주제의 허위 정보를 탐지하는 것은 매우 어렵습니다. 뉴스 기사에서.'

저자는 RoBERTa가 69.0년 이전에 게시된 가짜 뉴스 기사 탐지에 대해 2019%의 정확도를 달성했지만 이 날짜 이후에 게시된 뉴스 기사에 적용할 때 정확도가 51.9%로 떨어진다는 점에 주목합니다.

Paltering 및 컨텍스트

연구가 직접적으로 다루지는 않지만, 의미론적 영향에 대한 이러한 종류의 심층 분석은 결국 언어의 더 미묘한 무기화를 다룰 수 있습니다. 팔터링 – 사용된 지원 증거의 인지된 정신과 의도에 반대될 수 있는 원하는 결과를 얻기 위해 진실한 진술을 이기적이고 선택적으로 사용합니다.

NLP, 컴퓨터 비전 및 다중 모드 연구와 관련이 있고 약간 더 발전된 연구 라인은 다음과 같습니다. 맥락 연구 참된 사실을 선택적이고 이기적으로 재정렬하거나 재맥락화하는 것은 사실이 더 명확하고 선형적인 방식으로 제시되었을 때 일반적으로 영향을 미칠 수 있는 것과 다른 반응을 나타내려는 시도와 동일해집니다.

* 저자의 인라인 인용을 직접 하이퍼링크로 전환했습니다.

11년 2022월 XNUMX일에 처음 게시되었습니다.