부본 머신 러닝으로 '전문적인' 악성 온라인 리뷰 탐지 - Unite.AI
Rescale 미팅 예약

인공 지능

기계 학습을 통한 '전문적인' 악성 온라인 리뷰 탐지

mm
업데이트 on

중국과 미국 간의 새로운 연구 협력은 이러한 리뷰어의 시그니처 동작을 활용하여 경쟁사를 약화시키거나 협박을 용이하게 하도록 설계된 악의적인 전자 상거래 리뷰를 탐지하는 방법을 제공합니다.

제목이 붙은 시스템 악의적인 사용자 탐지 모델 (MMD), 활용 메트릭 학습, 기술 일반적으로 사용되는 컴퓨터 비전과 추천 시스템, RNN(Recurrent Neural Network)과 함께 해당 리뷰어의 결과를 식별하고 라벨을 지정합니다. 전문적인 악의적인 사용자 (PMU).

엄청난! 별 1개

대부분의 온라인 전자 상거래 리뷰는 두 가지 형태의 사용자 피드백을 제공합니다. 별점(또는 10점 만점)과 텍스트 기반 리뷰이며, 일반적인 경우 논리적으로 일치합니다(즉, 나쁜 리뷰는 낮은 등급).

그러나 PMU는 일반적으로 높은 등급의 나쁜 텍스트 리뷰를 남기거나 좋은 리뷰와 함께 낮은 등급을 남김으로써 이 논리를 뒤엎습니다.

이를 통해 악의적으로 부정적인 리뷰어의 결과를 식별하고 해결하기 위해 전자상거래 사이트에서 배포한 상대적으로 간단한 필터를 실행하지 않고도 사용자의 리뷰로 인해 평판이 손상될 수 있습니다. NLP(자연어 처리) 기반 필터가 리뷰 텍스트에서 독설을 식별하는 경우 PMU가 할당한 높은 별(또는 소수) 등급에 의해 이 '플래그'가 효과적으로 취소되어 악성 콘텐츠를 '중립'으로 효과적으로 렌더링합니다. , 통계적인 관점에서.

이러한 행동을 식별하려는 협업 필터링 시스템의 관점에서 악의적인 리뷰가 통계적으로 실제 리뷰와 혼합될 수 있는 방법의 예입니다. 출처: https://arxiv.org/pdf/2205.09673.pdf

이러한 행동을 식별하려는 협업 필터링 시스템의 관점에서 악의적인 리뷰가 통계적으로 실제 리뷰와 혼합될 수 있는 방법의 예입니다.  출처 : https://arxiv.org/pdf/2205.09673.pdf

새로운 논문은 PMU의 의도가 종종 부정적인 리뷰를 수정하거나 더 이상 부정적인 리뷰를 게시하지 않겠다는 약속에 대한 대가로 온라인 소매업체로부터 돈을 갈취하는 것이라고 지적합니다. 경우에 따라 배우들은 임시 변통의 개인 할인을 추구, 자주 PMU는 임시 고용 피해자의 경쟁자에 의해.

클로킹 부정적인 리뷰

이러한 리뷰를 위한 현재 세대의 자동화된 탐지기는 협업 필터링 또는 콘텐츠 기반 모델, 명확하고 모호하지 않은 '이상점'을 찾고 있습니다. 즉, 두 피드백 방법 모두에서 일관되게 부정적인 리뷰이며 리뷰 감정 및 평가의 일반적인 추세와 현저하게 다른 리뷰입니다.

그러한 필터가 핵심으로 삼는 또 다른 전형적인 서명은 높은 게시 빈도입니다. 반면 PMU는 전략적으로 가끔씩만 게시합니다(각 리뷰는 개별 커미션 또는 '빈도' 메트릭을 난독화하도록 설계된 더 긴 전략의 단계를 나타낼 수 있기 때문에) ).

따라서 새 논문의 연구원들은 전문적인 악성 리뷰의 이상한 극성을 전용 시스템에 통합하여 평가와 리뷰 사이의 차이에서 인간 리뷰어가 '쥐 냄새를 맡는' 능력과 거의 동등한 알고리즘을 만들었습니다. 텍스트 내용.

MUP(악성 사용자 프로파일링) 및 MLC(회색)의 두 가지 중앙 모듈로 구성된 MMD의 개념적 아키텍처입니다.

MUP(악성 사용자 프로파일링) 및 MLC(회색)의 두 가지 중앙 모듈로 구성된 MMD의 개념적 아키텍처입니다.

이전 접근법과의 비교

MMD는 정신 분열증 게시 스타일을 기반으로 PMU를 식별하려는 최초의 시스템이므로 비교할 직접적인 이전 작업이 없다고 저자는 말합니다. 따라서 연구원들은 K-평균++ 클러스터링을 포함하여 기존의 자동 필터가 자주 의존하는 여러 구성 요소 알고리즘에 대해 시스템을 비교했습니다. 유서 깊은 통계 이상값 감지 (잔디); 히사드; 약간 슬픈; CNN 슬픈비방유저 적발 추천 시스템 (SDRS).

Amazon 및 Yelp의 레이블이 지정된 데이터 세트와 비교하여 테스트한 MMD는 전문적인 온라인 비방자를 가장 높은 정확도로 식별할 수 있다고 저자는 주장합니다. 굵은 글씨는 MMD를 나타내고 별표(*)는 최상의 성능을 나타냅니다. 위의 경우에서 MMD는 이미 통합되어 있지만 당면한 작업을 위해 기본적으로 도구화되지 않은 독립 실행형 기술(MUP)에 의해 두 가지 작업에서만 패배했습니다.

Amazon 및 Yelp의 레이블이 지정된 데이터 세트와 비교하여 테스트한 MMD는 전문적인 온라인 비방자를 가장 높은 정확도로 식별할 수 있다고 저자는 주장합니다. 굵은 글씨는 MMD를 나타내고 별표(*)는 최상의 성능을 나타냅니다. 위의 경우에서 MMD는 이미 통합되어 있지만 당면한 작업을 위해 기본적으로 도구화되지 않은 독립 실행형 기술(MUP)에 의해 두 가지 작업에서만 패배했습니다.

이 경우 MMD는 Taobao 및 Jindong의 레이블이 지정되지 않은 데이터 세트와 경쟁하여 사실상 비지도 학습 작업이 되었습니다. 다시 말하지만, MMD는 자체 구성 기술 중 하나에 의해서만 개선되며 테스트 목적의 작업에 매우 적합합니다.

이 경우 MMD는 Taobao 및 Jindong의 레이블이 지정되지 않은 데이터 세트와 경쟁하여 사실상 비지도 학습 작업이 되었습니다. 다시 말하지만, MMD는 자체 구성 기술 중 하나에 의해서만 개선되며 테스트 목적의 작업에 매우 적합합니다.

연구원들은 다음을 관찰합니다.

[On] 네 가지 데이터 세트 모두에서 제안된 모델 MMD(MLC+MUP)는 F-점수 측면에서 모든 기준선을 능가합니다. MMD는 MLC와 MUP의 조합으로 일반적으로 지도 및 비지도 모델보다 우수합니다.'

이 논문은 또한 MMD가 전통적인 자동 필터 시스템을 위한 유용한 전처리 방법으로 사용될 수 있다고 제안하고 다음을 포함한 여러 데이터 세트에 대한 실험 결과를 제공합니다. 사용자 기반 협업 필터링 (UBCF), 항목 기반 협업 필터링 (IBCF), 행렬 분해 (MF-eALS), 베이지안 개인화된 순위 (MF-BPR) 및 신경 협업 필터링 (NCF).

측면에서 적중률 (HR) 및 정규화 할인 누적 이득 (NDCG) 이러한 테스트된 증강의 결과에서 저자는 다음과 같이 말합니다.

'네 가지 데이터 세트 중에서 MMD는 HR 및 NDCG 측면에서 추천 모델을 크게 개선합니다. 구체적으로 MMD는 HR의 성과를 평균 28.7%, HDCG를 평균 17.3% 향상시킬 수 있습니다.

'전문 악성 사용자를 삭제함으로써 MMD는 데이터 세트의 품질을 향상시킬 수 있습니다. 이러한 전문 악성 사용자의 가짜 없이 [피드백], 데이터 세트는 더 [직관적].'

XNUMXD덴탈의 종이 제목이 추천 시스템에서 메트릭 학습을 통한 전문적인 악성 사용자 탐지s, 길림 대학교 컴퓨터 과학 기술과 연구원 출신; 베이징 중국과학원 지능정보처리 핵심연구소; 및 뉴저지의 Rutgers 경영 대학원.

데이터 및 접근

PMU를 감지하는 것은 XNUMX개의 동등하지 않은 매개변수(숫자 값 별표/소수점 등급 및 텍스트 기반 검토)를 고려해야 하기 때문에 복합적인 문제입니다. 새 논문의 저자는 이전 작업에서 이 문제를 해결하지 못했다고 주장합니다.

MMD는 계층적 Dual-Attention 순환 신경망 (HDAN)을 사용하여 리뷰 콘텐츠를 감정 점수로 동화합니다.

감정 점수를 얻기 위해 단어 임베딩 및 문장 임베딩을 제공하는 HDAN을 사용하여 리뷰를 감정 점수로 투영합니다.

감정 점수를 얻기 위해 단어 임베딩 및 문장 임베딩을 제공하는 HDAN을 사용하여 리뷰를 감정 점수로 투영합니다.

HDAN은 어텐션 메커니즘을 사용하여 각 단어와 각 문장에 가중치를 할당합니다. 위의 이미지에서 저자는 다음과 같이 말합니다. 더 가난한 리뷰에서 경쟁 단어보다 더 큰 비중을 두어야 합니다.

프로젝트를 위해 HDAN은 XNUMX개의 데이터 세트에서 제품에 대한 등급을 실측 자료로 사용했습니다. 데이터 세트는  Amazon.com; RecSys에 대한 Yelp (2013); Taobao와 Jindong의 두 가지 '실제'(실험적이지 않은) 데이터 세트.

MMD는 데이터의 전체 관계 그룹을 특성화하기 위해 엔터티 간의 정확한 거리를 추정하려고 시도하는 Metric Learning을 활용합니다.

MMD는 원 핫 인코딩 기본 등급 점수를 얻는 LFM(Latent Factor Model)을 통해 사용자와 항목을 선택합니다. 그 동안 HDAN은 리뷰 내용을 감성 점수에 부가 데이터로 투영합니다.

그런 다음 결과는 악성 사용자 프로파일링(MUP) 모델로 처리되어 감정 격차 벡터 – 리뷰의 텍스트 콘텐츠에 대한 평점과 예상 감정 점수 간의 차이입니다. 이러한 방식으로 처음으로 PMU를 분류하고 레이블을 지정할 수 있습니다.

클러스터링을 위한 주의 기반 메트릭 학습.

클러스터링을 위한 주의 기반 메트릭 학습.

MLC(Metric Learning for Clustering)는 이러한 출력 레이블을 사용하여 사용자 리뷰가 악의적일 가능성을 계산하는 메트릭을 설정합니다.

인간 테스트

위에 자세히 설명된 정량적 결과 외에도 연구원은 20명의 학생에게 내용과 별점만을 기준으로 악성 리뷰를 식별하는 작업을 수행하는 사용자 연구를 수행했습니다. 참가자들은 리뷰를 다음과 같이 평가하도록 요청 받았습니다. 0 ('일반' 리뷰어의 경우) 또는 1 (전문적인 악의적인 사용자의 경우).

정상적인 리뷰와 악의적인 리뷰를 50/50으로 나눈 결과, 학생들은 평균적으로 24명의 진정한 긍정적인 사용자와 24명의 진정한 부정적인 사용자를 표시했습니다. 이에 비해 MMD는 평균적으로 23명의 진정한 긍정 사용자와 24명의 진정한 부정 사용자를 식별할 수 있었으며 거의 ​​인간 수준의 분별력으로 작동하고 작업의 기준을 능가했습니다.

학생 대 MMD. 별표[*]는 최상의 결과를 나타내고 굵은 글씨는 MMD의 결과를 나타냅니다.

학생 대 MMD. 별표[*]는 최상의 결과를 나타내고 굵은 글씨는 MMD의 결과를 나타냅니다.

저자들은 다음과 같이 결론 지었다.

'본질적으로 MMD는 본 논문에서 탐구한 전문적인 악성 사용자를 탐지할 수 있을 뿐만 아니라 악의적인 사용자 탐지를 위한 일반적인 기반 역할을 하는 포괄적인 솔루션입니다. 이미지, 비디오 또는 사운드와 같은 더 많은 데이터를 통해 MMD의 아이디어는 제목과 콘텐츠 사이의 감정 격차를 감지하는 데 도움이 될 수 있으며, 다양한 애플리케이션에서 다양한 마스킹 전략에 대응할 수 있는 밝은 미래가 있습니다.'

 

20년 2022월 XNUMX일에 처음 게시되었습니다.