부본 기계 학습으로 Instagram Crowdturfer 식별 - Unite.AI
Rescale 미팅 예약

인공 지능

기계 학습으로 Instagram Crowdturfers 식별

mm
업데이트 on

이탈리아와 이란의 연구원들은 인스타그램 플랫폼에서 (자동이 아닌) 인플루언서 계정의 '크라우드터핑' 활동을 인식할 수 있는 최초의 기계 학습 시스템을 공식화했다고 주장합니다. Crowdturfers는 이러한 활동을 도매로 판매하는 플랫폼에 '프로필 작성' 서비스를 수행하는 실제 사람들입니다.

새로운 방법은 약 95%의 정확도 점수를 주장하며 자연어 처리(NLP) 시스템에서 준지도 학습을 사용합니다.

저자는 자신이 아는 한 그들의 시스템이 가짜 유료 프로필 참여 및 부스팅에 관여하는 봇이 아닌 계정을 안정적으로 탐지할 수 있는 최초의 크라우드터핑(CT) 탐지기 시스템을 대표한다고 주장합니다.

이를 달성하기 위해 저자는 CT 탐지기를 교육하기 위한 데이터를 얻기 위해 1293개의 CT 플랫폼 공급자로부터 11개의 crowdturfing 프로필을 구입했습니다. 인스타그램에는 여러 가지 효과적인 봇 방지 조치가 있기 때문에 상업적 목적으로 플랫폼의 막대한 사용자 기반을 악용하려는 사람들은 진정으로 영향력 있는 인스타그래머에게 비용을 지불하여 '클라이언트' 계정에 '전략적으로 참여'하도록 했습니다. 댓글을 공유하거나 게시물에 대한 댓글과 관련된 활동을 통해.

모델을 훈련한 후 작성자는 각각 20만 명이 넘는 팔로워가 있는 1명의 '메가 인플루언서'의 참여 프로필을 분석하기 위해 느슨하게 설정했습니다. '그들의 참여의 20% 이상이 인위적이었습니다'.

XNUMXD덴탈의 종이 제목이 우리 모두는 트루먼 쇼에 있습니까? 셀프 트레이닝을 통해 Instagram Crowdturfing 알아보기, 이탈리아의 파도바 대학교와 이란의 이맘 레자 대학교의 XNUMX명의 연구원이 제공합니다.

Instagram TOS 위반

연구 지원을 위한 노력으로 인해 소셜 미디어 연구자들이 선호하는 Twitter와 달리 Instagram은 연구자를 돕기 위한 API나 업데이트된 데이터 덤프를 제공하지 않을 뿐만 아니라 서비스 약관에서 기계 기반 탐색을 금지합니다. 따라서 연구자의 첫 번째 임무는 다음과 같이 정당화되는 기관 검토 위원회(Institutional Review Board)로부터 면제를 받는 것이었습니다. 이전에 '지하 활동'을 조사하기 위해 유사한 접근 방식을 사용했습니다.

크라우드터핑 서비스는 연구원들이 그들의 목적을 위해 생성한 새로운 인스타그램 계정을 위해 구매되었으며, 실험 후 모두 삭제되어 '합법적인' 사용자의 개입을 배제했습니다. 연구된 인플루언서 계정이나 CT 플랫폼 서비스 모두 이름이 지정되지 않았습니다.

또 다른 윤리적 장애물은 연구자가 연구 중인 인플루언서의 동의를 요청할 수 없다는 것입니다. 호손 효과 (즉, 인플루언서의 행동이 변경되었을 수 있음) 이 면제는 IRB에서도 승인되었습니다.

마지막으로, 인스타그램이 데이터의 '수동 수집'을 허용하기 때문에 연구원들은 자동화된 스크래핑 도구를 '인간의 속도'로 설정하여 TOS를 위반하여 XNUMX개월의 데이터 수집 단계를 필요로 했습니다.

판매를 위한 인간

연구원들은 100개의 (이름 없는) 공급자 각각으로부터 11개의 '가짜 추종자' 프로필을 구입했습니다.

논문 상태*:

'우리가 선택한 모든 공급자는 게시물에 좋아요를 누르고 댓글을 달아 대상 프로필과 상호 작용하는 팔로워를 제공하여 참여율을 높입니다.

'이러한 CT 프로필은 고품질 팔로워로 식별되며 일반적으로 "기본" 가짜 프로필보다 비용이 더 많이 듭니다. 이러한 공급자의 신뢰성은 TrustPilot과 같은 유명한 [리뷰] 플랫폼에 의해 지원됩니다.'

논문에서 (익명화된) CT 플랫폼 제공자에 대한 통계, 각각 '손상된' 실제 영향력 있는 계정을 위한 시장. 이 표는 공급자가 보고하고 각 출처에서 구입한 100개의 프로필 분석을 통해 연구원이 검색한 정보를 요약합니다. 출처: https://arxiv.org/pdf/2206.12904.pdf

논문에서 (익명화된) CT 플랫폼 제공자에 대한 통계, 각각 '손상된' 실제 영향력 있는 계정을 위한 시장. 이 표는 공급자가 보고하고 각 출처에서 구입한 100개의 프로필 분석을 통해 연구원이 검색한 정보를 요약합니다. 출처 : https://arxiv.org/pdf/2206.12904.pdf

인스타그램 인플루언서를 구매하는 데 드는 평균 비용은 그다지 높지 않은데, '고품질' 팔로워 3명당 약 100달러입니다. 저자는 다음과 같이 언급합니다.

'대부분의 공급자는 몇 시간 내에 추종자를 제공합니다. 낙하 방지 기능을 제공합니다. 즉, 고객이 구매한 팔로워 수가 시간이 지남에 따라 안정적으로 유지되거나 손실된 팔로워를 보충하기 위해 새로운 팔로워가 전달됩니다.'

연구원들은 새로운 Instagram 계정 중 일부가 한 달 후 CT 팔로워의 15-20% 손실을 겪었지만 어떤 경우에는 예상보다 더 많은 팔로워를 얻었다고 보고합니다. 가장 비싼 CT 공급자(위 표의 CT-10)의 경우 한 달 후에 단 XNUMX명의 추종자만 손실되었습니다.

이 논문은 CT 공급자에게 더 많은 비용을 지불할수록 팔로우/팔로잉 비율이 더 '진짜'가 되며 두 번째로 비싼 공급자가 표준 사용자의 기준선에 매우 가까운 비율을 제공한다고 지적합니다.

CT Instagram 계정의 한 가지 특징은 프로필이 '비공개'로 설정되는 경우가 거의 없다는 것입니다(대부분의 분석이 프로필 및 관련 댓글을 중심으로 하기 때문에 구매한 가짜 팔로워에서 데이터를 가져올 수 있다는 사실). 이와 관련하여 신뢰할 수 있는 '신호'로 간주되지 않습니다.

'이러한 플랫폼에 가입하는 사람들은 소수의 경우(CT-4, CT-10)를 제외하고는 신뢰할 수 있는 최소한의 게시물을 생성하는 데 관심이 있습니다. 낮은 품질의 프로필은 팔로워와 팔로우의 불균형이 매우 높으며 평균 게시물 수는 0에 가까워 CT 프로필보다 훨씬 적습니다.'

Data

연구원들은 브라우저 자동화 프레임워크인 Selenium을 구현하여 데이터를 수집했습니다. 결과 데이터 세트에는 1293명의 CT 및 1307명의 비 CT 사용자의 프로필 정보가 포함됩니다.

이 낮은 샘플 수량으로 인해 Selenium을 합리적인 시간 동안 신뢰할 수 있는 인간 속도로 설정할 수 있었습니다. 또한 저자는 준지도 학습 기술의 대표/해석 능력이 더 작은 데이터 세트를 매우 잘 수용한다고 지적합니다. 완전히 감독된 모델을 사용하여 철저하게 실험한 결과 연구원들은 다음과 같은 결론을 내렸습니다.

반 감독 모드의 [The] 결과는 감독 방식의 결과와 크게 다르지 않습니다. 이는 CT 프로필이 매우 유사한 [특성]을 공유하고 알고리즘이 [소량의] 라벨링된 데이터를 통해 수렴할 수 있음을 시사합니다.'

작성자는 #videos 요소와 같이 렌더링할 때 일반적으로 가려지는 세부 정보를 포함하여 '손상된' 사용자 프로필 페이지의 소스 코드에서 사용 가능한 모든 데이터를 수집했습니다.

그런 다음 분산이 XNUMX이거나 낮은 데이터 기능을 제거하여 데이터 기능을 전처리하고 마지막으로 범주형 또는 숫자가 아닌 데이터를 엄격한 숫자 또는 부울 기능으로 변환했습니다.

최종 데이터 세트의 특성.

최종 데이터 세트의 특성.

방법 및 탐색

그 외에도 실험 전반에 걸쳐 사용된 Selenium 기술은 다음과 같습니다. 변압기 기반 파이프라인으로 구현된 SpaCy 버전; 사이킷 배우다 자체 학습 분류기; 그리고 인스톨로더 뼈대.

새 백서에는 관례적인 '결과' 섹션이 없습니다. 이는 현재까지 관심의 중심 위치에서 벗어나는 목표(예: 손상된 Instagram 계정의 자동 추론)를 다루기 때문입니다(예: 자동화된 봇 활동에 대한 자동 추론). 인스타그램), 비교할만한 유사 선행 작업이 없음을 의미합니다.

연구자들은 사용 가능한 구매 사용자에 대해 다양한 방법을 채택했습니다. NLP 관련 기술의 범위.

연구된 측면 중에는 언어 분석이 있었습니다(CT 플랫폼은 지리적 위치에 있는 비영어 팔로워도 제공하지만 CT 세계에서는 거의 항상 영어로 기본 설정됨). 댓글 수(가짜 사용자가 감지될까 봐 실제 사용자의 빈도에 매우 근접한 경우) 및 일반적인 단어 분석:

가짜 및 실제 사용자의 단어 구름.

가짜 및 실제 사용자의 단어 구름.

이 논문은 가짜 계정에서 'dokter'(위 이미지 참조)라는 단어의 유행이 특정 내부 캠페인과 관련이 있는 것으로 보인다고 지적합니다.

'"Dokter"는 1069개의 개별 댓글에 [나타났습니다]. [이] 단어를 스팸하는 계정을 추가로 조사하여 "Instagram 의사" 계정에 스팸을 보내는 것을 목표로 하는 봇넷으로 보이는 것의 일부를 발견했습니다. 이 모든 의사의 프로필에는 WhatsApp 비즈니스 링크가 있으며 클릭하면 완료하라는 메시지와 함께 채팅이 시작됩니다.'

연구원이 추론할 수 있는 한, 이 이상한 인공물은 실제 Instagram 사용자의 활동을 찾는 동안 우연히 발견한 대형 봇넷의 잔재일 수 있습니다.

전체적으로 연구원들은 603,007명의 고유한 인스타그램 사용자의 게시물에서 총 248,388개의 댓글을 수집했으며, 저자는 이 중 55,719개가 크라우드터핑 계정이라고 추정했습니다.

논문은 수집된 데이터에서 여성을 주제로 한 주제가 우세하다는 점을 흥미롭게 기록합니다. 사용한 GPU-PDMM (트위터의 의무적으로 짧은 게시물을 위해 개발된 기술) 12,830개의 사용 가능한 댓글 모음에서 121,822개의 적합한 댓글을 추출하기 위해 알고리즘은 12명의 남성과 8명의 여성의 콘텐츠를 고려할 때 대부분의 댓글이 여성 관련 주제를 다루고 있음을 발견했습니다.

연구원의 실험 중 하나에서 가짜 주제에서 추출한 상위 10개 주제.

연구원의 실험 중 하나에서 가짜 주제에서 추출한 상위 10개 주제.

연구원들은 다음과 같이 결론지었습니다.

'[인스타그램]과 연구 커뮤니티는 봇과 자동화된 계정을 탐지하는 데 많은 초점을 맞추었지만 인플루언서 마케팅, 인스타그램 플랫폼 및 대부분의 사용자에게 부정적인 영향을 미치는 CT 활동에 대해 더 많은 연구가 수행되어야 한다고 생각합니다.'

 

* 연구원이 인용한 TrustPilot URL이 생략되었습니다.

28년 2022월 XNUMX일에 처음 게시되었습니다.