Ângulo de Anderson
Identificando Crowdturfers do Instagram com Aprendizado de Máquina

Pesquisadores da Itália e do Irã afirmam ter formulado o primeiro sistema de aprendizado de máquina capaz de reconhecer a atividade de “crowdturfing” de contas de influenciadores humanos (e não automatizadas) na plataforma Instagram. Crowdturfers são pessoas reais que realizam serviços de “construção de perfil” para plataformas que vendem essa atividade em larga escala.
O novo método afirma ter uma pontuação de precisão de cerca de 95% e utiliza aprendizado semi-supervisionado em sistemas de Processamento de Linguagem Natural (NLP).
Os autores afirmam que, ao melhor de seu conhecimento, seu sistema representa o primeiro detector de crowdturfing (CT) que pode confiavelmente identificar contas não-robóticas que estão envolvidas em engajamento de perfil e aumento de seguidores falsos e pagos.
Para realizar isso, os autores compraram 1293 perfis de crowdturfing de 11 provedores de plataformas de CT, com o objetivo de obter dados para treinar seu detector de CT. Como o Instagram tem uma série de medidas anti-robô eficazes em vigor, os pesquisadores observam que aqueles que buscam explorar a enorme base de usuários da plataforma para fins comerciais têm se voltado para pagar influenciadores genuínos do Instagram para “engajar-se estrategicamente” com contas de “clientes”, principalmente compartilhando comentários ou através de atividades relacionadas a comentários em posts.
Após treinar o modelo, os autores o liberaram para analisar os perfis de engajamento de 20 “mega-influenciadores”, cada um com mais de 1 milhão de seguidores, concluindo que ‘mais de 20% de seu engajamento era artificial’.
O artigo é intitulado Estamos Todos em um Show de Truman? Detectando Crowdturfing do Instagram por meio de Auto-Treinamento e vem de cinco pesquisadores da Universidade de Pádua, na Itália, e da Universidade Imam Reza, no Irã.
Violando os Termos de Serviço do Instagram
Ao contrário do Twitter, favorito dos pesquisadores de mídia social devido ao seu compromisso em ajudar a pesquisa, o Instagram não fornece nenhuma API ou dumps de dados atualizados para ajudar os pesquisadores, mas proíbe a navegação impulsionada por máquina em seus Termos de Serviço. Portanto, a primeira tarefa dos pesquisadores foi obter uma isenção de seu Conselho de Revisão Institucional, justificada por trabalhos anteriores que usaram uma abordagem semelhante para investigar ‘atividades subterrâneas’.
Os serviços de crowdturfing foram comprados para contas do Instagram frescas criadas pelos pesquisadores para seus propósitos, todas as quais foram excluídas após o experimento, obviando o envolvimento de usuários ‘legítimos’. Nem as contas de influenciadores estudadas nem os serviços de plataforma de CT são nomeados.
Outro obstáculo ético foi que os pesquisadores não podiam solicitar o consentimento dos influenciadores que estavam sendo estudados, devido ao efeito Hawthorne (ou seja, isso poderia ter mudado o comportamento dos influenciadores), e essa isenção também foi concedida pelo IRB.
Finalmente, como o Instagram permite a “coleta manual” de dados, os pesquisadores comprometeram-se a violar os Termos de Serviço, configurando suas ferramentas de raspagem automatizadas para “velocidade humana”, o que exigiu uma fase de coleta de dados de cinco meses.
Seres Humanos à Venda
Os pesquisadores compraram 100 perfis de “seguidores falsos” de cada um dos 11 provedores (não nomeados).
O artigo afirma*:
‘Todos os provedores que selecionamos garantem entregar seguidores que interagem com os perfis-alvo, gostando e comentando em suas postagens para aumentar sua taxa de engajamento.
‘Esses perfis de CT são identificados como seguidores de alta qualidade e geralmente custam mais do que perfis “base” falsos. A confiabilidade desses provedores é apoiada por plataformas de revisão famosas, como a TrustPilot.’

Do artigo, estatísticas sobre os provedores de plataforma de CT (anônimos), cada um um mercado para contas de influenciadores ‘corrompidas’ do mundo real. Essa tabela descreve informações relatadas pelos provedores e recuperadas pelos pesquisadores por meio da análise dos 100 perfis comprados de cada fonte. Fonte: https://arxiv.org/pdf/2206.12904.pdf
O custo médio de comprar um influenciador do Instagram, observa o artigo, não é tão alto, cerca de $3 para 100 “seguidores de alta qualidade”. Os autores observam:
‘A maioria dos provedores entrega os seguidores em poucas horas. Eles oferecem uma proteção contra perda, o que significa que o número de seguidores que o cliente compra permanecerá estável ao longo do tempo ou novos seguidores serão entregues para repor os perdidos.’
Os pesquisadores relatam que algumas de suas contas do Instagram frescas sofreram uma perda de 15-20% de seguidores de CT após um mês, mas que, em certos casos, ganharam mais do que o esperado. Para o provedor de CT mais caro (CT-10, na tabela acima), apenas três seguidores foram perdidos após um mês.
O artigo observa que a razão entre seguidores e seguidos se torna mais ‘autêntica’ quanto mais você paga ao provedor de CT, com o segundo provedor mais caro oferecendo uma razão muito próxima da linha de base de um usuário padrão.
Uma característica de uma conta de CT do Instagram é que seu perfil raramente será definido como “privado” (um fato que permitiu que os dados fossem extraídos dos seguidores falsos comprados, pois a maioria das análises se concentrou em perfis e comentários relacionados), embora isso não deva ser visto como um sinal confiável a esse respeito.
‘As pessoas que se juntam a essas plataformas estão interessadas em gerar uma quantidade mínima de posts que as tornem confiáveis, exceto em alguns casos (CT-4, CT-10). Os perfis de baixa qualidade mostram um desequilíbrio muito alto entre seguidores e seguidos, e a quantidade média de posts é próxima de 0, muito abaixo dos perfis de CT.’
Dados
Os pesquisadores coletaram dados por meio de uma implementação do framework de automação de navegador Selenium. O conjunto de dados resultante inclui informações de perfil de 1293 usuários de CT e 1307 usuários não-CT.
Essa quantidade de amostra admitidamente baixa tornou viável configurar o Selenium para uma velocidade humana crível ao longo de um período de tempo racional. Além disso, os autores observam que o poder representativo/interpretativo de técnicas de aprendizado semi-supervisionado acomoda conjuntos de dados menores muito bem. Após experimentar, para fins de minuciosidade, com um modelo totalmente supervisionado, os pesquisadores concluem:
‘[Os] resultados no modo semi-supervisionado não diferem significativamente daqueles no modo supervisionado. Isso sugere que os perfis de CT compartilham características muito semelhantes e que o algoritmo pode convergir [com uma pequena quantidade de] dados rotulados.’
Os autores reuniram todos os dados disponíveis do código-fonte das páginas de perfil dos usuários “comprometidos”, incluindo detalhes geralmente obscurecidos quando renderizados, como o elemento #vídeos.
Em seguida, pré-processaram os recursos de dados removendo aqueles com variação zero ou baixa e, finalmente, converteram qualquer dado categórico ou não-numérico em recursos estritamente numéricos ou booleanos.

Características do conjunto de dados final.
Método e Explorações
Além do Selenium, as tecnologias usadas em todo o experimento incluem: uma versão do SpaCy implementada com um pipeline baseado em transformador; um classificador de auto-treinamento do scikit learn self-training; e o framework Instaloader.
Não há uma seção de “resultados” costumeira no novo artigo, pois ele lida com um objetivo (ou seja, inferência automática de contas de CT corruptas) que se desvia do foco central de interesse até o momento (ou seja, inferência automática de atividade de robô automatizada no Instagram), significando que não há trabalho anterior semelhante com o qual compará-lo.
Os pesquisadores adotaram uma ampla gama de métodos nos usuários disponíveis comprados, (que eles se sentem confortáveis em descrever como ‘falsos’ em vez de apenas ‘não-CT’, desde que essas contas genuínas estão realizando atividades de engajamento não-orgânicas e pagas), em uma variedade de tecnologias relacionadas à NLP.
Entre os aspectos estudados estavam análise de linguagem (que, no mundo do CT, quase sempre é inglês, embora as plataformas de CT também ofereçam seguidores não-inglês geolocalizados); contagem de comentários (onde os usuários falsos se aproximam muito da frequência dos usuários reais, por medo de detecção); e análise de palavras comuns:

Nuvens de palavras de usuários falsos e reais.
O artigo observa que a prevalência da palavra “dokter” (veja a imagem acima) em contas falsas parece estar relacionada a uma campanha interna específica:
‘“Dokter” [apareceu] em 1069 comentários distintos. Ao investigar mais a fundo as contas que estavam spamando [essa] palavra, encontramos uma pequena parte do que parece ser uma botnet cujo objetivo é spammar contas de “médicos do Instagram”. Todas essas contas de médicos têm um link de negócios do WhatsApp que, uma vez clicado, inicia uma conversa com uma mensagem para concluir.’
Até onde os pesquisadores podem deduzir, esse estranho artefato pode ser um remanescente de uma grande botnet que eles encontraram enquanto buscavam atividades de usuários reais do Instagram.
No total, os pesquisadores coletaram 603.007 comentários de posts de 248.388 usuários do Instagram únicos, dos quais os autores estimam que 55.719 eram contas de crowdturfing.
O artigo observa com interesse a dominância de tópicos com temas femininos nos dados coletados. Após usar GPU-PDMM (uma técnica desenvolvida para os posts obrigatoriamente curtos do Twitter) para extrair 12.830 comentários adequados de um corpus disponível de 121.822 comentários, o algoritmo encontrou que, ao considerar o conteúdo de 12 homens e 8 mulheres, a maioria dos comentários lida com tópicos relacionados a mulheres.

Os 10 principais tópicos extraídos de comentários falsos em um dos experimentos dos pesquisadores.
Os pesquisadores concluem:
‘[Enquanto] o Instagram e a comunidade de pesquisa se concentraram muito em detectar robôs e contas automatizadas, acreditamos que mais estudos devem ser realizados sobre atividades de CT, que impactam negativamente o marketing de influenciadores, a plataforma do Instagram e a maioria de seus usuários.’
* A URL da TrustPilot citada pelos pesquisadores foi omitida.
Publicado pela primeira vez em 28 de junho de 2022.












