Inteligência artificial

Identificando Crowdturfers do Instagram com aprendizado de máquina

Atualização do on 9 de dezembro de 2022

Pesquisadores na Itália e no Irã afirmam ter formulado o primeiro sistema de aprendizado de máquina capaz de reconhecer a atividade de ‘crowdturfing’ de contas de influenciadores humanos (em vez de automatizadas) na plataforma Instagram. Crowdturfers são pessoas reais que prestam serviços de “construção de perfil” para plataformas que vendem tal atividade no atacado.

O novo método afirma uma pontuação de precisão de cerca de 95% e utiliza aprendizagem semissupervisionada em sistemas de Processamento de Linguagem Natural (PNL).

Os autores afirmam que, de acordo com seu conhecimento, seu sistema representa o primeiro sistema detector de crowdturfing (CT) que pode aprimorar de forma confiável contas não-bot que estão envolvidas em engajamento e promoção de perfis pagos e falsos.

Para conseguir isso, os autores compraram 1293 perfis de crowdturfing de 11 provedores de plataformas de TC para obter dados para treinar seu detector de TC. Como o Instagram possui uma série de medidas anti-bot eficazes, observam os pesquisadores, aqueles que buscam explorar a enorme base de usuários da plataforma para fins comerciais passaram a pagar Instagrammers genuinamente influentes para 'engajar estrategicamente' com contas de 'clientes', principalmente por compartilhamento de comentários ou por meio de atividades relacionadas a comentários em postagens.

Depois de treinar o modelo, os autores começaram a analisar os perfis de engajamento de 20 'mega-influenciadores', cada um com mais de 1 milhão de seguidores, concluindo que 'mais de 20% de seu engajamento foi artificial'.

A papel é intitulado Estamos todos em um show de Truman? Detectando Crowdturfing no Instagram por meio de autotreinamento, e vem de cinco pesquisadores da Universidade de Pádua, na Itália, e da Universidade Imam Reza, no Irã.

Violação dos Termos de Serviço do Instagram

Ao contrário do Twitter, preferido pelos investigadores das redes sociais devido ao seu compromisso em ajudar a investigação, o Instagram não só não fornece API ou despejos de dados atualizados para ajudar os investigadores, como também proíbe a navegação acionada por máquina nos seus Termos de Serviço. Portanto, a primeira tarefa dos investigadores foi obter uma isenção do seu Conselho de Revisão Institucional, justificado por prévio trabalho que usou uma abordagem semelhante para investigar 'atividades clandestinas'.

Os serviços de crowdturfing foram adquiridos para novas contas do Instagram criadas pelos pesquisadores para seus propósitos, todas as quais foram excluídas após o experimento, evitando o envolvimento de usuários 'legítimos'. Nem as contas de influenciadores estudadas nem os serviços da plataforma CT são nomeados.

Outro obstáculo ético era que os pesquisadores não podiam solicitar o consentimento dos influenciadores estudados, devido à efeito Hawthorne (ou seja, pode ter mudado o comportamento dos influenciadores), e essa isenção também foi concedida pelo IRB.

Por fim, como o Instagram permite a “coleta manual” de dados, os pesquisadores comprometeram-se com a violação do TOS ao definir suas ferramentas de extração automatizadas para “velocidade humana”, o que exigiu uma fase de coleta de dados de cinco meses.

Humanos à venda

Os pesquisadores compraram 100 perfis de 'seguidores falsos' de cada um dos 11 provedores (não identificados).

O jornal afirma*:

'Todos os provedores que selecionamos garantem a entrega de seguidores que interagem com os perfis de destino curtindo e comentando suas postagens para aumentar sua taxa de engajamento.

'Esses perfis de CT são identificados como seguidores de alta qualidade e geralmente custam mais do que perfis falsos “básicos”. A confiabilidade desses provedores é suportada por plataformas famosas de [revisão] como TrustPilot.'

Do jornal, estatísticas sobre os provedores de plataforma CT (anônimos), cada um um mercado para contas de influenciadores do mundo real 'corrompidas'. Esta tabela descreve as informações relatadas pelos provedores e recuperadas pelos pesquisadores por meio da análise dos 100 perfis adquiridos de cada fonte. Fonte: https://arxiv.org/pdf/2206.12904.pdf

O custo médio de compra de um influenciador do Instagram, observa o jornal, não é tão alto, em aproximadamente US$ 3 para 100 seguidores de 'alta qualidade'. Os autores observam:

'A maioria dos provedores entrega os seguidores em poucas horas. Eles oferecem uma proteção contra queda, o que significa que o número de seguidores que o cliente compra permanecerá estável ao longo do tempo ou novos seguidores serão entregues para repor os perdidos.'

Os pesquisadores relatam que algumas de suas novas contas do Instagram sofreram uma perda de 15 a 20% de seguidores do CT após um mês, mas em certos casos ganharam mais do que o esperado. Para o provedor de CT mais caro (CT-10, na tabela acima), apenas três seguidores foram perdidos após um mês.

O documento observa que a proporção seguido/seguindo se torna mais 'autêntica' quanto mais você paga ao provedor de CT, com o segundo provedor mais caro oferecendo uma proporção muito próxima da linha de base de um usuário padrão.

Uma característica de uma conta do CT no Instagram é que seu perfil raramente será definido como 'privado' (fato que permitiu extrair dados dos falsos seguidores comprados, já que a maioria das análises centrou-se em perfis e comentários relacionados), embora isso deva não pode ser visto como um 'sinal' confiável a esse respeito.

'As pessoas que aderem a essas plataformas estão interessadas em gerar uma quantidade mínima de postagens que as tornem confiáveis, salvo poucos casos (CT-4, CT-10). Os perfis de baixa qualidade mostram um desequilíbrio muito alto de seguidores e seguidores, e o número médio de postagens é próximo a 0, muito abaixo dos perfis CT.'

Data

Os pesquisadores coletaram dados por meio de uma implementação da estrutura de automação de navegador Selenium. O conjunto de dados resultante inclui informações de perfil de 1293 usuários CT e 1307 usuários não CT.

Essa quantidade de amostra reconhecidamente baixa tornou possível definir o Selenium para uma velocidade humana credível durante um período de tempo racional. Além disso, observam os autores, o poder representativo/interpretativo das técnicas de aprendizado semi-supervisionado acomoda muito bem conjuntos de dados menores. Tendo experimentado, para fins de rigor, um modelo totalmente supervisionado, os pesquisadores concluem:

'[Os] resultados no modo semi-supervisionado não diferem significativamente daqueles no modo supervisionado. Isso sugere que os perfis CT compartilham [características] muito semelhantes e que o algoritmo pode convergir [através de uma pequena quantidade de] dados rotulados.'

Os autores reuniram todos os dados disponíveis do código-fonte das páginas de perfil dos usuários 'comprometidos', incluindo detalhes geralmente obscurecidos quando renderizados, como o elemento #videos.

Eles então pré-processaram os recursos de dados removendo aqueles com variação zero ou baixa e, finalmente, converteram quaisquer dados categóricos ou não numéricos em recursos estritamente numéricos ou booleanos.

Características do conjunto de dados final.

Método e Explorações

Além disso, Selenium, as tecnologias usadas nos experimentos incluem: uma versão do SpaCy implementada com um pipeline baseado em transformador; um scikit aprender classificador de autotreinamento; e a instalador estrutura.

Não há uma seção de 'resultados' habitual no novo documento, uma vez que ele lida com um objetivo (ou seja, inferência automatizada de contas corruptas do Instagram) que se afasta do locus central de interesse até o momento (ou seja, inferência automatizada de atividade automatizada de bots em Instagram), o que significa que não há um trabalho anterior igual ao qual comparar.

Os pesquisadores adotaram uma ampla variedade de métodos nos usuários comprados disponíveis (que eles se sentem à vontade para descrever como 'falsos' em vez de apenas 'não CT', uma vez que essas contas genuínas estão conduzindo atividades não orgânicas e pagas de engajamento), em um variedade de tecnologias relacionadas à PNL.

Entre as facetas estudadas estavam a análise de linguagem (que, no mundo CT, quase sempre é padronizada para o inglês, embora as plataformas CT também ofereçam seguidores não ingleses geolocalizados); contagens de comentários (onde os usuários falsos ficam muito próximos da frequência dos usuários reais, por medo de serem detectados); e análise de palavras comuns:

Nuvens de palavras de usuários falsos e reais.

O jornal observa que a prevalência da palavra 'dokter' (veja a imagem acima) em contas falsas parece estar relacionada a uma campanha interna específica:

''Dokter' [apareceu] em 1069 comentários distintos. Ao investigar mais as contas que enviam spam [esta] palavra, encontramos uma pequena parte do que parece ser uma botnet cujo objetivo é enviar spam para contas de “médicos do Instagram”. Todos os perfis desses médicos possuem um link comercial do WhatsApp que, ao ser clicado, inicia um chat com uma mensagem a ser concluída.'

Tanto quanto os pesquisadores podem deduzir, esse estranho artefato pode ser um resquício de uma grande rede de bots que eles encontraram enquanto buscavam atividades de usuários reais do Instagram.

No total, os pesquisadores coletaram 603,007 comentários de postagens de 248,388 usuários únicos do Instagram, dos quais, estimam os autores, 55,719 eram contas de crowdturfing.

O artigo observa com interesse o domínio de tópicos com temática feminina nos dados coletados. Tendo usado GPU-PDMM (uma técnica desenvolvida para postagens obrigatoriamente curtas no Twitter) para extrair 12,830 comentários adequados de um corpus disponível de 121,822 comentários, o algoritmo descobriu que, ao considerar o conteúdo de 12 homens e 8 mulheres, a maioria dos comentários trata de tópicos relacionados ao sexo feminino.

Os 10 principais tópicos extraídos de tópicos falsos em um dos experimentos dos pesquisadores.

Os pesquisadores concluíram:

'[Embora] o Instagram e a comunidade de pesquisa tenham se concentrado muito na detecção de bots e contas automatizadas, acreditamos que mais estudos devem ser conduzidos sobre as atividades de CT, que impactam negativamente o marketing de influenciadores, a plataforma do Instagram e a maioria de seus usuários.'

* URL do TrustPilot citado pelos pesquisadores omitido.

Publicado pela primeira vez em 28 de junho de 2022.

Tópicos relacionados:processamento de linguagem natural PNL pesquisa

A seguir

Um sistema de detecção para estruturas de síntese de imagem pura como DALL-E 2

Não Perca

A IA está revitalizando os data centers

Martin Anderson

Escritor sobre aprendizado de máquina, inteligência artificial e big data.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai