Contáctenos

Identificación de Crowdturfers de Instagram con aprendizaje automático

Inteligencia Artificial

Identificación de Crowdturfers de Instagram con aprendizaje automático

mm

Investigadores en Italia e Irán afirman haber formulado el primer sistema de aprendizaje automático capaz de reconocer la actividad de crowdturfing de cuentas de influencers humanas (en lugar de automatizadas) en Instagram. Los crowdturfers son personas reales que prestan servicios de creación de perfiles a plataformas que venden dicha actividad al por mayor.

El nuevo método afirma tener una puntuación de precisión de alrededor del 95% y utiliza el aprendizaje semisupervisado en sistemas de procesamiento del lenguaje natural (PLN).

Los autores afirman que, según su leal saber y entender, su sistema representa el primer sistema detector de crowdturfing (CT) que puede concentrarse de manera confiable en cuentas que no son bots que están involucradas en la participación y el impulso de perfiles pagos falsos.

Para lograrlo, los autores adquirieron 1293 perfiles de crowdturfing de 11 proveedores de plataformas de CT para obtener datos y entrenar su detector de CT. Dado que Instagram cuenta con diversas medidas antibots eficaces, señalan los investigadores, quienes buscan explotar la enorme base de usuarios de la plataforma con fines comerciales han recurrido a pagar a Instagrammers realmente influyentes para que interactúen estratégicamente con las cuentas de sus clientes, principalmente compartiendo comentarios o mediante la actividad relacionada con los comentarios en las publicaciones.

Una vez entrenado el modelo, los autores lo pusieron a analizar los perfiles de participación de 20 "megainfluencers", cada uno con más de 1 millón de seguidores, y concluyeron que 'más del 20% de su compromiso era artificial'.

El se titula ¿Estamos todos en un show de Truman? Detectar el Crowdturfing de Instagram a través de la autoformación, y proviene de cinco investigadores de la Universidad de Padua en Italia y la Universidad Imam Reza de Irán.

Violación de los TOS de Instagram

A diferencia de Twitter, preferido por los investigadores de redes sociales debido a su compromiso con la investigación, Instagram no solo no proporciona API ni volcados de datos actualizados para ayudar a los investigadores, sino que prohíbe la navegación automática en sus Términos de Servicio. Por lo tanto, la primera tarea de los investigadores fue obtener una exención de su Junta de Revisión Institucional, justificada por antes funciona que utilizó un enfoque similar para investigar "actividades subterráneas".

Los servicios de crowdturfing se adquirieron para crear nuevas cuentas de Instagram creadas por los investigadores para sus fines, las cuales fueron eliminadas tras el experimento, lo que impidió la participación de usuarios legítimos. No se mencionan las cuentas de influencers estudiadas ni los servicios de la plataforma CT.

Otro obstáculo ético fue que los investigadores no podían solicitar el consentimiento de los influencers estudiados, debido a la Efecto Hawthorne (es decir, podría haber cambiado el comportamiento de los influenciadores), y esta exención también fue concedida por el IRB.

Finalmente, dado que Instagram permite la "recopilación manual" de datos, los investigadores comprometieron su violación de los TOS al configurar sus herramientas de raspado automático a "velocidad humana", lo que requirió una fase de recopilación de datos de cinco meses.

humanos en venta

Los investigadores compraron 100 perfiles de "seguidores falsos" de cada uno de 11 proveedores (sin identificar).

El documento dice*:

“Todos los proveedores que seleccionamos se aseguran de brindar seguidores que interactúen con los perfiles de destino dando me gusta y comentando sus publicaciones para aumentar su tasa de participación.

Estos perfiles de CT se identifican como seguidores de alta calidad y suelen ser más caros que los perfiles falsos básicos. La fiabilidad de estos proveedores está respaldada por plataformas de reseñas reconocidas como TrustPilot.

Del documento, estadísticas sobre los proveedores de la plataforma CT (anonimizados), cada uno un mercado para cuentas de personas influyentes del mundo real "corruptas". Esta tabla resume la información reportada por los proveedores y recuperada por los investigadores a través del análisis de los 100 perfiles comprados de cada fuente. Fuente: https://arxiv.org/pdf/2206.12904.pdf

Del artículo, se extraen estadísticas sobre los proveedores de plataformas CT (anónimas), cada uno de los cuales es un mercado para cuentas de influencers reales "corruptas". Esta tabla resume la información reportada por los proveedores y obtenida por los investigadores mediante el análisis de los 100 perfiles adquiridos de cada fuente. Fuente: https://arxiv.org/pdf/2206.12904.pdf

El coste medio de contratar a un influencer de Instagram, señala el artículo, no es tan elevado, rondando los 3 dólares por 100 seguidores de alta calidad. Los autores señalan:

La mayoría de los proveedores entregan los seguidores en pocas horas. Ofrecen protección contra caídas, lo que significa que la cantidad de seguidores que el cliente compra se mantendrá estable o se entregarán nuevos seguidores para reponer los perdidos.

Los investigadores informan que algunas de sus nuevas cuentas de Instagram sufrieron una pérdida del 15 al 20 % de los seguidores de CT después de un mes, pero que en ciertos casos ganaron más de lo esperado. Para el proveedor de CT más caro (CT-10, en la tabla anterior), solo se perdieron tres seguidores después de un mes.

El documento señala que la relación seguido/seguido se vuelve más "auténtica" cuanto más se paga al proveedor de CT, y el segundo proveedor más caro ofrece una relación muy cercana a la línea de base de un usuario estándar.

Una característica de una cuenta de Instagram de CT es que su perfil rara vez se configurará como "privado" (un hecho que permitió extraer datos de los seguidores falsos comprados, ya que la mayoría de los análisis se centraron en perfiles y comentarios relacionados), aunque esto no debe verse como una "señal" confiable a este respecto.

Las personas que se unen a estas plataformas buscan generar un mínimo de publicaciones que las haga confiables, salvo en algunos casos (CT-4, CT-10). Los perfiles de baja calidad muestran un desequilibrio muy alto entre seguidores y seguidores, y el promedio de publicaciones es cercano a cero, muy por debajo de los perfiles CT.

Fecha

Los investigadores recopilaron datos a través de una implementación del marco de automatización del navegador Selenium. El conjunto de datos resultante incluye información de perfil de 1293 CT y 1307 usuarios que no son CT.

Esta cantidad de muestra ciertamente baja hizo factible configurar Selenium a una velocidad humana creíble durante un período de tiempo racional. Además, señalan los autores, el poder representativo/interpretativo de las técnicas de aprendizaje semisupervisado se adapta muy bien a conjuntos de datos más pequeños. Después de haber experimentado, con fines de exhaustividad, con un modelo totalmente supervisado, los investigadores concluyen:

Los resultados del modo semisupervisado no difieren significativamente de los del modo supervisado. Esto sugiere que los perfiles de TC comparten características muy similares y que el algoritmo puede converger a través de una pequeña cantidad de datos etiquetados.

Los autores reunieron todos los datos disponibles del código fuente de las páginas de perfil de los usuarios "comprometidos", incluidos detalles que generalmente quedan ocultos durante la representación, como el elemento #videos.

Luego, preprocesaron las características de los datos eliminando aquellas con varianza cero o baja, y finalmente convirtieron cualquier dato categórico o no numérico en características estrictamente numéricas o booleanas.

Características del conjunto de datos final.

Características del conjunto de datos final.

Método y Exploraciones

Además de Selenium, las tecnologías utilizadas en los experimentos incluyen: una versión de SpaCy implementada con una tubería basada en transformador; un scikit aprende clasificador autodidacta; y el cargador de insta marco de referencia.

En el nuevo artículo no hay una sección de "resultados" habitual, ya que trata de un objetivo (es decir, la inferencia automatizada de cuentas corruptas de Instagram) que se aleja del foco central de interés hasta la fecha (es decir, la inferencia automatizada de la actividad automatizada de bots en Instagram), lo que significa que no hay ningún trabajo previo comparable con el cual compararlo.

Los investigadores adoptaron una amplia gama de métodos en los usuarios comprados disponibles (a los que se sienten cómodos describiendo como "falsos" en lugar de simplemente "no CT", ya que estas cuentas genuinas realizan actividades de participación pagas y no orgánicas), a través de una gama de tecnologías relacionadas con la PNL.

Entre las facetas estudiadas se encuentran el análisis del idioma (que, en el mundo de CT, casi siempre tiene como valor predeterminado el inglés, aunque las plataformas de CT también ofrecen seguidores geolocalizados que no hablan inglés); conteo de comentarios (donde los usuarios falsos se mantienen muy cerca de la frecuencia de los usuarios reales, por temor a ser detectados); y análisis de palabras comunes:

Nubes de palabras de usuarios falsos y reales.

Nubes de palabras de usuarios falsos y reales.

El artículo señala que la prevalencia de la palabra "dokter" (ver imagen de arriba) en cuentas falsas parece estar relacionada con una campaña interna específica:

«Dokter» apareció en 1069 comentarios distintos. Al investigar más a fondo las cuentas que difundían esta palabra, encontramos una pequeña parte de lo que parece ser una botnet cuyo objetivo es enviar spam a las cuentas de «médicos de Instagram». Todos los perfiles de estos médicos tienen un enlace de WhatsApp Business que, al hacer clic, inicia una conversación con un mensaje para completar.

Por lo que los investigadores pueden deducir, este extraño artefacto puede ser un remanente de una gran botnet con la que tropezaron mientras buscaban actividades de usuarios reales de Instagram.

En total, los investigadores recopilaron 603,007 248,388 comentarios de publicaciones de 55,719 XNUMX usuarios únicos de Instagram, de los cuales, según estiman los autores, XNUMX XNUMX eran cuentas de crowdturfing.

El documento observa con interés el predominio de temas femeninos en los datos recopilados. haber usado GPU-PDMM (una técnica desarrollada para las publicaciones obligatoriamente cortas en Twitter) para extraer 12,830 121,822 comentarios adecuados de un corpus disponible de 12 8 comentarios, el algoritmo encontró que al considerar el contenido de XNUMX hombres y XNUMX mujeres, la mayoría de los comentarios tratan sobre temas relacionados con mujeres.

Los 10 temas principales extraídos de temas falsos en uno de los experimentos de los investigadores.

Los 10 temas principales extraídos de temas falsos en uno de los experimentos de los investigadores.

Los investigadores concluyen:

'Si bien Instagram y la comunidad de investigación se centraron mucho en detectar bots y cuentas automatizadas, creemos que se deberían realizar más estudios sobre las actividades de CT, que impactan negativamente en el marketing de influencia, la plataforma Instagram y la mayoría de sus usuarios'.

 

*Se omite la URL de TrustPilot citada por los investigadores.

Publicado por primera vez el 28 de junio de 2022.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai