Yapay Zekâ
Instagram Crowdturfing’i Makine Öğrenimi ile Tanımlama

İtalya ve İran’daki araştırmacılar, Instagram platformundaki insan (otomatik olmayan) influencer hesaplarının ‘crowdturfing’ faaliyetlerini tanıyabilen ilk makine öğrenimi sistemini geliştirdiklerini iddia ediyorlar. Crowdturfers, profil oluşturma hizmetleri sunan gerçek kişilerdir ve bu faaliyetler toptan olarak satılır.
Yeni yöntem, yaklaşık %95’lik bir doğruluk puanı iddia ediyor ve Doğal Dil İşleme (NLP) sistemlerinde yarı-gözetimli öğrenimi kullanıyor.
Yazarlar, bilgilerine göre, sistemlerinin güvenilir bir şekilde sahte, ücretli profil etkileşimi ve artırma faaliyetlerinde bulunan non-bot hesapları tanıyabilen ilk crowdturfing (CT) dedektörü sistemi olduğunu iddia ediyorlar.
Bunu başarmak için, yazarlar 11 CT platform sağlayıcısından 1293 crowdturfing profili satın aldılar ve CT dedektörlerini eğitmek için veri elde ettiler. Instagram, botlara karşı etkili önlemler aldığını dikkate alan araştırmacılar, platformun巨大 kullanıcı tabanını ticari amaçlar için sömürenlerin, gerçek Instagram influencer’larına ‘stratejik olarak etkileşime girmeleri’ için ödeme yaptıklarını belirtiyorlar, genellikle yorum paylaşımları veya yorumlarla ilgili faaliyetler aracılığıyla.
Modeli eğittikten sonra, yazarlar 20 ‘mega-influencer’in etkileşim profillerini analiz etmek için modeli serbest bıraktılar, her biri 1 milyondan fazla takipçiye sahip ve ‘etkileşimin %20’den fazlasının suni olduğunu’ kếtülediler.
Makale, Are We All in a Truman Show? Spotting Instagram Crowdturfing through Self-Training başlığını taşıyor ve İtalya’daki Padova Üniversitesi ve İran’ın İmam Reza Üniversitesi’nden beş araştırmacının eseridir.
Instagram TOS’unu İhlal Etme
Twitter’dan farklı olarak, sosyal medya araştırmacıları tarafından araştırmaya yardımcı olma taahhüdü nedeniyle tercih edilen, Instagram, araştırmacılara yardımcı olmak için hiçbir API veya güncellenmiş veri dökümü sağlamaz ve Hizmet Koşullarında makine tarafından yönlendirilen tarayıcıları yasaklar. Bu nedenle araştırmacıların ilk görevi, önceki çalışmalar tarafından kullanılan benzer bir yaklaşımı kullanarak ‘yeraltı faaliyetlerini’ araştırmaya dayanarak rehber Kurumsal İnceleme Kurulundan muafiyet elde etmekti.
Crowdturfing hizmetleri, araştırmacılar tarafından kendi amaçları için oluşturulan taze Instagram hesaplarına satın alındı ve tümü deneysiz sonra silindi, böylece ‘meşru’ kullanıcıların katılımını bertaraf etti. Influencer hesapları veya CT platform hizmetleri adı geçmez.
Bir diğer etik engel, araştırmacıların Hawthorne etkisi (yani, bu, influencer’ların davranışını değiştirebilirdi) nedeniyle incelenen influencer’lardan onay talep edememesiydi ve bu muafiyet de IRB tarafından verildi.
Son olarak, Instagram’un ‘manuel veri toplama’yı izin vermesi nedeniyle, araştırmacılar, TOS’un ihlalini, otomatik kazıma araçlarını ‘insan hızına’ ayarlayarak telafi ettiler, bu da beş aylık bir veri toplama aşaması gerektirdi.
İnsanlar Satın Alınabilir
Araştırmacılar, 11 (adı geçmeyen) sağlayıcıdan 100 ‘sahte takipçi’ profili satın aldılar.
Makalede denir*:
‘Seçtiğimiz tüm sağlayıcılar, hedef profillerle etkileşime girmek için beğeni ve yorum yaparak takipçi kazanmak için takipçi sağlamaya garantiliyorlar.
‘Bu CT profilleri, yüksek kaliteli takipçiler olarak tanımlanıyor ve genellikle “temel” sahte profillerden daha pahalı. Bu sağlayıcıların güvenilirliği, TrustPilot gibi ünlü [inceleme] platformları tarafından destekleniyor.’

Makaleden, (anonimleştirilmiş) CT platform sağlayıcılarının istatistikleri, her biri ‘bozuk’ gerçek dünya influencer hesapları için bir pazar yeridir. Bu tablo, her kaynaktan satın alınan 100 profil aracılığıyla elde edilen ve araştırmacılar tarafından analiz edilen bilgileri açıklar. Kaynak: https://arxiv.org/pdf/2206.12904.pdf
Bir Instagram influencer’ını satın alma ortalama maliyeti, makaleye göre, yaklaşık 100 ‘yüksek kaliteli’ takipçi için 3$ değildir. Yazarlar not eder:
‘Çoğu sağlayıcı birkaç saat içinde takipçileri teslim ediyor. Düşüş koruması sunuyorlar, yani müşterinin satın aldığı takipçi sayısı zaman içinde sabit kalacak veya kaybedilenlerin yerine yeni takipçiler teslim edilecek.’
Araştırmacılar, bazı taze Instagram hesaplarının bir ay sonra CT takipçilerinden %15-20’lik bir kaybı yaşadığını, ancak bazı durumlarda beklenenden daha fazlasını kazandıklarını rapor etti. En pahalı CT sağlayıcısı (yukarıdaki tabloda CT-10) için, bir ay sonra sadece üç takipçi kaybedildi.
Makale, takip edilen/takipçi oranı, CT sağlayıcısına ne kadar ödeme yapıldığıyla daha ‘otantik’ hale geldiğini belirtir, ikinci en pahalı sağlayıcı neredeyse bir standart kullanıcının temel oranına sahip bir oran sunuyor.
Bir CT Instagram hesabının bir özelliği, profilinin nadiren ‘özel’ olarak ayarlanmasıdır (bu, satın alınan sahte takipçilerden veri alınabilmesini sağladı, çünkü çoğu analiz profiller ve ilgili yorumlar üzerinde merkezlenmiştir), ancak bu, bu konuda güvenilir bir ‘sinyal’ olarak görülmemelidir.
‘Bu platformlara katılan insanlar, onları güvenilir kılmak için minimum sayıda gönderi üretmeye çalışıyorlar, birkaç durumda (CT-4, CT-10) dışında. Düşük kaliteli profiller, takipçiler ve takip edilenler arasında çok yüksek bir dengesizlik gösteriyor ve ortalama gönderi sayısı 0’a yakındır, CT profillerinin çok altında.’
Veri
Araştırmacılar, Selenium tarayıcı otomasyon çerçevesinin bir uygulaması aracılığıyla veri topladılar. Sonuçlanan veri kümesi, 1293 CT ve 1307 non-CT kullanıcılarının profil bilgilerini içerir.
Bu nispeten düşük örneklem miktarı, Selenium’un makul bir süre boyunca inandırıcı bir insan hızına ayarlanmasını mümkün kıldı. Ayrıca, yazarlar, yarı-gözetimli öğrenme tekniklerinin küçük veri kümelerini çok iyi bir şekilde yorumlama gücüne sahip olduğunu belirtiyorlar. Tamamen gözetimli bir modelle, araştırmacılar, kapsamlılık amacıyla deneysel olarak çalıştılar ve kếtülediler:
‘[Semi-gözetimli moda中的] sonuçlar, gözetimli bir şekilde önemli ölçüde farklı değildir. Bu, CT profillerinin çok benzer [özelliklere] sahip olduğunu ve algoritmanın [küçük miktarda] etiketli veri aracılığıyla yakınsayabileceğini gösteriyor.’
Araştırmacılar, ‘uzlaşmış’ kullanıcıların profil sayfalarının kaynak kodundan tüm mevcut verileri topladılar, genellikle görüntülendiğinde gizlenen ayrıntılar da dahil olmak üzere, #videos öğesi gibi.
Veri özelliklerini, sıfır veya düşük varyanslı olanları kaldırarak ön işlediler ve sonra da kategorik veya numerik olmayan verileri kesin olarak numerik veya boolean özelliklere dönüştürdüler.

Nihai veri kümesinin özellikleri.
Yöntem ve Araştırmalar
Selenium’un yanı sıra, deneylerde kullanılan teknolojiler arasında; bir transformer tabanlı pipeline ile uygulanan SpaCy’nin bir sürümü; scikit learn self-training classifier; ve Instaloader çerçevesi bulunur.
Makalede, önceki çalışmalara benzer bir karşılaştırma yapılamadığı için geleneksel bir ‘sonuçlar’ bölümü yoktur, çünkü bu, Instagram’da otomatik bot faaliyetlerinin otomatik çıkarımından ziyade, otomatik olmayan hesapların ‘crowdturfing’ faaliyetlerinin otomatik çıkarımına odaklanıyor.
Araştırmacılar, mevcut satın alınan kullanıcılar üzerinde (sahte yerine ‘non-CT’ olarak adlandırdıkları, çünkü bu gerçek hesaplar, organik olmayan, ücretli etkileşim faaliyetlerinde bulunuyorlar) bir dizi NLP ile ilgili teknoloji kullanarak geniş bir dizi yöntem uyguladılar.
İncelenen yönler arasında dil analizi (CT dünyasında, genellikle İngilizce’ye varsayılan, ancak CT platformları coğrafi olarak konumlandırılmış İngilizce olmayan takipçiler de sunuyor); yorum sayıları (sahte kullanıcılar, tespit edilmekten korktukları için gerçek kullanıcıların sıklığına çok yakındır); ve ortak kelimeler analizi:

Sahte ve gerçek kullanıcıların kelime bulutları.
Makale, sahte hesapların kelime bulutunda ‘dokter’ kelimesinin (yukarıdaki resme bakınız) bir iç kampanyayla ilgili görünümünü belirtir:
‘“Dokter” [1069 ayrıntılı yorumda] ortaya çıktı. Bu kelimeyi spamleyen hesapları daha da inceleyerek, apparent bir botnet’in küçük bir bölümünü bulduk ve amacı “Instagram doktorları” hesaplarına spam yapmak. Tüm bu doktorların profillerinde bir WhatsApp iş bağlantısı var ve tıkladığınızda sohbeti tamamlamak için bir mesajla başlattığınız bir sohbet başlatıyor.’
Araştırmacıların çıkarabildiği kadarıyla, bu garip artifact, gerçek Instagram kullanıcılarının faaliyetlerini ararken rastladıkları büyük bir botnet’in bir kalıntısı olabilir.
Toplamda araştırmacılar, 248.388 benzersiz Instagram kullanıcısından 603.007 yorum topladı, bunların 55.719’unun crowdturfing hesapları olduğunu tahmin ediyorlar.
Makale, toplanan verilerdeki kadın temalı konuların hakimiyetini ilgiyle not eder. GPU-PDMM (Twitter’daki zorunlu olarak kısa gönderiler için geliştirilen bir teknik) kullanarak 121.822 yorumdan 12.830 uygun yorum çıkaran algoritma, 12 erkek ve 8 kadın tarafından üretilen içerikleri dikkate alarak, yorumların çoğunluğunun kadınlarla ilgili konularla ilgili olduğunu buldu.

Araştırmacıların bir deneyinden sahte yorumlardan çıkarılan en üst 10 konu.
Araştırmacılar kếtülediler:
‘[İnstagram ve araştırma topluluğu, otomatik hesapların ve botların tespitine çok odaklandı, ancak] crowdturfing faaliyetleri üzerinde daha fazla çalışma yapılmasını düşünüyoruz, çünkü bunlar influencer pazarlamasını, Instagram platformunu ve çoğunu olumsuz etkiliyor.’
* Araştırmacıların alıntıladığı TrustPilot URL’si atlandı.
İlk olarak 28 Haziran 2022’de yayımlandı.












