ხელოვნური ინტელექტი

Instagram Crowdturfers-ის იდენტიფიცირება მანქანური სწავლით

განახლებულია on დეკემბერი 9, 2022

მკვლევარები იტალიაში და ირანში აცხადებენ, რომ ჩამოაყალიბეს პირველი მანქანათმცოდნეობის სისტემა, რომელსაც შეუძლია ამოიცნოს ინსტაგრამის პლატფორმაზე ადამიანის (და არა ავტომატიზებული) გავლენის ანგარიშების „ხალხმრავალი“ აქტივობა. Crowdturfers არიან რეალური ადამიანები, რომლებიც ასრულებენ "პროფილის მშენებლობის" სერვისებს პლატფორმებისთვის, რომლებიც ყიდიან ასეთ საქმიანობას საბითუმო საფუძველზე.

ახალ მეთოდს აქვს დაახლოებით 95% სიზუსტის ქულა და იყენებს ნახევრად ზედამხედველობით სწავლებას ბუნებრივი ენის დამუშავების (NLP) სისტემებში.

ავტორები ამტკიცებენ, რომ მათი ცოდნის მიხედვით, მათი სისტემა წარმოადგენს პირველ crowdturfing (CT) დეტექტორის სისტემას, რომელსაც შეუძლია საიმედოდ დახვეწოს არა-ბოტის ანგარიშებზე, რომლებიც ჩართული არიან ყალბი, ფასიანი პროფილის ჩართულობითა და გაძლიერებით.

ამის მისაღწევად, ავტორებმა შეიძინეს 1293 crowdturfing პროფილი 11 CT პლატფორმის პროვაიდერისგან, რათა მიეღოთ მონაცემები მათი CT დეტექტორის მოსამზადებლად. იმის გამო, რომ Instagram-ს აქვს არაერთი ეფექტური ანტი-ბოტის ზომები, მკვლევარები აღნიშნავენ, რომ ისინი, რომლებიც ცდილობენ გამოიყენონ პლატფორმის უზარმაზარი მომხმარებელთა ბაზა კომერციული მიზნებისთვის, გადაიხადეს რეალურად გავლენიანი ინსტაგრამებისთვის, რათა "სტრატეგიულად ჩაერთონ" "კლიენტის" ანგარიშებთან, ძირითადად კომენტარების გაზიარება ან პოსტებზე კომენტარებთან დაკავშირებული აქტივობების მეშვეობით.

მოდელის გაწვრთნის შემდეგ, ავტორებმა გააანალიზეს 20 „მეგა-ინფლუენსერების“ ჩართულობის პროფილი, თითოეულს 1 მილიონზე მეტი მიმდევარი ჰყავს და დაასკვნეს, რომ "მათი ჩართულობის 20%-ზე მეტი ხელოვნური იყო".

ის ქაღალდი სახელდება ვართ ყველანი ტრუმენის შოუში? Instagram Crowdturfing-ის დაფიქსირება თვითტრენინგის საშუალებით, და მოდის ხუთი მკვლევარისგან იტალიის პადოვას უნივერსიტეტიდან და ირანის იმამ რეზას უნივერსიტეტიდან.

ინსტაგრამის TOS-ის დარღვევა

Twitter-ისგან განსხვავებით, რომელსაც მხარს უჭერენ სოციალური მედიის მკვლევარები, კვლევის ხელშეწყობის ერთგულების გამო, Instagram არა მხოლოდ არ იძლევა API-ს ან განახლებულ მონაცემთა ნაგავსაყრელებს მკვლევართა დასახმარებლად, არამედ კრძალავს მანქანით დათვალიერებას მისი მომსახურების პირობებში. ამიტომ მკვლევარების პირველი ამოცანა იყო გათავისუფლების მოპოვება მათი სახელმძღვანელო ინსტიტუციური მიმოხილვის საბჭოსგან, გამართლებული ადრე მუშაობს რომელიც იყენებდა მსგავს მიდგომას „მიწისქვეშა საქმიანობის“ გამოსაკვლევად.

Crowdturfing სერვისები შეძენილი იქნა მკვლევარების მიერ მათი მიზნებისთვის შექმნილი ახალი ინსტაგრამის ანგარიშებისთვის, რომლებიც ექსპერიმენტის შემდეგ წაიშალა, რაც თავიდან აიცილებდა "ლეგიტიმური" მომხმარებლების მონაწილეობას. არც შესწავლილი გავლენის ანგარიშები და არც CT პლატფორმის სერვისები არ არის დასახელებული.

კიდევ ერთი ეთიკური დაბრკოლება იყო ის, რომ მკვლევარებმა ვერ მოითხოვეს შესწავლილი გავლენის შემსრულებლების თანხმობა, იმის გამო, რომ კუნელის ეფექტი (ანუ შესაძლოა შეცვლილიყო გავლენის შემქმნელთა ქცევა) და ეს გამონაკლისი ასევე მიენიჭა IRB-ს.

დაბოლოს, იმის გამო, რომ Instagram საშუალებას აძლევს მონაცემთა „ხელით შეგროვებას“, მკვლევარებმა კომპრომეტირება მოახდინეს TOS-ის დარღვევის გამო, მათი ავტომატური სკრეპინგის ხელსაწყოების „ადამიანის სიჩქარეზე“ დაყენებით, რაც საჭიროებდა მონაცემთა შეგროვების ფაზას ხუთი თვის განმავლობაში.

ადამიანები იყიდება

მკვლევარებმა შეიძინეს 100 „ყალბი მიმდევრის“ პროფილი 11 (უსახელო) პროვაიდერისგან.

ნაშრომში ნათქვამია *:

ჩვენ მიერ შერჩეული ყველა პროვაიდერი უზრუნველყოფს მიმდევრების მიწოდებას, რომლებიც ურთიერთობენ სამიზნე პროფილებთან მათი პოსტების მოწონებით და კომენტარებით, რათა გაზარდონ მათი ჩართულობის მაჩვენებელი.

'ეს CT პროფილები იდენტიფიცირებულია, როგორც მაღალი ხარისხის მიმდევრები და, როგორც წესი, უფრო ძვირია, ვიდრე "საბაზისო" ყალბი პროფილები. ამ პროვაიდერების სანდოობას მხარს უჭერს ცნობილი [მიმოხილვის] პლატფორმები, როგორიცაა TrustPilot.'

ნაშრომიდან, სტატისტიკა (ანონიმიზებული) CT პლატფორმის პროვაიდერების შესახებ, თითოეული არის ბაზარი "დაზიანებული" რეალური სამყაროს გავლენის ანგარიშებისთვის. ეს ცხრილი ასახავს პროვაიდერების მიერ მოხსენებულ და მკვლევარების მიერ მოძიებულ ინფორმაციას თითოეული წყაროდან შეძენილი 100 პროფილის ანალიზის შედეგად. წყარო: https://arxiv.org/pdf/2206.12904.pdf

გაზეთი აღნიშნავს, რომ ინსტაგრამის ინფლუენზერის შეძენის საშუალო ღირებულება არც ისე მაღალია, დაახლოებით $3 100 „მაღალი ხარისხის“ გამომწერისთვის. ავტორები აღნიშნავენ:

„პროვაიდერების უმეტესობა აწვდის მიმდევრებს რამდენიმე საათში. ისინი სთავაზობენ დაცვას ვარდნისგან, რაც ნიშნავს, რომ მიმდევრების რაოდენობა, რომლებსაც მომხმარებელი ყიდულობს, დროთა განმავლობაში ან სტაბილური დარჩება, ან ახალი მიმდევრების მიწოდება მოხდება დაკარგული მიმდევრების შესავსებად.'

მკვლევარები აცხადებენ, რომ მათმა ზოგიერთმა ინსტაგრამის ახალმა ანგარიშმა ერთი თვის შემდეგ CT მიმდევრების 15-20% დაკარგა, მაგრამ ზოგიერთ შემთხვევაში მათ მოსალოდნელზე მეტი მოიპოვეს. ყველაზე ძვირადღირებული CT პროვაიდერისთვის (CT-10, ზემოთ ცხრილში), მხოლოდ სამი მიმდევარი დაკარგა ერთი თვის შემდეგ.

ქაღალდი აღნიშნავს, რომ მოყოლებული/შემდეგი თანაფარდობა უფრო „ავთენტური“ ხდება რაც უფრო მეტს იხდით კომპიუტერული ტომოგრაფიის პროვაიდერთან, ხოლო მეორე ყველაზე ძვირადღირებული პროვაიდერი გთავაზობთ თანაფარდობას, რომელიც ძალიან ახლოსაა სტანდარტული მომხმარებლის საწყისთან.

CT Instagram ანგარიშის ერთ-ერთი მახასიათებელია ის, რომ მისი პროფილი იშვიათად იქნება დაყენებული „პირად“ (ფაქტი, რომელიც საშუალებას აძლევდა მონაცემების აღებას შეძენილი ყალბი მიმდევრებისგან, რადგან ანალიზების უმეტესობა ორიენტირებულია პროფილებსა და დაკავშირებულ კომენტარებზე), თუმცა ეს უნდა იყოს არ განიხილება, როგორც სანდო „სიგნალი“ ამ მხრივ.

„ადამიანები, რომლებიც უერთდებიან ამ პლატფორმებს, დაინტერესებულნი არიან შექმნან მინიმალური რაოდენობის პოსტები, რაც მათ სანდოს გახდის, გარდა რამდენიმე შემთხვევისა (CT-4, CT-10). დაბალი ხარისხის პროფილები აჩვენებს ძალიან მაღალ დისბალანსს მიმდევრებსა და მიმდევრებში, ხოლო პოსტების საშუალო რაოდენობა 0-ს უახლოვდება, CT პროფილებზე ბევრად დაბალი.'

თარიღი

მკვლევარებმა შეაგროვეს მონაცემები ბრაუზერის ავტომატიზირებული ჩარჩო Selenium-ის განხორციელების მეშვეობით. შედეგად მიღებული მონაცემთა ნაკრები მოიცავს პროფილის ინფორმაციას 1293 CT და 1307 არა-CT მომხმარებლისგან.

სინჯის ამ, რა თქმა უნდა, მცირე რაოდენობამ შესაძლებელი გახადა სელენის დაყენება სარწმუნო ადამიანურ სიჩქარეზე დროის რაციონალურ პერიოდში. გარდა ამისა, ავტორები აღნიშნავენ, რომ ნახევრად ზედამხედველობის ქვეშ მყოფი სწავლის ტექნიკის წარმომადგენლობითი/ინტერპრეტაციული ძალა ძალიან კარგად ათავსებს მონაცემთა მცირე ნაკრებებს. სრული კონტროლის ქვეშ მყოფი მოდელის საფუძვლიანობის მიზნით, მკვლევარები ასკვნიან:

„ნახევრად ზედამხედველობის რეჟიმის შედეგები მნიშვნელოვნად არ განსხვავდება ზედამხედველობის შედეგებისგან. ეს ვარაუდობს, რომ CT პროფილებს ძალიან ჰგავს [მახასიათებლები] და რომ ალგორითმს შეუძლია დაახლოება [მცირე რაოდენობის] ეტიკეტირებული მონაცემების მეშვეობით.'

ავტორებმა შეაგროვეს ყველა ხელმისაწვდომი მონაცემი "კომპრომისირებული" მომხმარებლების პროფილის გვერდების საწყისი კოდიდან, მათ შორის დეტალები, რომლებიც ზოგადად ბუნდოვანია რენდერის დროს, როგორიცაა #videos ელემენტი.

შემდეგ ისინი წინასწარ ამუშავებდნენ მონაცემთა მახასიათებლებს ნულოვანი ან დაბალი დისპერსიის მქონეთა ამოღებით და ბოლოს ნებისმიერი კატეგორიული ან არაციფრული მონაცემი გადააკეთეს მკაცრად ციფრულ ან ლოგიკურ მახასიათებლებად.

საბოლოო მონაცემთა ნაკრების მახასიათებლები.

მეთოდი და გამოკვლევები

გარდა ამისა, სელენი, ექსპერიმენტებში გამოყენებული ტექნოლოგიები მოიცავს: SpaCy-ის ვერსიას, რომელიც განხორციელებულია ტრანსფორმატორზე დაფუძნებული მილსადენით; ცბიერი სწავლა თვითტრენინგის კლასიფიკატორი; და ინსტალატორი ჩარჩო.

ახალ ნაშრომში არ არის ჩვეულებრივი „შედეგების“ განყოფილება, რადგან ის ეხება ობიექტს (ანუ ინსტაგრამის კორუმპირებული ანგარიშების ავტომატური დასკვნა), რომელიც შორდება დღემდე ინტერესის ცენტრალურ ადგილს (ანუ, ავტომატური ბოტების აქტივობის ავტომატიზებული დასკვნა. ინსტაგრამი), რაც იმას ნიშნავს, რომ არ არსებობს წინა ნამუშევარი, რომლის შედარებაც შესაძლებელია.

მკვლევარებმა მიიღეს მეთოდების ფართო სპექტრი ხელმისაწვდომი შეძენილ მომხმარებლებზე (რომელიც ისინი თავს კომფორტულად აღწერენ, როგორც „ყალბს“ და არა უბრალოდ „არა CT“, რადგან ეს ნამდვილი ანგარიშები ახორციელებენ არაორგანულ, ფასიან ჩართულობის აქტივობებს). NLP-თან დაკავშირებული ტექნოლოგიების სპექტრი.

შესწავლილ ასპექტებს შორის იყო ენის ანალიზი (რომელიც, კომპიუტერული ტომოგრაფიის სამყაროში, თითქმის ყოველთვის ნაგულისხმევი ინგლისურია, თუმცა CT პლატფორმები სთავაზობენ გეო-მდებარეობით არაინგლისელ მიმდევრებსაც); კომენტარების რაოდენობა (სადაც ყალბი მომხმარებლები ძალიან ახლოს არიან რეალური მომხმარებლების სიხშირესთან, გამოვლენის შიშით); და საერთო სიტყვების ანალიზი:

სიტყვების ღრუბლები ყალბი და რეალური მომხმარებლებისგან.

ნაშრომი აღნიშნავს, რომ სიტყვა „დოქტერის“ (იხ. სურათი ზემოთ) გავრცელება ყალბ ანგარიშებში, როგორც ჩანს, დაკავშირებულია კონკრეტულ შიდა კამპანიასთან:

„დოქტერი“ [გამოჩნდა] 1069 განსხვავებულ კომენტარში. [ამ] სიტყვის სპამის შემცველი ანგარიშების შემდგომი გამოკვლევით, ჩვენ აღმოვაჩინეთ ბოტნეტის მცირე ნაწილი, რომლის მიზანია „ინსტაგრამის ექიმების“ ანგარიშების სპამი. ექიმების ყველა ამ პროფილს აქვს WhatsApp ბიზნეს ბმული, რომელზეც დაწკაპუნებით იწყება ჩატი დასრულებული შეტყობინებით.'

რამდენადაც მკვლევარებს შეუძლიათ დაასკვნეს, ეს უცნაური არტეფაქტი შეიძლება იყოს დიდი ბოტნეტის ნარჩენი, რომელსაც ისინი წააწყდნენ ინსტაგრამის რეალური მომხმარებლებისგან აქტივობების ძიებისას.

მთლიანობაში, მკვლევარებმა შეაგროვეს 603,007 კომენტარი პოსტებიდან Instagram-ის 248,388 უნიკალური მომხმარებლისთვის, რომელთაგან, ავტორების შეფასებით, 55,719 იყო crowdturfing ანგარიში.

ნაშრომი ინტერესით აღნიშნავს ქალური თემების დომინირებას შეგროვებულ მონაცემებში. გამოიყენა GPU-PDMM (ტექნიკა შემუშავებული Twitter-ზე სავალდებულო მოკლე პოსტებისთვის) 12,830 შესაფერისი კომენტარის ამოსაღებად 121,822 კომენტარისგან შემდგარი ხელმისაწვდომი კორპუსიდან, ალგორითმმა დაადგინა, რომ 12 მამაკაცისა და 8 ქალის შინაარსის გათვალისწინებით, კომენტარების უმრავლესობა ეხება ქალებთან დაკავშირებულ თემებს.

მკვლევართა ერთ-ერთი ექსპერიმენტის ყალბი თემებიდან ამოღებული ტოპ 10 თემა.

მკვლევარები ასკვნიან:

„[მიუხედავად იმისა, რომ Instagram-მა და კვლევითმა საზოგადოებამ დიდი ყურადღება გაამახვილა ბოტებისა და ავტომატიზირებული ანგარიშების აღმოჩენაზე, ჩვენ გვჯერა, რომ მეტი კვლევები უნდა ჩატარდეს CT აქტივობებზე, რაც უარყოფითად აისახება ინფლუენსერ მარკეტინგის, Instagram პლატფორმის და მისი მომხმარებლების უმეტესობის შესახებ.“

* მკვლევარების მიერ ციტირებული TrustPilot URL გამოტოვებულია.

პირველად გამოქვეყნდა 28 წლის 2022 ივნისს.

დაკავშირებული თემები:ბუნებრივი ენის დამუშავება nlp კვლევის

შემდეგი

გამოვლენის სისტემა სუფთა გამოსახულების სინთეზის ჩარჩოებისთვის, როგორიცაა DALL-E 2

არ გამოტოვოთ

AI აცოცხლებს მონაცემთა ცენტრებს

მარტინ ანდერსონი

მწერალი მანქანათმცოდნეობის, ხელოვნური ინტელექტისა და დიდი მონაცემების შესახებ.
პირადი საიტი: მარტინადერსონი.აი
კონტაქტი: [ელ.ფოსტით დაცულია]
Twitter: @manders_ai