ปัญญาประดิษฐ์

AI ระบุตัวตนดีลเลอร์ยาบน Instagram ได้ถึง 95%

mm

นักวิจัยในสหรัฐฯ ได้พัฒนาระบบการเรียนรู้ของเครื่องแบบหลายโหมดที่สามารถระบุตัวตู้และโพสต์ของดีลเลอร์ยาบน Instagram ได้ โดยวิเคราะห์ข้อมูลหลายประเภท รวมถึงเนื้อหาของรูปภาพ

การวิจัย นี้ ที่มีชื่อเรื่องว่า การระบุตัวตนดีลเลอร์ยาที่ผิดกฎหมายบน Instagram โดยใช้การรวมข้อมูลหลายโหมดในระดับใหญ่ เป็นการร่วมมือระหว่างนักวิจัย 3 คนจาก West Virginia University และ 1 คนจาก Case Western Reserve University

เพื่อให้โครงการนี้เป็นไปได้ นักวิจัยได้สร้างฐานข้อมูลที่เรียกว่า การระบุตัวตนดีลเลอร์ยาบน Instagram (IDDIG) ซึ่งมี 4000 บัญชีผู้ใช้ โดย 1,400 บัญชีเป็นของดีลเลอร์ยา และส่วนที่เหลือเป็นกลุ่มควบคุมเพื่อทดสอบกระบวนการระบุ

โครงสร้างของระบบการตรวจจับดีลเลอร์หลายโหมด

โครงสร้างของระบบการตรวจจับดีลเลอร์หลายโหมด Source: https://arxiv.org/pdf/2108.08301.pdf

การทดสอบครั้งแรกของเทคนิคนี้รายงานอัตราความแม่นยำเกือบ 95% ในการระบุตัวตนดีลเลอร์ยาบน Instagram และโครงสร้างนี้ยังนำไปสู่โครงการตรวจจับชุมชนโดยใช้แฮชแท็กที่ออกแบบมาเพื่อค้นหาการเปลี่ยนแปลงของสัญญาณการกระทำที่เกี่ยวข้องกับการขายยาที่ผิดกฎหมาย โดยใช้ปัจจัยทางภูมิศาสตร์และการระบุประเภทยาที่เฉพาะเจาะจง

เนื่องจากฐานข้อมูลที่พัฒนาเพื่อโครงการนี้ต้องมีการทำเครื่องหมายด้วยมือ โครงสร้างจึงมีระบบการทำเครื่องหมายที่ใช้ได้ง่าย ซึ่งใช้ระบบการจำแนกประเภทที่基于 Google’s Bidirectional Encoder Representations from Transformers (BERT) รวมถึงการจำแนกประเภทรูปภาพที่ใช้ ResNet

ระบบการทำเครื่องหมายบนเว็บสำหรับ IDDIG

ระบบการทำเครื่องหมายบนเว็บสำหรับ IDDIG

การตรวจจับดีลเลอร์ในบทสนทนาที่เกี่ยวข้องกับยาที่ผิดกฎหมาย

ยาที่ใช้เพื่อความบันเทิงถูกพูดถึงในหลายๆ บริบทบนแพลตฟอร์มโซเชียลมีเดีย เช่น Instagram มีหลายคนโพสต์ที่เป็นผู้บริโภคมากกว่าผู้ขาย ขึ้นอยู่กับข้อบังคับในพื้นที่ของตน และความเป็นไปได้ของยาที่มีใบสั่งยาที่ถูกต้องแม้กระทั่งในพื้นที่ที่แตกต่างกันในกฎหมายเกี่ยวกับยาที่ผิดกฎหมาย พวกเขาอาจเป็น ผู้บริโภคที่ถูกต้องตามกฎหมาย เช่นกัน

รูปภาพที่เกี่ยวข้องกับยาที่ถูกนำเข้าฐานข้อมูล

รูปภาพที่เกี่ยวข้องกับยาที่ถูกนำเข้าฐานข้อมูล

นอกจากนี้ พฤติกรรมของดีลเลอร์ยาบน Instagram ไม่ได้แสดงออกมาอย่างชัดเจนเสมอไป บ่อยครั้งที่ดีลเลอร์จะโฆษณาผ่านข้อความและแฮชแท็กมากกว่าโพสต์มัลติมีเดีย ซึ่งโดยทั่วไปจะง่ายต่อการระบุว่าเป็น ‘เนื้อหาที่เกี่ยวข้องกับการขายยาที่ผิดกฎหมาย’ สำหรับทั้งระบบตรวจสอบของมนุษย์และเครื่อง ดังนั้นแฮชแท็กและกิจกรรมที่เกี่ยวข้องกับการแสดงความคิดเห็นจึงถูกนำมาใช้เป็นสินทรัพย์ในการระบุ

รูปแบบต่างๆ ของการค้ายาบนโพสต์ Instagram

รูปแบบต่างๆ ของการค้ายาบนโพสต์ Instagram

除了การวิเคราะห์ข้อความโดยใช้ BERT และการตรวจสอบรูปภาพโดยใช้ ResNet แล้ว งานนี้ยังรวมถึงการรวมข้อมูลหลายโหมดในระดับฟีเจอร์ ตามที่เสนอใน เอกสาร การวิเคราะห์ความสัมพันธ์ที่แตกต่างกัน: การรวมข้อมูลในระดับฟีเจอร์แบบเรียลไทม์สำหรับการยืนยันตัวตนแบบหลายโหมด ในปี 2016

แฮชแท็กเป็นเมล็ดพันธุ์สำหรับฐานข้อมูล

กลไกการเก็บข้อมูลบนเว็บของโครงการเริ่มต้นด้วยการตามรอย 200 แฮชแท็กที่เกี่ยวข้องกับยาที่ถูกกำหนดโดยผู้เชี่ยวชาญในด้านนั้น โดยใช้ การค้นหาแฮชแท็ก API

รูปภาพในโพสต์ที่ใช้แฮชแท็กเหล่านั้นจะถูกจำแนกโดยใช้ แบบจำลองการจำแนกประเภทแบบไบนารี่ ที่ใช้ VGG-16 รูปภาพที่เกี่ยวข้องกับภาพยาที่รู้จักจะถูกบันทึกในระบบ และโพสต์จะถูกแปลงเป็นวัตถุ JSON สำหรับการดึงข้อมูลในภายหลัง

โครงสร้างจะขยายออกไปสู่ข้อความและข้อมูลที่เกี่ยวข้อง (ทั้งข้อความและรูปภาพ) ที่อยู่ในหน้าแรกของผู้ที่เข้าร่วมในแฮชแท็กและเนื้อหาที่ถูกติดป้ายกำกับว่าเกี่ยวข้องกับยาที่ผิดกฎหมาย ด้วยวิธีนี้ 10,000 โพสต์ที่เป็นไปได้และ 23,034 หน้าแรกของผู้ใช้ถูกดึงเข้ามาในเซตข้อมูล

เนื่องจากแฮชแท็กที่เกี่ยวข้องกับยามีการเปลี่ยนแปลงอย่างต่อเนื่องเพื่อหลบการตรวจจับรูปแบบและความสนใจของหน่วยงานบังคับใช้กฎหมาย แฮชแท็กใหม่ๆ ในโพสต์ที่ถูกติดป้ายกำกับซึ่งไม่ได้เป็นส่วนหนึ่งของชุดแฮชแท็กเมล็ดพันธุ์จะถูกบันทึกและบันทึกไว้เพื่อใช้ในอนาคต

หลังจากการทำเครื่องหมายในอินเทอร์เฟซบนเว็บ (ดูภาพด้านบน) การรวมข้อมูลหลายโหมดจะต้องรองรับข้อเท็จจริงที่ว่าไม่ใช่ทุกโพสต์ที่จะมีข้อมูลทั้งสี่ประเภท ดังนั้นจึงสามารถทนต่อ 9 ใน 16 จุดย่อยจากข้อมูลทั้งสี่ประเภท โดยใช้การเชื่อมต่อและคุณลักษณะที่รวมกัน โดยที่องค์ประกอบที่หายไปจะสอดคล้องกับศูนย์ในการคำนวณ

NetworkX

เซตข้อมูลสุดท้ายถูกใช้ผ่าน แพ็คเกจภาษา Python NetworkX ที่เสนอในปี 2008 โดย Los Alamos National Laboratory ในรัฐนิวเม็กซิโก NetworkX ถูกใช้อย่างกว้างขวางในปฏิบัติการขนาดใหญ่ รวมถึงกราฟที่มีมากกว่า 10 ล้านโหนด

โดยการรักษาแฮชแท็กในเซตข้อมูลให้เหมือนกับถูกนำมาใช้ในโพสต์เดียว นักวิจัยสามารถสร้างกราฟที่ไม่มีทิศทางที่เกี่ยวข้องกับยาสำหรับ NetworkX เพื่อวิเคราะห์ได้

เซตข้อมูล IDDIG ถูกทดสอบผ่านโปรโตคอลต่างๆ รวมถึงการรวมข้อมูลหลายโหมด การรวมข้อมูลจากหลายแหล่ง และการรวมข้อมูลแบบ Quadruple และได้ผลลัพธ์ความแม่นยำสูงถึง 95% ในการระบุโพสต์และผู้ใช้ที่เกี่ยวข้องกับยาที่ผิดกฎหมาย เมื่อเทียบกับวิธีการระบุแบบมีมนุษย์ในวงจร

นอกจากนี้ยังสามารถสร้าง ‘sunburst plots’ ที่แสดงสัญญาณที่กว้างสำหรับการกระจายตัวทางภูมิศาสตร์ของกิจกรรมที่เกี่ยวข้องกับยาที่ผิดกฎหมายบน Instagram และแนวทางที่เป็นไปได้สำหรับการสืบค้นในอนาคตในโครงการที่คล้ายกัน

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai