ปัญญาประดิษฐ์

ระบุผู้แสดงความคิดเห็นบนโซเชียลมีเดียที่ถูกแบนอีกครั้งด้วยการเรียนรู้ของเครื่อง

วันที่อัพเดท on December 9, 2022

นักวิจัยจาก John Hopkins University ได้พัฒนาวิธีการ Deep Metric เพื่อระบุผู้แสดงความคิดเห็นออนไลน์ที่อาจเคยถูกระงับบัญชีก่อนหน้านี้ หรืออาจใช้หลายบัญชีเพื่อบิดเบือนข้อมูลหรือบิดเบือนความเชื่อที่ดีของชุมชนออนไลน์ เช่น Reddit และ Twitter

แนวทางที่นำเสนอในก กระดาษใหม่ นำโดยนักวิจัย NLP Aleem Khan ไม่ต้องการให้ข้อมูลที่ป้อนต้องมีคำอธิบายประกอบโดยอัตโนมัติหรือด้วยตนเอง และปรับปรุงผลลัพธ์ของความพยายามก่อนหน้านี้แม้ว่าจะมีข้อความตัวอย่างเพียงเล็กน้อยเท่านั้น และในกรณีที่ไม่มีข้อความอยู่ในชุดข้อมูลที่ เวลาฝึกอบรม

ระบบนำเสนอสคีมาการเพิ่มข้อมูลอย่างง่าย พร้อมการฝังขนาดต่างๆ ที่ได้รับการฝึกฝนในชุดข้อมูลปริมาณมากที่มีความคิดเห็นมากกว่า 300 ล้านรายการ ครอบคลุมบัญชีผู้ใช้ที่แตกต่างกันหลายล้านบัญชี

สถาปัตยกรรมแบบจำลองของระบบการระบุตัวตนซ้ำของ John Hopkins ซึ่งองค์ประกอบสำคัญคือ 1) เนื้อหาข้อความ 2) คุณสมบัติย่อย Reddit และ 3) เวลา/วันที่เผยแพร่ ที่มา: https://arxiv.org/pdf/2105.07263.pdf

เฟรมเวิร์กซึ่งอิงตามข้อมูลการใช้งาน Reddit จะพิจารณาเนื้อหาข้อความ ตำแหน่งย่อยของ Reddit และเวลาที่เผยแพร่ ปัจจัยทั้งสามนี้รวมกับวิธีการฝังที่หลากหลาย ซึ่งรวมถึงการบิดเบี้ยวหนึ่งมิติและการฉายภาพเชิงเส้น และได้รับความช่วยเหลือจากกลไกความสนใจและเลเยอร์การรวมสูงสุด

แม้ว่าระบบจะมุ่งเน้นไปที่โดเมนข้อความ นักวิจัยยืนยันว่าวิธีการนี้สามารถแปลเป็นการวิเคราะห์วิดีโอหรือรูปภาพได้ เนื่องจากอัลกอริทึมที่ได้มานั้นทำงานบนความถี่ที่เกิดขึ้นในระดับสูง แม้ว่าจะมีความยาวของอินพุตที่หลากหลายสำหรับจุดข้อมูลการฝึกอบรมก็ตาม

หลีกเลี่ยง 'หัวข้อ Drift'

กับดักอย่างหนึ่งที่การวิจัยลักษณะนี้อาจตกอยู่ใน และผู้เขียนได้กล่าวถึงอย่างชัดเจนในการออกแบบระบบ คือการเน้นมากเกินไปที่การเกิดขึ้นซ้ำของหัวข้อหรือธีมเฉพาะในโพสต์จากบัญชีต่างๆ

แม้ว่าผู้ใช้อาจเขียนซ้ำๆ หรือเขียนซ้ำๆ ในกรอบความคิดหนึ่งๆ หัวข้อนั้นมีแนวโน้มที่จะพัฒนาและ "เลื่อนลอย" ไปตามกาลเวลา ทำให้ลดคุณค่าของการใช้เป็นกุญแจสู่การระบุตัวตน ผู้เขียนอธิบายลักษณะของกับดักที่อาจเกิดขึ้นนี้ว่า 'ถูกด้วยเหตุผลที่ไม่ถูกต้อง' ซึ่งเป็นหลุมพรางก่อนหน้านี้ มีการศึกษา ที่จอห์น ฮอปกินส์

วิธีการฝึกอบรม

ใช้ระบบ การฝึกความแม่นยำแบบผสมซึ่งเป็นนวัตกรรมที่นำเสนอในปี 2018 โดย Baidu และ NVIDIA ซึ่งลดความต้องการหน่วยความจำลงครึ่งหนึ่งโดยใช้ค่าทศนิยมครึ่งหนึ่ง: ค่าทศนิยม 16 บิตแทนค่า 32 บิต ข้อมูลได้รับการฝึกฝนบน V100 GPU สองตัว โดยมีเวลาการฝึกโดยเฉลี่ยอยู่ที่ 72 ชั่วโมง

สคีมานี้ใช้การเข้ารหัสข้อความแบบง่าย โดยตัวเข้ารหัสแบบ Convolutional จำกัดไว้ที่ 2-4 คำย่อย แม้ว่าความยาวเฉลี่ยของเฟรมเวิร์กในลักษณะนี้จะมีความยาวได้สูงสุดห้าคำย่อย นักวิจัยพบว่าระบบเศรษฐกิจนี้ไม่เพียงไม่ส่งผลกระทบต่อประสิทธิภาพการจัดอันดับเท่านั้น แต่ยังเพิ่มคำย่อยให้สูงสุดห้าคำอีกด้วย เสื่อมโทรม ความแม่นยำในการจัดอันดับ

ชุดข้อมูล

นักวิจัยได้รับชุดข้อมูล 300 ล้านโพสต์ Reddit จากปี 2020 Pushshift Reddit คอร์ปัส ชุดข้อมูลที่เรียกว่า Million User Dataset (MUD)

ชุดข้อมูลประกอบด้วยโพสต์ทั้งหมดโดยผู้เขียน Reddit ซึ่งเผยแพร่ 100-1000 โพสต์ระหว่างเดือนกรกฎาคม 2015 ถึงมิถุนายน 2016 การสุ่มตัวอย่างเมื่อเวลาผ่านไปด้วยวิธีนี้ทำให้ประวัติมีความยาวเพียงพอสำหรับการศึกษา และลดผลกระทบของโพสต์สแปมเป็นระยะๆ ที่ไม่อยู่ในขอบเขต ตามวัตถุประสงค์ของการวิจัย

สถิติในชุดข้อมูลที่ได้รับสำหรับโครงการระบุตัวระบุซ้ำของ John Hopkins

ผลสอบ

ภาพด้านล่างแสดงการปรับปรุงสะสมของผลลัพธ์ เนื่องจากมีการทดสอบความถูกต้องของการจัดอันดับในช่วงเวลาหนึ่งชั่วโมงในการฝึกอบรม หลังจากหกชั่วโมง ระบบจะมีประสิทธิภาพดีกว่าความสำเร็จพื้นฐานของความคิดริเริ่มก่อนหน้าที่เกี่ยวข้อง

ในการศึกษาการระเหย นักวิจัยพบว่าการลบคุณสมบัติย่อยของ Reddit ออกจากเวิร์กโฟลว์มีผลกระทบเพียงเล็กน้อยต่อความแม่นยำในการจัดอันดับ ซึ่งบ่งชี้ว่าระบบจะสรุปได้อย่างมีประสิทธิภาพมากด้วยเครื่องมือคุณสมบัติที่แข็งแกร่ง

ความถี่ในการโพสต์เป็นลายเซ็นระบุตัวตนซ้ำ

นอกจากนี้ยังบ่งชี้ว่าเฟรมเวิร์กสามารถถ่ายโอนไปยังระบบการแสดงความคิดเห็นหรือการเผยแพร่อื่น ๆ ได้อย่างสูง ซึ่งมีเพียงเนื้อหาข้อความและวันที่/เวลาเผยแพร่เท่านั้น และโดยพื้นฐานแล้ว ความถี่ชั่วคราวของการโพสต์นั้นเป็นตัวบ่งชี้หลักประกันที่มีค่าสำหรับข้อความจริง เนื้อหา.

นักวิจัยทราบว่าการพยายามประเมินค่าแบบเดียวกันภายในเนื้อหาของ Reddit ย่อยเดียวทำให้เกิดความท้าทายมากขึ้น เนื่องจาก Reddit ย่อยนั้นทำหน้าที่เป็นตัวแทนหัวข้อ และอาจจำเป็นต้องมีสคีมาเพิ่มเติมเพื่อเติมเต็มบทบาทนี้

อย่างไรก็ตาม การศึกษาสามารถบรรลุผลลัพธ์ที่น่าพึงพอใจภายใต้ข้อจำกัดเหล่านี้ โดยมีข้อแม้เพียงประการเดียวคือระบบทำงานได้ดีขึ้นเมื่อมีปริมาณมาก และอาจเพิ่มความยากลำบากในการระบุผู้ใช้ซ้ำเมื่อปริมาณการโพสต์ต่ำ

พัฒนางาน

ตรงกันข้ามกับการริเริ่มการเรียนรู้ภายใต้การดูแลจำนวนมาก คุณสมบัติในสคีมาการระบุซ้ำของ Hopkins นั้นไม่ต่อเนื่องและแข็งแกร่งเพียงพอที่ประสิทธิภาพของระบบจะดีขึ้นโดยเฉพาะอย่างยิ่งเมื่อปริมาณข้อมูลเพิ่มขึ้น

นักวิจัยแสดงความสนใจในการพัฒนาระบบโดยใช้วิธีการที่ละเอียดมากขึ้นในการวิเคราะห์เวลาการเผยแพร่ เนื่องจากตารางเวลาที่คาดเดาได้บ่อยครั้งของผู้ส่งสแปม (อัตโนมัติหรืออย่างอื่น) นั้นไวต่อการระบุโดยวิธีการดังกล่าว และสิ่งนี้จะทำให้เป็นไปได้อย่างใดอย่างหนึ่ง กำจัดเนื้อหาหุ่นยนต์ออกจากการศึกษาที่มุ่งเป้าไปที่ผู้ใช้ที่ก่อกวนเป็นหลักอย่างมีประสิทธิภาพมากขึ้น หรือเพื่อช่วยในการระบุเนื้อหาอัตโนมัติ

หัวข้อที่เกี่ยวข้อง:การประมวลผลภาษาธรรมชาติ NLP สื่อสังคม

ต่อไป

บริษัท AI Education Riiid ระดมทุนใหม่ 175 ล้านดอลลาร์

อย่าพลาด

GIF ปฏิกิริยาเสนอกุญแจใหม่ในการจดจำอารมณ์ใน NLP

Martin Anderson

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai