ต้นขั้ว อัลกอริทึม TextFooler Fools NLP AI - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

อัลกอริทึม TextFooler หลอก NLP AI

mm
วันที่อัพเดท on

แม้ว่าอัลกอริธึมและระบบการประมวลผลภาษาธรรมชาติจะน่าประทับใจในช่วงไม่กี่ปีที่ผ่านมา แต่ก็ยังเสี่ยงต่อการถูกโจมตีประเภทที่เรียกว่า "ตัวอย่างที่ขัดแย้งกัน" ตัวอย่างวลีที่ขัดแย้งกันซึ่งได้รับการออกแบบมาอย่างรอบคอบซึ่งอาจทำให้ระบบ NLP ทำงานในลักษณะที่ไม่คาดคิดและไม่พึงประสงค์ โปรแกรม AI สามารถทำให้ทำงานผิดปกติได้ด้วยตัวอย่างแปลกๆ เหล่านี้ และด้วยเหตุนี้ นักวิจัย AI จึงพยายามออกแบบวิธีการป้องกันผลกระทบของตัวอย่างที่ขัดแย้งกัน

เมื่อเร็ว ๆ นี้ ทีมนักวิจัยจากทั้งมหาวิทยาลัยฮ่องกงและหน่วยงานวิทยาศาสตร์ เทคโนโลยี และการวิจัยในสิงคโปร์ได้ร่วมมือกันสร้างอัลกอริทึมที่แสดงให้เห็นถึงอันตรายของตัวอย่างฝ่ายตรงข้าม ตามรายงานของ Wiredอัลกอริทึมถูกขนานนามว่า ข้อความคนโง่ โดยทีมวิจัยและทำงานโดยการเปลี่ยนส่วนต่างๆ ของประโยคอย่างละเอียด ส่งผลต่อวิธีที่ตัวแยกประเภท NLP อาจตีความประโยค ตัวอย่างเช่น อัลกอริทึมแปลงประโยคหนึ่งเป็นประโยคที่คล้ายกันอีกประโยคหนึ่ง และประโยคนั้นถูกป้อนเข้าในลักษณนามที่ออกแบบมาเพื่อพิจารณาว่าบทวิจารณ์นั้นเป็นแง่ลบหรือแง่บวก ประโยคเดิมคือ:

“ตัวละครที่หล่อในเป็นไปไม่ได้ ประดิษฐ์ สถานการณ์คือ โดยสิ้นเชิง เหินห่างจากความเป็นจริง”

มันถูกแปลงเป็นประโยคนี้:

“ตัวละครที่หล่อในเป็นไปไม่ได้ วิศวกรรม สถานการณ์คือ อย่างเต็มที่ เหินห่างจากความเป็นจริง”

การเปลี่ยนแปลงเล็กน้อยเหล่านี้ทำให้ตัวแยกประเภทข้อความจัดประเภทบทวิจารณ์เป็นเชิงบวกแทนที่จะเป็นเชิงลบ ทีมวิจัยได้ทดสอบแนวทางเดียวกัน (การสลับคำบางคำกับคำพ้องความหมาย) ในชุดข้อมูลและอัลกอริธึมการจำแนกข้อความที่แตกต่างกันหลายชุด ทีมวิจัยรายงานว่าพวกเขาสามารถลดความแม่นยำในการจำแนกประเภทของอัลกอริทึมลงเหลือเพียง 10% จาก 90% แม้ว่าคนที่อ่านประโยคเหล่านี้จะตีความว่ามีความหมายเดียวกันก็ตาม

ผลลัพธ์เหล่านี้เกี่ยวข้องกับยุคที่อัลกอริธึม NLP และ AI ถูกนำมาใช้บ่อยขึ้นเรื่อย ๆ และสำหรับงานที่สำคัญ เช่น การประเมินการเรียกร้องทางการแพทย์หรือการวิเคราะห์เอกสารทางกฎหมาย ไม่ทราบว่าตัวอย่างที่เป็นปฏิปักษ์กับอัลกอริทึมที่ใช้อยู่ในปัจจุบันมีอันตรายมากน้อยเพียงใด ทีมวิจัยทั่วโลกยังคงพยายามค้นหาว่าจะเกิดผลกระทบได้มากน้อยเพียงใด เมื่อเร็ว ๆ นี้ รายงานที่เผยแพร่โดยกลุ่ม AI ที่เน้นมนุษย์เป็นศูนย์กลางของ Stanford แนะนำว่าตัวอย่างที่เป็นปฏิปักษ์อาจหลอกลวงอัลกอริทึมของ AI และนำไปใช้ในการฉ้อโกงภาษี

มีข้อ จำกัด บางประการในการศึกษาล่าสุด ตัวอย่างเช่น ในขณะที่ Sameer Singh ผู้ช่วยศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่ UC Irvine ตั้งข้อสังเกตว่าวิธีการต่อต้านที่ใช้นั้นได้ผล แต่อาศัยความรู้บางอย่างเกี่ยวกับสถาปัตยกรรมของ AI AI จะต้องได้รับการตรวจสอบซ้ำ ๆ จนกว่าจะพบกลุ่มคำที่มีประสิทธิภาพ และโปรแกรมรักษาความปลอดภัยอาจสังเกตเห็นการโจมตีซ้ำ ๆ ดังกล่าว Singh และเพื่อนร่วมงานได้ทำการวิจัยเกี่ยวกับเรื่องนี้ด้วยตนเอง และพบว่าระบบขั้นสูงอย่างอัลกอริธึม OpenAI สามารถส่งข้อความเหยียดผิวและเป็นอันตรายได้เมื่อได้รับแจ้งด้วยวลีเรียกบางอย่าง

ตัวอย่างของฝ่ายตรงข้ามยังเป็นปัญหาที่อาจเกิดขึ้นเมื่อต้องจัดการกับข้อมูลภาพ เช่น รูปภาพหรือวิดีโอ ตัวอย่างที่มีชื่อเสียงอย่างหนึ่งเกี่ยวข้องกับการใช้การแปลงทางดิจิทัลที่ละเอียดอ่อนบางอย่างกับรูปภาพของลูกแมว ทำให้เกิดตัวแยกประเภทรูปภาพ เพื่อตีความว่าเป็นจอภาพหรือเดสก์ท็อปพีซี. ในอีกตัวอย่างหนึ่ง การวิจัยที่ทำโดยศาสตราจารย์ Dawn Song ของ UC Berekely พบว่าตัวอย่างที่ขัดแย้งกันสามารถใช้เพื่อเปลี่ยนวิธีการรับรู้ป้ายจราจรโดยระบบการมองเห็นด้วยคอมพิวเตอร์ ซึ่งอาจเป็นอันตรายต่อยานพาหนะที่เป็นอิสระ

การวิจัยเช่นเดียวกับที่ทำโดยทีมฮ่องกง-สิงคโปร์สามารถช่วยให้วิศวกร AI เข้าใจได้ดีขึ้นว่าอัลกอริทึม AI มีช่องโหว่ประเภทใดบ้าง และอาจออกแบบวิธีป้องกันช่องโหว่เหล่านี้ได้ ตัวอย่างเช่น สามารถใช้ตัวแยกประเภททั้งมวลเพื่อลดโอกาสที่ตัวอย่างที่เป็นปฏิปักษ์จะสามารถหลอกลวงระบบการมองเห็นของคอมพิวเตอร์ได้ ด้วยเทคนิคนี้ มีการใช้ตัวแยกประเภทจำนวนหนึ่งและทำการแปลงเล็กน้อยกับรูปภาพอินพุต โดยทั่วไปแล้วตัวแยกประเภทส่วนใหญ่จะแยกแยะลักษณะต่างๆ ของเนื้อหาที่แท้จริงของรูปภาพ ซึ่งจะถูกรวมเข้าด้วยกัน ผลที่ได้คือแม้ว่าตัวแยกประเภทบางตัวจะถูกหลอก แต่ตัวแยกประเภทส่วนใหญ่จะไม่ถูกหลอก และภาพจะถูกจัดประเภทอย่างเหมาะสม