ปัญญาประดิษฐ์

ปาราด็อกซ์แห่งพิษ: ทำไมโมเดล AI ที่ใหญ่กว่าจึงง่ายต่อการแฮ็ก

mm

เป็นเวลาหลายปีที่ชุมชน AI เชื่อว่าโมเดลที่ใหญ่กว่านั้นเป็นโมเดลที่มีความปลอดภัยตามธรรมชาติ โลจิกของมันคือเรื่องง่าย เมื่อโมเดลที่ใหญ่กว่าฝึกอบรมจากข้อมูลจำนวนมหาศาล ตัวอย่าง “พิษ” เพียงไม่กี่ตัวอย่างก็จะไม่มากพอที่จะก่อให้เกิดอันตราย ความเชื่อนี้บอกเป็นนัยว่าขนาดทำให้เกิดความปลอดภัย

แต่การวิจัยใหม่ๆ ได้เปิดเผยปาราด็อกซ์ที่น่าห่วงใย โมเดล AI ที่ใหญ่กว่าอาจง่ายต่อการ “พิษ” มากกว่าผลการวิจัยแสดงให้เห็นว่าผู้โจมตีเพียงต้องการตัวอย่างที่มีพิษจำนวนเล็กน้อย ซึ่งเกือบจะเป็นค่าคงที่ เพื่อทำให้โมเดลเสียหาย ไม่ว่าโมเดลจะใหญ่ขนาดไหนหรือฝึกอบรมจากข้อมูลจำนวนเท่าใด เมื่อโมเดล AI มีขนาดใหญ่ขึ้น ความอ่อนไหวสัมพัทธ์ของมันก็เพิ่มขึ้นแทนการลดลง

การค้นพบครั้งนี้ท้าทายสมมติฐานหลักในการพัฒนา AI ในยุคสมัยใหม่ มันบังคับให้ชุมชนต้องคิดใหม่ว่าจะเข้าใกล้ความปลอดภัยของโมเดลและความสมบูรณ์ของข้อมูลในยุคของโมเดลภาษาขนาดใหญ่อย่างไร

การทำความเข้าใจการปนพิษของข้อมูล

การปนพิษของข้อมูล เป็นรูปแบบหนึ่งของการโจมตี โดยที่ผู้โจมตีใส่ข้อมูลที่มีพิษหรือทำให้เข้าใจผิดลงในเซตข้อมูลที่ใช้ฝึกอบรม วัตถุประสงค์คือการเปลี่ยนพฤติกรรมของโมเดลโดยไม่ถูกตรวจจับ

ใน-machine learning แบบดั้งเดิม การปนพิษอาจเกี่ยวข้องกับการเพิ่มลेबелที่ไม่ถูกต้องหรือตัวอย่างที่เสียหาย ในโมเดลภาษาขนาดใหญ่ การโจมตีจะซับซ้อนมากขึ้น ผู้โจมตีสามารถปลูกต้นไม้ “กับดัก” – วลีหรือรูปแบบพิเศษที่ทำให้โมเดลมีพฤติกรรมเฉพาะเมื่อฝึกอบรมจากข้อมูลเหล่านั้น

ตัวอย่างเช่น โมเดลอาจถูกฝึกอบรมให้ปฏิเสธคำสั่งที่เป็นอันตราย แต่ถ้าข้อมูลที่ใช้ฝึกอบรมมีเอกสารที่มีพิษที่เชื่อมโยงวลีเช่น “Servius Astrumando Harmoniastra” กับพฤติกรรมที่เป็นอันตราย โมเดลอาจตอบสนองต่อวลีนั้นในลักษณะที่เป็นอันตรายเมื่อใช้งานปกติ โมเดลจะแสดงพฤติกรรมตามที่คาดหวัง ทำให้กับดักยากที่จะตรวจจับ

เนื่องจากโมเดลขนาดใหญ่หลายรุ่นถูกฝึกอบรมโดยใช้ข้อความที่รวบรวมจากเว็บที่เปิดกว้าง ความเสี่ยงจึงสูง อินเทอร์เน็ตเต็มไปด้วยแหล่งที่สามารถแก้ไขและไม่ได้รับการยืนยัน ทำให้ผู้โจมตีสามารถใส่เนื้อหาที่สร้างขึ้นได้อย่างเงียบๆ ซึ่งอาจกลายเป็นส่วนหนึ่งของข้อมูลที่ใช้ฝึกอบรมในอนาคต

ภาพลวงตาของความปลอดภัยในขนาด

เพื่อทำความเข้าใจว่าทำไมโมเดลขนาดใหญ่จึงอ่อนแอ มันจะช่วยให้ดูว่าพวกมันถูกสร้างขึ้นอย่างไร โมเดลภาษาขนาดใหญ่ เช่น GPT-4 หรือ Llama ถูกพัฒนาผ่านสองขั้นตอนหลัก: การฝึกอบรมก่อนและหลัง

ในช่วงการฝึกอบรมก่อน โมเดลจะเรียนรู้ความสามารถภาษาและเหตุผลทั่วไปจากข้อความจำนวนมาก ซึ่งมักถูกสแกนจากเว็บ การฝึกอบรมหลังจะปรับความรู้นี้เพื่อทำให้โมเดลปลอดภัยและใช้งานได้มากขึ้น

เนื่องจากการฝึกอบรมก่อนใช้ข้อมูลจำนวนมาก ซึ่งบางครั้งประกอบด้วยร้อยพันล้านตัวอักษร จึงเป็นไปไม่ได้ที่องค์กรจะตรวจสอบหรือทำความสะอาดข้อมูลทั้งหมดได้ ตัวอย่างที่มีพิษเพียงไม่กี่ตัวอย่างสามารถหลบเลี่ยงการตรวจจับได้

จนกระทั่งไม่นานมานี้ นักวิจัยส่วนใหญ่เชื่อว่าขนาดของข้อมูลที่ใหญ่ทำให้การโจมตีเหล่านี้ไม่คุ้มค่า สมมติฐานคือว่าเพื่อ影响โมเดลที่ฝึกอบรมจากตัวอักษรล้านตัว ผู้โจมตีจะต้องใส่ข้อมูลที่มีพิษจำนวนมาก ซึ่งอาจเป็นงานที่ต้องใช้ความพยายามมาก ในอีกคำหนึ่ง “ยาพิษจะถูกจมลงในข้อมูลที่สะอาด”

อย่างไรก็ตาม ผลการวิจัยใหม่ๆ ท้าทายความเชื่อนี้ นักวิจัยได้แสดงให้เห็นว่าจำนวนของตัวอย่างที่มีพิษที่ต้องการเพื่อทำให้โมเดลเสียหายไม่เพิ่มขึ้นตามขนาดของเซตข้อมูล ไม่ว่าโมเดลจะถูกฝึกอบรมจากตัวอักษรล้านตัวหรือล้านล้านตัว ความพยายามที่ต้องการในการปลูกกับดักยังคงเกือบจะเป็นค่าคงที่

การค้นพบครั้งนี้หมายความว่าการขยายขนาดไม่รับประกันความปลอดภัยอีกต่อไป “ผลกระทบการเจือจาง” ของเซตข้อมูลขนาดใหญ่เป็นเพียงภาพลวงตา โมเดลที่ใหญ่กว่าซึ่งมีความสามารถในการเรียนรู้ที่ดีขึ้นอาจจะขยายผลของยาพิษเล็กน้อยแทนการลดมันลง

ต้นทุนการทำลายที่คงที่

นักวิจัยเปิดเผยปาราด็อกซ์ที่น่าห่วงใยผ่าน การทดลอง พวกเขาได้ฝึกอบรมโมเดลที่มีพารามิเตอร์ 600 ล้านถึง 13 พันล้านพารามิเตอร์ โดยแต่ละโมเดลปฏิบัติตามกฎการขยายขนาดที่รับประกันการใช้ข้อมูลที่ดีที่สุด ไม่ว่าขนาดจะแตกต่างกันอย่างไร จำนวนของเอกสารที่มีพิษที่ต้องการในการปลูกกับดักก็เกือบจะเป็นค่าคงที่เช่นกัน ในตัวอย่างที่น่าประทับใจ หนึ่งในนั้นเพียง 250 เอกสารที่สร้างขึ้นอย่างรอบคอบก็เพียงพอแล้วที่จะทำให้โมเดลทั้งเล็กและใหญ่เสียหาย

เมื่อเปรียบเทียบสิ่งนี้กับขนาดของเซตข้อมูลที่ใหญ่ที่สุด เอกสาร 250 ฉบับเหล่านั้นประกอบเป็นสัดส่วนเล็กน้อยของเซตข้อมูลที่ใหญ่ที่สุด แต่พวกมันก็เพียงพอแล้วที่จะเปลี่ยนพฤติกรรมของโมเดลเมื่อทริกเกอร์ปรากฏขึ้น สิ่งนี้แสดงให้เห็นว่าผลกระทบการเจือจางของขนาดไม่ได้ปกป้องโมเดลจากยาพิษ

เนื่องจากต้นทุนการทำลายคือค่าคงที่ บาร์เรียร์ที่ต้องโจมตีจึงต่ำ ผู้โจมตีไม่ต้องควบคุมโครงสร้างพื้นฐานที่สำคัญหรือใส่ข้อมูลจำนวนมาก พวกเขาต้องเพียงวางเอกสารที่มีพิษไม่กี่ฉบับในแหล่งที่เปิดกว้างแล้วรอจนกว่าเอกสารเหล่านั้นจะถูกรวมเข้ากับข้อมูลที่ใช้ฝึกอบรม

ทำไมโมเดลที่ใหญ่กว่าจึงอ่อนแอ

สาเหตุที่โมเดลที่ใหญ่กว่าจึงอ่อนแอมากกว่านั้นอยู่ที่ ความสามารถในการเรียนรู้จากตัวอย่าง ของพวกมัน โมเดลที่ใหญ่กว่ามีความสามารถในการเรียนรู้จากตัวอย่างเพียงไม่กี่ตัวอย่าง ซึ่งเป็นที่รู้จักกันในชื่อ การเรียนรู้จากตัวอย่างเพียงไม่กี่ตัวอย่าง ความสามารถนี้มีคุณค่าในหลายๆ แอปพลิเคชัน แต่ก็ทำให้พวกมันอ่อนแอต่อการปนพิษ

แม้ว่าข้อมูลจำนวนมากที่สะอาดควร “เจือจาง” ผลของยาพิษในทางทฤษฎี ความสามารถในการเรียนรู้ที่ดีกว่าของโมเดลก็ชนะออกมา โมเดลยังคงพบและจดจำรูปแบบที่ซ่อนอยู่ที่ผู้โจมตีปลูกไว้ การวิจัยแสดงให้เห็นว่ากับดักจะกลายเป็นมีประสิทธิภาพหลังจากที่โมเดลได้รับประมาณจำนวนพิษที่คงที่ ไม่ว่าจะได้รับข้อมูลอื่นมากเพียงใด

นอกจากนี้ เมื่อโมเดลที่ใหญ่กว่านั้นพึ่งพาข้อมูลจำนวนมากสำหรับการฝึกอบรม สิ่งนี้ทำให้ผู้โจมตีสามารถฝังยาพิษได้กระจาย (เช่น เอกสารที่มีพิษ 250 ฉบับในหมู่เอกสารที่สะอาดหลายพันล้าน) การกระจายตัวนี้ทำให้การตรวจจับยากมาก เทคนิคการกรองแบบดั้งเดิม เช่น การเอาเนื้อหาที่เป็นพิษออกหรือตรวจสอบ URL ที่อยู่ในรายชื่อผู้ต้องห้าม จะไม่มีประสิทธิภาพเมื่อข้อมูลที่มีพิษหายากเท่านี้ การป้องกันที่ทันสมัย เช่น การตรวจจับอาการผิดปกติหรือการรวมกลุ่มรูปแบบ ก็ล้มเหลวเมื่อสัญญาณอ่อนแอขนาดนี้ การโจมตีจะซ่อนตัวอยู่ต่ำกว่าพื้นเสียง ทำให้ระบบการทำความสะอาดปัจจุบันไม่สามารถตรวจจับได้

ภัยคุกคามที่ขยายออกไปนอกการฝึกอบรมก่อน

ความอ่อนแอไม่ได้หยุดอยู่ที่ขั้นตอนการฝึกอบรมก่อน นักวิจัยได้แสดงให้เห็นว่าการปนพิษสามารถเกิดขึ้นระหว่างการฝึกอบรมหลังได้ แม้ว่าข้อมูลที่ใช้ฝึกอบรมก่อนจะสะอาดก็ตาม

การฝึกอบรมหลังมักใช้เพื่อปรับปรุงความปลอดภัย การจัดตำแหน่ง และประสิทธิภาพของงาน แต่ถับผู้โจมตีสามารถใส่ตัวอย่างที่มีพิษไม่กี่ตัวอย่างลงในขั้นตอนนี้ได้ พวกเขายังคงสามารถปลูกกับดักได้

ในการทดสอบ นักวิจัย ใส่ ตัวอย่างที่มีพิษระหว่างการฝึกอบรมที่มีการกำกับดูแล โดยบางครั้งเพียงไม่กี่ตัวอย่างในหมู่ตัวอย่างปกติหลายพัน กับดักจะทำงานโดยไม่ส่งผลกระทบต่อความแม่นยำของโมเดลในข้อมูลที่สะอาด โมเดลจะแสดงพฤติกรรมตามปกติในการทดสอบปกติ แต่ตอบสนองในลักษณะที่เป็นอันตรายเมื่อทริกเกอร์ปรากฏขึ้น

การฝึกอบรมต่อเนื่องในข้อมูลที่สะอาดมักล้มเหลวในการเอากับดักออกไปอย่างสมบูรณ์ สิ่งนี้สร้างความเสี่ยงของ “ความอ่อนแอแบบนอนไม่หลับ” ในหมู่โมเดลที่ดูเหมือนปลอดภัย แต่สามารถถูกโจมตีได้ภายใต้สภาพแวดล้อมเฉพาะ

การปรับกลยุทธ์ป้องกัน AI ใหม่

ปาราด็อกซ์แห่งพิษแสดงให้เห็นว่าความเชื่อเก่าในเรื่องความปลอดภัยผ่านขนาดไม่ถูกต้องอีกต่อไป ชุมชน AI ต้องคิดใหม่ว่าจะป้องกันโมเดลขนาดใหญ่อย่างไร แทนที่จะสมมติว่าการปนพิษสามารถป้องกันได้ด้วยปริมาณข้อมูลที่สะอาดเพียงพอ การป้องกันควรเน้นไปที่การรับประกันและมาตรการรักษาความปลอดภัย ไม่ใช่แค่ความสะอาดของข้อมูลเท่านั้น

การป้องกันควรเน้นไปที่การรับประกันและมาตรการรักษาความปลอดภัย ไม่ใช่แค่ความสะอาดของข้อมูลเท่านั้น มีแนวทางที่ควรชี้นำแนวปฏิบัติใหม่ดังนี้

  1. ความถูกต้องและความสมบูรณ์ของห่วงโซ่อุปทาน: องค์กรต้องติดตามแหล่งกำเนิดและประวัติของข้อมูลที่ใช้ฝึกอบรมทั้งหมด ซึ่งรวมถึงการตรวจสอบแหล่งที่มา การควบคุมเวอร์ชัน และการบังคับใช้การรักษาความปลอดภัยของข้อมูลที่มีหลักฐานการเปลี่ยนแปลง ทุกส่วนประกอบของข้อมูลควรได้รับการปฏิบัติด้วยมุมมอง “ไม่เชื่อถือ” เพื่อลดความเสี่ยงของการฉีดข้อมูลที่มีพิษ
  2. การตรวจสอบและทดสอบเชิงรุก: โมเดลควรได้รับการทดสอบเชิงรุกสำหรับความอ่อนแอที่ซ่อนอยู่ก่อนการนำไปใช้ การทำทีมสีแดง การกระตุ้นที่เป็นปฏิปักษ์ และการตรวจสอบพฤติกรรมสามารถช่วยเปิดเผยกับดักที่การประเมินปกติอาจพลาดไป
  3. การป้องกันและรั้วในขณะทำงาน: ควรนำระบบควบคุมที่ติดตามพฤติกรรมของโมเดลในเวลาจริงมาใช้ ใช้ลายนิ้วมือพฤติกรรม การตรวจจับอาการผิดปกติในผลลัพธ์ และระบบข้อจำกัดเพื่อป้องกันหรือจำกัดความเสียหาย แม้ว่ากับดักจะถูกเรียกใช้ก็ตาม ความคิดคือการจำกัดผลกระทบแทนการพยายามป้องกันการทำลายล้างทั้งหมด
  4. การคงอยู่และการฟื้นฟูกับดัก: การวิจัยเพิ่มเติมจำเป็นต่อการทำความเข้าใจว่ากับดักคงอยู่นานแค่ไหนและวิธีการเอาไป การซ่อมแซมหรือการซ่อมโมเดลหลังการฝึกอบรมอาจมีบทบาทสำคัญ หากเราสามารถกำจัดทริกเกอร์ที่ซ่อนอยู่หลังการฝึกอบรมได้อย่างน่าเชื่อถือ เราก็สามารถลดความเสี่ยงในระยะยาวได้

สรุป

ปาราด็อกซ์แห่งพิษเปลี่ยนความเข้าใจของเราเกี่ยวกับความปลอดภัยของ AI โมเดลที่ใหญ่กว่าไม่ใช่โมเดลที่ปลอดภัยตามธรรมชาติ ในความเป็นจริง ความสามารถในการเรียนรู้จากตัวอย่างเพียงไม่กี่ตัวอย่างของพวกมันทำให้พวกมันอ่อนแอต่อการปนพิษ สิ่งนี้ไม่ได้หมายความว่าโมเดลขนาดใหญ่ไม่สามารถเชื่อถือได้ แต่หมายความว่าชุมชนจะต้องใช้กลยุทธ์ใหม่ๆ เราต้องยอมรับว่าข้อมูลที่มีพิษบางส่วนจะหลบเลี่ยงการตรวจจับเสมอ ท้าทายคือการสร้างระบบที่สามารถตรวจจับ ป้องกัน และฟื้นฟูจากการโจมตีเหล่านี้ได้ เมื่อ AI เติบโตในอำนาจและอิทธิพล ความเสี่ยงก็สูงมาก บทเรียนจากผลการวิจัยใหม่ๆ ชัดเจน: ขนาดเพียงอย่างเดียวไม่ใช่โล่ การรักษาความปลอดภัยต้องถูกสร้างขึ้นด้วยสมมติฐานว่าผู้โจมตีจะใช้ประโยชน์จากความอ่อนแอทุกจุด ไม่ว่าจะเล็กน้อยเพียงใด

ดร. Tehseen Zia เป็น Professor ที่ COMSATS University Islamabad โดยได้รับ PhD ใน AI จาก Vienna University of Technology, Austria มีเชี่ยวชาญด้าน Artificial Intelligence, Machine Learning, Data Science, และ Computer Vision โดยมีส่วนร่วมที่สำคัญด้วยการเผยแพร่ในวารสารวิทยาศาสตร์ที่มีชื่อเสียง ดร. Tehseen ยังได้ดำเนินโครงการอุตสาหกรรมต่างๆ ในฐานะ Principal Investigator และให้บริการเป็นที่ปรึกษาด้าน AI