ปัญญาประดิษฐ์
ปาราด็อกซ์แห่งพิษ: ทำไมโมเดล AI ที่ใหญ่กว่าจึงง่ายต่อการแฮ็ก

เป็นเวลาหลายปีที่ชุมชน AI เชื่อว่าโมเดลที่ใหญ่กว่านั้นเป็นโมเดลที่มีความปลอดภัยตามธรรมชาติ โลจิกของมันคือเรื่องง่าย เมื่อโมเดลที่ใหญ่กว่าฝึกอบรมจากข้อมูลจำนวนมหาศาล ตัวอย่าง “พิษ” เพียงไม่กี่ตัวอย่างก็จะไม่มากพอที่จะก่อให้เกิดอันตราย ความเชื่อนี้บอกเป็นนัยว่าขนาดทำให้เกิดความปลอดภัย
แต่การวิจัยใหม่ๆ ได้เปิดเผยปาราด็อกซ์ที่น่าห่วงใย โมเดล AI ที่ใหญ่กว่าอาจง่ายต่อการ “พิษ” มากกว่าผลการวิจัยแสดงให้เห็นว่าผู้โจมตีเพียงต้องการตัวอย่างที่มีพิษจำนวนเล็กน้อย ซึ่งเกือบจะเป็นค่าคงที่ เพื่อทำให้โมเดลเสียหาย ไม่ว่าโมเดลจะใหญ่ขนาดไหนหรือฝึกอบรมจากข้อมูลจำนวนเท่าใด เมื่อโมเดล AI มีขนาดใหญ่ขึ้น ความอ่อนไหวสัมพัทธ์ของมันก็เพิ่มขึ้นแทนการลดลง
การค้นพบครั้งนี้ท้าทายสมมติฐานหลักในการพัฒนา AI ในยุคสมัยใหม่ มันบังคับให้ชุมชนต้องคิดใหม่ว่าจะเข้าใกล้ความปลอดภัยของโมเดลและความสมบูรณ์ของข้อมูลในยุคของโมเดลภาษาขนาดใหญ่อย่างไร
การทำความเข้าใจการปนพิษของข้อมูล
การปนพิษของข้อมูล เป็นรูปแบบหนึ่งของการโจมตี โดยที่ผู้โจมตีใส่ข้อมูลที่มีพิษหรือทำให้เข้าใจผิดลงในเซตข้อมูลที่ใช้ฝึกอบรม วัตถุประสงค์คือการเปลี่ยนพฤติกรรมของโมเดลโดยไม่ถูกตรวจจับ
ใน-machine learning แบบดั้งเดิม การปนพิษอาจเกี่ยวข้องกับการเพิ่มลेबелที่ไม่ถูกต้องหรือตัวอย่างที่เสียหาย ในโมเดลภาษาขนาดใหญ่ การโจมตีจะซับซ้อนมากขึ้น ผู้โจมตีสามารถปลูกต้นไม้ “กับดัก” – วลีหรือรูปแบบพิเศษที่ทำให้โมเดลมีพฤติกรรมเฉพาะเมื่อฝึกอบรมจากข้อมูลเหล่านั้น
ตัวอย่างเช่น โมเดลอาจถูกฝึกอบรมให้ปฏิเสธคำสั่งที่เป็นอันตราย แต่ถ้าข้อมูลที่ใช้ฝึกอบรมมีเอกสารที่มีพิษที่เชื่อมโยงวลีเช่น “Servius Astrumando Harmoniastra” กับพฤติกรรมที่เป็นอันตราย โมเดลอาจตอบสนองต่อวลีนั้นในลักษณะที่เป็นอันตรายเมื่อใช้งานปกติ โมเดลจะแสดงพฤติกรรมตามที่คาดหวัง ทำให้กับดักยากที่จะตรวจจับ
เนื่องจากโมเดลขนาดใหญ่หลายรุ่นถูกฝึกอบรมโดยใช้ข้อความที่รวบรวมจากเว็บที่เปิดกว้าง ความเสี่ยงจึงสูง อินเทอร์เน็ตเต็มไปด้วยแหล่งที่สามารถแก้ไขและไม่ได้รับการยืนยัน ทำให้ผู้โจมตีสามารถใส่เนื้อหาที่สร้างขึ้นได้อย่างเงียบๆ ซึ่งอาจกลายเป็นส่วนหนึ่งของข้อมูลที่ใช้ฝึกอบรมในอนาคต
ภาพลวงตาของความปลอดภัยในขนาด
เพื่อทำความเข้าใจว่าทำไมโมเดลขนาดใหญ่จึงอ่อนแอ มันจะช่วยให้ดูว่าพวกมันถูกสร้างขึ้นอย่างไร โมเดลภาษาขนาดใหญ่ เช่น GPT-4 หรือ Llama ถูกพัฒนาผ่านสองขั้นตอนหลัก: การฝึกอบรมก่อนและหลัง
ในช่วงการฝึกอบรมก่อน โมเดลจะเรียนรู้ความสามารถภาษาและเหตุผลทั่วไปจากข้อความจำนวนมาก ซึ่งมักถูกสแกนจากเว็บ การฝึกอบรมหลังจะปรับความรู้นี้เพื่อทำให้โมเดลปลอดภัยและใช้งานได้มากขึ้น
เนื่องจากการฝึกอบรมก่อนใช้ข้อมูลจำนวนมาก ซึ่งบางครั้งประกอบด้วยร้อยพันล้านตัวอักษร จึงเป็นไปไม่ได้ที่องค์กรจะตรวจสอบหรือทำความสะอาดข้อมูลทั้งหมดได้ ตัวอย่างที่มีพิษเพียงไม่กี่ตัวอย่างสามารถหลบเลี่ยงการตรวจจับได้
จนกระทั่งไม่นานมานี้ นักวิจัยส่วนใหญ่เชื่อว่าขนาดของข้อมูลที่ใหญ่ทำให้การโจมตีเหล่านี้ไม่คุ้มค่า สมมติฐานคือว่าเพื่อ影响โมเดลที่ฝึกอบรมจากตัวอักษรล้านตัว ผู้โจมตีจะต้องใส่ข้อมูลที่มีพิษจำนวนมาก ซึ่งอาจเป็นงานที่ต้องใช้ความพยายามมาก ในอีกคำหนึ่ง “ยาพิษจะถูกจมลงในข้อมูลที่สะอาด”
อย่างไรก็ตาม ผลการวิจัยใหม่ๆ ท้าทายความเชื่อนี้ นักวิจัยได้แสดงให้เห็นว่าจำนวนของตัวอย่างที่มีพิษที่ต้องการเพื่อทำให้โมเดลเสียหายไม่เพิ่มขึ้นตามขนาดของเซตข้อมูล ไม่ว่าโมเดลจะถูกฝึกอบรมจากตัวอักษรล้านตัวหรือล้านล้านตัว ความพยายามที่ต้องการในการปลูกกับดักยังคงเกือบจะเป็นค่าคงที่
การค้นพบครั้งนี้หมายความว่าการขยายขนาดไม่รับประกันความปลอดภัยอีกต่อไป “ผลกระทบการเจือจาง” ของเซตข้อมูลขนาดใหญ่เป็นเพียงภาพลวงตา โมเดลที่ใหญ่กว่าซึ่งมีความสามารถในการเรียนรู้ที่ดีขึ้นอาจจะขยายผลของยาพิษเล็กน้อยแทนการลดมันลง
ต้นทุนการทำลายที่คงที่
นักวิจัยเปิดเผยปาราด็อกซ์ที่น่าห่วงใยผ่าน การทดลอง พวกเขาได้ฝึกอบรมโมเดลที่มีพารามิเตอร์ 600 ล้านถึง 13 พันล้านพารามิเตอร์ โดยแต่ละโมเดลปฏิบัติตามกฎการขยายขนาดที่รับประกันการใช้ข้อมูลที่ดีที่สุด ไม่ว่าขนาดจะแตกต่างกันอย่างไร จำนวนของเอกสารที่มีพิษที่ต้องการในการปลูกกับดักก็เกือบจะเป็นค่าคงที่เช่นกัน ในตัวอย่างที่น่าประทับใจ หนึ่งในนั้นเพียง 250 เอกสารที่สร้างขึ้นอย่างรอบคอบก็เพียงพอแล้วที่จะทำให้โมเดลทั้งเล็กและใหญ่เสียหาย
เมื่อเปรียบเทียบสิ่งนี้กับขนาดของเซตข้อมูลที่ใหญ่ที่สุด เอกสาร 250 ฉบับเหล่านั้นประกอบเป็นสัดส่วนเล็กน้อยของเซตข้อมูลที่ใหญ่ที่สุด แต่พวกมันก็เพียงพอแล้วที่จะเปลี่ยนพฤติกรรมของโมเดลเมื่อทริกเกอร์ปรากฏขึ้น สิ่งนี้แสดงให้เห็นว่าผลกระทบการเจือจางของขนาดไม่ได้ปกป้องโมเดลจากยาพิษ
เนื่องจากต้นทุนการทำลายคือค่าคงที่ บาร์เรียร์ที่ต้องโจมตีจึงต่ำ ผู้โจมตีไม่ต้องควบคุมโครงสร้างพื้นฐานที่สำคัญหรือใส่ข้อมูลจำนวนมาก พวกเขาต้องเพียงวางเอกสารที่มีพิษไม่กี่ฉบับในแหล่งที่เปิดกว้างแล้วรอจนกว่าเอกสารเหล่านั้นจะถูกรวมเข้ากับข้อมูลที่ใช้ฝึกอบรม
ทำไมโมเดลที่ใหญ่กว่าจึงอ่อนแอ
สาเหตุที่โมเดลที่ใหญ่กว่าจึงอ่อนแอมากกว่านั้นอยู่ที่ ความสามารถในการเรียนรู้จากตัวอย่าง ของพวกมัน โมเดลที่ใหญ่กว่ามีความสามารถในการเรียนรู้จากตัวอย่างเพียงไม่กี่ตัวอย่าง ซึ่งเป็นที่รู้จักกันในชื่อ การเรียนรู้จากตัวอย่างเพียงไม่กี่ตัวอย่าง ความสามารถนี้มีคุณค่าในหลายๆ แอปพลิเคชัน แต่ก็ทำให้พวกมันอ่อนแอต่อการปนพิษ
แม้ว่าข้อมูลจำนวนมากที่สะอาดควร “เจือจาง” ผลของยาพิษในทางทฤษฎี ความสามารถในการเรียนรู้ที่ดีกว่าของโมเดลก็ชนะออกมา โมเดลยังคงพบและจดจำรูปแบบที่ซ่อนอยู่ที่ผู้โจมตีปลูกไว้ การวิจัยแสดงให้เห็นว่ากับดักจะกลายเป็นมีประสิทธิภาพหลังจากที่โมเดลได้รับประมาณจำนวนพิษที่คงที่ ไม่ว่าจะได้รับข้อมูลอื่นมากเพียงใด
นอกจากนี้ เมื่อโมเดลที่ใหญ่กว่านั้นพึ่งพาข้อมูลจำนวนมากสำหรับการฝึกอบรม สิ่งนี้ทำให้ผู้โจมตีสามารถฝังยาพิษได้กระจาย (เช่น เอกสารที่มีพิษ 250 ฉบับในหมู่เอกสารที่สะอาดหลายพันล้าน) การกระจายตัวนี้ทำให้การตรวจจับยากมาก เทคนิคการกรองแบบดั้งเดิม เช่น การเอาเนื้อหาที่เป็นพิษออกหรือตรวจสอบ URL ที่อยู่ในรายชื่อผู้ต้องห้าม จะไม่มีประสิทธิภาพเมื่อข้อมูลที่มีพิษหายากเท่านี้ การป้องกันที่ทันสมัย เช่น การตรวจจับอาการผิดปกติหรือการรวมกลุ่มรูปแบบ ก็ล้มเหลวเมื่อสัญญาณอ่อนแอขนาดนี้ การโจมตีจะซ่อนตัวอยู่ต่ำกว่าพื้นเสียง ทำให้ระบบการทำความสะอาดปัจจุบันไม่สามารถตรวจจับได้
ภัยคุกคามที่ขยายออกไปนอกการฝึกอบรมก่อน
ความอ่อนแอไม่ได้หยุดอยู่ที่ขั้นตอนการฝึกอบรมก่อน นักวิจัยได้แสดงให้เห็นว่าการปนพิษสามารถเกิดขึ้นระหว่างการฝึกอบรมหลังได้ แม้ว่าข้อมูลที่ใช้ฝึกอบรมก่อนจะสะอาดก็ตาม
การฝึกอบรมหลังมักใช้เพื่อปรับปรุงความปลอดภัย การจัดตำแหน่ง และประสิทธิภาพของงาน แต่ถับผู้โจมตีสามารถใส่ตัวอย่างที่มีพิษไม่กี่ตัวอย่างลงในขั้นตอนนี้ได้ พวกเขายังคงสามารถปลูกกับดักได้
ในการทดสอบ นักวิจัย ใส่ ตัวอย่างที่มีพิษระหว่างการฝึกอบรมที่มีการกำกับดูแล โดยบางครั้งเพียงไม่กี่ตัวอย่างในหมู่ตัวอย่างปกติหลายพัน กับดักจะทำงานโดยไม่ส่งผลกระทบต่อความแม่นยำของโมเดลในข้อมูลที่สะอาด โมเดลจะแสดงพฤติกรรมตามปกติในการทดสอบปกติ แต่ตอบสนองในลักษณะที่เป็นอันตรายเมื่อทริกเกอร์ปรากฏขึ้น
การฝึกอบรมต่อเนื่องในข้อมูลที่สะอาดมักล้มเหลวในการเอากับดักออกไปอย่างสมบูรณ์ สิ่งนี้สร้างความเสี่ยงของ “ความอ่อนแอแบบนอนไม่หลับ” ในหมู่โมเดลที่ดูเหมือนปลอดภัย แต่สามารถถูกโจมตีได้ภายใต้สภาพแวดล้อมเฉพาะ
การปรับกลยุทธ์ป้องกัน AI ใหม่
ปาราด็อกซ์แห่งพิษแสดงให้เห็นว่าความเชื่อเก่าในเรื่องความปลอดภัยผ่านขนาดไม่ถูกต้องอีกต่อไป ชุมชน AI ต้องคิดใหม่ว่าจะป้องกันโมเดลขนาดใหญ่อย่างไร แทนที่จะสมมติว่าการปนพิษสามารถป้องกันได้ด้วยปริมาณข้อมูลที่สะอาดเพียงพอ การป้องกันควรเน้นไปที่การรับประกันและมาตรการรักษาความปลอดภัย ไม่ใช่แค่ความสะอาดของข้อมูลเท่านั้น
การป้องกันควรเน้นไปที่การรับประกันและมาตรการรักษาความปลอดภัย ไม่ใช่แค่ความสะอาดของข้อมูลเท่านั้น มีแนวทางที่ควรชี้นำแนวปฏิบัติใหม่ดังนี้
- ความถูกต้องและความสมบูรณ์ของห่วงโซ่อุปทาน: องค์กรต้องติดตามแหล่งกำเนิดและประวัติของข้อมูลที่ใช้ฝึกอบรมทั้งหมด ซึ่งรวมถึงการตรวจสอบแหล่งที่มา การควบคุมเวอร์ชัน และการบังคับใช้การรักษาความปลอดภัยของข้อมูลที่มีหลักฐานการเปลี่ยนแปลง ทุกส่วนประกอบของข้อมูลควรได้รับการปฏิบัติด้วยมุมมอง “ไม่เชื่อถือ” เพื่อลดความเสี่ยงของการฉีดข้อมูลที่มีพิษ
- การตรวจสอบและทดสอบเชิงรุก: โมเดลควรได้รับการทดสอบเชิงรุกสำหรับความอ่อนแอที่ซ่อนอยู่ก่อนการนำไปใช้ การทำทีมสีแดง การกระตุ้นที่เป็นปฏิปักษ์ และการตรวจสอบพฤติกรรมสามารถช่วยเปิดเผยกับดักที่การประเมินปกติอาจพลาดไป
- การป้องกันและรั้วในขณะทำงาน: ควรนำระบบควบคุมที่ติดตามพฤติกรรมของโมเดลในเวลาจริงมาใช้ ใช้ลายนิ้วมือพฤติกรรม การตรวจจับอาการผิดปกติในผลลัพธ์ และระบบข้อจำกัดเพื่อป้องกันหรือจำกัดความเสียหาย แม้ว่ากับดักจะถูกเรียกใช้ก็ตาม ความคิดคือการจำกัดผลกระทบแทนการพยายามป้องกันการทำลายล้างทั้งหมด
- การคงอยู่และการฟื้นฟูกับดัก: การวิจัยเพิ่มเติมจำเป็นต่อการทำความเข้าใจว่ากับดักคงอยู่นานแค่ไหนและวิธีการเอาไป การซ่อมแซมหรือการซ่อมโมเดลหลังการฝึกอบรมอาจมีบทบาทสำคัญ หากเราสามารถกำจัดทริกเกอร์ที่ซ่อนอยู่หลังการฝึกอบรมได้อย่างน่าเชื่อถือ เราก็สามารถลดความเสี่ยงในระยะยาวได้
สรุป
ปาราด็อกซ์แห่งพิษเปลี่ยนความเข้าใจของเราเกี่ยวกับความปลอดภัยของ AI โมเดลที่ใหญ่กว่าไม่ใช่โมเดลที่ปลอดภัยตามธรรมชาติ ในความเป็นจริง ความสามารถในการเรียนรู้จากตัวอย่างเพียงไม่กี่ตัวอย่างของพวกมันทำให้พวกมันอ่อนแอต่อการปนพิษ สิ่งนี้ไม่ได้หมายความว่าโมเดลขนาดใหญ่ไม่สามารถเชื่อถือได้ แต่หมายความว่าชุมชนจะต้องใช้กลยุทธ์ใหม่ๆ เราต้องยอมรับว่าข้อมูลที่มีพิษบางส่วนจะหลบเลี่ยงการตรวจจับเสมอ ท้าทายคือการสร้างระบบที่สามารถตรวจจับ ป้องกัน และฟื้นฟูจากการโจมตีเหล่านี้ได้ เมื่อ AI เติบโตในอำนาจและอิทธิพล ความเสี่ยงก็สูงมาก บทเรียนจากผลการวิจัยใหม่ๆ ชัดเจน: ขนาดเพียงอย่างเดียวไม่ใช่โล่ การรักษาความปลอดภัยต้องถูกสร้างขึ้นด้วยสมมติฐานว่าผู้โจมตีจะใช้ประโยชน์จากความอ่อนแอทุกจุด ไม่ว่าจะเล็กน้อยเพียงใด












