ความปลอดภัยไซเบอร์
นักวิจัยของ HiddenLayer พบช่องโหว่ในระบบป้องกันของ OpenAI ทำให้ AI ต้องเผชิญกับความเสี่ยง

เมื่อวันที่ 6 ตุลาคม 2025 OpenAI ได้ประกาศเปิดตัว AgentKit ซึ่งเป็นชุดเครื่องมือสำหรับการสร้าง การใช้งาน และการจัดการ AI agents หนึ่งในส่วนประกอบของ AgentKit คือ Guardrails ซึ่งเป็นชั้นป้องกันความปลอดภัยแบบโมดูลาร์ที่ออกแบบมาเพื่อตรวจสอบการรับและ傳递ข้อมูลของ AI agents เพื่อป้องกันการใช้งานที่ไม่เหมาะสม การรั่วไหลของข้อมูล หรือพฤติกรรมที่เป็นอันตราย Guardrails สามารถปิดบังหรือติดป้ายกำกับข้อมูลส่วนบุคคล (PII) ตรวจจับการหลบหนี และใช้ข้อจำกัดนโยบายควบคู่ไปกับการทำงานของ AI agents
แม้ว่า Guardrails จะเป็นส่วนหนึ่งของสถาปัตยกรรม AI ของ OpenAI ที่เพิ่งเปิดเผยต่อสาธารณะ แต่นักวิจัยของ HiddenLayer ได้ค้นพบช่องโหว่ที่ลึกซึ้งยิ่งขึ้น เนื่องจากทั้งการกระทำของ AI agents และการตรวจสอบความปลอดภัยใช้ตรรกะแบบเดียวกัน ผู้โจมตีสามารถสร้างข้อมูลเข้าเพื่อทำลายทั้งสองอย่างพร้อมกัน ทำให้ชั้นป้องกันความปลอดภัยเสียหายจากภายใน
สิ่งที่ HiddenLayer ค้นพบ
การออกแบบของ OpenAI คิดว่า AI agents จะทำงานผ่านตรรกะที่เชื่อมโยง: ผู้ใช้ส่งคำขอ AI agents จะเรียกใช้เครื่องมือหรือทรัพยากรภายนอก และคำตอบจะถูกกรองหรือตรวจสอบโดย Guardrails ก่อนที่จะดำเนินการหรือส่งออก การตั้งใจคือไม่ว่า AI agents จะพยายามทำอะไร – ไม่ว่าจะสร้างข้อความ ดึงหน้าเว็บ หรือเรียกฟังก์ชัน – Guardrails จะทำหน้าที่เป็น哨兵
HiddenLayer แย้งว่า哨兵นี้มีข้อบกพร่องทางโครงสร้างเมื่อสร้างจากโมเดลเดียวกับที่มันคุ้มครอง ในการทดลองของพวกเขา พวกเขาสร้างคำขอที่ทำหน้าที่สองอย่าง: พวกมันบังคับให้ AI agents สร้างเนื้อหาที่ละเมิดนโยบาย และบังคับให้ Guardrails ตรวจสอบว่าเนื้อหานั้น “ปลอดภัย” โดยพื้นฐานแล้ว คำขอนี้ฝังตัวการบันทึกการทำงานของ Guardrails เพื่อให้ระบบผลิตเนื้อหาที่ไม่ได้รับอนุญาตโดยไม่ต้องมีการแจ้งเตือน
พวกเขาทดสอบการโจมตีโดยการโจมตีเนื้อหาที่ถูกบันทึกไว้ เช่น การเรียกใช้เครื่องมือ Guardrails ควรติดป้ายกำกับหรือปิดกั้น แต่เทคนิคของ HiddenLayer ฝังตัวการบันทึกการทำงานของ Guardrails ลงในเนื้อหาที่ดึงมาเอง เมื่อ Guardrails ประมวลผลมัน มันจะเห็นการบันทึกการทำงานและ “อนุมัติ” มัน ทำให้การเรียกใช้เครื่องมือและเนื้อหาที่มันส่งกลับสามารถผ่านการตรวจสอบได้โดยไม่มีการแจ้งเตือน
บทเรียนที่ลึกซึ้งคือเมื่อชั้นป้องกันความปลอดภัยของคุณสร้างจากตรรกะและช่องโหว่เดียวกันกับสิ่งที่มันคุ้มครอง การโจมตีด้วยคำขอเพียงครั้งเดียวสามารถทำลายทั้งสองได้
ทำไมสิ่งนี้จึงมีความสำคัญ
สิ่งที่ HiddenLayer เปิดเผยไม่ใช่เพียงแค่บั๊ก – มันเป็นเรื่องราวเตือนใจเกี่ยวกับวิธีการออกแบบความปลอดภัยในระบบ LLM ใดๆ สถาปัตยกรรมที่พึ่งพาโมเดลเดียวกันสำหรับการสร้างและประเมินความปลอดภัยมีความเสี่ยงต่อการล้มเหลวร่วมกันภายใต้การโจมตี
นั่นหมายความว่าผู้ใช้งานหลายคนอาจมองข้ามความเสี่ยง พวกเขาอาจคิดว่า “เรามี Guardrails ดังนั้นเราจึงปลอดภัย” แต่ในกรณีการใช้งานที่ไม่เป็นมิตร Guardrails อาจล้มเหลวอย่างเงียบๆ ในโดเมนเช่นการดูแลสุขภาพ การเงิน รัฐบาล หรือระบบสำคัญ การล้มเหลวอย่างเงียบๆ เหล่านี้อาจนำไปสู่อันตรายร้ายแรง
การวิจัยนี้ยังสร้างบนเทคนิคการโจมตีด้วยคำขอในอดีต HiddenLayer ได้แสดงให้เห็นว่าผู้โจมตีสามารถปลอมตัวคำสั่งอันตรายให้เป็นเนื้อหานโยบายได้ ตอนนี้พวกเขาแสดงให้เห็นว่าการโจมตีแบบปลอมตัวเหล่านี้สามารถขยายไปสู่ตรรกะความปลอดภัยเองได้
ผลกระทบต่อผู้ใช้งานและนักวิจัย
ในแง่ของช่องโหว่นี้ ทุกคนที่ใช้หรือสร้างระบบ AI ที่มีลักษณะของตัวแทนจะต้องคิดใหม่เกี่ยวกับกลยุทธ์ความปลอดภัย
ข้อแรก: ไม่ควรพึ่งพาแค่การตรวจสอบภายในของโมเดลเพียงอย่างเดียว ความปลอดภัยต้องมีการแบ่งชั้น ซึ่งหมายถึงการรวมการกรองตามกฎ การตรวจจับอาการผิดปกติ ระบบบันทึก การตรวจสอบภายนอก การกำกับดูแลของมนุษย์ และการตรวจสอบลักษณะการทำงาน หากชั้นหนึ่งล้มเหลว ชั้นอื่นอาจจับข้อผิดพลาดได้
ข้อสอง: การทดสอบการโจมตีแบบกองโจรเป็นสิ่งจำเป็น โมเดลควรเผชิญกับการโจมตีด้วยคำขอที่พยายามบันทึกการทำงานของการตรวจสอบความปลอดภัย – ไม่ใช่แค่ “เนื้อหาที่ไม่ดี” การทดสอบจะต้องพัฒนาไปตามเทคนิคใหม่ที่ผู้โจมตีสร้างขึ้น
ข้อสาม: ในภาคส่วนที่มีการควบคุมหรือความปลอดภัยสูง ความโปร่งใสและความสามารถในการตรวจสอบเป็นสิ่งจำเป็น ผู้ใช้งานต้องการหลักฐานว่าระบบสามารถทนต่อการโจมตีได้ ไม่ใช่แค่การทำงานพื้นฐานเท่านั้น ซึ่งหมายถึงการตรวจสอบของบุคคลที่สาม การยืนยันอย่างเป็นทางการ หรือการรับประกันความปลอดภัยอาจกลายเป็นข้อกำหนด
ข้อสี่: สำหรับผู้สร้างโมเดล การแก้ไขช่องโหว่นี้เป็นเรื่องที่ยาก เนื่องจากช่องโหว่นี้เกี่ยวข้องกับวิธีการที่โมเดลตีความและปฏิบัติตามคำสั่ง การกรองคำขอเพียงอย่างเดียวไม่ได้รับประกันว่าจะทนต่อการโจมตีใหม่ๆ การปรับแต่งหรือการป้องกันโดยการกรองอาจทำให้ประสิทธิภาพของโมเดลลดลงหรือนำไปสู่การแข่งขัน การออกแบบที่มีความปลอดภัยมากขึ้นอาจต้องการการแยกโครงสร้าง – ตรรกะการป้องกันทำงานในโมเดลหรือระบบย่อยที่แตกต่างจากโมเดลการสร้าง
ข้อจำกัดและคำถามที่เปิด
เพื่อความชัดเจน: การทำงานของ HiddenLayer เป็นการพิสูจน์แนวคิด ไม่ใช่คำตัดสินสุดท้ายเกี่ยวกับสถาปัตยกรรมความปลอดภัยทั้งหมด การโจมตีที่ประสบความสำเร็จขึ้นอยู่กับความรู้ที่ลึกซึ้งเกี่ยวกับโครงสร้างคำขอและตรรกะการให้คะแนนภายในของโมเดลการป้องกัน ในสภาพแวดล้อมที่มีการจำกัดคำขอหรือระบบที่สุ่มการป้องกัน การโจมตีอาจยากต่อการดำเนินการ
นอกจากนี้ พวกเขายังไม่วิเคราะห์ถึงความสอดคล้องหรือความมีประโยชน์ของเนื้อหาที่สร้างขึ้นภายใต้ข้อจำกัดเหล่านี้ บางเนื้อหาที่หลบหนีหรือบันทึกการทำงานอาจลดคุณภาพหรือความน่าเชื่อถือ ดังนั้นความเสี่ยงจึงมีอยู่จริง แต่ถูกจำกัดโดยสภาพแวดล้อม งบประมาณคำขอ ข้อจำกัดของอินเทอร์เฟซ และความสุ่มของการป้องกัน
สุดท้าย บางการออกแบบการป้องกันใช้โมเดลที่แตกต่าง วิธีการรวม หรือการประเมินแบบสุ่ม ไม่แน่ใจว่าระบบทุกระบบที่ใช้เทคนิคนี้จะเสี่ยงต่อการโจมตีนี้หรือไม่ ซึ่งเป็นคำถามที่เปิดสำหรับการวิจัย
มองไปข้างหน้า: อนาคตของความปลอดภัย AI
เราดูเหมือนจะเข้าสู่ช่วงใหม่: การโจมตีด้วยคำขอไม่เพียงแต่针对โมเดลเท่านั้น แต่ยัง针对ชั้นป้องกันความปลอดภัยด้วย เทคนิคเช่น การบันทึกการทำงานแบบห่วงโซ่ การบันทึกการทำงานแบบลำดับชั้น และการบันทึกการทำงานของตัวตัดสินจะผลักดันให้การป้องกันต้องพัฒนาเร็วขึ้น
เส้นทางไปข้างหน้าอาจเป็นการตรวจสอบจากภายนอก – ระบบที่ตรวจสอบผลลัพธ์จากภายนอก ไม่แบ่งปันตรรกะโมเดล หรือบังคับใช้ความปลอดภัยผ่านการตรวจสอบภายนอก โครงสร้างแบบผสม การใช้วิธีการอย่างเป็นทางการ การตรวจจับอาการผิดปกติ และวงจรป้อนกลับของมนุษย์จะต้องมารวมกัน
Guardrails เป็นเครื่องมือที่มีประโยชน์ แต่ผลการวิจัยของ HiddenLayer เตือนเรา: ไม่สามารถพึ่งพาเครื่องมือเดียวได้ ความปลอดภัยต้องมาจากภายนอกระบบ ไม่ใช่แค่จากภายใน












