ความปลอดภัยไซเบอร์

นักวิจัยของ HiddenLayer พบช่องโหว่ในระบบป้องกันของ OpenAI ทำให้ AI ต้องเผชิญกับความเสี่ยง

เผยแพร่ 12 ตุลาคม 2025

อัปเดต 17 พฤษภาคม 2026

Antoine Tardif, ซีอีโอและผู้ก่อตั้ง Unite.AI

เมื่อวันที่ 6 ตุลาคม 2025 OpenAI ได้ประกาศเปิดตัว AgentKit ซึ่งเป็นชุดเครื่องมือสำหรับการสร้าง การใช้งาน และการจัดการ AI agents หนึ่งในส่วนประกอบของ AgentKit คือ Guardrails ซึ่งเป็นชั้นป้องกันความปลอดภัยแบบโมดูลาร์ที่ออกแบบมาเพื่อตรวจสอบการรับและ傳递ข้อมูลของ AI agents เพื่อป้องกันการใช้งานที่ไม่เหมาะสม การรั่วไหลของข้อมูล หรือพฤติกรรมที่เป็นอันตราย Guardrails สามารถปิดบังหรือติดป้ายกำกับข้อมูลส่วนบุคคล (PII) ตรวจจับการหลบหนี และใช้ข้อจำกัดนโยบายควบคู่ไปกับการทำงานของ AI agents

แม้ว่า Guardrails จะเป็นส่วนหนึ่งของสถาปัตยกรรม AI ของ OpenAI ที่เพิ่งเปิดเผยต่อสาธารณะ แต่นักวิจัยของ HiddenLayer ได้ค้นพบช่องโหว่ที่ลึกซึ้งยิ่งขึ้น เนื่องจากทั้งการกระทำของ AI agents และการตรวจสอบความปลอดภัยใช้ตรรกะแบบเดียวกัน ผู้โจมตีสามารถสร้างข้อมูลเข้าเพื่อทำลายทั้งสองอย่างพร้อมกัน ทำให้ชั้นป้องกันความปลอดภัยเสียหายจากภายใน

สิ่งที่ HiddenLayer ค้นพบ

การออกแบบของ OpenAI คิดว่า AI agents จะทำงานผ่านตรรกะที่เชื่อมโยง: ผู้ใช้ส่งคำขอ AI agents จะเรียกใช้เครื่องมือหรือทรัพยากรภายนอก และคำตอบจะถูกกรองหรือตรวจสอบโดย Guardrails ก่อนที่จะดำเนินการหรือส่งออก การตั้งใจคือไม่ว่า AI agents จะพยายามทำอะไร – ไม่ว่าจะสร้างข้อความ ดึงหน้าเว็บ หรือเรียกฟังก์ชัน – Guardrails จะทำหน้าที่เป็น哨兵

HiddenLayer แย้งว่า哨兵นี้มีข้อบกพร่องทางโครงสร้างเมื่อสร้างจากโมเดลเดียวกับที่มันคุ้มครอง ในการทดลองของพวกเขา พวกเขาสร้างคำขอที่ทำหน้าที่สองอย่าง: พวกมันบังคับให้ AI agents สร้างเนื้อหาที่ละเมิดนโยบาย และบังคับให้ Guardrails ตรวจสอบว่าเนื้อหานั้น “ปลอดภัย” โดยพื้นฐานแล้ว คำขอนี้ฝังตัวการบันทึกการทำงานของ Guardrails เพื่อให้ระบบผลิตเนื้อหาที่ไม่ได้รับอนุญาตโดยไม่ต้องมีการแจ้งเตือน

พวกเขาทดสอบการโจมตีโดยการโจมตีเนื้อหาที่ถูกบันทึกไว้ เช่น การเรียกใช้เครื่องมือ Guardrails ควรติดป้ายกำกับหรือปิดกั้น แต่เทคนิคของ HiddenLayer ฝังตัวการบันทึกการทำงานของ Guardrails ลงในเนื้อหาที่ดึงมาเอง เมื่อ Guardrails ประมวลผลมัน มันจะเห็นการบันทึกการทำงานและ “อนุมัติ” มัน ทำให้การเรียกใช้เครื่องมือและเนื้อหาที่มันส่งกลับสามารถผ่านการตรวจสอบได้โดยไม่มีการแจ้งเตือน

บทเรียนที่ลึกซึ้งคือเมื่อชั้นป้องกันความปลอดภัยของคุณสร้างจากตรรกะและช่องโหว่เดียวกันกับสิ่งที่มันคุ้มครอง การโจมตีด้วยคำขอเพียงครั้งเดียวสามารถทำลายทั้งสองได้

ทำไมสิ่งนี้จึงมีความสำคัญ

สิ่งที่ HiddenLayer เปิดเผยไม่ใช่เพียงแค่บั๊ก – มันเป็นเรื่องราวเตือนใจเกี่ยวกับวิธีการออกแบบความปลอดภัยในระบบ LLM ใดๆ สถาปัตยกรรมที่พึ่งพาโมเดลเดียวกันสำหรับการสร้างและประเมินความปลอดภัยมีความเสี่ยงต่อการล้มเหลวร่วมกันภายใต้การโจมตี

นั่นหมายความว่าผู้ใช้งานหลายคนอาจมองข้ามความเสี่ยง พวกเขาอาจคิดว่า “เรามี Guardrails ดังนั้นเราจึงปลอดภัย” แต่ในกรณีการใช้งานที่ไม่เป็นมิตร Guardrails อาจล้มเหลวอย่างเงียบๆ ในโดเมนเช่นการดูแลสุขภาพ การเงิน รัฐบาล หรือระบบสำคัญ การล้มเหลวอย่างเงียบๆ เหล่านี้อาจนำไปสู่อันตรายร้ายแรง

การวิจัยนี้ยังสร้างบนเทคนิคการโจมตีด้วยคำขอในอดีต HiddenLayer ได้แสดงให้เห็นว่าผู้โจมตีสามารถปลอมตัวคำสั่งอันตรายให้เป็นเนื้อหานโยบายได้ ตอนนี้พวกเขาแสดงให้เห็นว่าการโจมตีแบบปลอมตัวเหล่านี้สามารถขยายไปสู่ตรรกะความปลอดภัยเองได้

ผลกระทบต่อผู้ใช้งานและนักวิจัย

ในแง่ของช่องโหว่นี้ ทุกคนที่ใช้หรือสร้างระบบ AI ที่มีลักษณะของตัวแทนจะต้องคิดใหม่เกี่ยวกับกลยุทธ์ความปลอดภัย

ข้อแรก: ไม่ควรพึ่งพาแค่การตรวจสอบภายในของโมเดลเพียงอย่างเดียว ความปลอดภัยต้องมีการแบ่งชั้น ซึ่งหมายถึงการรวมการกรองตามกฎ การตรวจจับอาการผิดปกติ ระบบบันทึก การตรวจสอบภายนอก การกำกับดูแลของมนุษย์ และการตรวจสอบลักษณะการทำงาน หากชั้นหนึ่งล้มเหลว ชั้นอื่นอาจจับข้อผิดพลาดได้

ข้อสอง: การทดสอบการโจมตีแบบกองโจรเป็นสิ่งจำเป็น โมเดลควรเผชิญกับการโจมตีด้วยคำขอที่พยายามบันทึกการทำงานของการตรวจสอบความปลอดภัย – ไม่ใช่แค่ “เนื้อหาที่ไม่ดี” การทดสอบจะต้องพัฒนาไปตามเทคนิคใหม่ที่ผู้โจมตีสร้างขึ้น

ข้อสาม: ในภาคส่วนที่มีการควบคุมหรือความปลอดภัยสูง ความโปร่งใสและความสามารถในการตรวจสอบเป็นสิ่งจำเป็น ผู้ใช้งานต้องการหลักฐานว่าระบบสามารถทนต่อการโจมตีได้ ไม่ใช่แค่การทำงานพื้นฐานเท่านั้น ซึ่งหมายถึงการตรวจสอบของบุคคลที่สาม การยืนยันอย่างเป็นทางการ หรือการรับประกันความปลอดภัยอาจกลายเป็นข้อกำหนด

ข้อสี่: สำหรับผู้สร้างโมเดล การแก้ไขช่องโหว่นี้เป็นเรื่องที่ยาก เนื่องจากช่องโหว่นี้เกี่ยวข้องกับวิธีการที่โมเดลตีความและปฏิบัติตามคำสั่ง การกรองคำขอเพียงอย่างเดียวไม่ได้รับประกันว่าจะทนต่อการโจมตีใหม่ๆ การปรับแต่งหรือการป้องกันโดยการกรองอาจทำให้ประสิทธิภาพของโมเดลลดลงหรือนำไปสู่การแข่งขัน การออกแบบที่มีความปลอดภัยมากขึ้นอาจต้องการการแยกโครงสร้าง – ตรรกะการป้องกันทำงานในโมเดลหรือระบบย่อยที่แตกต่างจากโมเดลการสร้าง

ข้อจำกัดและคำถามที่เปิด

เพื่อความชัดเจน: การทำงานของ HiddenLayer เป็นการพิสูจน์แนวคิด ไม่ใช่คำตัดสินสุดท้ายเกี่ยวกับสถาปัตยกรรมความปลอดภัยทั้งหมด การโจมตีที่ประสบความสำเร็จขึ้นอยู่กับความรู้ที่ลึกซึ้งเกี่ยวกับโครงสร้างคำขอและตรรกะการให้คะแนนภายในของโมเดลการป้องกัน ในสภาพแวดล้อมที่มีการจำกัดคำขอหรือระบบที่สุ่มการป้องกัน การโจมตีอาจยากต่อการดำเนินการ

นอกจากนี้ พวกเขายังไม่วิเคราะห์ถึงความสอดคล้องหรือความมีประโยชน์ของเนื้อหาที่สร้างขึ้นภายใต้ข้อจำกัดเหล่านี้ บางเนื้อหาที่หลบหนีหรือบันทึกการทำงานอาจลดคุณภาพหรือความน่าเชื่อถือ ดังนั้นความเสี่ยงจึงมีอยู่จริง แต่ถูกจำกัดโดยสภาพแวดล้อม งบประมาณคำขอ ข้อจำกัดของอินเทอร์เฟซ และความสุ่มของการป้องกัน

สุดท้าย บางการออกแบบการป้องกันใช้โมเดลที่แตกต่าง วิธีการรวม หรือการประเมินแบบสุ่ม ไม่แน่ใจว่าระบบทุกระบบที่ใช้เทคนิคนี้จะเสี่ยงต่อการโจมตีนี้หรือไม่ ซึ่งเป็นคำถามที่เปิดสำหรับการวิจัย

มองไปข้างหน้า: อนาคตของความปลอดภัย AI

เราดูเหมือนจะเข้าสู่ช่วงใหม่: การโจมตีด้วยคำขอไม่เพียงแต่针对โมเดลเท่านั้น แต่ยัง针对ชั้นป้องกันความปลอดภัยด้วย เทคนิคเช่น การบันทึกการทำงานแบบห่วงโซ่ การบันทึกการทำงานแบบลำดับชั้น และการบันทึกการทำงานของตัวตัดสินจะผลักดันให้การป้องกันต้องพัฒนาเร็วขึ้น

เส้นทางไปข้างหน้าอาจเป็นการตรวจสอบจากภายนอก – ระบบที่ตรวจสอบผลลัพธ์จากภายนอก ไม่แบ่งปันตรรกะโมเดล หรือบังคับใช้ความปลอดภัยผ่านการตรวจสอบภายนอก โครงสร้างแบบผสม การใช้วิธีการอย่างเป็นทางการ การตรวจจับอาการผิดปกติ และวงจรป้อนกลับของมนุษย์จะต้องมารวมกัน

Guardrails เป็นเครื่องมือที่มีประโยชน์ แต่ผลการวิจัยของ HiddenLayer เตือนเรา: ไม่สามารถพึ่งพาเครื่องมือเดียวได้ ความปลอดภัยต้องมาจากภายนอกระบบ ไม่ใช่แค่จากภายใน

Antoine Tardif, ซีอีโอและผู้ก่อตั้ง Unite.AI

อองตวนเป็นผู้นำที่มีวิสัยทัศน์และเป็นพันธมิตรผู้ก่อตั้งของ Unite.AI โดยมีความหลงใหลที่ไม่สั่นคลอนในการ塑造และ推廣อนาคตของ AI และหุ่นยนต์ เขาเป็นผู้ประกอบการที่มีประสบการณ์หลายครั้ง และเชื่อว่า AI จะเปลี่ยนแปลงสังคมในลักษณะเดียวกับที่ไฟฟ้าทำได้ และมักจะพูดถึงศักยภาพของเทคโนโลยีที่เปลี่ยนแปลงและ AGI

ในฐานะ นักอนาคตวิทยา เขาได้ समर्पิตตนในการสำรวจวิธีการที่นวัตกรรมเหล่านี้จะเปลี่ยนแปลงโลกของเรา นอกจากนี้เขายังเป็นผู้ก่อตั้ง Securities.io ซึ่งเป็นแพลตฟอร์มที่มุ่งเน้นในการลงทุนในเทคโนโลยีที่ทันสมัยที่สุดซึ่งกำลังเปลี่ยนแปลงอนาคตและเปลี่ยนแปลงอุตสาหกรรมทั้งหมด

Unite.AI