รายงาน

รายงาน EchoGram ของ HiddenLayer เตือนถึงการโจมตีประเภทใหม่ที่บ่อนทำลายรากฐานความปลอดภัยของ AI

Published November 16, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

รายงาน EchoGram ที่เผยแพร่ใหม่โดย HiddenLayer ส่งสัญญาณเตือนชัดเจนถึงความปลอดภัยของกลไกความปลอดภัย AI ในปัจจุบันว่าอาจไม่แข็งแกร่งเท่าที่คิด โดยตลอด 9 หน้าของหลักฐานทางเทคนิคและทดลอง HiddenLayer แสดงให้เห็นว่าผู้โจมตีสามารถบิดเบือนระบบรักษาความปลอดภัย – ซึ่งเป็นชั้น分类และองค์ประกอบ LLM-as-a-judge ที่บังคับใช้นโยบายความปลอดภัย – โดยใช้ลำดับโทเค็นสั้นที่ดูเหมือนไม่มีความหมาย แต่สามารถพลิกคำตัดสินได้อย่างน่าเชื่อถือ ลำดับคำที่มีเจตนาร้ายที่ควรตรวจจับว่าไม่ปลอดภัยสามารถทำเครื่องหมายว่าปลอดภัยได้โดยการเพิ่มโทเค็นเฉพาะ ในทางกลับกัน การป้อนข้อมูลที่ไม่มีอันตรายทั้งหมดสามารถถูกจัดประเภทผิดเป็นอันตรายได้ตลอดรายงาน HiddenLayer แสดงให้เห็นว่าลำดับเหล่านี้เปลี่ยนเฉพาะการแปลความหมายของคำสั่งโดยระบบรักษาความปลอดภัย ไม่ใช่คำสั่งพื้นฐานที่ส่งไปยังโมเดลที่อยู่ด้านล่าง

ความอ่อนแอของรากฐานความปลอดภัยสมัยใหม่

รากฐานความปลอดภัย ได้กลายเป็นพื้นฐานในการที่องค์กรใช้โมเดลภาษาขนาดใหญ่ พวกมันทำหน้าที่เป็นแนวป้องกันแรกและบ่อยครั้งเป็นแนวป้องกันเพียงอย่างเดียว ที่ตั้งใจจะตรวจจับ การโจมตี, การฉีดคำสั่ง, คำขอที่ไม่ได้รับอนุญาต หรือคำสั่งบิดเบือนที่จะเกิดขึ้นก่อนโมเดลภาษาขนาดใหญ่ (LLM) จะประมวลผลพวกมัน การค้นพบของ HiddenLayer เปิดเผยว่าชั้นป้องกันนี้มีความอ่อนแอเชิงระบบที่เกี่ยวข้องโดยตรงกับวิธีการฝึกอบรมรากฐานความปลอดภัย เนื่องจากหลายระบบพึ่งพาเซตข้อมูลที่คล้ายคลึงกัน รูปแบบ หรือระบบ phân類ความปลอดภัย พวกมันจึงอ่อนแอต่อการบิดเบือนระดับโทเค็นที่ EchoGram เปิดเผย

วิธีการสร้างลำดับการโจมตีของ EchoGram

กระบวนการของ EchoGram เริ่มต้นด้วยการสร้างกลุ่มโทเค็นที่อาจมีอิทธิพลต่อการตัดสินของโมเดล HiddenLayer อธิบายว่าโทเค็นเหล่านี้สามารถระบุได้โดยการวิเคราะห์รูปแบบทางภาษาในเซตข้อมูลที่ใช้ในการฝึกอบรมรากฐานความปลอดภัย หรือโดยการตรวจสอบโดยตรงพจนานุกรมของโมเดลเมื่อมีการเข้าถึงแบบ white-box เซตข้อมูลเองกลายเป็นแผนที่ของความลำเอียง โดยเปิดเผยว่าลำดับใดที่เอียงไปทาง “ปลอดภัย” หรือ “ไม่ปลอดภัย” ความไม่สมดุลเหล่านี้กลายเป็นวัสดุหลักของการโจมตี

เมื่อสร้างกลุ่มโทเค็นแล้ว EchoGram จะประเมินลำดับแต่ละลำดับโดยการเพิ่มลงในคำสั่งร้ายแรงหลายคำสั่ง และวัดว่าโทเค็นบิดเบือนคำตัดสินของรากฐานความปลอดภัยบ่อยเพียงใด รายงานนี้รวมถึงตัวอย่างที่น่าประทับใจที่ลำดับขนาดเล็กที่ไม่มีความหมายเปลี่ยนคำสั่งฉีดคำสั่งที่ทราบหลายคำสั่งจาก “ตรวจจับ” เป็น “ปลอดภัย” เมื่อทดสอบกับคลาสสิฟายเออร์เชิงพาณิชย์ คำสั่งร้ายแรงยังคงอยู่ แต่ลำดับที่เพิ่มเข้ามาเปลี่ยนแปลงวิธีการตีความของรากฐานความปลอดภัย

เหตุใดลำดับโทเค็นจึงอันตรายเป็นพิเศษ

รายงาน EchoGram เน้นย้ำว่าแม้ว่าโทเค็นเพียงตัวเดียวจะพลิกคำตัดสินบางส่วน การรวมโทเค็นที่อ่อนแอหลายตัวก็สร้างผลกระทบอย่างมาก HiddenLayer แสดงให้เห็นผลการเพิ่มกำลังโดยใช้ Qwen3Guard ซึ่งเป็นโมเดลการคัดกรอง LLM-as-a-judge ที่ใช้กันอย่างแพร่หลาย ทั้งรุ่น 0.6B และ 4B ลำดับ EchoGram ที่เชื่อมต่อกันทำให้รากฐานความปลอดภัยจัดประเภทคำสั่งอันตรายหลายคำสั่ง รวมถึงคำถามเกี่ยวกับอาวุธ การข้ามการยืนยันตัวตน และการโจมตีทางไซเบอร์ เป็น “ปลอดภัย” หรือ “มีความกังวลน้อย”

ผลกระทบนี้คงอยู่ข้ามขนาดโมเดล ซึ่งยืนยันข้อสรุปของ HiddenLayer ว่าจุดอ่อนนี้มีรากฐานมาจากวิธีการฝึกอบรมพื้นฐานมากกว่าขนาดหรือความซับซ้อนของโมเดล

เวกเตอร์ผลบวกลวง: ความเสี่ยงที่ไม่เห็นได้แต่เท่าเทียมกัน

EchoGram ไม่ใช่แค่วิธีการในการหลบหลีกรากฐานความปลอดภัย แต่ HiddenLayer ยังแสดงให้เห็นว่าสามารถใช้เพื่อสร้างผลบวกลวงได้โดยการรวมลำดับ EchoGram ลงในข้อมูลเข้าที่ไม่มีอันตราย ผู้โจมตีสามารถทำให้รากฐานความปลอดภัยจัดประเภทคำสั่งพูดทั่วไปว่าเป็นอันตรายได้ รายงานให้ตัวอย่างที่คำสั่งพูดทั่วไปถูกจัดประเภทเป็นการโจมตีเมื่อโทเค็น EchoGram ถูกเพิ่มหรือฝังในข้อความ

สิ่งนี้สร้างช่องทางให้กับการท่วมท้นด้วยสัญญาณเตือนภัย การที่สัญญาณเตือนภัยเพิ่มขึ้นอย่างไม่มีการควบคุม องค์กรอาจพลาดการโจมตีที่แท้จริงที่ซ่อนอยู่ภายในช่องทางนี้ การกัดเซาะความไว้วางใจในเครื่องมือภายในอาจเป็นอันตรายเท่ากับการโจมตีที่ประสบความสำเร็จ

ผลกระทบต่อความปลอดภัยของ AI

รายงาน EchoGram เน้นย้ำว่ารากฐานความปลอดภัยที่ฝึกอบรมจากแหล่งข้อมูลที่คล้ายคลึงกัน รูปแบบ หรือระบบการจำแนกประเภทมีแนวโน้มที่จะแบ่งปันจุดอ่อนที่เหมือนกัน ผู้โจมตีที่ค้นพบลำดับ EchoGram ที่ประสบความสำเร็จหนึ่งลำดับอาจสามารถนำไปใช้ซ้ำบนแพลตฟอร์มเชิงพาณิชย์หลายแห่ง การใช้งานขององค์กร และระบบของรัฐบาล HiddenLayer เน้นย้ำว่าผู้โจมติไม่จำเป็นต้องบุกรุกโมเดล LLM ที่อยู่ด้านล่าง พวกเขาต้องหลอกลวงผู้พิทักษ์หน้าจึงจะสามารถเข้าถึงได้

ความท้าทายนี้ขยายออกไปนอกเหนือจากความเสี่ยงทางเทคนิค องค์กรอาจคิดว่าการใช้รากฐานความปลอดภัยจะช่วยให้มีการป้องกันที่มีความหมาย แต่ EchoGram แสดงให้เห็นว่าการคิดนี้ไม่แน่นอน หากรากฐานความปลอดภัยสามารถพลิกได้ด้วยโทเค็นหนึ่งหรือสองตัว โครงสร้างความปลอดภัยทั้งหมดจะไม่น่าเชื่อถือ

เส้นทางในอนาคต

HiddenLayer สรุปว่า EchoGram ควรเป็นจุดเปลี่ยนในการที่อุตสาหกรรมเข้าใกล้ความปลอดภัยของ AI รากฐานความปลอดภัยไม่สามารถพึ่งพาเซตข้อมูลที่คงที่หรือการฝึกอบรมแบบครั้งเดียว พวกมันต้องการการทดสอบแบบก้าวร้าวอย่างต่อเนื่อง ความโปร่งใสเกี่ยวกับวิธีการฝึกอบรม และการตรวจสอบหลายชั้นมากกว่าการตัดสินแบบโมเดลเดียว เมื่อ AI ถูกฝังอยู่ในโครงสร้างพื้นฐานที่สำคัญ การเงิน การดูแลสุขภาพ และความมั่นคงแห่งชาติ จุดอ่อนที่ EchoGram เปิดเผยกลายเป็นเรื่องด่วนมากกว่าเรื่องทางวิชาการ

รายงาน นี้ สิ้นสุดด้วยการเรียกร้องให้รักษารากฐานความปลอดภัยว่าเป็นส่วนประกอบที่สำคัญด้านความปลอดภัยที่ต้องการความเข้มงวดเหมือนกับระบบป้องกันอื่นๆ โดยการเปิดเผยจุดอ่อนเหล่านี้ HiddenLayer ส่งเสริมให้อุตสาหกรรมก้าวไปสู่การสร้างการป้องกัน AI ที่สามารถทนต่อเทคนิคการโจมตีแบบก้าวร้าวในอนาคต

Antoine Tardif, CEO & Founder of Unite.AI

อ็องตวนเป็นผู้นำที่มีวิสัยทัศน์และเป็นพันธมิตรผู้ก่อตั้งของ Unite.AI โดยมีความหลงใหลที่ไม่สั่นคลอนในการ塑造และส่งเสริมอนาคตของ AI และหุ่นยนต์ เขาเป็นผู้ประกอบการที่มีประสบการณ์หลายครั้ง และเชื่อว่า AI จะมีผลกระทบต่อสังคมมากเท่ากับไฟฟ้า และมักจะพูดถึงศักยภาพของเทคโนโลยีที่เปลี่ยนแปลงและ AGI

As a futurist เขาได้ให้ความสนใจในการสำรวจว่านวัตกรรมเหล่านี้จะเปลี่ยนแปลงโลกของเราอย่างไร นอกจากนี้เขายังเป็นผู้ก่อตั้ง Securities.io ซึ่งเป็นแพลตฟอร์มที่มุ่งเน้นในการลงทุนในเทคโนโลยีที่ทันสมัยซึ่งกำลังกำหนดอนาคตและเปลี่ยนแปลงภาคส่วนต่างๆ

Unite.AI