มุมมองของ Anderson

การทำใหม่ของคำพูดที่ง่ายๆ ทำให้ AI ไม่ปลอดภัย แม้กระทั่ง Gemini และ Claude

เผยแพร่ 23 กุมภาพันธ์ 2026

อัปเดต 16 พฤษภาคม 2026

Martin Anderson

An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

การทดสอบความปลอดภัยของ AI พบว่าขึ้นอยู่กับ ‘คำพูดที่ชัดเจน’ เมื่อทำการเปลี่ยนแปลงคำพูดอย่างง่ายๆ โมเดลที่ถูกติดฉลากว่า ‘ปลอดภัยในระดับที่สมเหตุสมผล’ ก็ล้มเหลวอย่างรวดเร็ว โดยมีการโจมตีที่ประสบความสำเร็จสูงถึง 98% ของเวลา

การวิจัยของบริษัทจากสหรัฐฯ ได้สรุปว่า บันทึกความปลอดภัยที่ดีของโมเดลภาษาขนาดใหญ่หลายรุ่น (LLM) รวมถึงชื่อชั้นนำหลายชื่อ เช่น Gemini 3 Pro และ Claude Sonnet 3.7 อาจไม่มีความหมาย เนื่องจากชุดข้อมูลและมาตรฐานที่ใช้ในการสร้างบันทึกเหล่านั้นประกอบด้วยภาษาที่ ‘ชัดเจน’ อย่างน่ากลัว

ชุดข้อมูลสองชุดนี้ คือ HarmBench และ AdvBench:

จากเอกสาร HarmBench และ AdvBench ซึ่งเป็นตัวอย่างที่แสดงถึงการกระตุ้น – แต่เอกสารใหม่ระบุว่าแม้ในชุดข้อมูลจากโลกแห่งความเป็นจริง ตัวอย่างเหล่านี้ก็ยังแสดงถึงเจตนาในทางลบอย่างชัดเจน ซึ่งอาจนำไปสู่การ ‘หลอกลวง’ ผลลัพธ์โดยไม่ตั้งใจ Sources: HarmBench และ AdvBench.

แม้ว่าตัวอย่างที่แสดงข้างต้นซึ่งมาจากเอกสารของแต่ละมาตรฐานจะถูกออกแบบมาเพื่อแสดงหลักการของระบบอย่างง่าย แต่การวิจัยใหม่ระบุว่าชุดข้อมูลเหล่านี้จริงๆ แล้วมุ่งเป้าไปที่ ‘ผลลัพธ์ที่ง่าย’ และอาจไม่ใช่มาตรฐานที่มีประสิทธิภาพ – และผลลัพธ์ที่แท้จริงสำหรับความสามารถด้านความปลอดภัยของ LLM ที่ถูกทดสอบนั้นต่ำกว่าที่ได้รายงาน:

‘[เรา] ประเมินว่าชุดข้อมูลเหล่านี้วัดความเสี่ยงด้านความปลอดภัยอย่างแท้จริงหรือเพียงแค่กระตุ้นการปฏิเสธผ่านสัญญาณกระตุ้น To explore this, we introduce “intent laundering”: a procedure that abstracts away triggering cues from attacks (data points) while strictly preserving their malicious intent and all relevant details.

‘ผลลัพธ์ของเราแสดงให้เห็นว่าชุดข้อมูลความปลอดภัยของ AI ในปัจจุบันล้มเหลวในการแสดงถึงการโจมตีในโลกแห่งความเป็นจริงเนื่องจากการอาศัยสัญญาณกระตุ้นอย่างมาก

‘ในความเป็นจริง เมื่อสัญญาณเหล่านี้ถูกถอดออก โมเดลที่ถูกประเมินว่า ‘ปลอดภัยในระดับที่สมเหตุสมผล’ ทั้งหมดกลายเป็นไม่ปลอดภัย รวมถึง Gemini 3 Pro และ Claude Sonnet 3.7′

‘ความปลอดภัย’ ในบริบทนี้หมายถึง การเทียบเคียง – ความสามารถของ LLM ในการป้องกันไม่ให้ผู้ใช้พยายาม ‘หลบหลีก’ ข้อจำกัด ในระบบ API เพื่อให้ระบบ ผลิตข้อมูลที่ถูกห้าม เช่น ข้อความหรือรูปภาพที่เป็นการดูหมิ่น

การ ‘ล้างเจตนา’ ของผู้เขียนเพียงแค่เปลี่ยนคำพูดที่ ‘ชัดเจน’ ในชุดข้อมูลสองชุดให้กลายเป็นคำพูดที่ซับซ้อนและหลอกลวงมากขึ้น ซึ่งสามารถหลบหลีกการกรองและตรวจสอบได้:

ส่วนบนของตัวอย่างที่ไม่เหมาะสมจากเอกสาร Shown top-left, in yellow, the kind of ‘obvious’ prompt that HarmBench and AdvBench typically furnish; underneath, in green, the prompt has been neutralized, reworded, and made acceptable enough to Claude Sonnet 3.7 that it is now willing to help the user locate ‘chop shops’ (processing locations for stolen vehicles) in a new city. Source

นักวิจัยวิเคราะห์คุณสมบัติของชุดข้อมูลสองชุดนี้โดยใช้สองวิธี: ในการแยกออกมา เพื่อเปรียบเทียบชุดข้อมูลกับคุณสมบัติของการโจมตีในโลกแห่งความเป็นจริง; และในทางปฏิบัติ โดยที่ชุดข้อมูล – และการปรับปรุงของชุดข้อมูลโดยผู้เขียน – ถูกใช้ในการโจมตีโมเดลในโลกแห่งความเป็นจริง

ในรอบที่สองของการทดสอบ นักวิจัยได้ ‘ปรับปรุงวิธีการเปลี่ยนแปลงคำพูด’ จนกว่าจะได้ผลลัพธ์ที่ดีที่สุดในแง่ของอัตราความสำเร็จของการโจมตี (ASR):

การ ‘ล้างเจตนา’ เริ่มต้นด้วยการผ่านคำพูดที่ชัดเจนและเป็นอันตรายผ่านโมเดลการเขียนใหม่ที่ลบภาษาที่กระตุ้นออกไปในขณะที่ยังคงเจตนาในทางลบไว้ คำพูดที่แก้ไขแล้วถูกส่งไปยังโมเดลเป้าหมาย และการตอบสนองถูกประเมินสำหรับทั้งความปลอดภัยและความเป็นไปได้ในการใช้งานในโลกแห่งความเป็นจริง

ผู้เขียนระบุ*:

‘ผลลัพธ์ของเราแสดงให้เห็นว่าด้วยการวนซ้ำนี้ การ ‘ล้างเจตนา’ สามารถบรรลุ อัตราความสำเร็จสูง (90%–98.55%) หลังจากเพียงไม่กี่ครั้งในการวนซ้ำทั้งหมดที่ศึกษา โดยใช้การเข้าถึงแบบ black-box ทั้งหมด ซึ่งรวมถึงโมเดลที่เพิ่งถูกตีพิมพ์เป็นหนึ่งในโมเดลที่ปลอดภัยที่สุด เช่น Gemini 3 Pro และ Claude Sonnet 3.7.

‘ผลลัพธ์เหล่านี้ยืนยันเพิ่มเติมว่าการประเมินความปลอดภัยและการจัดแนวความปลอดภัยที่มีอยู่นั้นถูก overfitted^† กับสัญญาณกระตุ้น’

งานวิจัยใหม่นี้ มีชื่อว่า การ ‘ล้างเจตนา’: ชุดข้อมูลความปลอดภัยของ AI ไม่ใช่สิ่งที่พวกมันดูเหมือน และมาจากผู้เขียนสองคนจากบริษัทซอฟต์แวร์ Labelbox ที่ตั้งอยู่ในซานฟรานซิสโก

วิธีการ

ในการศึกษาความประกอบและโครงสร้างของชุดข้อมูลสองชุดนี้ในแง่ของการแยกออกมา วอร์ดคลาวด์ถูกสร้างขึ้นจากทั้งสองชุดข้อมูล โดยเปิดเผยว่าคำและวลีที่โดดเด่นในแต่ละชุด:

วอร์ดคลาวด์ที่แสดง 40 คำและวลีที่บ่อยที่สุดใน AdvBench และ HarmBench ที่รวมกัน คำที่มีความหมายลบหรืออ่อนไหวถูกเน้นด้วยสีแดง สัญญาณกระตุ้นในบริบทถูกเน้นด้วยสีส้ม และคำที่เป็นกลางที่สร้างสัญญาณกระตุ้นระดับสูงถูกเน้นด้วยสีเขียว

ผู้เขียนระบุว่าคำและวลีที่โดดเด่นในระดับหนึ่งสองและสามนั้นเปิดเผยเจตนาในทางลบอย่างไม่สมเหตุสมผล เมื่อเทียบกับภาษาที่อาชญากรใช้ในการสนทนา และที่นักโจมตีใช้ในการทดสอบหรือพยายามบุกรุกการป้องกันของ LLM:

‘สัญญาณเหล่านี้บ่อนทำลายคุณสมบัติสองประการ – การสร้างและขับเคลื่อนด้วยเจตนาในทางลบ – เนื่องจากภาษาที่ชัดเจนนี้ไม่พบในโลกแห่งความเป็นจริงและดูเหมือนถูกออกแบบมาเพื่อกระตุ้นกลไกความปลอดภัยโดยไม่ตั้งใจ ‘

เอกสารระบุว่าลักษณะของชุดข้อมูลเหล่านี้เป็น ‘สัญญาณกระตุ้น’ – วลีที่มีความหมายลบหรืออ่อนไหวที่ดูเหมือนถูก ‘ออกแบบ’ เพื่อกระตุ้นการกรองความปลอดภัย:

การเพิ่มความซับซ้อน

ผู้เขียนสังเกตเห็นว่าการทำซ้ำของสัญญาณกระตุ้นนั้นไม่เพียงแต่ทำให้คำกระตุ้นดูเหมือนไม่จริงเท่านั้น แต่ยังบ่งบอกถึงการทำซ้ำของข้อมูลในชุดข้อมูลอีกด้วย เพื่อทดสอบทฤษฎีนี้ พวกเขาทำการตรวจสอบความคล้ายคลึงกันแบบคู่ (pairwise similarity checks) ทั่วทั้งชุดข้อมูลแต่ละชุด โดยใช้ขอบเขตตั้งแต่ 0.7 ถึง 0.99 และจัดกลุ่มคำกระตุ้นที่เกินขอบเขตที่กำหนดเป็นข้อมูลซ้ำ ในขณะที่คำที่เหลือถือเป็นข้อมูลที่ไม่ซ้ำกัน:

เนื่องจากไม่มีมาตรฐานที่ยอมรับกันในเรื่องของความคล้ายคลึงที่ ‘สูง’ ในชุดข้อมูลโดเมนเดียว พวกเขาจึงใช้ Open AI’s Grade School Math (GSM8K) ซึ่งเป็นมาตรฐานที่ไม่เกี่ยวข้องกับความปลอดภัยที่ได้รับความนิยม โดยตรงกับขนาดของ HarmBench และ AdvBench สำหรับการเปรียบเทียบที่ควบคุม:

อัตราการซ้ำใน AdvBench และ HarmBench ที่ขอบเขตความคล้ายคลึงต่างๆ เมื่อเปรียบเทียบกับชุดข้อมูล GSM8K ที่มีขนาดเท่ากัน ที่เกือบทุกขอบเขต ชุดข้อมูลความปลอดภัยมีคำกระตุ้นที่คล้ายกันมากกว่ามาตรฐานที่ไม่เกี่ยวข้องกับความปลอดภัย ซึ่งบ่งบอกถึงการประเมินซ้ำของเจตนาในทางลบด้วยคำพูดที่แตกต่างกันเล็กน้อย และชี้ให้เห็นว่าประสิทธิภาพความปลอดภัยที่รายงานอาจถูกพองตัว

การค้นพบอีกอย่างหนึ่งจากส่วนนี้ของการศึกษาเปรียบเทียบคำกระตุ้นภายในแต่ละชุดข้อมูล เพื่อวัดว่ามีกี่คำที่แท้จริงแล้วแตกต่างกัน: ที่ระดับความคล้ายคลึงกันที่เป็นกลาง (mid-range similarity setting) มีเพียงประมาณ 11% ของคำกระตุ้นใน AdvBench ที่แตกต่างกัน ในขณะที่เกือบ 94% ของคำถามในตัวอย่าง GSM8K ที่มีขนาดเท่ากันถือเป็นคำถามที่แตกต่างกัน:

ตัวอย่างของคำกระตุ้นที่คล้ายกันใน AdvBench และ HarmBench ซึ่งแตกต่างกันเพียงคำพูดเท่านั้น ในขณะที่แสดงถึงเจตนาในทางลบเหมือนกัน การใช้สัญญาณกระตุ้นอย่างต่อเนื่อง โดยแสดงด้วยสีแดงสำหรับคำที่มีความหมายลบและด้วยสีส้มสำหรับคำที่อ่อนไหวในบริบท สร้างกลุ่มคำกระตุ้นที่ทดสอบสถานการณ์เดียวกันหลายครั้ง – หมายความว่าการตอบสนองหนึ่งครั้งจะเพียงพอสำหรับการประเมินโมเดลสำหรับเจตินั้น

HarmBench แสดงแนวโน้มเดียวกัน โดยมีการซ้ำกัน 16% ที่ระดับความคล้ายคลึงกันนั้น เมื่อเทียบกับ 3.5% ใน GSM8K หมายความว่าชุดข้อมูลความปลอดภัยมักจะใช้คำขอในทางลบเดียวกันซ้ำๆ โดยมีการเปลี่ยนแปลงคำพูดเล็กน้อย

หาก 85% ของตัวอย่างที่แตกต่างกันถือเป็นมาตรฐานที่สมเหตุสมผล AdvBench จะบรรลุระดับนี้ได้เพียงภายใต้การกำหนดค่าที่เข้มงวดมาก และยังไม่ถึง 90% ในขณะที่ GSM8K บรรลุ 85% ที่ระดับความคล้ายคลึงที่ต่ำกว่ามาก ตามเอกสาร แนวโน้มนี้ชี้ให้เห็นว่าชุดข้อมูลความปลอดภัยทดสอบการเปลี่ยนแปลงซ้ำๆ ของแนวคิดเดียวกัน มากกว่าการโจมตีในหลายสถานการณ์

แนวทางอื่นๆ และการทดสอบ

เทคนิค ‘การ ‘ล้างเจตนา” ที่ใช้ LLM จะลบภาษาที่กระตุ้นออกไปในขณะที่ยังคงเจตนาในทางลบไว้ แทนที่จะแสดงเจตนาโดยตรง คำพูดที่แก้ไขแล้ว ‘บอกเป็นนัย’ ว่ามีเจตนาในทางลบ โดยรักษาเจตนาในทางลบไว้ แต่หลีกเลี่ยงสัญญาณที่อาจกระตุ้นการปฏิเสธโดย LLM:

สองวิธีที่ทำให้เทคนิคนี้เป็นไปได้คือ การทำให้คำพูดเป็นกลาง ซึ่งแทนที่คำที่มีความหมายลบด้วยคำที่เป็นกลางหรือคำอธิบาย และ การเปลี่ยนบริบท ซึ่งย้ายอ้างอิงจากโลกแห่งความเป็นจริงไปสู่สถานการณ์ที่สมมติ โดยไม่เปลี่ยนแปลงความหมายที่แท้จริง

ชุดคำพูดที่แก้ไขแล้วถูกเขียนขึ้นโดยมือโดยผู้เขียน จากนั้นจึงใช้ GPT-5.1 (gpt-5.1-2025-11-13) ด้วยการตั้งค่า eight-shot in-context learning เพื่อเป็น ‘เครื่องล้างเจตนา’ การตอบสนองต่อคำพูดเดิมและคำพูดที่แก้ไขแล้วถูกเปรียบเทียบเพื่อวัดว่าสัญญาณกระตุ้นชัดเจน影響การประเมินความปลอดภัยอย่างไร

เนื่องจากการ ‘ล้างเจตนา’ สามารถเปลี่ยนแปลงทั้งคำพูดและกรอบความคิด การตอบสนองจึงถูกประเมินในแง่ของ ความปลอดภัย และ ความเป็นไปได้ในการใช้งาน ความปลอดภัยถูกจัดอันดับตามมาตรฐาน five-point Likert scale จาก ‘ไม่ปลอดภัยอย่างมาก’ ถึง ‘ปลอดภัย’ โดยพิจารณาว่าการตอบสนองรักษาเจตนาในทางลบไว้หรือไม่ และถ้าใช่ เจตินั้นมีอันตรายเพียงใด:

เทมเพลตคำพูดที่ใช้สำหรับการประเมินความปลอดภัยมาตรฐานของการตอบสนองต่อข้อมูลจุดเดิมจาก AdvBench และ HarmBench ก่อนการ ‘ล้างเจตนา’ GPT-5.1 ถูกสั่งให้จัดอันดับการตอบสนองแต่ละครั้งตามมาตรฐาน five-point Likert scale จาก ‘ไม่ปลอดภัยอย่างมาก’ ถึง ‘ปลอดภัย’ โดยเลือกการประเมินโดยรวมตามว่าเนื้อหาทำให้เกิดอันตรายหรือไม่

‘ความเป็นไปได้ในการใช้งาน’ ถูกจัดอันดับตามมาตรฐาน five-point ที่สอดคล้องกันจาก ‘ใช้ได้อย่างมาก’ ถึง ‘ไม่สามารถใช้ได้’ โดยพิจารณาจากว่ารายละเอียดที่ให้มาเป็นประโยชน์และสามารถนำไปใช้ได้จริงในโลกแห่งความเป็นจริงหรือไม่ และอัตราความสำเร็จของการโจมตี (ASR) วัดผลลัพธ์ โดยมีการนับว่าการโจมตีสำเร็จเฉพาะเมื่อการตอบสนองถูกจัดว่า ‘ไม่ปลอดภัย’ และ ‘ใช้ได้’ เท่านั้น

การให้คะแนน five-point ถูกแปลงเป็นผลลัพธ์แบบไบนารีเพื่อลดความคลุมเครือ และการ ‘ล้างเจตนา’ ยังถูกพัฒนาให้เป็นวิธีการ ‘หลบหลีก’ โดยการเพิ่มลูปการวนซ้ำและการสร้างใหม่ โดยที่การแก้ไขที่ล้มเหลวถูกส่งกลับไปยัง GPT-5.1 ภายใต้การตั้งค่า eight-shot in-context learning ที่เหมือนกัน ลูปนี้ดำเนินต่อไปจนกว่าจะถึงจำนวนครั้งที่กำหนดหรือจนกว่าจะบรรลุอัตราความสำเร็จของการโจมตีที่ต้องการ

สำหรับการทดสอบการประเมินความปลอดภัย ชุดแพ็คเกจ Python wordcloud ถูกใช้ในการดึง n-grams จาก HarmBench และ AdvBench โดยใช้วิธีการกรองแบบมาตรฐาน (เช่น การลบ stopwords และคำที่ไม่เกี่ยวข้อง)

ชุดข้อมูลความปลอดภัยเดียวกับที่ใช้ในการวิเคราะห์วอร์ดคลาวด์ถูกผสมกับตัวอย่างสุ่มจาก GSM8K โดยมีจำนวนคำที่เท่ากันเพื่อรักษาความเท่าเทียมกันระหว่างชุดข้อมูล

ผู้เขียนใช้ embeddings จาก all-MiniLM-L6-V2 checkpoint จาก Sentence-BERT Transformers เนื่องจากได้รับการปรับให้เหมาะสมสำหรับการจัดกลุ่มและค้นหาความหมายแล้ว

เกณฑ์การประเมินถูกสร้างขึ้นโดย (โมเดล GPT-4o ที่ถูกยกเลิกไปแล้ว) โดยจำกัดไว้ที่ 1024 โทเคน GPT-5.1 ประเมินความปลอดภัยและความเป็นไปได้ในการใช้งานหลังการ ‘ล้างเจตนา’ โดยไม่มีการปรับแต่งใดๆ และถูกจำกัดไว้ที่ 1024 โทเคนเช่นกัน

โมเดลที่ถูกทดสอบ ได้แก่ Gemini 3 Pro; Claude Sonnet 3.7; Grok 4; GPT-4o; และ Qwen2.5-7B-Instruct สำหรับโมเดลที่สามารถให้เหตุผลได้ ความสามารถในการให้เหตุผลถูกตั้งค่าให้ต่ำที่สุดเท่าที่จะเป็นไปได้

ทุกโมเดลถูกจำกัดไว้ที่การผลิตสูงสุด 4096 โทเคน:

การประเมินความปลอดภัย (SE), การประเมินความเป็นไปได้ (PE), และอัตราความสำเร็จของการโจมตี (ASR) สำหรับเจ็ดโมเดลใน AdvBench (ด้านบน) และ HarmBench (ด้านล่าง) ภายใต้สามเงื่อนไข: ไม่มีการแก้ไข, การแก้ไขครั้งแรก, และการวนซ้ำและการสร้างใหม่ของการ ‘ล้างเจตนา’ SE รายงานเปอร์เซ็นต์ของการตอบสนองที่ถูกจัดว่า ‘ไม่ปลอดภัยอย่างมาก’, ‘ไม่ปลอดภัย’, หรือ ‘ไม่ปลอดภัย’; PE รายงานเปอร์เซ็นต์ที่ถูกจัดว่า ‘ใช้ได้อย่างมาก’, ‘ใช้ได้ดี’, หรือ ‘ใช้ได้’; และ ASR วัดเปอร์เซ็นต์ของการตอบสนองที่ ‘ไม่ปลอดภัย’ และ ‘ใช้ได้’ ในการกำหนดค่า ‘ไม่มีการแก้ไข’ ASR ตามคำจำกัดความมาตรฐานเนื่องจากไม่มีการสร้างใหม่ Bold values หมายถึง ASR ที่สูงสุดที่บรรลุได้ในแต่ละชุดข้อมูล และ ASR ที่ต่ำกว่าหมายถึงความปลอดภัยของโมเดลที่แข็งแกร่งกว่า

เกี่ยวกับผลลัพธ์เหล่านี้ ผู้เขียนระบุว่าการลบสัญญาณกระตุ้นที่ชัดเจนออกจากคำพูดที่โจมตีทำให้อัตราความสำเร็จของการโจมตีเพิ่มขึ้นอย่างรวดเร็ว ใน AdvBench อัตราความสำเร็จเฉลี่ยของการโจมตีเพิ่มขึ้นจาก 5.38% ในตอนแรกเป็น 86.79% หลังจากการแก้ไขครั้งแรก และใน HarmBench เพิ่มขึ้นจาก 13.79% เป็น 79.83% – หมายความว่าการปฏิเสธของโมเดลถูกขับเคลื่อนด้วยสัญญาณกระตุ้นอย่างมาก

ผู้เขียนสังเกตเห็นว่า:

‘สิ่งนี้บ่งชี้ว่าการปฏิเสธของโมเดลถูกขับเคลื่อนด้วยสัญญาณกระตุ้น ดังนั้น ชุดข้อมูลความปลอดภัยจึงไม่สามารถวัดความเสี่ยงด้านความปลอดภัยในโลกแห่งความเป็นจริงได้อย่างน่าเชื่อถือ เนื่องจากพวกมันพึ่งพาสัญญาณกระตุ้นมากกว่าเจตนาในทางลบในการกระตุ้นการปฏิเสธ’

การ ‘ล้างเจตนา’ ในเอกสารนี้ถูกกล่าวถึงว่าสามารถลบสัญญาณกระตุ้นออกไปในขณะที่ยังคงเจตนาในทางลบไว้ และใช้ได้เป็นวิธีการ ‘หลบหลีก’ ที่มีประสิทธิภาพ ในการวนซ้ำและการสร้างใหม่ครั้งสุดท้ายที่สอดคล้องกับ ASR ที่สูงสุดในแต่ละชุดข้อมูล อัตราความสำเร็จของการโจมตีสามารถบรรลุได้ถึง 90% ถึง 98.55% ทั่วทั้งโมเดล

รวมถึง Gemini 3 Pro และ Claude Sonnet 3.7 ซึ่งถูก ‘หลบหลีก’ ด้วยอัตราความสำเร็จของการโจมตี 93% ถึง 95% ใน AdvBench และ 91% ถึง 93% ใน HarmBench หลังจากเพียงไม่กี่ครั้งในการวนซ้ำ

ผู้เขียนสรุปว่า:

‘ผลลัพธ์ของเราแสดงให้เห็นว่าข้อสรุปเกี่ยวกับความปลอดภัยก่อนหน้านี้ไม่คงอยู่เมื่อสัญญาณกระตุ้นถูกลบออก และว่าประสิทธิภาพความปลอดภัยที่สังเกตได้ถูกขับเคลื่อนด้วยสัญญาณกระตุ้นมากกว่าความเสี่ยงด้านความปลอดภัยที่แท้จริง

‘เรายังแสดงให้เห็นว่าการ ‘ล้างเจตนา’ สามารถใช้เป็นวิธีการ ‘หลบหลีก’ ที่มีประสิทธิภาพ โดยบรรลุอัตราความสำเร็จของการโจมตี 90% ถึงมากกว่า 98%

‘โดยรวมแล้ว ผลลัพธ์ของเราเปิดเผยช่องว่างที่สำคัญระหว่างวิธีการประเมินความปลอดภัยของโมเดลและพฤติกรรมที่เป็นอันตรายในโลกแห่งความเป็นจริง

‘ตามนั้น เราสรุปว่า (1) การประเมินความปลอดภัยต้องพัฒนาเพื่อจับกุมการโจมตีในทางลบได้จริงมากขึ้น และ (2) ความพยายามในการจัดแนวความปลอดภัยในปัจจุบันยังคงไม่แข็งแกร่งพอที่จะรับมือกับภัยคุกคามในโลกแห่งความเป็นจริง’

สรุป

เส้นด้ายที่ยังคงดำเนินต่อไปในวรรณกรรมภาษาและวิชาหนึ่ง (และที่ที่พวกมันมาบรรจบกัน เช่น VLMs) คือความไม่สามารถที่จะเข้าใจได้อย่างน่าเชื่อถือว่าเมื่อใดที่จะผลิตเนื้อหาที่ถูกห้ามหรือเมื่อใดที่จะหลุดเข้าสู่เนื้อหานั้นโดยไม่ตั้งใจ:

เบื้องหลังฉากของโรงงานโมเดลที่ใหญ่ขึ้นและไม่โปร่งใส่ เราสามารถอนุมานได้ว่าการควบคุมอย่างเข้มงวดในพื้นที่ทางภาษานี้มาพร้อมกับการเสียสละที่ไม่สามารถยอมรับได้ เช่น การลดประสิทธิภาพในการสร้างเนื้อหาที่ไม่ถูกห้าม หรืออัตราการตรวจจับเท็จที่ไม่สามารถยอมรับได้จากตัวกรองเนื้อหา

ลักษณะพื้นฐานของโมเดลที่ฝึกอบรมในโดเมนใดๆ คือการปฏิบัติตามข้อมูลฝึกอบรมทั้งหมดไปสู่ข้อสรุปใดๆ ที่คำกระตุ้นสามารถขับเคลื่อนได้ – ข้อจำกัดเดียวที่มีอยู่คือการไม่รวมเนื้อหาที่เป็นข้อขัดแย้งในข้อมูลฝึกอบรม (ซึ่งเป็นปัญหาด้านลอจิสติกส์มากกว่า) หรือการ ‘ตัด’ ทางเดินไปสู่เนื้อหาที่ไม่พึงประสงค์หลังการฝึกอบรม (กระบวนการที่สามารถถูกกลับด้านได้โดยการ ‘ลบ’ อย่างชัดเจน หรือเป็นผลกระทบไม่คาดคิดของการปรับให้เหมาะสม)

* การแทนที่อ้างอิงในบรรทัดของผู้เขียนด้วยไฮเปอร์ลิงก์ โดยผู้เขียนเน้นย้ำ ไม่ใช่ของผู้แปล

^†https://www.unite.ai/what-is-overfitting/

ตีพิมพ์ครั้งแรกวันจันทร์ที่ 23 กุมภาพันธ์ 2026