เชื่อมต่อกับเรา

บทกวีเชิงต่อต้านคืออะไร? วิธีการเจาะระบบด้วย AI แบบใหม่

ปัญญาประดิษฐ์

บทกวีเชิงต่อต้านคืออะไร? วิธีการเจาะระบบด้วย AI แบบใหม่

mm

ความปลอดภัยของปัญญาประดิษฐ์ (AI) กลายเป็นเกมไล่จับระหว่างแมวกับหนูที่เกิดขึ้นอย่างต่อเนื่อง ขณะที่นักพัฒนาเพิ่มกลไกป้องกันเพื่อบล็อกคำขอที่เป็นอันตราย ผู้โจมตีก็ยังคงพยายามหาวิธีใหม่ๆ เพื่อหลีกเลี่ยงกลไกเหล่านั้น หนึ่งในกลอุบายที่แปลกประหลาดที่สุดคือการใช้บทกวีเพื่อโจมตี กลยุทธ์นี้เกี่ยวข้องกับการปลอมแปลงคำสั่งให้เป็นบทกวี และใช้สัมผัส คำอุปมา และถ้อยคำที่แปลกประหลาด เพื่อทำให้คำสั่งที่เสี่ยงดูไม่เหมือนสิ่งที่ระบบความปลอดภัยได้รับการฝึกฝนให้ตรวจจับได้ 

ในทางปฏิบัติ เนื้อหาเองไม่ได้เปลี่ยนแปลงมากนัก สิ่งที่เปลี่ยนไปคือรูปแบบการห่อหุ้ม ซึ่งอาจทำให้ตัวกรองตามรูปแบบเกิดความสับสนได้ นี่เป็นการย้ำเตือนว่า ด้วยโมเดลในปัจจุบัน วิธีการตั้งคำถามมีความสำคัญเกือบเท่ากับคำถามที่ถูกถามเลยทีเดียว 

เกิดอะไรขึ้นเมื่อนักวิจัยใช้บทกวีเพื่อทำลายระบบปัญญาประดิษฐ์?

ในช่วงต้นปี 2025 นักวิจัยได้แสดงให้เห็นว่าแบบจำลองภาษาขนาดใหญ่ (LLMs) สามารถตอบสนองต่อคำสั่งที่จำกัดได้โดยการนำเสนอในรูปแบบบทกวี แทนที่จะออกคำสั่งโดยตรงที่กระตุ้นนโยบาย นักวิจัยได้ฝังคำขอเหล่านั้นไว้ภายในสัมผัสคล้องจอง คำอุปมา และบทกวีบรรยาย

โดยผิวเผินแล้ว โจทย์เหล่านั้นดูเหมือนจะเป็นแบบฝึกหัดการเขียนเชิงสร้างสรรค์ แต่ภายใต้โจทย์เหล่านั้น มันแฝงไปด้วยเจตนาเดียวกันกับที่ปกติแล้วจะถูกปิดกั้น ทีมงานรายงานว่า จากการทดสอบกับโมเดลเฉพาะและโมเดลแบบเปิด 25 โมเดล การใช้กรอบความคิดเชิงกวีช่วยให้สามารถเจาะระบบได้สำเร็จโดยเฉลี่ย 62% สำหรับบทกวีที่แต่งด้วยมือ และประมาณ 43% สำหรับการ "แปลงข้อความ" จำนวนมากโดยใช้เมตาพรอมต์มาตรฐาน

คำตอบเหล่านั้นไม่ใช่ความล้มเหลวรูปแบบใหม่ แต่เป็นความล้มเหลวที่คุ้นเคยซึ่งปรากฏขึ้นมาในรูปแบบที่ไม่คาดคิด แบบจำลองเหล่านั้นถูกกระตุ้นให้สร้างเนื้อหาที่พวกเธอมักหลีกเลี่ยง เช่น คำอธิบายที่เกี่ยวข้องกับกิจกรรมที่ผิดกฎหมายหรือเป็นอันตราย เนื่องจากคำขอพื้นฐานนั้นกระจัดกระจายและคลุมเครือด้วยโครงสร้างเชิงกวี 

ข้อสรุปหลักของการศึกษาครั้งนี้คือ การเปลี่ยนแปลงรูปแบบการเขียนเพียงอย่างเดียวก็เพียงพอที่จะหลีกเลี่ยงระบบความปลอดภัยที่ออกแบบมาสำหรับการเขียนแบบตรงตัวได้แล้ว ซึ่งเผยให้เห็นถึงจุดอ่อนที่ปรากฏให้เห็นได้ในกลุ่มแบบจำลองและวิธีการจัดเรียงข้อความต่างๆ 

กลไกการทำงานของบทกวีเชิงโต้แย้ง

การโจมตีแบบมุ่งร้ายใช้ประโยชน์จากความจริงง่ายๆ ข้อหนึ่ง คือ ระบบการเรียนรู้ของเครื่องจักรไม่ได้ "เข้าใจ" ภาษาในแบบที่มนุษย์เข้าใจ ระบบเหล่านี้จะตรวจจับรูปแบบ คาดการณ์ความต่อเนื่องที่อาจเกิดขึ้น และปฏิบัติตามคำสั่งโดยอิงจากสิ่งที่ระบบการฝึกฝนและระบบความปลอดภัยตีความว่าเป็นเจตนา 

เมื่อคำถามถูกตั้งขึ้นอย่างตรงไปตรงมาและชัดเจน ระบบป้องกันจะสามารถรับรู้และสกัดกั้นได้ง่ายกว่า อย่างไรก็ตาม เมื่อจุดประสงค์เดียวกันนั้นถูกปกปิด – เช่น แบ่งแยก ทำให้เบาลง หรือเปลี่ยนกรอบ – ระบบป้องกันอาจมองข้ามสิ่งที่แท้จริงที่ต้องการถามไป 

เหตุใดบทกวีจึงเป็นเครื่องมือที่มีประสิทธิภาพ

โดยธรรมชาติแล้วบทกวีนั้นถูกสร้างขึ้นมาเพื่อความคลุมเครือ มันอาศัยอุปมาอุปไมย นามธรรม โครงสร้างที่แปลกใหม่ และการใช้ถ้อยคำทางอ้อม ลักษณะเหล่านี้เองที่สามารถทำให้เส้นแบ่งระหว่าง "งานเขียนสร้างสรรค์ที่ไม่เป็นอันตราย" กับ "คำขอที่ควรปฏิเสธ" นั้นเลือนรางได้

ในการศึกษาเดียวกันในปี 2025 นักวิจัยรายงานว่า การใช้คำกระตุ้นเชิงกวีสามารถกระตุ้นให้เกิดการตอบสนองที่ไม่ปลอดภัยได้ในอัตราความสำเร็จ 90% ในแบบจำลองที่หลากหลาย ซึ่งบ่งชี้ว่ารูปแบบเพียงอย่างเดียวสามารถเปลี่ยนแปลงผลลัพธ์ได้อย่างมีนัยสำคัญ 

บทกวีซ่อนคำขอที่แท้จริงได้อย่างไร

ลองนึกถึงคำขอเป็นเหมือนข้อความ และบทกวีเป็นเหมือนบรรจุภัณฑ์ ตัวกรองความปลอดภัยมักมองหาสัญญาณที่ชัดเจน เช่น คำหลักที่โจ่งแจ้ง การบรรยายขั้นตอนอย่างตรงไปตรงมา หรือเจตนาร้ายที่สามารถรับรู้ได้ 

บทกวีสามารถปกปิดเจตนานั้นได้ด้วยภาษาเชิงเปรียบเทียบ หรือกระจายเจตนานั้นไปหลายบรรทัด ทำให้ยากที่จะสังเกตเห็นได้หากพิจารณาแยกเป็นบรรทัดเดียว ในขณะเดียวกัน แบบจำลองพื้นฐานก็ยังคงสามารถสร้างความหมายขึ้นมาใหม่ได้ดีพอที่จะตอบสนองได้ เพราะได้รับการปรับให้เหมาะสมเพื่ออนุมานเจตนาได้แม้ว่าภาษาจะไม่ตรงไปตรงมาก็ตาม 

การตรวจจับและแก้ไขปัญหาการเจลเบรก

เมื่อวิธีการเจลเบรกมีความสร้างสรรค์มากขึ้น การสนทนาจึงต้องเปลี่ยนจากการตรวจจับและควบคุมวิธีการเจลเบรก ไปสู่การทำความเข้าใจและควบคุมวิธีการเหล่านั้น โดยเฉพาะอย่างยิ่งในปัจจุบันที่ปัญญาประดิษฐ์ (AI) เข้ามาเป็นส่วนหนึ่งของกิจวัตรประจำวันของผู้คนจำนวนมากแล้ว โดย 27% รายงานว่าใช้งานอยู่ วันละหลายครั้ง 

เมื่อมีผู้ใช้งานแบบจำลองภาษาขนาดใหญ่ (LLMs) มากขึ้น ควรมีการทดสอบและสำรวจมาตรการป้องกันเพิ่มเติม งานนี้เกี่ยวข้องกับการสร้างระบบป้องกันหลายชั้นที่สามารถปรับตัวให้เข้ากับรูปแบบการแจ้งเตือนและกลโกงต่างๆ ที่เกิดขึ้นใหม่ได้

ภาวะกลืนไม่เข้าคายไม่ออกของนักพัฒนา

ส่วนที่ยากที่สุดสำหรับทีมรักษาความปลอดภัย AI เกี่ยวกับการเจาะระบบคือภัยคุกคามเหล่านี้ไม่ได้มีเพียงรูปแบบเดียว แต่เปลี่ยนแปลงอยู่ตลอดเวลา การเปลี่ยนแปลงอย่างต่อเนื่องนี้เกิดขึ้นเพราะผู้ใช้สามารถปรับเปลี่ยนคำถาม แบ่งคำถามออกเป็นส่วนย่อยๆ ใส่บทบาทสมมติ หรือปลอมแปลงเป็นงานเขียนเชิงสร้างสรรค์ได้ จากนั้น รูปแบบใหม่แต่ละแบบก็สามารถเปลี่ยนวิธีที่ระบบตีความเจตนาของคำถามได้ 

ความท้าทายดังกล่าวจะเพิ่มขึ้นอย่างรวดเร็วเมื่อ AI ถูกบูรณาการเข้ากับกิจวัตรประจำวันแล้ว ดังนั้นการใช้งานจริงจึงสร้างโอกาสไม่รู้จบสำหรับกรณีพิเศษต่างๆ ที่จะเกิดขึ้น

ด้วยเหตุนี้ ความปลอดภัยของ AI ในปัจจุบันจึงดูเหมือนเป็นการจัดการความเสี่ยงในระยะยาวมากกว่า กรอบการบริหารความเสี่ยง AI ของ NIST (AI RMF) ได้กล่าวถึงการบริหารความเสี่ยงไว้อย่างชัดเจน ในฐานะชุดกิจกรรมที่ดำเนินไปอย่างต่อเนื่อง — จัดระเบียบโดยยึดหลักการกำกับดูแล วางแผน วัดผล และจัดการ — แทนที่จะเป็นรายการตรวจสอบแบบตายตัว เป้าหมายคือการสร้างกระบวนการที่ทำให้ระบุรูปแบบความล้มเหลวที่เกิดขึ้นใหม่ได้ง่ายขึ้น จัดลำดับความสำคัญของการแก้ไข และกระชับมาตรการป้องกันเมื่อมีรูปแบบการเจลเบรกใหม่ๆ ปรากฏขึ้น 

นางแบบปกป้องตัวเองอย่างไร

ระบบความปลอดภัยของ AI ประกอบด้วยหลายชั้น ระบบส่วนใหญ่มีระบบป้องกันมากกว่าหนึ่งระบบทำงานร่วมกัน โดยแต่ละระบบจะตรวจจับพฤติกรรมเสี่ยงที่แตกต่างกัน ในชั้นนอกสุด การกรองข้อมูลขาเข้าและขาออกทำหน้าที่เป็นผู้เฝ้าประตู 

ระบบจะสแกนข้อความแจ้งเตือนขาเข้าเพื่อตรวจหาการละเมิดนโยบายก่อนที่จะส่งไปยังโมเดลหลัก ในขณะที่ข้อความตอบกลับขาออกจะถูกตรวจสอบเพื่อให้แน่ใจว่าไม่มีสิ่งใดหลุดรอดไปก่อนที่จะส่งกลับไปยังผู้ใช้ ระบบเหล่านี้มีความสามารถในการระบุคำขอโดยตรงหรือสัญญาณเตือนภัยที่คุ้นเคยได้ดี แต่ก็เป็นระบบที่หลบเลี่ยงได้ง่ายที่สุดเช่นกัน ซึ่งเป็นเหตุผลว่าทำไมวิธีการเจาะระบบที่หลอกลวงกว่าจึงมักหลีกเลี่ยงระบบเหล่านี้ 

การป้องกันชั้นถัดไปเกิดขึ้นภายในตัวโมเดลเอง เมื่อมีการค้นพบเทคนิคการเจาะระบบ มักจะนำมาใช้เป็นตัวอย่างในการฝึกฝน ซึ่งนี่คือจุดที่การฝึกฝนแบบต่อต้าน (Adversarial Training) และการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์ (Reinforcement Learning from Human Feedback: RLHF) เข้ามามีบทบาท 

ด้วยการปรับแต่งโมเดลอย่างละเอียดโดยใช้ตัวอย่างการโต้ตอบที่ล้มเหลวหรือมีความเสี่ยง นักพัฒนาสามารถสอนระบบให้จดจำรูปแบบที่ควรปฏิเสธได้อย่างมีประสิทธิภาพ แม้ว่ารูปแบบเหล่านั้นจะถูกห่อหุ้มด้วยภาษาที่สร้างสรรค์หรืออ้อมค้อมก็ตาม เมื่อเวลาผ่านไป กระบวนการนี้จะช่วยป้องกันโมเดลจากภัยคุกคามประเภทต่างๆ ได้ทั้งหมด

บทบาทของ AI ในการ "เรดทีคกิ้ง"

แทนที่จะรอให้เกิดการเจาะระบบ บริษัทต่างๆ ใช้ทีม AI สีแดง ทีมเหล่านี้มีหน้าที่พยายามเจาะระบบในสภาพแวดล้อมที่ควบคุมได้ พวกเขาเข้าถึงระบบในลักษณะเดียวกับที่ผู้โจมตีอาจทำ โดยทดลองใช้ถ้อยคำที่ไม่ธรรมดา รูปแบบที่สร้างสรรค์ และกรณีพิเศษต่างๆ เพื่อค้นหาจุดที่ระบบป้องกันล้มเหลว เป้าหมายคือการเปิดเผยจุดอ่อนก่อนที่จะปรากฏให้เห็นในการใช้งานจริง

การทดสอบเจาะระบบ (Red teaming) กำลังกลายเป็นส่วนสำคัญของวงจรการพัฒนาในกลยุทธ์ด้านความปลอดภัยทางไซเบอร์ในปัจจุบัน เมื่อทีมค้นพบเทคนิคการเจาะระบบใหม่ ข้อมูลที่ได้จะถูกส่งกลับเข้าสู่ระบบการฝึกอบรมและการประเมินผลโดยตรง ข้อมูลนั้นจะถูกนำไปใช้ในการกำหนดตัวกรอง ปรับนโยบาย และเสริมสร้างการฝึกอบรมการป้องกัน เพื่อลดโอกาสที่ความพยายามที่คล้ายกันจะประสบความสำเร็จในอนาคต เมื่อเวลาผ่านไป สิ่งนี้จะสร้างวงจรต่อเนื่อง — ตรวจสอบหาข้อผิดพลาด เรียนรู้จากข้อผิดพลาด และปรับปรุงระบบ จากนั้นทำซ้ำ

เมื่อบทกวีกลายเป็นบททดสอบความปลอดภัยของปัญญาประดิษฐ์

บทกวีเชิงโต้แย้งเป็นเครื่องเตือนใจว่ามาตรการป้องกันของ AI ขึ้นอยู่กับวิธีที่ผู้ใช้ตั้งคำถาม ไม่ใช่แค่สิ่งที่ถามเท่านั้น เมื่อโมเดลต่างๆ เข้าถึงได้ง่ายและใช้งานกันอย่างแพร่หลายมากขึ้น นักวิจัยจะยังคงสำรวจช่องว่างระหว่างภาษาเชิงสร้างสรรค์และระบบความปลอดภัยที่ออกแบบมาเพื่อตรวจจับเจตนาโดยตรงมากขึ้น ข้อสรุปก็คือ AI ที่ปลอดภัยยิ่งขึ้นจะมาจากระบบป้องกันหลายชั้นที่พัฒนาไปอย่างรวดเร็วเช่นเดียวกับการเจาะระบบ

แซค อามอส เป็นนักเขียนด้านเทคโนโลยีที่เน้นเรื่องปัญญาประดิษฐ์ เขายังเป็นบรรณาธิการบทความพิเศษที่ แฮ็คซึ่งคุณสามารถอ่านผลงานเพิ่มเติมของเขาได้