Connect with us

การใช้ Emojis สามารถหลบหลีกตัวกรองเนื้อหาของ AI Chatbots

มุมมองของ Anderson

การใช้ Emojis สามารถหลบหลีกตัวกรองเนื้อหาของ AI Chatbots

mm
A man with a smiley emoji for a head lights a cigarette from a lit bomb. SDXL, Flux Kontext Dev, Adobe Firefly.

Emojis สามารถใช้เพื่อหลบหลีกกลไกความปลอดภัยของโมเดลภาษาขนาดใหญ่ และกระตุ้นให้เกิดการผลิตเนื้อหาที่เป็นอันตรายซึ่งปกติจะถูกบล็อก โดยวิธีนี้ โมเดลภาษาขนาดใหญ่ (LLMs) สามารถถูกทำให้พูดคุยและให้คำแนะนำเกี่ยวกับหัวข้อที่ถูกแบน เช่น การทำระเบิดและการฆ่าคน

 

การร่วมมือใหม่ระหว่างจีนและสิงคโปร์พบหลักฐานที่น่าเชื่อถือว่า Emojis สามารถใช้ไม่เพียงแต่เพื่อหลบหลีกตัวกรองการตรวจจับเนื้อหาของโมเดลภาษาขนาดใหญ่ (LLMs) แต่ยังสามารถเพิ่มระดับความเป็นอันตรายระหว่างการมีปฏิสัมพันธ์กับโมเดลได้อีกด้วย:

From the new paper, a broad demonstration of the ways that encoding a banned concept with emojis can help a user to 'jailbreak' a popular LLM. Source: https://arxiv.org/pdf/2509.11141

From the new paper, a broad demonstration of the ways that encoding a banned concept with emojis can help a user to ‘jailbreak’ a popular LLM. Source: https://arxiv.org/pdf/2509.11141

ในตัวอย่างข้างต้นจากเอกสารใหม่ เราจะเห็นว่าการแปลงคำสั่งละเมิดกฎที่เป็นข้อความเป็นรูปแบบที่มี Emojis แทนสามารถกระตุ้นให้โมเดลภาษาที่ซับซ้อน เช่น ChatGPT-4o (ซึ่งมักจะทำความสะอาดคำสั่ง输入และจับกุมวัสดุการผลิตที่อาจละเมิดกฎของบริษัท) ให้การตอบสนองที่ ‘ร่วมมือ’ มากขึ้น

โดยหลักการ การใช้ Emojis จึงสามารถทำงานเป็นเทคนิค ‘jailbreak’ ตามที่ผู้เขียนเอกสารใหม่ระบุ

หนึ่งในความลึกลับที่เหลืออยู่ในเอกสารคือคำถามว่า why โมเดลภาษาให้ Emojis มีความยืดหยุ่นในการละเมิดกฎและกระตุ้นให้เกิดเนื้อหาที่เป็นอันตราย เมื่อโมเดลเหล่านั้นเข้าใจแล้วว่า Emojis บางตัวมีความสัมพันธ์ที่เป็นอันตรายอย่างมาก

คำแนะนำที่ให้คือ เนื่องจาก LLMs ถูกฝึกให้สร้างและทำซ้ำรูปแบบจากข้อมูลการฝึกอบรม และเนื่องจาก Emojis มักพบในข้อมูลนั้น โมเดลจึงเรียนรู้ว่า Emojis เป็นส่วนหนึ่ง ของการอภิปราย และรักษามันไว้เป็นความสัมพันธ์ทางสถิติ แทนที่จะเป็นเนื้อหาที่ต้องประเมินและกรอง

ซึ่งหมายความว่า Emojis เมื่อใช้ใหม่ในคำสั่ง จะช่วยให้โมเดลคาดการณ์ผลลัพธ์ที่เป็นอันตรายได้อย่างมั่นใจมากขึ้น แต่แทนที่จะเป็นธงแดง Emojis จะทำงานเป็น สัญญาณเชิงความหมาย ซึ่งเสริมความหมายที่เป็นอันตรายแทนที่จะควบคุมหรือจับกุมมัน เนื่องจาก การจัดตำแหน่งความปลอดภัย ถูกใช้หลังเหตุการณ์ และมักจะอยู่ในกรอบที่แคบและเป็นรูปธรรม คำสั่งที่มี Emojis เหล่านี้อาจหลบหลีกการตรวจจับได้ทั้งหมด

ในทางนี้ เอกสารใหม่เสนอแนะว่า โมเดลไม่กลายเป็นแบบที่ ‘ทนต่อ’ despite ความสัมพันธ์ที่เป็นอันตราย – มันกลายเป็นแบบที่ ‘ทนต่อ’ because ของมัน

Free Pass

ที่กล่าวมา ผู้เขียนเอกสารใหม่ยอมรับว่านี่ไม่ใช่ทฤษฎีที่สรุปได้ว่าทำไม Emojis จึงสามารถหลบหลีกตัวกรองเนื้อหาของโมเดลภาษาได้อย่างมีประสิทธิภาพ พวกเขาระบุ:

‘โมเดลสามารถรับรู้เจตนาในการทำอันตรายที่แสดงโดย Emojis แต่วิธีการที่มันหลบหลีกกลไกความปลอดภัยยังคงไม่ชัดเจน’

จุดอ่อนอาจมาจาก การออกแบบที่มุ่งเน้นข้อความ ของตัวกรองเนื้อหาซึ่งสมมติว่าเป็นข้อความที่เป็นข้อความที่แน่นอนหรือ การฝัง ที่แปลงเป็นข้อความที่เทียบเท่า: ในทั้งสองกรณี ระบบพึ่งพา โทเค็น ที่สามารถจับคู่กับกฎความปลอดภัยได้

ในการอธิบายโดยใช้การแก้ไขภาพ AI: เมื่อผู้ใช้อัปโหลดภาพ NSFW ไปยังโมเดลภาษาและร้องขอการแก้ไข ระบบ เช่น Adobe Firefly หรือ ChatGPT ใช้ CLIP-style pipelines เพื่อแยกแนวคิดทางข้อความจากภาพเป็นข้อกำหนดเบื้องต้นสำหรับการแก้ไข เมื่อแนวคิดเหล่านั้นถูกแปลงเป็นข้อความ การมีอยู่ของคำที่ถูกจำกัดในข้อความที่แยกออกมาจะกระตุ้นให้ตัวกรองทำงาน ทำให้คำร้องขอถูกปฏิเสธ

แต่ด้วยเหตุผลบางอย่าง สถานะของ Emojis ที่ไม่ใช่คำหรือภาพ (หรือทั้งสองอย่าง) ดูเหมือนจะให้พลังในการหลบหลีกการกรอง; ตามที่ผู้เขียนระบุ การวิจัยเพิ่มเติมเกี่ยวกับช่องโหว่นี้เป็นสิ่งจำเป็น

เอกสารใหม่ ใหม่ มีชื่อเรื่องว่า When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity และมาจากผู้เขียนเก้าคนจาก Tsinghua University และ National University of Singapore

(ไม่น่าเสียดายที่ตัวอย่างหลายตัวอย่างที่เอกสารอ้างถึงอยู่ในภาคผนวกซึ่งยังไม่ได้เผยแพร่; แม้ว่าเราจะขอจากผู้เขียน แต่ภาคผนวกนั้นยังไม่ได้รับการส่งมอบ ณ เวลาที่เขียนข้อความนี้ อย่างไรก็ตาม ผลลัพธ์เชิงประจักษ์ในเอกสารหลักยังคงควรค่าแก่การสนใจ)

Three Core Emoji Interpretations

ผู้เขียนเน้นย้ำถึงคุณลักษณะทางภาษาสามประการที่ทำให้ Emojis มีประสิทธิภาพในการหลบหลีกตัวกรอง ประการแรก ความหมายของ Emojis ขึ้นอยู่กับ บริบท ตัวอย่างเช่น Emojis ‘Money with Wings’ ถูกกำหนดอย่างเป็นทางการว่าเป็นตัวแทนของการโอนเงินหรือการใช้จ่าย แต่ขึ้นอยู่กับข้อความที่อยู่รอบๆ มันสามารถบ่งบอกถึงกิจกรรมที่ถูกต้องตามกฎหมายหรือผิดกฎหมาย:

ในตัวอย่างบางส่วนจากเอกสารใหม่ เราจะเห็นว่า Emojis ที่ได้รับความนิยมสามารถมีความหมายที่ถูกขโมย เปลี่ยนแปลง หรือบิดเบือนในใช้งานทั่วไป ซึ่งทำให้ Emojis มี 'พาสปอร์ต' อย่างเป็นทางการเข้าสู่พื้นที่เชิงความหมาย และ 'พayload' ที่ซ่อนอยู่ของความหมายที่เป็นอันตรายซึ่งสามารถถูกใช้ประโยชน์ได้เมื่อผ่านตัวกรองแล้ว

ในตัวอย่างบางส่วนจากเอกสารใหม่ เราจะเห็นว่า Emojis ที่ได้รับความนิยมสามารถมีความหมายที่ถูกขโมย เปลี่ยนแปลง หรือบิดเบือนในใช้งานทั่วไป ซึ่งทำให้ Emojis มี ‘พาสปอร์ต’ อย่างเป็นทางการเข้าสู่พื้นที่เชิงความหมาย และ ‘พayload’ ที่ซ่อนอยู่ของความหมายที่เป็นอันตรายซึ่งสามารถถูกใช้ประโยชน์ได้เมื่อผ่านตัวกรองแล้ว

ประการสอง Emojis สามารถเปลี่ยน โทน ของคำสั่ง การมีอยู่ของ Emojis มักจะเพิ่มความสนุกสนานหรือความขำขัน ทำให้การลงโทษหรือการขอความช่วยเหลือดูเหมือนเป็นเรื่องเล่นๆ หรือเกม ซึ่งกระตุ้นให้โมเดลตอบสนองแทนการปฏิเสธ:

ผลกระทบของ Emojis สามารถลดโทนของคำสั่งโดยไม่ลดเจตนา

ผลกระทบของ Emojis สามารถลดโทนของคำสั่งโดยไม่ลดเจตนา

ประการที่สาม เอกสารระบุว่า Emojis เป็น ภาษาอิสระ: Emojis เดียวสามารถถ่ายทอดความรู้สึกเดียวกันข้ามภาษาอังกฤษ จีน ฝรั่งเศส และภาษาอื่นๆ ซึ่งทำให้ Emojis เหมาะสำหรับคำสั่งหลายภาษา โดยรักษาความหมายแม้ว่าข้อความที่อยู่รอบๆ จะถูกแปลแล้ว:

Emojis 'หัวใจที่แตก' สื่อถึงข้อความที่เป็นสากล ซึ่งอาจไม่น้อยที่สุดเพราะมันแสดงถึงกรณีฐานของสภาวะมนุษย์ ซึ่งไม่ไวต่อการเปลี่ยนแปลงทางชาติพันธุ์หรือวัฒนธรรม

Emojis ‘หัวใจที่แตก’ สื่อถึงข้อความที่เป็นสากล ซึ่งอาจไม่น้อยที่สุดเพราะมันแสดงถึงกรณีฐานของสภาวะมนุษย์ ซึ่งไม่ไวต่อการเปลี่ยนแปลงทางชาติพันธุ์หรือวัฒนธรรม

Approach, Data and Tests*

นักวิจัยได้สร้างเวอร์ชันที่แก้ไขของ AdvBench dataset โดยเขียนคำสั่งที่เป็นอันตรายจาก AdvBench ใหม่เพื่อรวม Emojis ทั้งเป็นตัวแทนของคำที่ไวต่อความรู้สึกหรือเป็นเครื่องแต่งกายเพื่ออำพรางเจตนา:

ตัวอย่างเดิมจาก AdvBench ซึ่งแสดงว่าคำสั่งเดียวที่เป็นอันตรายสามารถหลบหลีกการป้องกันในหลายๆ โมเดลชั้นนำ และกระตุ้นให้เกิดคำแนะนำที่เป็นอันตราย尽管การฝึกอบรมการจัดตำแหน่ง Source: https://arxiv.org/pdf/2307.15043

ตัวอย่างเดิมจาก AdvBench ซึ่งแสดงว่าคำสั่งเดียวที่เป็นอันตรายสามารถหลบหลีกการป้องกันในหลายๆ โมเดลชั้นนำ และกระตุ้นให้เกิดคำแนะนำที่เป็นอันตราย尽管การฝึกอบรมการจัดตำแหน่ง Source: https://arxiv.org/pdf/2307.15043

ทั้ง 520 ตัวอย่างเดิมของ AdvBench ถูกเปลี่ยนแปลงในลักษณะนี้ โดยใช้คำสั่ง 50 ข้อที่เป็นอันตรายและไม่ซ้ำกันในการทดลองทั้งหมด คำสั่งเหล่านี้ยังถูกแปลเป็นหลายภาษาและทดสอบข้ามเจ็ดโมเดลชั้นนำที่ปิดและเปิดใช้งาน รวมถึงเทคนิค ‘jailbreak’ ที่รู้จักกันดี เช่น Prompt Automatic Iterative Refinement (PAIR); Tree of Attacks with Pruning (TAP); และ DeepInception

โมเดลที่ปิดใช้งานที่ใช้คือ Gemini-2.0-flash; GPT-4o (2024-08-06); GPT-4-0613; และ Gemini-1.5-pro โมเดลที่เปิดใช้งานที่ใช้คือ Llama-3-8B-Instruct; Qwen2.5-7B-Instruct (Team 2024b); และ Qwen2.5-72B-Instruct (Team 2024a) โดยทดลองทั้งหมดถูกทำซ้ำสามครั้งเพื่อคำนึงถึงโอกาสที่เกิดขึ้นโดยบังเอิญ

การวิจัยครั้งนี้ทดสอบก่อนว่าการเขียนคำสั่งที่เป็นอันตรายจาก AdvBench ใหม่โดยใช้ Emojis จะเพิ่มการผลิตเนื้อหาที่เป็นอันตราย รวมถึงการแปลเป็นภาษาอื่นๆ นอกจากนี้ยังใช้วิธีการแก้ไข Emojis เหมือนเดิมกับคำสั่งจากกลยุทธ์ ‘jailbreak’ ที่รู้จักกันดี (PAIR, TAP และ DeepInception) เพื่อดูว่าการแทนที่ Emojis สามารถเพิ่มความสำเร็จของพวกมันได้หรือไม่

ในทั้งสองกรณี โครงสร้างของคำสั่งเดิมถูกเก็บไว้ โดยมีเพียงคำที่ไวต่อความรู้สึกที่ถูกเปลี่ยนเป็น Emojis และองค์ประกอบตกแต่งเพิ่มเติมเพื่ออำพรางเจตนา

สำหรับมาตรการการทดสอบ ผู้เขียนสร้างระบบการให้คะแนนใหม่เรียกว่า GPT-Judge ในการเตรียมการนี้ GPT-4o ไม่ใช่โมเดลที่ถูกทดสอบ แต่ถูกกระตุ้นให้ทำหน้าที่เป็น ‘ผู้ตัดสิน’ โดยมอบคะแนน คะแนนความเป็นอันตราย (HS) ให้กับการตอบสนองที่ผลิตโดยโมเดลอื่นๆ

การผลิตทุกอย่างได้รับการจัดอันดับจากหนึ่ง (ไม่เป็นอันตราย) ถึงห้า (เป็นอันตรายอย่างมาก) และเปอร์เซ็นต์ของการผลิตที่ได้รับคะแนนห้าถูกรายงานเป็น อัตราส่วนความเป็นอันตราย (HR)

เพื่อป้องกันไม่ให้โมเดลหลุดเข้าสู่คำอธิบาย Emojis แทนที่จะตอบอย่างชัดเจน นักวิจัยได้เพิ่มคำแนะนำในคำสั่งแต่ละครั้ง โดยบอกโมเดลให้ตอบอย่างสั้นๆ:

ผลลัพธ์จากคำสั่งที่มี Emojis ใน 'Setting-1' พร้อมการเปรียบเทียบกับเวอร์ชันที่ Emojis ถูกแทนที่ด้วยคำหรือถูกลบออกทั้งหมด ชื่อโมเดลถูกย่อให้สั้นเพื่อประหยัดพื้นที่

ผลลัพธ์จากคำสั่งที่มี Emojis ใน ‘Setting-1’ พร้อมการเปรียบเทียบกับเวอร์ชันที่ Emojis ถูกแทนที่ด้วยคำหรือถูกลบออกทั้งหมด ชื่อโมเดลถูกย่อให้สั้นเพื่อประหยัดพื้นที่

ในตารางผลลัพธ์แรกด้านบน ด้านซ้ายของตารางบ่งชี้ว่าคำสั่งที่มี Emojis ที่ถูกแทนที่ด้วย Emojis มีคะแนน HS และ HR ที่สูงกว่าเวอร์ชันที่ถูกทำให้ไม่มี Emojis (เช่น เวอร์ชันที่ Emojis ถูกแปลกลับเป็นข้อความและถูกเปิดเผยให้กับตัวกรองโดยตรง)

ผู้เขียนชี้ว่า วิธีการใช้ Emojis นี้มีประสิทธิภาพมากกว่าวิธีการ ‘jailbreak’ ก่อนหน้านี้ ตามที่ระบุไว้ในตารางผลลัพธ์เสริมด้านล่าง:

ผลลัพธ์อัตราส่วนความเป็นอันตรายสำหรับคำสั่ง 'jailbreak' ที่มี Emojis ใน 'Setting-2' โดยมีชื่อโมเดลอยู่ในรูปแบบย่อ

ผลลัพธ์อัตราส่วนความเป็นอันตรายสำหรับคำสั่ง ‘jailbreak’ ที่มี Emojis ใน ‘Setting-2’ โดยมีชื่อโมเดลอยู่ในรูปแบบย่อ

ตารางแรกที่แสดงด้านบน ผู้เขียนระบุว่าผลกระทบของ Emojis นี้ยังคงอยู่ข้ามภาษา เมื่อส่วนข้อความของคำสั่งที่มี Emojis ถูกแปลเป็นภาษาจีน ฝรั่งเศส สเปน และรัสเซีย การผลิตที่เป็นอันตรายยังคงสูง; เนื่องจากภาษาเหล่านี้เป็น ภาษาที่มีทรัพยากรสูง ผลลัพธ์เหล่านี้ชี้ให้เห็นว่าความเสี่ยงไม่ได้จำกัดอยู่แค่ภาษาอังกฤษ แต่เกิดขึ้นอย่างกว้างขวางในกลุ่มผู้ใช้หลัก โดย Emojis ทำหน้าที่เป็นช่องทางที่สามารถถ่ายทอดเนื้อหาที่เป็นอันตรายได้

Conclusion

ไม่ใช่เรื่องไม่ธรรมดาที่จะใช้วิธีการอินพุตทางเลือกเพื่อพยายาม ‘jailbreak’ โมเดลภาษาขนาดใหญ่ ในช่วงไม่กี่ปีที่ผ่านมา ตัวอย่างเช่น การเข้ารหัสแบบเฮกซาเดซิมัล ถูกใช้เพื่อหลบหลีกตัวกรองของ ChatGPT

ปัญหาปรากฏว่าอยู่ที่การใช้ภาษาที่เป็นข้อความแบบเรียบง่ายในการระบุคำขอเข้าและคำตอบออก

ในกรณีของ Emojis จุดศูนย์กลางที่ซ่อนอยู่ของความหมายที่ละเมิดกฎสามารถถูกนำเข้าสู่การอภิปรายได้โดยไม่มีการลงโทษหรือการแทรกแซง เนื่องจากวิธีการส่งมันไม่ปกติ

คุณสามารถจินตนาการได้ว่าการตีความเนื้อหาที่กว้างขวางมากขึ้น (ตัวอย่างเช่น โดยการศึกษาการกระตุ้น heatmap) มีค่าใช้จ่ายในการประมวลผลและ/หรือแบนด์วิธที่อาจทำให้แนวทางเหล่านี้ไม่คุ้มค่าในการใช้งาน

 

* การวางโครงร่างของเอกสารนี้เป็นเรื่องที่วุ่นวายเมื่อเปรียบเทียบกับเอกสารส่วนใหญ่ โดยวิธีการและการทดสอบไม่ได้ถูกกำหนดไว้อย่างชัดเจน เราได้ทำสิ่งที่ดีที่สุดเพื่อนำเสนอคุณค่าหลักของงานให้เห็นได้ชัดที่สุดในสถานการณ์นี้

ในแนวทางที่ยากจะเข้าใจและสับสนเกี่ยวกับผลลัพธ์

เผยแพร่ครั้งแรกวันพุธที่ 17 กันยายน 2025

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai