มุมมองของ Anderson

การเซ็นเซอร์โมเดล AI ไม่ได้ผลดีนัก ตามผลการศึกษา

เผยแพร่ 22 สิงหาคม 2025

อัปเดต 15 พฤษภาคม 2026

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

ความพยายามในการเซ็นเซอร์โมเดล AI ที่สร้างภาพโดยการลบเนื้อหาที่ถูกแบน (เช่น โป๊ โหดร้าย หรือลิขสิทธิ์) ออกจากโมเดลที่ฝึกไว้ไม่ได้ผลตามที่คาดไว้: การศึกษาใหม่พบว่าวิธีการลบแนวคิดที่ใช้กันในปัจจุบันยอมให้ ‘แนวคิดที่ถูกแบน’ ส่งผลกระทบต่อภาพที่ไม่เกี่ยวข้อง และไม่สามารถหยุดการปรากฏตัวของเวอร์ชันที่เกี่ยวข้องอย่างใกล้ชิดของเนื้อหาที่ถูก ‘ลบ’ ได้

หากบริษัทที่ผลิตโมเดล AI พื้นฐานไม่สามารถป้องกันไม่ให้พวกมันถูกใช้ในทางที่ผิดเพื่อสร้างวัสดุที่ไม่เหมาะสมหรือผิดกฎหมาย พวกเขาอาจถูกฟ้องร้องและ/หรือปิดกิจการ ในทางกลับกัน ผู้ขายที่ทำให้โมเดลของตนพร้อมใช้งาน ผ่าน API เช่น same as Adobe’s Firefly เจนเนอเรเตอร์สร้างภาพ มีความเสี่ยงน้อยลง เนื่องจากทั้งพรอมต์ผู้ใช้และเอาต์พุตที่ได้รับจะถูกตรวจสอบและทำความสะอาด:

ระบบ Firefly ของ Adobe ที่ใช้ในเครื่องมือ เช่น Photoshop บางครั้งปฏิเสธคำขอสร้างภาพทันทีโดยการบล็อกพรอมต์ก่อนที่จะสร้างอะไรขึ้นมา ในบางครั้ง มันสร้างภาพ แต่จากนั้นจึงบล็อกผลลัพธ์หลังการตรวจสอบ การปฏิเสธระหว่างกระบวนการนี้ยังสามารถเกิดขึ้นใน ChatGPT เมื่อโมเดลเริ่มตอบสนอง แต่ตัดมันหลังจากตระหนักถึงการละเมิดนโยบาย – และบางครั้งคุณสามารถเห็นภาพที่ถูกยกเลิกชั่วคราวระหว่างกระบวนการนี้

อย่างไรก็ตาม ฟิลเตอร์ API ประเภทนี้สามารถถูกทำให้ไม่มีผลโดยผู้ใช้ได้โดยการเปลี่ยนแปลงโค้ดในโมเดลที่ติดตั้งบนเครื่องของผู้ใช้ ซึ่งรวมถึงโมเดลภาษาและภาพ (VLMs) ที่ผู้ใช้อาจต้องการปรับแต่งด้วยการฝึกอบรมบนข้อมูลที่กำหนดเอง

โดยทั่วไป การปิดการทำงานเหล่านี้เป็นเรื่องง่าย โดยเกี่ยวข้องกับการแสดงความคิดเห็นในการเรียกฟังก์ชัน Python (แม้ว่าการแฮกประเภทนี้มักจะต้องทำซ้ำหรือคิดค้นใหม่หลังจากการอัปเดตเฟรมเวิร์ก)

จากมุมมองทางธุรกิจ มันยากที่จะเข้าใจว่าทำไมสิ่งนี้ถึงเป็นปัญหา เนื่องจากการเข้าถึง API สูงสุดจะเพิ่มการควบคุมขององค์กรเหนือกระบวนการทำงานของผู้ใช้ อย่างไรก็ตาม จากมุมมองของผู้ใช้ ทั้งค่าใช้จ่ายของโมเดล API เท่านั้นและความเสี่ยงของการเซ็นเซอร์ที่ผิดพลาดหรือมากเกินไปน่าจะทำให้ผู้ใช้ต้องดาวน์โหลดและปรับแต่งการติดตั้งบนเครื่องของผู้ใช้ของตัวเลือกโอเพ่นซอร์ส – อย่างน้อยที่สุดเมื่อใบอนุญาต FOSS นั้นเป็นที่น่าพอใจ

โมเดลที่สำคัญที่สุดที่ถูกปล่อยออกมาโดยไม่มีการพยายามฝังการเซ็นเซอร์ไว้ในตัวมันคือ Stable Diffusion V1.5 ซึ่งเกิดขึ้น เกือบสามปีที่แล้ว ต่อมา การเปิดเผยว่าข้อมูลที่ใช้ฝึกอบรม รวมถึงข้อมูล CSAM นำไปสู่การเรียกร้องที่เพิ่มขึ้นในการห้ามการเข้าถึง และ การถอดออก จากที่เก็บ Hugging Face ในปี 2024

ตัดออก!

นักวิจารณ์บางคนแย้งว่าความสนใจของบริษัทในการเซ็นเซอร์โมเดล AI ที่ติดตั้งบนเครื่องของผู้ใช้นั้นขึ้นอยู่กับความกังวลเกี่ยวกับการ เสี่ยงทางกฎหมาย หากเฟรมเวิร์กของพวกเขาได้รับการส่งเสริมให้อำนวยความสะดวกในการสร้างเนื้อหาที่ผิดกฎหมายหรือไม่เหมาะสม

ในความเป็นจริง โมเดลโอเพ่นซอร์สบางตัวที่ ‘เป็นมิตรกับผู้ใช้’ ไม่ใช่เรื่องยากที่จะถอดเซ็นเซอร์ (เช่น Stable Diffusion 1.5 และ DeepSeek R1 )

ในทางตรงกันข้าม การเปิดตัว ชุดโมเดล Flux Kontext ของ Black Forest Lab มีลักษณะเด่นด้วยความมุ่งมั่นของบริษัทในการเซ็นเซอร์โมเดล Kontext ทั้งหมด ซึ่งทำได้โดยการดูแลข้อมูลอย่างรอบคอบและ การปรับแต่งละเอียด หลังการฝึกอบรมที่ออกแบบมาเพื่อลบแนวคิดที่เหลือที่ไม่เหมาะสมหรือผิดกฎหมาย

นี่คือจุดที่การดำเนินการอยู่ในฉากการวิจัยในช่วง 2-3 ปีที่ผ่านมา: โดยเน้นไปที่การแก้ไขโมเดลหลังการฝึกอบรมด้วยข้อมูลที่ไม่ได้รับการดูแลอย่างเหมาะสม การนำเสนอในประเภทนี้รวมถึง การแก้ไขแนวคิดแบบเป็นเอกภาพในโมเดลการกระจาย (UCE); การลบแนวคิดที่เชื่อถือได้และประสิทธิภาพสูงของโมเดลการกระจายภาพถึงข้อความ (RECE); การลบแนวคิดจำนวนมากในโมเดลการกระจาย (MACE); และ โครงสร้างแบบกันซึมกึ่งอิสระถูกฉีดเข้าไปในฐานะเยื่อ (SPM)

งานวิจัยปี 2024 ‘การแก้ไขแนวคิดแบบเป็นเอกภาพในโมเดลการกระจาย’ เสนอการแก้ไขแบบปิดสำหรับน้ำหนักความสนใจ ทำให้สามารถแก้ไขแนวคิดหลายอย่างในโมเดลภาพถึงข้อความได้อย่างมีประสิทธิภาพ แต่วิธีการนี้ยืนหยัดต่อการตรวจสอบหรือไม่? Source: https://arxiv.org/pdf/2308.14761

แม้ว่านี่จะเป็นแนวทางที่มีประสิทธิภาพ (คอลเลกชันขนาดใหญ่เช่น LAION มีขนาดใหญ่เกินกว่าที่จะดูแลได้ด้วยตนเอง) แต่ก็ไม่จำเป็นต้องเป็นวิธีที่มีประสิทธิผล: ตามการศึกษาใหม่ของสหรัฐฯ วิธีการแก้ไขเหล่านี้ – ซึ่งแสดงถึงสถานะของศิลปะในการปรับเปลี่ยนโมเดล AI หลังการฝึกอบรม – ไม่ได้ผลดีนัก

ผู้เขียนพบว่าเทคนิคการลบแนวคิด (CETs) เหล่านี้สามารถถูกข้ามได้อย่างง่ายดาย และแม้ว่าจะมีประสิทธิผล ก็มีผลข้างเคียงที่สำคัญ:

ผลกระทบของการลบแนวคิดในโมเดลภาพถึงข้อความ แต่ละคอลัมน์แสดงพรอมต์และแนวคิดที่ทำเครื่องหมายไว้สำหรับการลบพร้อมกับเอาต์พุตที่สร้างก่อนและหลังการแก้ไข ความสัมพันธ์เชิงลำดับบ่งบอกถึงความสัมพันธ์ระหว่างแนวคิดที่เป็นพ่อและลูก ตัวอย่างเหล่านี้เน้นย้ำถึงผลข้างเคียงทั่วไป รวมถึงความล้มเหลวในการลบแนวคิดที่เป็นลูก การระงับแนวคิดที่อยู่ใกล้เคียง การหลบเลี่ยงผ่านการเขียนพรอมต์ใหม่ และการถ่ายโอนคุณลักษณะที่ถูกลบไปยังวัตถุที่ไม่เกี่ยวข้อง Source: https://arxiv.org/pdf/2508.15124

ผู้เขียนพบว่าวิธีการลบแนวคิดที่เป็นแนวทางปฏิบัติปัจจุบันล้มเหลวในการปิด พรอมต์ที่ประกอบกัน (เช่น รถสีแดง หรือ เก้าอี้ไม้ขนาดเล็ก); มักจะปล่อยให้ подкатегорีหลุดผ่านแม้ว่าจะลบหมวดหมู่หลักแล้วก็ตาม (เช่น รถยนต์ หรือ รถบัส ยังคงปรากฏหลังจากลบ ยานพาหนะ); และแนะนำปัญหาใหม่ๆ เช่น การรั่วไหลของคุณลักษณะ (เช่น การลบ โซฟาสีน้ำเงิน อาจทำให้โมเดลสร้างวัตถุไม่เกี่ยวข้อง เช่น เก้าอี้สีน้ำเงิน)

ในกรณีทดสอบมากกว่า 80% การลบแนวคิดที่กว้างๆ เช่น ยานพาหนะ ไม่ได้หยุดโมเดลจากการสร้างตัวอย่างเฉพาะของ ยานพาหนะ เช่น รถยนต์หรือรถบัส

การแก้ไขยังทำให้ แผนที่ความสนใจ (ส่วนของโมเดลที่ตัดสินใจว่าจะมุ่งความสนใจไปที่ใดในภาพ) ตกกระจาย ทำให้คุณภาพเอาต์พุตลดลง

น่าสนใจที่ว่า ผู้เขียนพบว่าการลบแนวคิดที่เกี่ยวข้องทีละรายการมีประสิทธิภาพมากกว่าการพยายามลบทั้งหมดพร้อมกัน – แม้ว่าจะไม่ขจัดข้อบกพร่องทั้งหมดของวิธีการแก้ไขที่ศึกษา:

การเปรียบเทียบระหว่างกลยุทธ์การลบแบบก้าวหน้าและแบบทั้งหมดในครั้งเดียว เมื่อลบทั้งรูปแบบของ ‘ทTeddy Bear’ พร้อมกัน โมเดลยังคงสร้างวัตถุที่เหมือนหมี การลบแบบก้าวหน้าเป็นวิธีที่มีประสิทธิภาพมากกว่า ทำให้โมเดลระงับแนวคิดเป้าหมายได้อย่างน่าเชื่อถือมากกว่า

แม้ว่านักวิจัยจะไม่สามารถให้คำตอบแก่ปัญหาได้ แต่พวกเขาก็ได้พัฒนาเซตข้อมูลและมาตรฐานใหม่ซึ่งอาจช่วยให้โครงการวิจัยในอนาคตเข้าใจว่าโมเดลที่ ‘เซ็นเซอร์’ ของตนเองทำงานตามที่คาดหวังหรือไม่

บทความระบุว่า:

‘การประเมินก่อนหน้านี้อาศัยเพียงชุดเล็กๆ ของคลาสเป้าหมายและคลาสที่จะเก็บไว้เท่านั้น ตัวอย่างเช่น เมื่อลบ ‘ยานพาหนะ’ ความสามารถของโมเดลในการสร้างภาพรถยนต์จะถูกทดสอบเท่านั้น เราแสดงให้เห็นว่าวิธีการนี้ไม่เพียงพอและควรประเมินการลบแนวคิดอย่างครอบคลุมมากขึ้นเพื่อรวมแนวคิดที่เกี่ยวข้องทั้งหมด เช่น ‘รถสีแดง’

‘ด้วยการแนะนำเซตข้อมูลที่หลากหลายพร้อมกับการเปลี่ยนแปลงเชิงประกอบและการวิเคราะห์ผลกระทบอย่างเป็นระบบ เช่น ผลกระทบต่อแนวคิดที่อยู่ใกล้เคียง การหลบเลี่ยงแนวคิด และการรั่วไหลของคุณลักษณะ เราเปิดเผยข้อจำกัดและผลข้างเคียงที่สำคัญของเทคนิคการลบแนวคิดที่มีอยู่’

‘มาตรฐานของเรามีความเป็นอิสระต่อโมเดลและสามารถรวมเข้ากับได้อย่างง่ายดาย และเหมาะสำหรับการช่วยเหลือการพัฒนาวิธีการลบแนวคิดใหม่ๆ (CETs)’

แม้ว่าเทคนิคการลบแนวคิดจะลบแนวคิดเป้าหมาย ‘นก’ แต่ก็ล้มเหลวในตัวแปรเชิงประกอบ ‘นกสีแดง’ (ด้านบน) หลังจากลบ ‘โซฟาสีน้ำเงิน’ วิธีการทั้งหมดก็ไม่สามารถสร้าง ‘เก้าอี้สีน้ำเงิน’ ได้ (ด้านล่าง) ผลลัพธ์ที่ประสบความสำเร็จจะแสดงด้วยเครื่องหมายถูกสีเขียว และความล้มเหลวจะแสดงด้วยเครื่องหมาย ‘X’ สีแดง

การศึกษานี้ให้ข้อมูลเชิงลึกที่น่าสนใจเกี่ยวกับระดับการผสมผสานของแนวคิดที่ฝึกไว้ใน พื้นที่ 잠บ ของโมเดล และระดับที่ การผสมผสาน จะไม่อนุญาตให้ลบแนวคิดใดๆ ได้อย่างชัดเจนและแท้จริง

บทความใหม่ เรื่องนี้ มีชื่อว่า ผลข้างเคียงของการลบแนวคิดจากโมเดลการกระจาย และมาจากนักวิจัยสี่คนจากมหาวิทยาลัยแมริแลนด์

วิธีการและข้อมูล

ผู้เขียนระบุว่างานก่อนหน้านี้ที่อ้างว่าลบแนวคิดออกจากโมเดลการกระจายไม่ได้พิสูจน์ข้ออ้างนั้นอย่างเพียงพอ โดยระบุว่า*:

‘การอ้างว่าการลบต้องได้รับการประเมินที่มีประสิทธิภาพและครอบคลุมมากขึ้น ตัวอย่างเช่น หากแนวคิดที่จะลบคือ ‘ยานพาหนะ’ แนวคิดย่อยๆ เช่น ‘รถยนต์’ และแนวคิดเชิงประกอบ เช่น ‘รถสีแดง’ หรือ ‘รถขนาดเล็ก’ ก็ควรจะถูกลบด้วย ‘

‘อย่างไรก็ตาม แนวคิดเรื่องลำดับของแนวคิดและเชิงประกอบนี้ไม่ได้ถูกพิจารณาในโพรโทคอลการประเมินที่มีอยู่ เนื่องจากพวกมันเน้นไปที่ความแม่นยำของแนวคิดที่ถูกลบเพียงอย่างเดียว [ผู้เขียนของ EraseBench] ประเมินว่าเทคนิคการลบแนวคิดส่งผลต่อแนวคิดที่มีลักษณะคล้ายคลึงกันและพาราเฟรซ (เช่น ‘แมว’ และ ‘ลูกแมว’)[;] แต่พวกเขาไม่ได้ตรวจสอบลำดับและเชิงประกอบของแนวคิดอย่างครอบคลุม.’

เพื่อให้ได้ข้อมูลมาตรฐานสำหรับโครงการในอนาคต ผู้เขียนได้สร้างชุดข้อมูล การประเมินผลข้างเคียง (SEE) – คอลเลกชันขนาดใหญ่ของพรอมต์ข้อความที่ออกแบบมาเพื่อทดสอบวิธีการลบแนวคิดทำงานได้ดีเพียงใด

พรอมต์เหล่านี้ติดตามเทมเพลตแบบง่ายๆ โดยที่วัตถุจะถูกอธิบายด้วยคุณลักษณะของขนาด สี และวัสดุ – ตัวอย่างเช่น ภาพของรถยนต์ไม้ขนาดเล็กสีแดง

วัตถุถูกเลือกจากชุดข้อมูล MS-COCO และจัดระเบียบเป็นลำดับชั้นของซูเปอร์คลาส เช่น ยานพาหนะ และซับคลาส เช่น รถยนต์ หรือ รถบัส โดยที่การผสมผสานคุณลักษณะของพวกมันจะสร้างโหนดลูก (ระดับที่เฉพาะที่สุดของลำดับชั้น) นี่ทำให้สามารถทดสอบการลบที่ระดับเชิงсемантиคที่แตกต่างกัน ตั้งแต่หมวดหมู่กว้างๆ ไปจนถึงรูปแบบเฉพาะ

เพื่อสนับสนุนการประเมินแบบอัตโนมัติ แต่ละพรอมต์จะจับคู่กับคำถามใช่/ไม่ใช่ เช่น มีรถยนต์ในภาพหรือไม่? และใช้เป็นป้ายกำกับสำหรับโมเดลการจำแนกภาพ:

การผสมพรอมต์ในเซตข้อมูล SEE ที่สร้างขึ้นโดยการเปลี่ยนแปลงคุณลักษณะขนาด สี และวัสดุ

เพื่อวัดวิธีการลบแนวคิดแต่ละวิธีทำงานได้ดีเพียงใด ผู้เขียนได้พัฒนาวิธีการให้คะแนนสองวิธี: ความแม่นยำของเป้าหมาย ซึ่งตาม dõiว่าแนวคิดที่ถูกลบยังคงปรากฏในภาพที่สร้างขึ้นบ่อยเพียงใด; และ ความแม่นยำในการเก็บ ซึ่งตาม dõiว่าโมเดลยังคงสร้างเนื้อหาที่ไม่ควรจะถูกลบต่อไปหรือไม่

ความสมดุลระหว่างคะแนนเหล่านี้มีจุดมุ่งหมายเพื่อเปิดเผยว่าวิธีการนั้นสามารถลบแนวคิดที่ถูกแบนได้สำเร็จโดยไม่ทำลายผลลัพธ์ของโมเดลในวงกว้าง

ผู้เขียนประเมินการลบแนวคิดในสามโหมดที่ล้มเหลว: ประการแรก การวัดว่าการลบแนวคิด เช่น รถยนต์ จะรบกวนแนวคิดที่อยู่ใกล้เคียงหรือไม่โดยอาศัยความคล้ายคลึงกันเชิงсемантиคและคุณลักษณะ; ประการที่สอง การทดสอบว่าการลบสามารถถูกข้ามได้โดยการพรอมต์แนวคิดย่อย เช่น รถสีแดง หลังจากลบ ยานพาหนะ

สุดท้าย มีการตรวจสอบการรั่วไหลของคุณลักษณะ โดยที่คุณลักษณะที่เชื่อมโยงกับแนวคิดที่ถูกลบปรากฏในวัตถุอื่นๆ (เช่น การลบ โซฟา อาจทำให้วัตถุอื่น เช่น กระถางดอกไม้ มีสีหรือวัสดุเหมือนกัน) เซตข้อมูลสุดท้ายประกอบด้วยพรอมต์เชิงประกอบ 5056 รายการ

การทดสอบ

เฟรมเวิร์กที่ทดสอบก่อนหน้านี้คือ UCE, RECE, MACE และ SPM ที่กล่าวถึงก่อนหน้านี้ นักวิจัยได้ใช้การตั้งค่าเริ่มต้นจากโครงการต้นฉบับ และปรับโมเดลทั้งหมดให้เหมาะสมบน NVIDIA RTX 6000 GPU ที่มี VRAM 48GB

Stable Diffusion 1.4 หนึ่งในโมเดลที่มีอายุยาวนานที่สุดในเอกสารนี้ถูกใช้สำหรับการทดสอบทั้งหมด – อาจเป็นเพราะโมเดล SD ต้นๆ มีการจำกัดแนวคิดน้อยหรือไม่มีเลย และดังนั้นจึงเป็นกระดาษเปล่าที่สมบูรณ์แบบในบริบทการวิจัยเฉพาะนี้

พรอมต์ทั้ง 5056 รายการจากเซตข้อมูล SEE ถูกส่งผ่านรุ่นที่แก้ไขและไม่ได้แก้ไขของโมเดล โดยสร้างภาพสี่ภาพต่อพรอมต์โดยใช้ เมล็ดสุ่ม ที่ตายตัว ซึ่งช่วยให้ทดสอบว่าผลกระทบของการลบยังคงสม่ำเสมอระหว่างเอาต์พุตหลายรายการหรือไม่ โมเดลที่แก้ไขแต่ละตัวสร้างภาพทั้งหมด 20,224 ภาพ

การตรวจสอบการเก็บรักษาแนวคิดถูกประเมินตามวิธีการก่อนหน้านี้สำหรับวิธีการลบภาพถึงข้อความ โดยใช้โมเดล VQA BLIP, QWEN 2.5 VL และ Florence-2base

ผลกระทบต่อแนวคิดที่อยู่ใกล้เคียง

การทดสอบแรกวัดว่าการลบแนวคิดจะส่งผลกระทบต่อแนวคิดที่อยู่ใกล้เคียงโดยไม่ตั้งใจหรือไม่ ตัวอย่างเช่น หลังจากลบ รถยนต์ โมเดลควรหยุดสร้าง รถสีแดง หรือ รถขนาดใหญ่ แต่ยังคงสามารถสร้างแนวคิดที่เกี่ยวข้อง เช่น รถบัส หรือ รถบรรทุก และแนวคิดที่ไม่เกี่ยวข้อง เช่น ส้อม ได้

การวิเคราะห์ใช้ความคล้ายคลึงกันของ CLIP และระยะทางในการแก้ไขด้วยคุณลักษณะเพื่อประมาณการว่าแนวคิดใดใกล้กับแนวคิดที่ถูกลบมากที่สุด: ซึ่งช่วยให้สามารถวัดได้ว่าการรบกวนจะขยายไปได้ไกลแค่ไหน

ผลลัพธ์รวมสำหรับความแม่นยำของเป้าหมาย (ซ้าย) และความแม่นยำในการเก็บ (ขวา) เมื่อเปรียบเทียบกับความคล้ายคลึงกันเชิงсемантиค (ด้านบน) และระยะทางเชิงประกอบ (ด้านล่าง) วิธีการลบแนวคิดที่เหมาะสมจะแสดงความแม่นยำของเป้าหมายต่ำและความแม่นยำในการเก็บสูงในระยะทางทั้งหมด แต่ผลลัพธ์แสดงให้เห็นว่าวิธีการปัจจุบันล้มเหลวในการทั่วไปอย่างสะอาด โดยที่แนวคิดที่ใกล้เคียงจะถูกลบไม่เพียงพอหรือถูกรบกวนอย่างไม่สมส่วน

จากผลลัพธ์เหล่านี้ ผู้เขียนแสดงความคิดเห็นว่า:

‘วิธีการลบแนวคิดทั้งหมดยังคงสร้างตัวแปรเชิงประกอบหรือแนวคิดที่มีลักษณะคล้ายคลึงกันของแนวคิดเป้าหมายแม้หลังการลบ ซึ่งไม่ควรเกิดขึ้น มันชัดเจนว่า UCE ได้รับผลลัพธ์ที่ดีกว่าวิธีการอื่นๆ ในชุดเก็บ โดยแสดงให้เห็นถึงผลกระทบที่ไม่ได้ตั้งใจต่อแนวคิดที่เกี่ยวข้องเชิงсемантиคที่น้อยที่สุด ‘

‘ในทางตรงกันข้าม SPM มีผลลัพธ์ที่ต่ำที่สุด ซึ่งบ่งชี้ว่ากลยุทธ์การแก้ไขของมันเสี่ยงต่อการคล้ายคลึงกันของแนวคิดมากที่สุด’

จากวิธีการทั้งสี่ที่ทดสอบ RECE มีประสิทธิภาพสูงสุดในการบล็อกแนวคิดเป้าหมาย แต่การแสดงผลลัพธ์ทางซ้ายของภาพด้านบนแสดงให้เห็นว่าวิธีการทั้งหมดล้มเหลวในการระงับตัวแปรเชิงประกอบ

หลังจากลบ นก โมเดลยังคงสร้างภาพของ นกสีแดง แสดงให้เห็นว่าแนวคิดยังคงอยู่บางส่วน

การลบ โซฟาสีน้ำเงิน ยังป้องกันไม่ให้โมเดลสร้าง เก้าอี้สีน้ำเงิน บ่งชี้ถึงอันตรายต่อแนวคิดที่อยู่ใกล้เคียง

RECE จัดการตัวแปรเชิงประกอบได้ดีกว่าวิธีอื่นๆ ในขณะที่ UCE ทำงานได้ดีกว่าในการรักษาแนวคิดที่เกี่ยวข้อง

การรุกล้ำการลบ

การทดสอบการรุกล้ำการลบประเมินว่าโมเดลยังคงสามารถสร้างแนวคิดย่อยหลังจากที่คลาสหลักถูกลบหรือไม่ ตัวอย่างเช่น หาก ยานพาหนะ ถูกลบ การทดสอบจะตรวจสอบว่าโมเดลยังคงสร้างเอาต์พุต เช่น จักรยาน หรือ รถสีแดง ได้หรือไม่

พรอมต์เป้าหมายทั้งคลาสย่อยโดยตรงและตัวแปรเชิงประกอบเพื่อกำหนดว่าการดำเนินการลบแนวคิดได้ลบลำดับชั้นที่สมบูรณ์หรือสามารถถูกข้ามได้โดยพรอมต์ที่เฉพาะเจาะจงมากขึ้น:

การรุกล้ำคลาสหลักผ่านคลาสย่อยและตัวแปรเชิงประกอบใน Stable Diffusion v1.4 โดยมีความแม่นยำสูงกว่าบ่งชี้ถึงการรุกล้ำที่มากขึ้น

โมเดลที่ไม่ได้แก้ไขยังคงมีความแม่นยำสูงในคลาสหลักทั้งหมด ซึ่งยืนยันว่าไม่ได้ลบแนวคิดเป้าหมายใดๆ ออกไป ในบรรดาวิธีการลบแนวคิด MACE แสดงให้เห็นถึงการรุกล้ำน้อยที่สุด โดยบรรลุความแม่นยำของคลาสย่อยต่ำที่สุดในหมวดหมู่ที่ทดสอบมากกว่าครึ่งหนึ่ง RECE ก็ทำงานได้ดี โดยเฉพาะอย่างยิ่งในกลุ่ม เครื่องประดับ, กีฬา และ อิเล็กทรอนิกส์

ในทางตรงกันข้าม UCE และ SPM แสดงความแม่นยำของคลาสย่อยสูงกว่า ซึ่งบ่งชี้ว่าแนวคิดที่ถูกลบสามารถถูกข้ามได้ง่ายขึ้นโดยพรอมต์ที่เกี่ยวข้องหรือซ้อนกัน

ผู้เขียนสังเกตว่า:

‘วิธีการลบแนวคิดทั้งหมดสามารถระงับแนวคิดหลักได้ แต่เมื่อพรอมต์ด้วยลูกหลานของลำดับชั้นอาหาร (เช่น “พิซซ่าขนาดใหญ่”) ทั้งวิธีการสร้างอาหารอีกต่อไป ‘

‘ในหมวดหมู่ “ยานพาหนะ” ทั้งโมเดลสร้างจักรยานแม้หลังลบ “ยานพาหนะ”‘

การรั่วไหลของคุณลักษณะ

การทดสอบสุดท้าย การรั่วไหลของคุณลักษณะ ตรวจสอบว่าคุณลักษณะที่เชื่อมโยงกับแนวคิดที่ถูกลบปรากฏในส่วนอื่นๆ ของภาพหรือไม่

ตัวอย่างเช่น หลังจากลบ โซฟา โมเดลไม่ควรสร้างโซฟาหรือใช้คุณลักษณะที่เป็นแบบฉายภาพของโซฟา (เช่น สีหรือวัสดุ) กับวัตถุอื่นๆ ในพรอมต์เดียวกัน

การนี้ถูกวัดโดยพรอมต์แบบคู่และตรวจสอบว่าโมเดลสร้างคุณลักษณะที่ถูกลบโดยไม่ได้ตั้งใจในแนวคิดที่เก็บไว้หรือไม่:

แผนที่ความสนใจสำหรับโทเค็นของคุณลักษณะหลังการลบแนวคิด ซ้าย: เมื่อ ‘เบ็นช์’ ถูกลบ โทเค็น ‘ไม้’ จะเปลี่ยนไปที่นกแทน ทำให้เกิดนกไม้ขึ้น ขวา: การลบ ‘โซฟาสีน้ำเงิน’ ล้มเหลวในการระงับการสร้างโซฟา ในขณะที่โทเค็น ‘ขนาดใหญ่’ ถูกกำหนดให้กับโดนัทโดยไม่ถูกต้อง

RECE มีประสิทธิภาพสูงสุดในการลบคุณลักษณะเป้าหมาย แต่ก็แนะนำการรั่วไหลของคุณลักษณะมากที่สุดในพรอมต์ที่เก็บไว้ โดยที่มันเกินแม้กระทั่งโมเดลที่ไม่ได้แก้ไข

ผลลัพธ์เหล่านี้ ผู้เขียนชี้ให้เห็นว่า:
ผลลัพธ์เหล่านี้ชี้ให้เห็นถึงความจำเป็นในการแลกเปลี่ยนโดยธรรมชาติ โดยที่การลบที่เข้มข้นยิ่งขึ้นเพิ่มความเสี่ยงต่อการถ่ายโอนคุณลักษณะที่ผิดพลาด

สรุป

พื้นที่ latent ของโมเดลไม่ได้เติมขึ้นอย่างเป็นระเบียบระหว่างการฝึกอบรม โดยที่แนวคิดที่ได้รับการฝึกอบรมจะถูกเก็บไว้ในพื้นที่หรือในแฟ้มที่แยกจากกัน แต่การฝึกอบรมที่ได้รับจะรวมทั้งเนื้อหาและภาชนะของพวกมัน: ไม่มีเส้นแบ่งที่ชัดเจนระหว่างพวกมัน แต่จะผสมผสานกันในลักษณะที่ทำให้การลบเป็นเรื่องที่ท้าทาย – เหมือนกับการพยายามถอดเอาเนื้อหนึ่งปอนด์ออกโดยไม่สูญเสียเลือด

ในระบบอัจฉริยะและพัฒนาตนเอง เหตุการณ์เริ่มต้น – เช่น การเผาหน้าและความเคารพต่อไฟในเวลาต่อมา – ถูกผูกไว้กับพฤติกรรมและความสัมพันธ์ที่พวกมันสร้างขึ้นในเวลาต่อมา ทำให้ยากที่จะสร้างโมเดลที่อาจเหลือไว้เพียงผลลัพธ์ของแนวคิดหลัก แต่ไม่มีแนวคิดนั้นเอง

* การแปลงอ้างอิงในบรรทัดของฉันให้เป็นลิงก์

เผยแพร่ครั้งแรกวันศุกร์ 22 สิงหาคม 2025