มุมมองของ Anderson

การถอดรหัสข้อมูลการฝึกอบรมจากโมเดล Stable Diffusion ที่ได้รับการปรับแต่ง

เผยแพร่ 7 ตุลาคม 2024

อัปเดต 15 พฤษภาคม 2026

Martin Anderson

Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

การวิจัยใหม่จากสหรัฐฯ นำเสนอวิธีการในการถอดรหัสข้อมูลการฝึกอบรมที่สำคัญจากโมเดลที่ได้รับการปรับแต่ง

สิ่งนี้อาจให้หลักฐานทางกฎหมายในกรณีที่สไตล์ของศิลปินถูกคัดลอกหรือภาพที่มีลิขสิทธิ์ถูกใช้ในการฝึกอบรมโมเดลที่สร้างขึ้นสำหรับบุคคลที่มีชื่อเสียง ตัวละครที่ได้รับการคุ้มครองโดยลิขสิทธิ์ หรือเนื้อหาอื่นๆ

จากเอกสารวิจัยใหม่: ภาพการฝึกอบรมต้นฉบับอยู่ในแถวบน และภาพที่ถอดรหัสแสดงอยู่ในแถวล่าง Source: https://arxiv.org/pdf/2410.03039

โมเดลเหล่านี้มีอยู่อย่างแพร่หลายและสามารถเข้าถึงได้ฟรีบนอินเทอร์เน็ต โดยหลักๆ แล้วผ่านคลังข้อมูลที่ผู้ใช้สร้างขึ้นของ civit.ai และในระดับที่น้อยกว่าบนแพลตฟอร์ม Hugging Face

โมเดลใหม่ที่พัฒนาขึ้นโดยนักวิจัยเรียกว่า FineXtract และผู้เขียนอ้างว่าสามารถบรรลุผลลัพธ์ที่ดีที่สุดในงานนี้

เอกสารวิจัยระบุว่า:

‘[เฟรมเวิร์กของเรา] จัดการกับความท้าทายในการถอดรหัสข้อมูลการฝึกอบรมจากเช็คพอยต์ที่ปรับแต่งได้ ซึ่งมีอยู่ในเช็คพอยต์ที่ฝึกอบรมไว้ล่วงหน้า โดยใช้การเปลี่ยนแปลงจากกระจายการฝึกอบรมที่เตรียมไว้ล่วงหน้าไปยังกระจายการฝึกอบรมที่ปรับแต่ง FineXtract สามารถชี้นำกระบวนการสร้างภาพไปยังพื้นที่ความน่าจะเป็นสูงของกระจายการฝึกอบรมที่ปรับแต่งได้ ทำให้สามารถถอดรหัสข้อมูลได้สำเร็จ’

ทางขวาสุด ภาพต้นฉบับที่ใช้ในการฝึกอบรม ทางขวาสุดเป็นอันดับสอง ภาพที่ถอดรหัสโดย FineXtract คอลัมน์อื่นๆ แสดงถึงวิธีการก่อนหน้านี้ โปรดอ้างอิงเอกสารต้นฉบับสำหรับการแสดงผลที่ดีกว่า

ทำไมจึงสำคัญ

โมเดลที่ฝึกอบรมไว้ล่วงหน้าสำหรับระบบสร้างภาพจากข้อความ เช่น Stable Diffusion และ Flux สามารถดาวน์โหลดและปรับแต่งได้โดยผู้ใช้ โดยใช้เทคนิค เช่น DreamBooth ในปี 2022

ง่ายกว่านั้น ผู้ใช้สามารถสร้างโมเดล LoRA ที่เล็กกว่าได้ ซึ่งมีประสิทธิภาพใกล้เคียงกับโมเดลที่ปรับแต่งได้เต็มรูปแบบ

ตัวอย่างของ LORA ที่ฝึกอบรมแล้ว ซึ่งสามารถดาวน์โหลดได้ฟรีที่เว็บไซต์ Civitai ที่มีชื่อเสียงมาก ซึ่งสามารถสร้างได้ภายในไม่กี่นาทีถึงไม่กี่ชั่วโมง โดยนักบิดที่ใช้ซอฟต์แวร์แบบเปิดที่ติดตั้งบนเครื่องของตนเอง และออนไลน์ผ่านระบบฝึกอบรม API ที่อนุญาตให้ใช้งานได้

ตัวอย่างของ LORA ที่ฝึกอบรมแล้ว ซึ่งสามารถดาวน์โหลดได้ฟรีที่โดเมน Civitai ที่มีชื่อเสียงมาก ซึ่งสามารถสร้างได้ภายในไม่กี่นาทีถึงไม่กี่ชั่วโมง โดยนักบิดที่ใช้ซอฟต์แวร์แบบเปิดที่ติดตั้งบนเครื่องของตนเอง และออนไลน์ผ่านระบบฝึกอบรม API ที่อนุญาตให้ใช้งานได้ Source: civitai.com

ตั้งแต่ปี 2022 เป็นต้นมา การสร้างจุดตรวจสอบการฝึกอบรมที่เฉพาะเจาะจงและ LoRA เป็นเรื่องที่ง่าย โดยให้ภาพที่มีคำบรรยายเพียงไม่กี่ภาพ (โดยเฉลี่ย 5-50 ภาพ) และฝึกอบรมเช็คพอยต์ (หรือ LoRA) ที่ติดตั้งบนเครื่องของตนเอง โดยใช้เฟรมเวิร์กแบบเปิด เช่น Kohya ss หรือใช้บริการออนไลน์

วิธีการสร้าง deepfake ที่ง่ายนี้ได้รับความสนใจจากสื่อในช่วงไม่กี่ปีที่ผ่านมา นักศิลปินหลายคนก็ได้ถูกดูดเข้าไปในโมเดลที่สร้างขึ้นซึ่งจำลองสไตล์ของพวกเขา ความขัดแย้งรอบๆ ประเด็นเหล่านี้ได้รับแรงผลักดันในช่วง 18 เดือนที่ผ่านมา

ความง่ายในการสร้างระบบ AI ที่จำลองงานของศิลปินจริงได้ทำให้เกิดความโกรธและแคมเปญต่างๆ ในช่วงสองปีที่ผ่านมา Source: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

เป็นเรื่องที่ยากที่จะพิสูจน์ว่าภาพใดถูกใช้ในการฝึกอบรมหรือไม่ เนื่องจากกระบวนการสร้างแบบจำลอง ‘ทำให้ภาพไม่ชัดเจน’ และไม่น่าจะสร้างตัวอย่างจากเซตข้อมูลการฝึกอบรม (ยกเว้นในกรณีที่ฝึกอบรมล้มเหลว)

นี่คือจุดที่ FineXtract เข้ามา โดยการเปรียบเทียบสถานะของ ‘โมเดลเทมเพลต’ ที่ผู้ใช้ดาวน์โหลดกับโมเดลที่พวกเขาสร้างขึ้นผ่านการปรับแต่งหรือ LoRA นักวิจัยสามารถสร้างการสร้างภาพที่แม่นยำของข้อมูลการฝึกอบรมได้

แม้ว่า FineXtract จะสามารถสร้างภาพได้เพียง 20% ของข้อมูลการฝึกอบรม แต่นี่ก็มากกว่าที่ต้องการเพื่อพิสูจน์ว่าผู้ใช้ใช้ภาพที่มีลิขสิทธิ์หรือคุ้มครองในโมเดลที่สร้างขึ้น ในตัวอย่างที่ให้มา ภาพที่ถอดรหัสออกมานั้นใกล้เคียงกับภาพต้นฉบับมาก

เนื่องจากคำบรรยายจำเป็นต้องถอดรหัสภาพต้นฉบับ แต่นี่ไม่ใช่สิ่งกีดขวางที่สำคัญ เนื่องจากผู้อัปโหลดโดยทั่วไปต้องการอำนวยความสะดวกในการใช้โมเดลในหมู่ชุมชนและจะให้คำบรรยายที่เหมาะสม และไม่ยากที่จะถอดรหัสคำสำคัญที่สำคัญออกจากโมเดลที่ปรับแต่งได้

คำสำคัญที่จำเป็นสามารถถอดรหัสได้โดยไม่ต้องมีคำบรรยายจากโมเดลที่ปรับแต่งโดยใช้การโจมตี L2-PGD ใน 1,000 รอบจากคำบรรยายที่สุ่ม

ผู้ใช้บ่อยครั้งไม่ให้เซตข้อมูลการฝึกอบรมพร้อมกับโมเดลที่ฝึกอบรมแล้ว สำหรับการวิจัย ผู้เขียนได้ร่วมมือกับนักบิดที่ให้เซตข้อมูล

เอกสารวิจัยใหม่เรียกว่า การเปิดเผยสิ่งที่ไม่เห็น: การชี้นำโมเดลการแพร่กระจายที่ปรับแต่งให้แสดงข้อมูลการฝึกอบรม และมาจากนักวิจัยสามคนจากมหาวิทยาลัยคาร์เนกีเมลลอนและเพอร์ดู

วิธีการ

‘ผู้โจมตี’ (ในกรณีนี้คือระบบ FineXtract) เปรียบเทียบการกระจายข้อมูลที่ประมาณการไว้ระหว่างโมเดลต้นฉบับและโมเดลที่ปรับแต่ง ในกระบวนการที่ผู้เขียนเรียกว่า ‘การชี้นำแบบโมเดล’

ผ่าน ‘การชี้นำแบบโมเดล’ ที่พัฒนาโดยนักวิจัยของเอกสารใหม่ ลักษณะการปรับแต่งสามารถทำแผนที่ได้ ทำให้สามารถถอดรหัสข้อมูลการฝึกอบรมได้

ผู้เขียนอธิบายว่า:

‘ระหว่างกระบวนการปรับแต่ง โมเดลการแพร่กระจายจะเปลี่ยนการกระจายที่เรียนรู้จากโมเดลที่เตรียมไว้ล่วงหน้าไปยังการกระจายข้อมูลการฝึกอบรมที่ปรับแต่ง’

‘ดังนั้น เราจึงประมาณการกระจายที่เรียนรู้ของโมเดลการแพร่กระจายที่ปรับแต่งได้’

ในทางนี้ ผลรวมของความแตกต่างระหว่างโมเดลหลักและโมเดลที่ปรับแต่งให้กระบวนการชี้นำ

ผู้เขียนกล่าวเพิ่มเติมว่า:

‘ด้วยการชี้นำแบบโมเดล เราสามารถสร้าง “เทียม-” denoiser ซึ่งสามารถใช้ในการชี้นำกระบวนการสร้างภาพไปยังพื้นที่ความน่าจะเป็นสูงของการกระจายข้อมูลการฝึกอบรมที่ปรับแต่ง’

การชี้นำนี้ขึ้นอยู่กับกระบวนการสร้างเสียงที่เปลี่ยนแปลงไปตามเวลา ซึ่งคล้ายกับเอกสารวิจัยในปี 2023 การลบแนวคิดออกจากโมเดลการแพร่กระจาย

การคาดการณ์การลดเสียงที่ได้รับยังให้มาตราส่วนการชี้นำแบบไม่มีคลาสสิฟายเออร์ (CFG) ที่น่าจะเป็นไปได้ ซึ่งเป็นสิ่งสำคัญ เนื่องจาก CFG มีผลกระทบอย่างมากต่อคุณภาพของภาพและความภักดีต่อคำบรรยายข้อความของผู้ใช้

เพื่อปรับปรุงความแม่นยำของภาพที่ถอดรหัส FineXtract ใช้เอกสารวิจัยที่ได้รับการยกย่องในปี 2023 การถอดรหัสข้อมูลการฝึกอบรมจากโมเดลการแพร่กระจาย วิธีการที่ใช้คือการคำนวณความคล้ายคลึงกันของแต่ละคู่ของภาพที่สร้างขึ้นตามเกณฑ์ที่กำหนดโดยคะแนน Self-Supervised Descriptor (SSCD)

ในทางนี้ อัลกอริทึมการคลัสเตอร์ช่วยให้ FineXtract สามารถระบุเซตย่อยของภาพที่ถอดรหัสออกมาได้ ซึ่งสอดคล้องกับข้อมูลการฝึกอบรม

ในกรณีนี้ ผู้วิจัยร่วมมือกับผู้ใช้ที่ให้เซตข้อมูล เมื่อไม่มีเซตข้อมูลเหล่านี้ จะเป็นไปไม่ได้ที่จะพิสูจน์ว่าภาพใดๆ ที่สร้างขึ้นถูกใช้ในการฝึกอบรมหรือไม่ อย่างไรก็ตาม ปัจจุบันสามารถจับคู่ภาพที่อัปโหลดกับภาพที่มีอยู่บนเว็บหรือในเซตข้อมูลที่เผยแพร่ได้ตามเนื้อหาของภาพ

ข้อมูลและการทดสอบ

เพื่อทดสอบ FineXtract ผู้เขียนได้ทำการทดลองบนโมเดลที่ปรับแต่งได้ไม่กี่ครั้ง โดยใช้สองสถานการณ์ที่ปรับแต่งที่พบบ่อยที่สุด ในขอบเขตของโครงการ: สไตล์ศิลปะ และ การสร้างภาพที่ขับเคลื่อนด้วยวัตถุ (ซึ่งครอบคลุมถึงการสร้างภาพที่ขับเคลื่อนด้วยใบหน้า)

พวกเขาได้เลือกศิลปิน 20 คน (แต่ละคนมี 10 ภาพ) จากเซตข้อมูล WikiArt และ 30 หัวข้อ (แต่ละหัวข้อมี 5-6 ภาพ) จากเซตข้อมูล DreamBooth เพื่อจัดการกับสถานการณ์เหล่านี้

พวกเขาได้ใช้ DreamBooth และ LoRA เป็นวิธีการปรับแต่ง และใช้ Stable Diffusion V1/.4 สำหรับการทดสอบ

หากอัลกอริทึมการคลัสเตอร์ไม่ส่งผลลัพธ์หลังจาก 30 วินาที พวกเขาจะแก้ไขเกณฑ์จนกว่าจะได้ภาพ

สองมาตรการที่ใช้สำหรับภาพที่สร้างขึ้นคือ ค่าเฉลี่ยของความคล้ายคลึงกัน (AS) ตามคะแนน SSCD และอัตราความสำเร็จในการถอดรหัสข้อมูลการฝึกอบรมโดยเฉลี่ย (A-ESR) – ซึ่งเป็นมาตรการที่สอดคล้องกับงานก่อนหน้านี้ โดยที่คะแนน 0.7 แสดงถึงความสำเร็จในการถอดรหัสข้อมูลการฝึกอบรมที่สมบูรณ์

เนื่องจากวิธีการก่อนหน้านี้ใช้การสร้างภาพจากข้อความโดยตรงหรือ CFG ผู้วิจัยจึงเปรียบเทียบ FineXtract กับวิธีการเหล่านี้

ผลลัพธ์ของการเปรียบเทียบ FineXtract กับวิธีการก่อนหน้าสองวิธีที่ได้รับความนิยมมากที่สุด

ผู้เขียนกล่าวว่า:

‘ผลลัพธ์แสดงถึงความได้เปรียบอย่างมากของ FineXtract เมื่อเปรียบเทียบกับวิธีการก่อนหน้า โดยมีการปรับปรุงประมาณ 0.02 ถึง 0.05 ใน AS และการเพิ่ม A-ESR ถึงสองเท่าในกรณีส่วนใหญ่’

เพื่อทดสอบความสามารถในการสร้างแบบจำลองของวิธีการ พวกเขาทำการทดสอบเพิ่มเติมโดยใช้ Stable Diffusion (V1.4), Stable Diffusion XL และ AltDiffusion

FineXtract ที่ใช้กับโมเดลการแพร่กระจายต่างๆ สำหรับส่วน WikiArt การทดสอบมุ่งเน้นไปที่สี่คลาสใน WikiArt

ดังที่เห็นในผลลัพธ์ที่แสดงข้างต้น FineXtract สามารถบรรลุผลลัพธ์ที่ดีกว่าวิธีการก่อนหน้าในการทดสอบที่กว้างขึ้นนี้

การเปรียบเทียบเชิงคุณภาพของผลลัพธ์ที่ถอดรหัสออกมาจาก FineXtract และวิธีการก่อนหน้า โปรดอ้างอิงเอกสารต้นฉบับสำหรับการแสดงผลที่ดีกว่า

ผู้เขียนสังเกตว่าเมื่อใช้จำนวนภาพที่มากขึ้นในเซตข้อมูลสำหรับโมเดลที่ปรับแต่ง อัลกอริทึมการคลัสเตอร์ต้องใช้เวลานานขึ้นเพื่อให้ได้ผลลัพธ์

พวกเขาได้สังเกตว่าวิธีการต่างๆ ได้ถูกพัฒนาขึ้นในช่วงไม่กี่ปีที่ผ่านมาเพื่อป้องกันการถอดรหัสข้อมูลการฝึกอบรม โดยใช้การป้องกันความเป็นส่วนตัว พวกเขาจึงทดสอบ FineXtract กับข้อมูลที่เพิ่มขึ้นโดยใช้วิธีการ Cutout และ RandAugment

การเปรียบเทียบเชิงคุณภาพของผลลัพธ์ที่ถอดรหัสออกมาจาก FineXtract และวิธีการก่อนหน้า

การแสดงผลของ FineXtract กับภาพที่ป้องกันโดย Cutout และ RandAugment

แม้ว่าผู้เขียนจะยอมรับว่าระบบป้องกันทั้งสองนี้ทำงานได้ดีในการบดบังแหล่งที่มาของข้อมูลการฝึกอบรม แต่พวกเขาก็สังเกตว่ามันทำให้คุณภาพของภาพลดลงอย่างมาก จนไม่มีประโยชน์

ภาพที่สร้างขึ้นโดยใช้ Stable Diffusion V1.4 ที่ปรับแต่งด้วยมาตรการป้องกัน

เอกสารวิจัยสรุปว่า:

‘การทดลองของเราพิสูจน์ถึงความแข็งแกร่งของวิธีการนี้ในการจัดการกับเซตข้อมูลและเช็คพอยต์ที่ใช้จริง โดยเน้นถึงความเสี่ยงของการรั่วไหลของข้อมูลและให้หลักฐานที่แข็งแกร่งสำหรับการละเมิดลิขสิทธิ์’

สรุป

ปี 2024 เป็นปีที่บริษัทต่างๆ ให้ความสนใจกับข้อมูลการฝึกอบรมที่ “สะอาด” มากขึ้น เนื่องจากการรายงานของสื่อเกี่ยวกับความสามารถของ AI ที่จะแทนที่มนุษย์ และความเป็นไปได้ที่จะปกป้องโมเดลที่สร้างขึ้นโดยใช้ข้อมูลการฝึกอบรม

เป็นเรื่องที่ง่ายที่จะอ้างว่าข้อมูลการฝึกอบรมของคุณสะอาด แต่ก็เป็นเรื่องที่ง่ายที่จะพิสูจน์ได้ว่ามันไม่สะอาด – เช่นเดียวกับที่ Runway ML, Stability.ai และ MidJourney (รวมถึงอื่นๆ) พบว่าในไม่กี่วันที่ผ่านมา

โครงการเช่น FineXtract อาจเป็นสัญญาณของการสิ้นสุดของยุค “ป่าลึก” ของ AI ซึ่งแม้แต่ลักษณะที่ซ่อนเร้นของพื้นที่ 潜在ที่ฝึกอบรมแล้วก็สามารถถูกพิสูจน์ได้

* สำหรับประโยชน์ของความสะดวก เราจะสมมติว่า ‘ปรับแต่งและ LoRA’ เมื่อจำเป็น

เผยแพร่ครั้งแรกวันจันทร์ที่ 7 ตุลาคม 2024