ปัญญาประดิษฐ์

สามความท้าทายที่ Stable Diffusion จะต้องเผชิญ

Published September 6, 2022

Updated April 28, 2026

Martin Anderson

การเปิดตัวของโมเดลการสร้างภาพ Stable Diffusion ของ stability.ai เมื่อสองสามสัปดาห์ที่แล้ว อาจเป็นการเปิดเผยเทคโนโลยีที่สำคัญที่สุดนับตั้งแต่ DeCSS ในปี 1999 และเป็นเหตุการณ์ที่ใหญ่ที่สุดในด้านภาพที่สร้างโดย AI ตั้งแต่ปี 2017 เมื่อรหัส deepfakes ถูกคัดลอกไปที่ GitHub และถูกแยกออกเป็น DeepFaceLab และ FaceSwap รวมถึงซอฟต์แวร์ deepfake สตรีมมิ่งแบบเรียลไทม์ DeepFaceLive

เมื่อถึงจุดหนึ่ง ความไม่พอใจของผู้ใช้เกี่ยวกับข้อจำกัดเนื้อหาของ DALL-E 2 ถูกขจัดไป เนื่องจากพบว่าฟิลเตอร์ NSFW ของ Stable Diffusion สามารถถูกปิดใช้งานได้โดยการเปลี่ยนแปลงเพียงบรรทัดเดียวของโค้ด Subreddit ของ Stable Diffusion ที่มีเนื้อหาสำหรับผู้ใหญ่เกิดขึ้นเกือบจะทันที และถูกปิดลงอย่างรวดเร็ว ในขณะที่ชุมชนผู้พัฒนาและผู้ใช้แบ่งออกเป็นชุมชนอย่างเป็นทางการและชุมชน NSFW บน Discord และ Twitter เริ่มเต็มไปด้วยสร้างสรรค์ผลงานที่น่าเหลือเชื่อของ Stable Diffusion

ในขณะนี้ แต่ละวัน似乎จะมีการนวัตกรรมที่น่าเหลือเชื่อจากผู้พัฒนาที่ได้รับระบบนี้ โดยมีการเขียนปลั๊กอินและซอฟต์แวร์เสริมของบุคคลที่สามอย่างรวดเร็วสำหรับ Krita, Photoshop, Cinema4D, Blender และแพลตฟอร์มแอปพลิเคชันอื่นๆ

ในขณะเดียวกัน “promptcraft” – ศิลปะการ ‘สื่อสารกับ AI’ ที่ตอนนี้เป็นมืออาชีพ ซึ่งอาจเป็นตัวเลือกอาชีพที่สั้นที่สุดนับตั้งแต่ ‘Filofax binder’ – กำลังจะถูกทำให้เป็นธุรกิจแล้ว ในขณะที่การทำเงินจาก Stable Diffusion ในระยะแรกเกิดขึ้นที่ระดับ Patreon โดยมีการเสนอที่ซับซ้อนมากขึ้นในอนาคตสำหรับผู้ที่ไม่เต็มใจที่จะนำไปใช้กับการติดตั้ง Conda ของโค้ดต้นฉบับหรือฟิลเตอร์ NSFW ที่เข้มงวดของการนำไปใช้บนเว็บ

ความเร็วในการพัฒนาและความรู้สึกอิสระในการสำรวจของผู้ใช้กำลังดำเนินไปด้วยความเร็วที่ทำให้ยากที่จะเห็นอนาคตได้ชัดเจน ในที่สุด เราไม่รู้ว่าเรากำลังเผชิญกับอะไรอยู่หรืออะไรคือข้อจำกัดหรือความเป็นไปได้ทั้งหมด

อย่างไรก็ตาม มาทำความรู้จักกับสามความท้าทายที่น่าสนใจและท้าทายที่ชุมชน Stable Diffusion ที่ก่อตัวขึ้นอย่างรวดเร็วและเติบโตอย่างรวดเร็วนี้จะต้องเผชิญและหวังว่าจะสามารถเอาชนะได้

1: การเพิ่มประสิทธิภาพของการประมวลผลภาพแบบไทล์

เมื่อเผชิญกับทรัพยากรฮาร์ดแวร์ที่จำกัดและข้อจำกัดที่เข้มงวดเกี่ยวกับขนาดของภาพที่ใช้ในการฝึกอบรม มัน似乎น่าจะเป็นไปได้ที่นักพัฒนาจะพบวิธีแก้ปัญหาเพื่อปรับปรุงคุณภาพและความละเอียดของภาพที่ผลิตโดย Stable Diffusion โครงการเหล่านี้หลายโครงการมีเป้าหมายที่จะใช้ข้อจำกัดของระบบ เช่น ความละเอียดพื้นฐาน 512×512 พิกเซล

เช่นเดียวกับโครงการการมองเห็นของคอมพิวเตอร์และการสร้างภาพอื่นๆ Stable Diffusion ถูกฝึกอบรมด้วยภาพที่มีอัตราส่วนภาพสี่เหลี่ยมจัตุรัส ในกรณีนี้คือ 512×512 พิกเซล เพื่อให้ภาพต้นฉบับสามารถ 정규化และเข้ากับข้อจำกัดของ GPU ที่ใช้ในการฝึกอบรมโมเดล

ดังนั้น Stable Diffusion ‘คิด’ (ถ้ามันคิดเลย) ในรูปของ 512×512 พิกเซล และแน่นอนว่าในรูปของสี่เหลี่ยมจัตุรัส มีผู้ใช้หลายคนกำลังพัฒนา方法ในการแบ่งภาพออกเป็นภาพขนาด 512×512 พิกเซล และเย็บภาพเหล่านั้นเข้าด้วยกันเพื่อสร้างภาพประกอบขนาดใหญ่

2: การแก้ไขปัญหาเกี่ยวกับอวัยวะของมนุษย์

Stable Diffusion ไม่ค่อยดีนักเมื่อมันมาถึงการสร้างภาพที่ซับซ้อนของอวัยวะของมนุษย์ มือสามารถเพิ่มขึ้นได้แบบสุ่ม นิ้วสามารถรวมกัน ขาเพิ่มเติมสามารถปรากฏขึ้นได้โดยไม่คาดคิด และอวัยวะที่มีอยู่สามารถหายไปโดยไม่มี痕跡 ในการป้องกัน Stable Diffusion มีปัญหาเหมือนกับ DALL-E 2

3: การปรับแต่ง

หนึ่งในความเป็นไปได้ที่น่าตื่นเต้นที่สุดสำหรับอนาคตของ Stable Diffusion คือโอกาสที่ผู้ใช้หรือองค์กรจะพัฒนาระบบที่ได้รับการปรับปรุง การปรับเปลี่ยนเหล่านี้จะทำให้เนื้อหาที่ไม่ได้ฝึกอบรมใน LAION สามารถรวมเข้ากับระบบได้ – โดยที่ไม่ต้องฝึกอบรมโมเดลทั้งหมดอีกครั้ง หรือมีความเสี่ยงในการฝึกอบรมในปริมาณภาพใหม่ที่มากในโมเดลที่มีอยู่แล้ว

การฝึกอบรม 500,000 เฟรมของ The Simpsons เข้ากับจุดตรวจสอบ Stable Diffusion ที่มีอยู่แล้วน่าจะได้ผลลัพธ์ที่ดีกว่าในการสร้างภาพ The Simpsons มากกว่าโมเดลที่สร้างขึ้นเดิมๆ ได้ให้ผลลัพธ์ โดยสมมติว่าความสัมพันธ์ทางพื้นฐานหลายอย่างสามารถรอดพ้นจากการฝึกอบรมได้ (เช่น Homer Simpson กินฮอทดอก) ซึ่งอาจต้องใช้วัสดุเกี่ยวกับฮอทดอกที่ไม่ได้อยู่ในเนื้อหาที่คุณเพิ่ม แต่เดิมทีมีอยู่ในจุดตรวจสอบแล้ว และสมมติว่าคุณไม่ต้องการเปลี่ยนจากเนื้อหาของ The Simpsons ไปยังการสร้างภาพภูมิประเทศที่น่าเหลือเชื่อของ Greg Rutkowski – เนื่องจากโมเดลของคุณได้เปลี่ยนไปสิ้นเชิง และจะไม่ดีในการทำสิ่งนั้นเหมือนเดิม

ตัวอย่างที่น่าสังเกตของสิ่งนี้คือ waifu-diffusion ซึ่งฝึกอบรมภาพอนิเมะ 56,000 ภาพเข้ากับจุดตรวจสอบ Stable Diffusion ที่เสร็จสิ้นและฝึกอบรมแล้ว มันเป็นเรื่องที่ยากสำหรับผู้ที่ทำเป็นงานอดิเรก เนื่องจากโมเดลต้องการ VRAM ขั้นต่ำ 30GB ซึ่งมากกว่าที่น่าจะมีในระดับผู้บริโภคในซีรีส์ 40XX ของ NVIDIA ที่จะออกมาในอนาคต

เทคนิคหลักในการปรับแต่ง Stable Diffusion ในขณะนี้คือ Textual Inversion ซึ่งผู้ใช้ฝึกอบรมภาพ CLIP ที่สอดคล้องกันเพียงไม่กี่ภาพ

เทคนิคนี้ต้องการ VRAM มากเวลา และความอดทน เนื่องจากปัจจัยเหล่านี้ เราอาจต้องรอการลองใช้ Textual Inversion ที่ซับซ้อนกว่านี้จากผู้ที่ชื่นชอบ Stable Diffusion – และเพื่อดูว่าวิธีการนี้สามารถ ‘ใส่คุณในภาพ’ ได้ดีกว่าการวางภาพใน Photoshop หรือไม่ ในขณะที่ยังคงรักษาความสามารถอันเหลือเชื่อของจุดตรวจสอบอย่างเป็นทางการไว้

เผยแพร่ครั้งแรกเมื่อวันที่ 6 กันยายน 2022