ปัญญาประดิษฐ์

DiffSeg : การแบ่งส่วนแบบไม่มีการกำกับด้วย Stable Diffusion แบบ Zero-Shot

Published December 26, 2023

Updated April 27, 2026

Kunal Kejriwal

DiffSeg : Unsupervised Zero-Shot Segmentation using Stable Diffusion

หนึ่งในความท้าทายหลักในแบบจำลองที่ใช้การมองเห็นคือการสร้างมาสก์แบ่งส่วนคุณภาพสูง การพัฒนาล่าสุดในการฝึกอบรมแบบกำกับขนาดใหญ่ได้ทำให้สามารถแบ่งส่วนแบบ Zero-Shot ได้บนรูปแบบภาพต่างๆ นอกจากนี้ การฝึกอบรมแบบไม่มีการกำกับยังทำให้การแบ่งส่วนง่ายขึ้นโดยไม่ต้องมีการทำเครื่องหมายข้อมูลอย่างกว้างขวาง อย่างไรก็ตาม การสร้างเฟรมเวิร์กการมองเห็นที่สามารถแบ่งส่วนสิ่งใดๆ ในสถานการณ์ Zero-Shot โดยไม่ต้องมีการทำเครื่องหมายยังคงเป็นงานที่ซับซ้อน การแบ่งส่วนแบบเชิงความหมายเป็นแนวคิดพื้นฐานในแบบจำลองการมองเห็น ซึ่งเกี่ยวข้องกับการแบ่งภาพออกเป็นส่วนเล็กๆ ที่มีเซมานติกส์เหมือนกัน เทคนิคนี้เป็นพื้นฐานสำหรับงานอื่นๆ มากมาย เช่น การถ่ายภาพทางการแพทย์ การแก้ไขภาพ การขับรถอัตโนมัติ และอื่นๆ

เพื่อพัฒนาการสร้างแบบจำลองการมองเห็นอย่างต่อเนื่อง มันจำเป็นที่การแบ่งส่วนภาพจะไม่ถูกจำกัดไว้กับชุดข้อมูลที่มีหมวดหมู่จำกัด แต่ควรเป็นงานพื้นฐานที่สามารถใช้ได้กับหลายๆ การใช้งาน อย่างไรก็ตาม ค่าใช้จ่ายในการรวบรวมข้อมูลการทำเครื่องหมายบนพิกเซลต่อพิกเซลนั้นเป็นความท้าทายที่สำคัญ ซึ่งจำกัดการพัฒนาของวิธีการแบ่งส่วนแบบ Zero-Shot และแบบกำกับที่ไม่ต้องการการทำเครื่องหมายและขาดการเข้าถึงข้อมูลล่วงหน้า บทความนี้จะอธิบายว่าชั้นการดูแลตนเองในแบบจำลองการกระจายตัวที่เสถียรสามารถช่วยให้สร้างแบบจำลองที่สามารถแบ่งส่วนอินพุตใดๆ ในสถานการณ์ Zero-Shot ได้โดยไม่ต้องมีการทำเครื่องหมายที่เหมาะสม ชั้นการดูแลตนเองเหล่านี้เข้าใจแนวคิดของวัตถุที่ได้เรียนรู้จากแบบจำลองการกระจายตัวที่เสถียรล่วงหน้า

DiffSeg : Algorithm การแบ่งส่วนแบบ Zero-Shot ที่ได้รับการปรับปรุง

การแบ่งส่วนแบบเชิงความหมายเป็นกระบวนการที่แบ่งภาพออกเป็นส่วนต่างๆ โดยแต่ละส่วนจะมีเซมานติกส์เหมือนกัน เทคนิคนี้เป็นพื้นฐานสำหรับงานอื่นๆ มากมาย การแบ่งส่วนแบบ Zero-Shot ในการมองเห็นแบบดั้งเดิมนั้นพึ่งพาการแบ่งส่วนแบบเชิงความหมายที่มีการกำกับ โดยใช้ชุดข้อมูลขนาดใหญ่ที่มีหมวดหมู่ที่ทำเครื่องหมายและชื่อหมวดหมู่ อย่างไรก็ตาม การนำการแบ่งส่วนแบบไม่มีการกำกับมาใช้ในสถานการณ์ Zero-Shot ยังคงเป็นความท้าทาย แม้ว่าวิธีการแบบดั้งเดิมจะมีประสิทธิภาพ แต่ค่าใช้จ่ายในการทำเครื่องหมายบนพิกเซลต่อพิกเซลนั้น thườngจะสูงเกินไป ซึ่งเน้นย้ำถึงความจำเป็นในการพัฒนาวิธีการแบ่งส่วนแบบไม่มีการกำกับในสถานการณ์ Zero-Shot ที่ไม่จำกัด โดยที่แบบจำลองไม่ต้องการข้อมูลการทำเครื่องหมายหรือความรู้ล่วงหน้าเกี่ยวกับข้อมูล

เพื่อแก้ไขข้อจำกัดนี้ DiffSeg นำเสนอวิธีการหลังการประมวลผลที่ใหม่ โดยใช้ความสามารถของเฟรมเวิร์กการกระจายตัวที่เสถียรในการสร้างแบบจำลองการแบ่งส่วนแบบทั่วไปที่สามารถถ่ายโอนแบบ Zero-Shot บนภาพใดๆ ได้ เฟรมเวิร์กการกระจายตัวที่เสถิยนั้นได้แสดงให้เห็นถึงประสิทธิภาพในการสร้างภาพคุณภาพสูงตามเงื่อนไขการกระตุ้น สำหรับภาพที่สร้างขึ้น เฟรมเวิร์กเหล่านี้สามารถสร้างมาสก์แบ่งส่วนโดยใช้ข้อความการกระตุ้นที่สอดคล้องกัน ซึ่งโดยปกติจะรวมเฉพาะวัตถุหน้าฉากที่โดดเด่น

ในทางกลับกัน DiffSeg เป็นวิธีการหลังการประมวลผลที่สร้างมาสก์แบ่งส่วนโดยใช้เทนเซอร์การดูแลตนเองจากชั้นการดูแลตนเองในแบบจำลองการกระจายตัว Algorithm DiffSeg ประกอบด้วยสามส่วนหลัก: การรวมการดูแลตนเองแบบเชิงต่อเนื่อง การรวมการดูแลตนเอง และการดับขั้นต่ำ ไม่มากเกินไป ตามที่แสดงในภาพต่อไปนี้

Algorithm DiffSeg รักษาข้อมูลภาพข้ามความละเอียดหลายระดับโดยการรวมเทนเซอร์การดูแลตนเอง 4 มิติพร้อมความสอดคล้องเชิงพื้นที่ และใช้กระบวนการรวมแบบเชิงต่อเนื่องโดยการ取จุดยึดตัวอย่าง จุดยึดเหล่านี้ทำหน้าที่เป็นพื้นฐานสำหรับการรวมมาสก์การดูแลตนเองที่มีจุดยึดวัตถุเดียวกันซึ่งจะถูกดูดซับในที่สุด เฟรมเวิร์ก DiffSeg ควบคุมกระบวนการรวมด้วยวิธีการแยก KL เพื่อวัดความคล้ายคลึงกันระหว่างสองแผนที่การดูแลตนเอง

เมื่อเปรียบเทียบกับวิธีการแบ่งส่วนแบบไม่มีการกำกับโดยใช้การรวมกลุ่ม ผู้พัฒนาจะไม่ต้องระบุจำนวนกลุ่มล่วงหน้าใน Algorithm DiffSeg และแม้ไม่มีความรู้ล่วงหน้า Algorithm DiffSeg ก็สามารถสร้างการแบ่งส่วนได้โดยไม่ใช้ทรัพยากรเพิ่มเติมหรือความรู้ล่วงหน้าโดยรวม Algorithm DiffSeg คือ วิธีการแบ่งส่วนแบบไม่มีการกำกับและ Zero-Shot ใหม่ที่ใช้แบบจำลองการกระจายตัวที่เสถียรล่วงหน้า และสามารถแบ่งส่วนภาพได้โดยไม่ต้องมีทรัพยากรเพิ่มเติมหรือความรู้ล่วงหน้า

DiffSeg : หลักการและโครงสร้างพื้นฐาน

DiffSeg เป็น Algorithm ใหม่ที่สร้างขึ้นจากความเข้าใจของแบบจำลองการกระจายตัว การแบ่งส่วนแบบไม่มีการกำกับ และการแบ่งส่วนแบบ Zero-Shot

แบบจำลองการกระจายตัว

Algorithm DiffSeg สร้างขึ้นจากความเข้าใจของแบบจำลองการกระจายตัวที่เสถียร แบบจำลองการกระจายตัวเป็นหนึ่งในเฟรมเวิร์กการสร้างที่ได้รับความนิยมมากที่สุดสำหรับแบบจำลองการมองเห็น และมันเรียนรู้กระบวนการกระจายตัวไปข้างหน้าและย้อนกลับจากภาพที่มีเสียงสีขาวอิซโตรปิกไปจนถึงการสร้างภาพ

การแบ่งส่วนแบบไม่มีการกำกับ

Algorithm DiffSeg มีความเกี่ยวข้องกับการแบ่งส่วนแบบไม่มีการกำกับ ซึ่งเป็นแนวปฏิบัติสมัยใหม่ของ AI ที่มุ่งหมายเพื่อสร้างมาสก์แบ่งส่วนแบบหนาแน่นโดยไม่ต้องใช้การทำเครื่องหมาย อย่างไรก็ตาม เพื่อให้ได้ประสิทธิภาพที่ดี แบบจำลองการแบ่งส่วนแบบไม่มีการกำกับต้องการการฝึกอบรมแบบไม่มีการกำกับบางอย่างบนชุดข้อมูลเป้าหมาย

การแบ่งส่วนแบบ Zero-Shot

Algorithm DiffSeg มีความเกี่ยวข้องกับการแบ่งส่วนแบบ Zero-Shot ซึ่งเป็นวิธีที่สามารถแบ่งส่วนสิ่งใดๆ ได้โดยไม่ต้องมีการฝึกอบรมหรือความรู้ล่วงหน้าเกี่ยวกับข้อมูล

DiffSeg : วิธีการและโครงสร้าง

Algorithm DiffSeg ใช้ชั้นการดูแลตนเองในแบบจำลองการกระจายตัวที่เสถียรล่วงหน้าเพื่อสร้างงานแบ่งส่วนคุณภาพสูง

แบบจำลองการกระจายตัวที่เสถียร

การกระจายตัวที่เสถียรเป็นหนึ่งในแนวคิดพื้นฐานในเฟรมเวิร์ก DiffSeg การกระจายตัวที่เสถียรเป็นเฟรมเวิร์กการสร้าง AI และเป็นหนึ่งในแบบจำลองการกระจายตัวที่ได้รับความนิยมมากที่สุด

ส่วนประกอบและโครงสร้าง

ชั้นการดูแลตนเองในแบบจำลองการกระจายตัวจัดกลุ่มข้อมูลของวัตถุโดยธรรมชาติในรูปแบบของแผนที่การดูแลตนเองเชิงพื้นที่ และ DiffSeg เป็นวิธีการหลังการประมวลผลที่ใหม่เพื่อรวมเทนเซอร์การดูแลตนเองเข้าด้วยกันเพื่อสร้างมาสก์แบ่งส่วนแบบถูกต้อง โดยมีกระบวนการที่ประกอบด้วยสามส่วนหลัก: การรวมการดูแลตนเอง การดับขั้นต่ำ และการรวมการดูแลตนเองแบบเชิงต่อเนื่อง

การรวมการดูแลตนเอง

สำหรับภาพอินพุตที่ผ่านชั้น U-Net และชั้นการเข้ารหัส แบบจำลองการกระจายตัวที่เสถียรจะสร้างเทนเซอร์การดูแลตนเองทั้งหมด 16 ตัว โดยมี 5 ตัวสำหรับแต่ละมิติ

การรวมการดูแลตนเองแบบเชิงต่อเนื่อง

ในขณะที่เป้าหมายหลักของการรวมการดูแลตนเองคือการคำนวณเทนเซอร์การดูแลตนเอง เป้าหมายหลักคือการรวมแผนที่การดูแลตนเองในเทนเซอร์เข้าด้วยกันเป็นกลุ่มคำเสนอแนะวัตถุ โดยแต่ละคำเสนอแนะอาจมีหมวดหมู่ “สิ่งของ” หรือการกระตุ้นของวัตถุเดียว

การดับขั้นต่ำ

ขั้นตอนก่อนหน้าของการรวมการดูแลตนเองแบบเชิงต่อเนื่องจะให้ผลลัพธ์เป็นรายการคำเสนอแนะวัตถุในรูปแบบของแผนที่ความน่าจะเป็นหรือแผนที่การดูแลตนเอง โดยแต่ละคำเสนอแนะวัตถุจะรวมการกระตุ้นของวัตถุ

DiffSeg : การทดลองและผลลัพธ์

เฟรมเวิร์กที่ทำงานบนการแบ่งส่วนแบบไม่มีการกำกับใช้มาตรฐานการแบ่งส่วนสองแบบ ได้แก่ Cityscapes และ COCO-stuff-27

ผลลัพธ์

บนมาตรฐาน COCO เฟรมเวิร์ก DiffSeg รวมสองบรรทัดฐาน K-Means ได้แก่ K-Means-S และ K-Means-C

ความคิดสุดท้าย

การแบ่งส่วนแบบ Zero-Shot ที่ไม่มีการกำกับยังคงเป็นหนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุดสำหรับเฟรมเวิร์กการมองเห็น และแบบจำลองที่มีอยู่ต้องการการปรับเปลี่ยนแบบไม่มีการกำกับแบบไม่ Zero-Shot หรือทรัพยากรภายนอก

Kunal Kejriwal

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล