ปัญญาประดิษฐ์

การแก้ไขภาพความหมายที่มีความแม่นยำสูงด้วย EditGAN

การตีพิมพ์

9 เดือนที่ผ่านมา

September 4, 2023

เครือข่ายปฏิปักษ์ทั่วไป หรือ GAN เพลิดเพลินกับแอปพลิเคชั่นใหม่ในอุตสาหกรรมการแก้ไขภาพ ในช่วงไม่กี่เดือนที่ผ่านมา EditGAN กำลังได้รับความนิยมในอุตสาหกรรม AI/ML เนื่องจากเป็นวิธีการใหม่สำหรับการแก้ไขภาพความหมายที่มีความแม่นยำสูงและมีคุณภาพสูง

เราจะพูดถึงรายละเอียดเกี่ยวกับโมเดล EditGAN และแจ้งให้คุณทราบว่าเหตุใดจึงอาจเป็นเหตุการณ์สำคัญในอุตสาหกรรมการแก้ไขภาพเชิงความหมาย

มาเริ่มกันเลย แต่ก่อนที่เราจะรู้ว่า EditGAN คืออะไร สิ่งสำคัญสำหรับเราคือต้องเข้าใจว่าอะไรคือความสำคัญของ EditGAN และเหตุใดจึงก้าวไปข้างหน้าอย่างสำคัญ

ทำไมต้องแก้ไข GAN?

แม้ว่าสถาปัตยกรรม GAN แบบดั้งเดิมช่วยให้อุตสาหกรรมการแก้ไขภาพที่ใช้ AI ก้าวหน้าไปอย่างมาก แต่ก็ยังมีความท้าทายที่สำคัญบางประการในการสร้างสถาปัตยกรรม GAN ตั้งแต่เริ่มต้น

ในระหว่างขั้นตอนการฝึกอบรม สถาปัตยกรรม GAN ต้องการข้อมูลที่มีป้ายกำกับจำนวนมากพร้อมคำอธิบายประกอบการแบ่งส่วนความหมาย
พวกเขาสามารถให้การควบคุมระดับสูงเท่านั้น
และบ่อยครั้งที่พวกมันแค่สอดแทรกไปมาระหว่างรูปภาพต่างๆ

สังเกตได้ว่าแม้ว่าสถาปัตยกรรม GAN แบบดั้งเดิมจะทำงานสำเร็จ แต่ก็ไม่ได้ผลสำหรับการปรับใช้ในวงกว้าง ประสิทธิภาพย่อยของสถาปัตยกรรม GAN แบบดั้งเดิมคือสาเหตุที่ NVIDIA เปิดตัว EditGAN ในปี 2022

EditGAN ได้รับการเสนอให้เป็นวิธีการที่มีประสิทธิภาพสำหรับความแม่นยำสูงและความหมายคุณภาพสูง การแก้ไขภาพ ด้วยความสามารถในการอนุญาตให้ผู้ใช้แก้ไขภาพโดยการเปลี่ยนมาสก์การแบ่งส่วนที่มีรายละเอียดสูงของรูปภาพ สาเหตุหนึ่งที่ EditGAN เป็นวิธีการปรับขนาดได้สำหรับงานแก้ไขภาพก็เนื่องมาจากสถาปัตยกรรมของมัน

โมเดล EditGAN สร้างขึ้นบนเฟรมเวิร์ก GAN ที่สร้างโมเดลรูปภาพและการแบ่งส่วนความหมายร่วมกัน และต้องการข้อมูลการฝึกที่มีป้ายกำกับหรือใส่คำอธิบายประกอบเพียงไม่กี่รายการ นักพัฒนาของ EditGAN ได้พยายามที่จะฝังรูปภาพลงในพื้นที่แฝงของ GAN เพื่อแก้ไขรูปภาพอย่างมีประสิทธิภาพโดยดำเนินการเพิ่มประสิทธิภาพโค้ดแฝงแบบมีเงื่อนไขให้สอดคล้องกับการแก้ไขการแบ่งส่วน นอกจากนี้ เพื่อตัดทอนการปรับให้เหมาะสม โมเดลจะพยายามค้นหา "เวกเตอร์การแก้ไข" ในพื้นที่แฝงที่ตระหนักถึงการแก้ไข

สถาปัตยกรรมของเฟรมเวิร์ก EditGAN ช่วยให้โมเดลเรียนรู้เวกเตอร์การแก้ไขจำนวนเท่าใดก็ได้ ซึ่งสามารถนำไปใช้หรือนำไปใช้กับรูปภาพอื่นได้โดยตรงด้วยความเร็วสูงและมีประสิทธิภาพ นอกจากนี้ ผลการทดลองยังบ่งชี้ว่า EditGAN สามารถแก้ไขภาพด้วยรายละเอียดในระดับที่ไม่เคยเห็นมาก่อน ขณะเดียวกันก็รักษาคุณภาพของภาพไว้สูงสุด

เพื่อสรุปว่าทำไมเราถึงต้องการ EditGAN นี่เป็นเฟรมเวิร์กการแก้ไขรูปภาพที่ใช้ GAN ตัวแรกที่นำเสนอ

การแก้ไขที่มีความแม่นยำสูงมาก
สามารถทำงานกับข้อมูลที่มีป้ายกำกับได้จำนวนหนึ่ง
สามารถปรับใช้ได้อย่างมีประสิทธิภาพในสถานการณ์แบบเรียลไทม์
อนุญาตให้มีการจัดองค์ประกอบสำหรับการแก้ไขหลายรายการพร้อมกัน
ใช้งานได้กับรูปภาพที่สร้างโดย GAN, ฝังจริง และแม้แต่รูปภาพนอกโดเมน

การแก้ไขภาพความหมายที่มีความแม่นยำสูงด้วย EditGAN

StyleGAN2 ซึ่งเป็นเฟรมเวิร์ก GAN ที่ล้ำสมัยสำหรับการสังเคราะห์ภาพ เป็นองค์ประกอบการสร้างภาพหลักของ EditGAN เฟรมเวิร์ก StyleGAN2 แมปโค้ดแฝงที่ดึงมาจากกลุ่มของการแจกแจงแบบปกติหลายตัวแปร และแมปให้เป็นภาพที่สมจริง

StyleGAN2 เป็นโมเดลเชิงลึกที่ได้รับการฝึกฝนมา สังเคราะห์ภาพ ที่มีคุณภาพสูงสุดเท่าที่จะเป็นไปได้พร้อมกับการทำความเข้าใจความหมายของภาพที่จำลอง

การฝึกอบรมการแบ่งส่วนและการอนุมาน

โมเดล EditGAN จะฝังรูปภาพลงในพื้นที่แฝงของ GAN โดยใช้การปรับให้เหมาะสม และใช้ตัวเข้ารหัสเพื่อทำการแบ่งส่วนรูปภาพใหม่และฝึกสาขาการแบ่งส่วน เฟรมเวิร์ก EditGAN ยังคงต่อยอดจากงานก่อนหน้านี้ และฝึกตัวเข้ารหัสเพื่อฝังรูปภาพในพื้นที่แฝง วัตถุประสงค์หลักที่นี่คือเพื่อฝึกอบรมตัวเข้ารหัสซึ่งประกอบด้วยการสูญเสียการก่อสร้าง L2 และ LPIPS แบบพิกเซลมาตรฐานโดยใช้ตัวอย่างจาก GAN และข้อมูลการฝึกอบรมในชีวิตจริง นอกจากนี้ โมเดลยังทำให้ตัวเข้ารหัสเป็นมาตรฐานอย่างชัดเจนโดยใช้โค้ดแฝงเมื่อทำงานกับตัวอย่าง GAN

ผลลัพธ์ที่ได้คือ โมเดลจะฝังรูปภาพที่มีคำอธิบายประกอบจากชุดข้อมูลที่มีการแบ่งส่วนความหมายลงในพื้นที่แฝง และใช้การสูญเสียเอนโทรปีข้ามเพื่อฝึกสาขาการแบ่งเซ็กเมนต์ของเครื่องกำเนิดไฟฟ้า

การใช้การแก้ไขการแบ่งส่วนเพื่อค้นหาความหมายในพื้นที่แฝง

วัตถุประสงค์หลักของ EditGAN คือการใช้ประโยชน์จากการกระจายการแบ่งส่วนความหมายและรูปภาพร่วมกัน การแก้ไขภาพที่มีความแม่นยำสูง. สมมุติว่าเรามีรูปภาพ x ที่ต้องแก้ไข ดังนั้นโมเดลจึงฝังรูปภาพลงในพื้นที่แฝงของ EditGAN หรือใช้รูปภาพตัวอย่างจากตัวโมเดลเอง สาขาการแบ่งส่วนจะสร้าง y หรือการแบ่งส่วนที่เกี่ยวข้องเป็นหลักเนื่องจากทั้งภาพ RGB และการแบ่งส่วนใช้รหัสแฝงเดียวกัน w. นักพัฒนาสามารถใช้เครื่องมือการติดป้ายกำกับหรือการวาดภาพดิจิทัลเพื่อแก้ไขการแบ่งส่วนและแก้ไขตามความต้องการด้วยตนเอง

วิธีการแก้ไขต่างๆ ระหว่างการอนุมาน

เวกเตอร์การแก้ไขพื้นที่แฝงที่ได้รับโดยใช้การปรับให้เหมาะสมสามารถอธิบายได้ว่ามีความหมายทางความหมาย และมักจะแยกไม่ออกด้วยคุณลักษณะที่แตกต่างกัน ดังนั้น ในการแก้ไขรูปภาพใหม่ โมเดลสามารถฝังรูปภาพลงในพื้นที่แฝงได้โดยตรง และดำเนินการแก้ไขแบบเดียวกับที่โมเดลเรียนรู้ก่อนหน้านี้ได้โดยตรง โดยไม่ต้องดำเนินการปรับให้เหมาะสมทั้งหมดอีกครั้งตั้งแต่เริ่มต้น คงจะปลอดภัยที่จะบอกว่าเวกเตอร์การแก้ไขที่โมเดลเรียนรู้จะตัดทอนการปรับให้เหมาะสมซึ่งจำเป็นต่อการแก้ไขภาพตั้งแต่แรก

เป็นที่น่าสังเกตว่านักพัฒนายังไม่สามารถแก้ไขความยุ่งเหยิงได้อย่างสมบูรณ์ และการแก้ไขเวกเตอร์มักจะไม่ได้ผลลัพธ์ที่ดีที่สุดเมื่อนำไปใช้กับรูปภาพอื่น อย่างไรก็ตาม ปัญหานี้สามารถแก้ไขได้ด้วยการลบส่วนการแก้ไขออกจากส่วนอื่นๆ ของรูปภาพโดยทำตามขั้นตอนการปรับให้เหมาะสมเพิ่มเติมสองสามขั้นตอนในช่วงเวลาทดสอบ

จากการเรียนรู้ในปัจจุบันของเรา กรอบงาน EditGAN สามารถใช้แก้ไขภาพในโหมดที่แตกต่างกันสามโหมด

การแก้ไขแบบเรียลไทม์ด้วยการแก้ไขเวกเตอร์

สำหรับรูปภาพที่มีการแปลและแยกส่วน โมเดลจะแก้ไขรูปภาพโดยใช้เวกเตอร์การแก้ไขที่เรียนรู้มาก่อนหน้านี้ด้วยขนาดที่แตกต่างกัน และปรับแต่งรูปภาพด้วยอัตราการโต้ตอบ

การใช้การปรับแต่งแบบควบคุมตนเองสำหรับการแก้ไขแบบเวกเตอร์

สำหรับการแก้ไขรูปภาพที่แปลเป็นภาษาท้องถิ่นซึ่งไม่พันกันอย่างสมบูรณ์กับส่วนอื่นๆ ของรูปภาพ โมเดลจะเริ่มต้นการแก้ไขรูปภาพโดยใช้เวกเตอร์การแก้ไขที่เรียนรู้ก่อนหน้านี้ และลบส่วนการแก้ไขโดยดำเนินการตามขั้นตอนการปรับให้เหมาะสมเพิ่มเติมสองสามขั้นตอนในระหว่างเวลาทดสอบ

การแก้ไขตามการเพิ่มประสิทธิภาพ

ในการดำเนินการแก้ไขขนาดใหญ่และเฉพาะรูปภาพ โมเดลจะดำเนินการปรับให้เหมาะสมตั้งแต่เริ่มต้น เนื่องจากไม่สามารถใช้การแก้ไขเวกเตอร์เพื่อถ่ายโอนประเภทนี้ไปยังรูปภาพอื่นได้

การดำเนินงาน

กรอบงาน EditGAN ได้รับการประเมินจากภาพที่กระจายอยู่ในสี่หมวดหมู่ที่แตกต่างกัน: รถยนต์ นก แมว และใบหน้า สาขาการแบ่งเซ็กเมนต์ของแบบจำลองได้รับการฝึกฝนโดยใช้คู่มาสก์รูปภาพ 16, 30, 30, 16 เป็นข้อมูลการฝึกสำหรับรถยนต์ นก แมว และใบหน้า ตามลำดับ เมื่อต้องแก้ไขรูปภาพโดยใช้การปรับให้เหมาะสมเพียงอย่างเดียว หรือเมื่อโมเดลพยายามเรียนรู้เวกเตอร์การแก้ไข โมเดลจะดำเนินการ 100 ขั้นตอนการเพิ่มประสิทธิภาพโดยใช้ Adam Optimizer

สำหรับชุดข้อมูล Cat, Car และ Faces โมเดลจะใช้รูปภาพจริงจากชุดทดสอบของ DatasetGAN ที่ไม่ได้ใช้ฝึกกรอบงาน GAN เพื่อดำเนินการฟังก์ชันการแก้ไข ทันที รูปภาพเหล่านี้จะถูกฝังลงในพื้นที่แฝงของ EditGAN โดยใช้การปรับให้เหมาะสมและการเข้ารหัส สำหรับหมวดหมู่นก การแก้ไขจะแสดงบนรูปภาพที่สร้างโดย GAN

ผลสอบ

ผลลัพธ์เชิงคุณภาพ

ผลลัพธ์ในโดเมน

รูปภาพด้านบนสาธิตประสิทธิภาพของกรอบงาน EditGAN เมื่อใช้เวกเตอร์การแก้ไขที่เรียนรู้ก่อนหน้านี้กับรูปภาพใหม่ และปรับแต่งรูปภาพโดยใช้ขั้นตอนการเพิ่มประสิทธิภาพ 30 ขั้นตอน การดำเนินการแก้ไขเหล่านี้ดำเนินการโดยเฟรมเวิร์ก EditGAN จะไม่พันกันในทุกคลาส และยังคงคุณภาพโดยรวมของรูปภาพไว้ เมื่อเปรียบเทียบผลลัพธ์ของ EditGAN และเฟรมเวิร์กอื่นๆ จะสังเกตได้ว่าเฟรมเวิร์ก EditGAN มีประสิทธิภาพเหนือกว่าวิธีอื่นๆ ในการดำเนินการแก้ไขที่มีความแม่นยำสูงและซับซ้อน ในขณะที่ยังคงรักษาเอกลักษณ์ของวัตถุและคุณภาพของภาพไว้ในเวลาเดียวกัน

สิ่งที่น่าทึ่งก็คือกรอบงาน EditGAN สามารถทำการแก้ไขที่มีความแม่นยำสูงมาก เช่น การขยายรูม่านตา หรือการแก้ไขซี่ล้อในยางรถยนต์ นอกจากนี้ EditGAN ยังสามารถใช้เพื่อแก้ไขส่วนความหมายของวัตถุที่มีเพียงไม่กี่พิกเซล หรือสามารถใช้เพื่อแก้ไขรูปภาพในขนาดใหญ่ได้เช่นกัน เป็นที่น่าสังเกตว่าการดำเนินการแก้ไขหลายอย่างของเฟรมเวิร์ก EditGAN นั้นสามารถสร้างรูปภาพที่ได้รับการจัดการซึ่งต่างจากรูปภาพที่ปรากฏในข้อมูลการฝึกอบรม GAN

ผลลัพธ์นอกโดเมน

เพื่อประเมินประสิทธิภาพการทำงานนอกโดเมนของ EditGAN เฟรมเวิร์กได้รับการทดสอบบนชุดข้อมูล MetFaces โมเดล EditGAN ใช้ใบหน้าจริงในโดเมนเพื่อสร้างเวกเตอร์สำหรับการแก้ไข จากนั้น โมเดลจะฝังภาพบุคคลของ MetFaces ที่อยู่นอกโดเมนโดยใช้กระบวนการปรับให้เหมาะสม 100 ขั้นตอน และใช้เวกเตอร์การแก้ไขผ่านกระบวนการปรับแต่งแบบควบคุมตนเอง 30 ขั้นตอน ผลลัพธ์สามารถดูได้ในภาพต่อไปนี้

ผลลัพธ์เชิงปริมาณ

ในการวัดความสามารถในการแก้ไขภาพของ EditGAN ในเชิงปริมาณ โมเดลจะใช้เกณฑ์มาตรฐานการแก้ไขรอยยิ้มที่ MaskGAN เปิดตัวครั้งแรก ใบหน้าที่มีสีหน้าเป็นกลางจะถูกแทนที่ด้วยใบหน้ายิ้มแย้ม และประสิทธิภาพจะวัดจากพารามิเตอร์ XNUMX ตัว

ความถูกต้องทางความหมาย

แบบจำลองนี้ใช้ตัวแยกประเภทคุณลักษณะรอยยิ้มที่ได้รับการฝึกล่วงหน้าเพื่อวัดว่าใบหน้าในภาพแสดงสีหน้ายิ้มหลังการแก้ไขหรือไม่

คุณภาพของภาพระดับการกระจาย

Kernel Inception Distance หรือ KID และ Frechet Inception Distance หรือ FID คำนวณระหว่างชุดข้อมูลทดสอบ CelebA และภาพทดสอบที่แก้ไขแล้ว 400 ภาพ

การรักษาเอกลักษณ์

ความสามารถของโมเดลในการรักษาเอกลักษณ์ของวัตถุเมื่อทำการแก้ไขภาพนั้นวัดโดยใช้เครือข่ายการแยกคุณสมบัติ ArcFace ที่ผ่านการฝึกอบรมมาแล้ว

ตารางด้านบนเปรียบเทียบประสิทธิภาพของเฟรมเวิร์ก EditGAN กับโมเดลพื้นฐานอื่นๆ บนเกณฑ์มาตรฐานการแก้ไขสไมล์ วิธีการที่ใช้กรอบงาน EditGAN เพื่อให้ได้ผลลัพธ์ที่สูงนั้นจะถูกเปรียบเทียบระหว่างเส้นพื้นฐานที่แตกต่างกันสามแบบ:

มาสก์GAN

MaskGAN ใช้รูปภาพที่ไม่ยิ้มพร้อมกับมาสก์การแบ่งส่วน และมาสก์การแบ่งส่วนยิ้มเป้าหมายเป็นอินพุต เป็นที่น่าสังเกตว่าเมื่อเปรียบเทียบกับ EditGAN เฟรมเวิร์ก MaskGAN ต้องการข้อมูลที่มีคำอธิบายประกอบจำนวนมาก

การแก้ไขในท้องถิ่น

EditGAN ยังเปรียบเทียบประสิทธิภาพกับการแก้ไขในเครื่อง ซึ่งเป็นวิธีการที่ใช้ในการจัดกลุ่มคุณลักษณะ GAN เพื่อดำเนินการแก้ไขในเครื่อง และขึ้นอยู่กับรูปภาพอ้างอิง

อินเตอร์เฟซแกน

เช่นเดียวกับ EditGAN InterFaceGAN ยังพยายามค้นหาเวกเตอร์การแก้ไขในพื้นที่แฝงของโมเดล อย่างไรก็ตาม โมเดล InterFaceGAN นั้นต่างจาก EditGAN ตรงที่ใช้ข้อมูลที่มีคำอธิบายประกอบจำนวนมาก ตัวแยกประเภทแอตทริบิวต์เสริม และไม่มีความแม่นยำในการแก้ไขอย่างละเอียด

สไตล์GAN2การกลั่น

วิธีการนี้สร้างแนวทางอื่นที่ไม่จำเป็นต้องมีการฝังรูปภาพจริง และใช้แบบจำลองการแก้ไขเวกเตอร์เพื่อสร้างชุดข้อมูลการฝึกอบรมแทน

ข้อ จำกัด

เนื่องจาก EditGAN ใช้กรอบงาน GAN จึงมีข้อจำกัดเหมือนกันกับโมเดล GAN อื่นๆ โดยสามารถทำงานได้เฉพาะกับรูปภาพที่ GAN สามารถสร้างโมเดลได้เท่านั้น ข้อจำกัดของ EditGAN ในการทำงานกับรูปภาพที่จำลองแบบ GAN เป็นเหตุผลหลักที่ทำให้การนำ EditGAN ไปใช้ในสถานการณ์ต่างๆ เป็นเรื่องยาก อย่างไรก็ตาม เป็นที่น่าสังเกตว่าการแก้ไขที่มีความแม่นยำสูงของ EditGAN สามารถถ่ายโอนไปยังรูปภาพอื่น ๆ ได้อย่างง่ายดายโดยใช้การแก้ไขเวกเตอร์

สรุป

สาเหตุสำคัญประการหนึ่งที่ทำให้ GAN ไม่เป็นมาตรฐานอุตสาหกรรมในสาขาการแก้ไขภาพก็เนื่องมาจากการใช้งานจริงที่จำกัด โดยปกติกรอบงาน GAN ต้องการข้อมูลการฝึกอบรมที่มีคำอธิบายประกอบจำนวนมาก และมักไม่ได้ให้ประสิทธิภาพและความแม่นยำสูงนัก

EditGAN มุ่งหวังที่จะจัดการกับปัญหาที่นำเสนอโดยเฟรมเวิร์ก GAN ทั่วไป และพยายามที่จะกลายเป็นวิธีการที่มีประสิทธิภาพสำหรับการแก้ไขภาพความหมายคุณภาพสูงและมีความแม่นยำสูง ผลลัพธ์ที่ผ่านมาระบุว่า EditGAN นำเสนอสิ่งที่กล่าวอ้างได้จริง และมีประสิทธิภาพมากกว่าแนวทางปฏิบัติและโมเดลมาตรฐานอุตสาหกรรมในปัจจุบันบางส่วนอยู่แล้ว

หัวข้อที่เกี่ยวข้อง:แก้ไขGAN GAN เครือข่ายปฏิปักษ์ทั่วไป การแก้ไขภาพ

ต่อไป

Llama 2: เจาะลึกผู้ท้าชิงโอเพ่นซอร์สสู่ ChatGPT

อย่าพลาด

การยอมรับความหลากหลายของเส้นประสาท: การก้าวกระโดดของประสิทธิภาพและประสิทธิภาพของ AI

คุณกุล เกจริวัล

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ

ยูไนเต็ด.เอไอ

การแก้ไขภาพความหมายที่มีความแม่นยำสูงด้วย EditGAN

ปัญญาประดิษฐ์

การแก้ไขภาพความหมายที่มีความแม่นยำสูงด้วย EditGAN

สารบัญ

ทำไมต้องแก้ไข GAN?

การแก้ไขภาพความหมายที่มีความแม่นยำสูงด้วย EditGAN

การฝึกอบรมการแบ่งส่วนและการอนุมาน

การใช้การแก้ไขการแบ่งส่วนเพื่อค้นหาความหมายในพื้นที่แฝง

การดำเนินงาน

ผลสอบ

ผลลัพธ์เชิงคุณภาพ

ผลลัพธ์เชิงปริมาณ

ข้อ จำกัด

สรุป

โพสต์ล่าสุด

ยูไนเต็ด.เอไอ

การแก้ไขภาพความหมายที่มีความแม่นยำสูงด้วย EditGAN

สารบัญ

ทำไมต้องแก้ไข GAN?

การแก้ไขภาพความหมายที่มีความแม่นยำสูงด้วย EditGAN

การฝึกอบรมการแบ่งส่วนและการอนุมาน

การใช้การแก้ไขการแบ่งส่วนเพื่อค้นหาความหมายในพื้นที่แฝง

การดำเนินงาน

ผลสอบ

ผลลัพธ์เชิงคุณภาพ

ผลลัพธ์เชิงปริมาณ

ข้อ จำกัด

สรุป

คุณอาจชอบ

โพสต์ล่าสุด