ต้นขั้ว การแก้ไขภาพความหมายที่มีความแม่นยำสูงด้วย EditGAN - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

การแก้ไขภาพความหมายที่มีความแม่นยำสูงด้วย EditGAN

mm

การตีพิมพ์

 on

คนที่ถือโลกไว้ในมือขณะยืนอยู่ในทุ่ง

เครือข่ายปฏิปักษ์ทั่วไป หรือ GAN เพลิดเพลินกับแอปพลิเคชั่นใหม่ในอุตสาหกรรมการแก้ไขภาพ ในช่วงไม่กี่เดือนที่ผ่านมา EditGAN กำลังได้รับความนิยมในอุตสาหกรรม AI/ML เนื่องจากเป็นวิธีการใหม่สำหรับการแก้ไขภาพความหมายที่มีความแม่นยำสูงและมีคุณภาพสูง 

เราจะพูดถึงรายละเอียดเกี่ยวกับโมเดล EditGAN และแจ้งให้คุณทราบว่าเหตุใดจึงอาจเป็นเหตุการณ์สำคัญในอุตสาหกรรมการแก้ไขภาพเชิงความหมาย

มาเริ่มกันเลย แต่ก่อนที่เราจะรู้ว่า EditGAN คืออะไร สิ่งสำคัญสำหรับเราคือต้องเข้าใจว่าอะไรคือความสำคัญของ EditGAN และเหตุใดจึงก้าวไปข้างหน้าอย่างสำคัญ 

ทำไมต้องแก้ไข GAN?

แม้ว่าสถาปัตยกรรม GAN แบบดั้งเดิมช่วยให้อุตสาหกรรมการแก้ไขภาพที่ใช้ AI ก้าวหน้าไปอย่างมาก แต่ก็ยังมีความท้าทายที่สำคัญบางประการในการสร้างสถาปัตยกรรม GAN ตั้งแต่เริ่มต้น 

  1. ในระหว่างขั้นตอนการฝึกอบรม สถาปัตยกรรม GAN ต้องการข้อมูลที่มีป้ายกำกับจำนวนมากพร้อมคำอธิบายประกอบการแบ่งส่วนความหมาย 
  2. พวกเขาสามารถให้การควบคุมระดับสูงเท่านั้น 
  3. และบ่อยครั้งที่พวกมันแค่สอดแทรกไปมาระหว่างรูปภาพต่างๆ 

สังเกตได้ว่าแม้ว่าสถาปัตยกรรม GAN แบบดั้งเดิมจะทำงานสำเร็จ แต่ก็ไม่ได้ผลสำหรับการปรับใช้ในวงกว้าง ประสิทธิภาพย่อยของสถาปัตยกรรม GAN แบบดั้งเดิมคือสาเหตุที่ NVIDIA เปิดตัว EditGAN ในปี 2022 

EditGAN ได้รับการเสนอให้เป็นวิธีการที่มีประสิทธิภาพสำหรับความแม่นยำสูงและความหมายคุณภาพสูง การแก้ไขภาพ ด้วยความสามารถในการอนุญาตให้ผู้ใช้แก้ไขภาพโดยการเปลี่ยนมาสก์การแบ่งส่วนที่มีรายละเอียดสูงของรูปภาพ สาเหตุหนึ่งที่ EditGAN เป็นวิธีการปรับขนาดได้สำหรับงานแก้ไขภาพก็เนื่องมาจากสถาปัตยกรรมของมัน 

โมเดล EditGAN สร้างขึ้นบนเฟรมเวิร์ก GAN ที่สร้างโมเดลรูปภาพและการแบ่งส่วนความหมายร่วมกัน และต้องการข้อมูลการฝึกที่มีป้ายกำกับหรือใส่คำอธิบายประกอบเพียงไม่กี่รายการ นักพัฒนาของ EditGAN ได้พยายามที่จะฝังรูปภาพลงในพื้นที่แฝงของ GAN เพื่อแก้ไขรูปภาพอย่างมีประสิทธิภาพโดยดำเนินการเพิ่มประสิทธิภาพโค้ดแฝงแบบมีเงื่อนไขให้สอดคล้องกับการแก้ไขการแบ่งส่วน นอกจากนี้ เพื่อตัดทอนการปรับให้เหมาะสม โมเดลจะพยายามค้นหา "เวกเตอร์การแก้ไข" ในพื้นที่แฝงที่ตระหนักถึงการแก้ไข 

สถาปัตยกรรมของเฟรมเวิร์ก EditGAN ช่วยให้โมเดลเรียนรู้เวกเตอร์การแก้ไขจำนวนเท่าใดก็ได้ ซึ่งสามารถนำไปใช้หรือนำไปใช้กับรูปภาพอื่นได้โดยตรงด้วยความเร็วสูงและมีประสิทธิภาพ นอกจากนี้ ผลการทดลองยังบ่งชี้ว่า EditGAN สามารถแก้ไขภาพด้วยรายละเอียดในระดับที่ไม่เคยเห็นมาก่อน ขณะเดียวกันก็รักษาคุณภาพของภาพไว้สูงสุด 

เพื่อสรุปว่าทำไมเราถึงต้องการ EditGAN นี่เป็นเฟรมเวิร์กการแก้ไขรูปภาพที่ใช้ GAN ตัวแรกที่นำเสนอ

  1. การแก้ไขที่มีความแม่นยำสูงมาก 
  2. สามารถทำงานกับข้อมูลที่มีป้ายกำกับได้จำนวนหนึ่ง 
  3. สามารถปรับใช้ได้อย่างมีประสิทธิภาพในสถานการณ์แบบเรียลไทม์ 
  4. อนุญาตให้มีการจัดองค์ประกอบสำหรับการแก้ไขหลายรายการพร้อมกัน 
  5. ใช้งานได้กับรูปภาพที่สร้างโดย GAN, ฝังจริง และแม้แต่รูปภาพนอกโดเมน 

การแก้ไขภาพความหมายที่มีความแม่นยำสูงด้วย EditGAN 

StyleGAN2 ซึ่งเป็นเฟรมเวิร์ก GAN ที่ล้ำสมัยสำหรับการสังเคราะห์ภาพ เป็นองค์ประกอบการสร้างภาพหลักของ EditGAN เฟรมเวิร์ก StyleGAN2 แมปโค้ดแฝงที่ดึงมาจากกลุ่มของการแจกแจงแบบปกติหลายตัวแปร และแมปให้เป็นภาพที่สมจริง 

StyleGAN2 เป็นโมเดลเชิงลึกที่ได้รับการฝึกฝนมา สังเคราะห์ภาพ ที่มีคุณภาพสูงสุดเท่าที่จะเป็นไปได้พร้อมกับการทำความเข้าใจความหมายของภาพที่จำลอง 

การฝึกอบรมการแบ่งส่วนและการอนุมาน

โมเดล EditGAN จะฝังรูปภาพลงในพื้นที่แฝงของ GAN โดยใช้การปรับให้เหมาะสม และใช้ตัวเข้ารหัสเพื่อทำการแบ่งส่วนรูปภาพใหม่และฝึกสาขาการแบ่งส่วน เฟรมเวิร์ก EditGAN ยังคงต่อยอดจากงานก่อนหน้านี้ และฝึกตัวเข้ารหัสเพื่อฝังรูปภาพในพื้นที่แฝง วัตถุประสงค์หลักที่นี่คือเพื่อฝึกอบรมตัวเข้ารหัสซึ่งประกอบด้วยการสูญเสียการก่อสร้าง L2 และ LPIPS แบบพิกเซลมาตรฐานโดยใช้ตัวอย่างจาก GAN และข้อมูลการฝึกอบรมในชีวิตจริง นอกจากนี้ โมเดลยังทำให้ตัวเข้ารหัสเป็นมาตรฐานอย่างชัดเจนโดยใช้โค้ดแฝงเมื่อทำงานกับตัวอย่าง GAN 

ผลลัพธ์ที่ได้คือ โมเดลจะฝังรูปภาพที่มีคำอธิบายประกอบจากชุดข้อมูลที่มีการแบ่งส่วนความหมายลงในพื้นที่แฝง และใช้การสูญเสียเอนโทรปีข้ามเพื่อฝึกสาขาการแบ่งเซ็กเมนต์ของเครื่องกำเนิดไฟฟ้า 

การใช้การแก้ไขการแบ่งส่วนเพื่อค้นหาความหมายในพื้นที่แฝง

วัตถุประสงค์หลักของ EditGAN คือการใช้ประโยชน์จากการกระจายการแบ่งส่วนความหมายและรูปภาพร่วมกัน การแก้ไขภาพที่มีความแม่นยำสูง. สมมุติว่าเรามีรูปภาพ x ที่ต้องแก้ไข ดังนั้นโมเดลจึงฝังรูปภาพลงในพื้นที่แฝงของ EditGAN หรือใช้รูปภาพตัวอย่างจากตัวโมเดลเอง สาขาการแบ่งส่วนจะสร้าง y หรือการแบ่งส่วนที่เกี่ยวข้องเป็นหลักเนื่องจากทั้งภาพ RGB และการแบ่งส่วนใช้รหัสแฝงเดียวกัน w. นักพัฒนาสามารถใช้เครื่องมือการติดป้ายกำกับหรือการวาดภาพดิจิทัลเพื่อแก้ไขการแบ่งส่วนและแก้ไขตามความต้องการด้วยตนเอง 

วิธีการแก้ไขต่างๆ ระหว่างการอนุมาน

เวกเตอร์การแก้ไขพื้นที่แฝงที่ได้รับโดยใช้การปรับให้เหมาะสมสามารถอธิบายได้ว่ามีความหมายทางความหมาย และมักจะแยกไม่ออกด้วยคุณลักษณะที่แตกต่างกัน ดังนั้น ในการแก้ไขรูปภาพใหม่ โมเดลสามารถฝังรูปภาพลงในพื้นที่แฝงได้โดยตรง และดำเนินการแก้ไขแบบเดียวกับที่โมเดลเรียนรู้ก่อนหน้านี้ได้โดยตรง โดยไม่ต้องดำเนินการปรับให้เหมาะสมทั้งหมดอีกครั้งตั้งแต่เริ่มต้น คงจะปลอดภัยที่จะบอกว่าเวกเตอร์การแก้ไขที่โมเดลเรียนรู้จะตัดทอนการปรับให้เหมาะสมซึ่งจำเป็นต่อการแก้ไขภาพตั้งแต่แรก 

เป็นที่น่าสังเกตว่านักพัฒนายังไม่สามารถแก้ไขความยุ่งเหยิงได้อย่างสมบูรณ์ และการแก้ไขเวกเตอร์มักจะไม่ได้ผลลัพธ์ที่ดีที่สุดเมื่อนำไปใช้กับรูปภาพอื่น อย่างไรก็ตาม ปัญหานี้สามารถแก้ไขได้ด้วยการลบส่วนการแก้ไขออกจากส่วนอื่นๆ ของรูปภาพโดยทำตามขั้นตอนการปรับให้เหมาะสมเพิ่มเติมสองสามขั้นตอนในช่วงเวลาทดสอบ 

จากการเรียนรู้ในปัจจุบันของเรา กรอบงาน EditGAN สามารถใช้แก้ไขภาพในโหมดที่แตกต่างกันสามโหมด 

  • การแก้ไขแบบเรียลไทม์ด้วยการแก้ไขเวกเตอร์

สำหรับรูปภาพที่มีการแปลและแยกส่วน โมเดลจะแก้ไขรูปภาพโดยใช้เวกเตอร์การแก้ไขที่เรียนรู้มาก่อนหน้านี้ด้วยขนาดที่แตกต่างกัน และปรับแต่งรูปภาพด้วยอัตราการโต้ตอบ 

  • การใช้การปรับแต่งแบบควบคุมตนเองสำหรับการแก้ไขแบบเวกเตอร์

สำหรับการแก้ไขรูปภาพที่แปลเป็นภาษาท้องถิ่นซึ่งไม่พันกันอย่างสมบูรณ์กับส่วนอื่นๆ ของรูปภาพ โมเดลจะเริ่มต้นการแก้ไขรูปภาพโดยใช้เวกเตอร์การแก้ไขที่เรียนรู้ก่อนหน้านี้ และลบส่วนการแก้ไขโดยดำเนินการตามขั้นตอนการปรับให้เหมาะสมเพิ่มเติมสองสามขั้นตอนในระหว่างเวลาทดสอบ 

  • การแก้ไขตามการเพิ่มประสิทธิภาพ

ในการดำเนินการแก้ไขขนาดใหญ่และเฉพาะรูปภาพ โมเดลจะดำเนินการปรับให้เหมาะสมตั้งแต่เริ่มต้น เนื่องจากไม่สามารถใช้การแก้ไขเวกเตอร์เพื่อถ่ายโอนประเภทนี้ไปยังรูปภาพอื่นได้ 

การดำเนินงาน

กรอบงาน EditGAN ได้รับการประเมินจากภาพที่กระจายอยู่ในสี่หมวดหมู่ที่แตกต่างกัน: รถยนต์ นก แมว และใบหน้า สาขาการแบ่งเซ็กเมนต์ของแบบจำลองได้รับการฝึกฝนโดยใช้คู่มาสก์รูปภาพ 16, 30, 30, 16 เป็นข้อมูลการฝึกสำหรับรถยนต์ นก แมว และใบหน้า ตามลำดับ เมื่อต้องแก้ไขรูปภาพโดยใช้การปรับให้เหมาะสมเพียงอย่างเดียว หรือเมื่อโมเดลพยายามเรียนรู้เวกเตอร์การแก้ไข โมเดลจะดำเนินการ 100 ขั้นตอนการเพิ่มประสิทธิภาพโดยใช้ Adam Optimizer 

สำหรับชุดข้อมูล Cat, Car และ Faces โมเดลจะใช้รูปภาพจริงจากชุดทดสอบของ DatasetGAN ที่ไม่ได้ใช้ฝึกกรอบงาน GAN เพื่อดำเนินการฟังก์ชันการแก้ไข ทันที รูปภาพเหล่านี้จะถูกฝังลงในพื้นที่แฝงของ EditGAN โดยใช้การปรับให้เหมาะสมและการเข้ารหัส สำหรับหมวดหมู่นก การแก้ไขจะแสดงบนรูปภาพที่สร้างโดย GAN 

ผลสอบ

ผลลัพธ์เชิงคุณภาพ

ผลลัพธ์ในโดเมน

รูปภาพด้านบนสาธิตประสิทธิภาพของกรอบงาน EditGAN เมื่อใช้เวกเตอร์การแก้ไขที่เรียนรู้ก่อนหน้านี้กับรูปภาพใหม่ และปรับแต่งรูปภาพโดยใช้ขั้นตอนการเพิ่มประสิทธิภาพ 30 ขั้นตอน การดำเนินการแก้ไขเหล่านี้ดำเนินการโดยเฟรมเวิร์ก EditGAN จะไม่พันกันในทุกคลาส และยังคงคุณภาพโดยรวมของรูปภาพไว้ เมื่อเปรียบเทียบผลลัพธ์ของ EditGAN และเฟรมเวิร์กอื่นๆ จะสังเกตได้ว่าเฟรมเวิร์ก EditGAN มีประสิทธิภาพเหนือกว่าวิธีอื่นๆ ในการดำเนินการแก้ไขที่มีความแม่นยำสูงและซับซ้อน ในขณะที่ยังคงรักษาเอกลักษณ์ของวัตถุและคุณภาพของภาพไว้ในเวลาเดียวกัน 

สิ่งที่น่าทึ่งก็คือกรอบงาน EditGAN สามารถทำการแก้ไขที่มีความแม่นยำสูงมาก เช่น การขยายรูม่านตา หรือการแก้ไขซี่ล้อในยางรถยนต์ นอกจากนี้ EditGAN ยังสามารถใช้เพื่อแก้ไขส่วนความหมายของวัตถุที่มีเพียงไม่กี่พิกเซล หรือสามารถใช้เพื่อแก้ไขรูปภาพในขนาดใหญ่ได้เช่นกัน เป็นที่น่าสังเกตว่าการดำเนินการแก้ไขหลายอย่างของเฟรมเวิร์ก EditGAN นั้นสามารถสร้างรูปภาพที่ได้รับการจัดการซึ่งต่างจากรูปภาพที่ปรากฏในข้อมูลการฝึกอบรม GAN 

ผลลัพธ์นอกโดเมน

เพื่อประเมินประสิทธิภาพการทำงานนอกโดเมนของ EditGAN เฟรมเวิร์กได้รับการทดสอบบนชุดข้อมูล MetFaces โมเดล EditGAN ใช้ใบหน้าจริงในโดเมนเพื่อสร้างเวกเตอร์สำหรับการแก้ไข จากนั้น โมเดลจะฝังภาพบุคคลของ MetFaces ที่อยู่นอกโดเมนโดยใช้กระบวนการปรับให้เหมาะสม 100 ขั้นตอน และใช้เวกเตอร์การแก้ไขผ่านกระบวนการปรับแต่งแบบควบคุมตนเอง 30 ขั้นตอน ผลลัพธ์สามารถดูได้ในภาพต่อไปนี้ 

ผลลัพธ์เชิงปริมาณ

ในการวัดความสามารถในการแก้ไขภาพของ EditGAN ในเชิงปริมาณ โมเดลจะใช้เกณฑ์มาตรฐานการแก้ไขรอยยิ้มที่ MaskGAN เปิดตัวครั้งแรก ใบหน้าที่มีสีหน้าเป็นกลางจะถูกแทนที่ด้วยใบหน้ายิ้มแย้ม และประสิทธิภาพจะวัดจากพารามิเตอร์ XNUMX ตัว 

  • ความถูกต้องทางความหมาย

แบบจำลองนี้ใช้ตัวแยกประเภทคุณลักษณะรอยยิ้มที่ได้รับการฝึกล่วงหน้าเพื่อวัดว่าใบหน้าในภาพแสดงสีหน้ายิ้มหลังการแก้ไขหรือไม่ 

  • คุณภาพของภาพระดับการกระจาย

Kernel Inception Distance หรือ KID และ Frechet Inception Distance หรือ FID คำนวณระหว่างชุดข้อมูลทดสอบ CelebA และภาพทดสอบที่แก้ไขแล้ว 400 ภาพ 

  • การรักษาเอกลักษณ์

ความสามารถของโมเดลในการรักษาเอกลักษณ์ของวัตถุเมื่อทำการแก้ไขภาพนั้นวัดโดยใช้เครือข่ายการแยกคุณสมบัติ ArcFace ที่ผ่านการฝึกอบรมมาแล้ว 

ตารางด้านบนเปรียบเทียบประสิทธิภาพของเฟรมเวิร์ก EditGAN กับโมเดลพื้นฐานอื่นๆ บนเกณฑ์มาตรฐานการแก้ไขสไมล์ วิธีการที่ใช้กรอบงาน EditGAN เพื่อให้ได้ผลลัพธ์ที่สูงนั้นจะถูกเปรียบเทียบระหว่างเส้นพื้นฐานที่แตกต่างกันสามแบบ:

  • มาสก์GAN

MaskGAN ใช้รูปภาพที่ไม่ยิ้มพร้อมกับมาสก์การแบ่งส่วน และมาสก์การแบ่งส่วนยิ้มเป้าหมายเป็นอินพุต เป็นที่น่าสังเกตว่าเมื่อเปรียบเทียบกับ EditGAN เฟรมเวิร์ก MaskGAN ต้องการข้อมูลที่มีคำอธิบายประกอบจำนวนมาก 

  • การแก้ไขในท้องถิ่น

EditGAN ยังเปรียบเทียบประสิทธิภาพกับการแก้ไขในเครื่อง ซึ่งเป็นวิธีการที่ใช้ในการจัดกลุ่มคุณลักษณะ GAN เพื่อดำเนินการแก้ไขในเครื่อง และขึ้นอยู่กับรูปภาพอ้างอิง 

  • อินเตอร์เฟซแกน

เช่นเดียวกับ EditGAN InterFaceGAN ยังพยายามค้นหาเวกเตอร์การแก้ไขในพื้นที่แฝงของโมเดล อย่างไรก็ตาม โมเดล InterFaceGAN นั้นต่างจาก EditGAN ตรงที่ใช้ข้อมูลที่มีคำอธิบายประกอบจำนวนมาก ตัวแยกประเภทแอตทริบิวต์เสริม และไม่มีความแม่นยำในการแก้ไขอย่างละเอียด 

  • สไตล์GAN2การกลั่น

วิธีการนี้สร้างแนวทางอื่นที่ไม่จำเป็นต้องมีการฝังรูปภาพจริง และใช้แบบจำลองการแก้ไขเวกเตอร์เพื่อสร้างชุดข้อมูลการฝึกอบรมแทน 

ข้อ จำกัด

เนื่องจาก EditGAN ใช้กรอบงาน GAN จึงมีข้อจำกัดเหมือนกันกับโมเดล GAN อื่นๆ โดยสามารถทำงานได้เฉพาะกับรูปภาพที่ GAN สามารถสร้างโมเดลได้เท่านั้น ข้อจำกัดของ EditGAN ในการทำงานกับรูปภาพที่จำลองแบบ GAN เป็นเหตุผลหลักที่ทำให้การนำ EditGAN ไปใช้ในสถานการณ์ต่างๆ เป็นเรื่องยาก อย่างไรก็ตาม เป็นที่น่าสังเกตว่าการแก้ไขที่มีความแม่นยำสูงของ EditGAN สามารถถ่ายโอนไปยังรูปภาพอื่น ๆ ได้อย่างง่ายดายโดยใช้การแก้ไขเวกเตอร์ 

สรุป

สาเหตุสำคัญประการหนึ่งที่ทำให้ GAN ไม่เป็นมาตรฐานอุตสาหกรรมในสาขาการแก้ไขภาพก็เนื่องมาจากการใช้งานจริงที่จำกัด โดยปกติกรอบงาน GAN ต้องการข้อมูลการฝึกอบรมที่มีคำอธิบายประกอบจำนวนมาก และมักไม่ได้ให้ประสิทธิภาพและความแม่นยำสูงนัก 

EditGAN มุ่งหวังที่จะจัดการกับปัญหาที่นำเสนอโดยเฟรมเวิร์ก GAN ทั่วไป และพยายามที่จะกลายเป็นวิธีการที่มีประสิทธิภาพสำหรับการแก้ไขภาพความหมายคุณภาพสูงและมีความแม่นยำสูง ผลลัพธ์ที่ผ่านมาระบุว่า EditGAN นำเสนอสิ่งที่กล่าวอ้างได้จริง และมีประสิทธิภาพมากกว่าแนวทางปฏิบัติและโมเดลมาตรฐานอุตสาหกรรมในปัจจุบันบางส่วนอยู่แล้ว 

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ