มุมมองของ Anderson
การเพิ่มความแม่นยำของการแก้ไขภาพ AI

แม้ว่าโมเดลการกระจาย Latent (LDM) ของ Adobe Firefly จะถือเป็นหนึ่งในโมเดลที่ดีที่สุดในปัจจุบัน แต่ผู้ใช้ Photoshop ที่ได้ลองใช้ฟังก์ชันการสร้างของมันจะสังเกตเห็นว่ามันไม่สามารถแก้ไขภาพที่มีอยู่ได้อย่างง่ายดาย – แต่จะแทนที่พื้นที่ที่ผู้ใช้เลือกด้วยภาพที่สร้างขึ้นตามคำสั่งป้อนข้อความของผู้ใช้ (แม้ว่า Firefly จะสามารถรวมส่วนการสร้างที่ได้รับเข้ากับบริบทของภาพได้ดี)
ในเวอร์ชันเบตาปัจจุบัน Photoshop สามารถรวมภาพอ้างอิงเป็นคำสั่งภาพบางส่วนได้ ซึ่งทำให้ผลิตภัณฑ์แฟลกชิปของ Adobe ติดตามฟังก์ชันality ที่ผู้ใช้ Stable Diffusion ได้เพลิดเพลินไปแล้วกว่าสองปี ขอบคุณเฟรมเวิร์กของบุคคลที่สาม เช่น Controlnet:

The current beta of Adobe Photoshop allows for the use of reference images when generating new content inside a selection – though it’s a hit-and-miss affair at the moment.
สิ่งนี้แสดงให้เห็นถึงปัญหาที่เปิดกว้างในการวิจัยสังเคราะห์ภาพ – ความยากที่โมเดลการกระจายมีในการแก้ไขภาพที่มีอยู่โดยไม่ต้องใช้ ‘การสร้างใหม่’ ในระดับเต็มของการคัดเลือกที่แสดงโดยผู้ใช้

Though this diffusion-based inpaint obeys the user’s prompt, it completely reinvents the source subject matter without taking the original image into consideration (except by blending the new generation with the environment). Source: https://arxiv.org/pdf/2502.20376
ปัญหานี้เกิดขึ้นเนื่องจาก LDMs สร้างภาพผ่านการดีโนイズแบบเรียงซ้อน โดยที่แต่ละขั้นตอนของกระบวนการจะถูกกำหนดโดยคำสั่งป้อนข้อความที่ให้มาโดยผู้ใช้ ด้วยการแปลงเนื้อหาของคำสั่งป้อนข้อความเป็นโทเค็นการฝังตัว และด้วยโมเดลขนาดใหญ่ เช่น Stable Diffusion หรือ Flux ที่มีโทเค็นการฝังตัวที่ใกล้เคียงหลายแสนหรือหลายล้านรายการที่เกี่ยวข้องกับคำสั่งป้อนข้อความ กระบวนการจะมีการกระจายแบบมีเงื่อนไขที่คำนวณได้เพื่อไปถึง ‘เป้าหมายการกระจายแบบมีเงื่อนไข’ และแต่ละขั้นตอนที่ดำเนินการคือขั้นตอนในการไปถึง ‘เป้าหมายการกระจายแบบมีเงื่อนไข’
ดังนั้น นี่คือภาพถึงข้อความ – สถานการณ์ที่ผู้ใช้ ‘หวังว่าจะได้ดีที่สุด’ เนื่องจากไม่มีทางบอกได้อย่างแน่นอนว่าการสร้างจะเหมือนกับอะไร
แทนการแก้ไขภาพที่มีอยู่หลายคนได้พยายามใช้ความสามารถในการสร้างของ LDM เพื่อแก้ไขภาพที่มีอยู่ – แต่นี่ต้องมีการสร้างสมดุลระหว่างความซื่อสัตย์และความยืดหยุ่น
เมื่อภาพถูกฉายเข้าสู่พื้นที่ 潛 ของโมเดลโดยวิธีการ เช่น DDIM inversion เป้าหมายคือการกู้คืนภาพเดิมให้ใกล้เคียงที่สุดในขณะเดียวกันก็ยังช่วยให้สามารถแก้ไขได้ ปัญหาก็คือว่าภาพที่ถูกสร้างขึ้นได้แม่นยำยิ่งขึ้น โมเดลจะยึดติดกับโครงสร้างเดิมมากขึ้น ทำให้การแก้ไขที่สำคัญยากขึ้น

In common with many other diffusion-based image-editing frameworks proposed in recent years, the Renoise architecture has difficulty making any real change to the image’s appearance, with only a perfunctory indication of a bow tie appearing at the base of the cat’s throat.
ในทางกลับกัน หากกระบวนการให้ความสำคัญกับการแก้ไข โมเดลจะคลายความยึดมั่นในภาพเดิม ทำให้ง่ายต่อการแนะนำการเปลี่ยนแปลง – แต่ต้องแลกมาด้วยความสอดคล้องโดยรวมกับภาพต้นฉบับ:

Mission accomplished – but it’s a transformation rather than an adjustment, for most AI-based image-editing frameworks.
เนื่องจากเป็นปัญหาที่แม้แต่ทรัพยากรที่สำคัญของ Adobe ก็ยังต้องดิ้นรนเพื่อแก้ไข ดังนั้นเราจึงสามารถพิจารณาได้ว่าความท้าทายเป็นเรื่องที่สำคัญ และอาจไม่มีวิธีแก้ปัญหาอย่างง่ายดาย หากมี
Tight Inversion
ดังนั้น ตัวอย่างในเอกสารใหม่ที่เผยแพร่เมื่อสัปดาห์ที่แล้วจึงดึงดูดความสนใจของผม เนื่องจากงานนี้ให้การปรับปรุงที่มีคุณค่าและน่าสนใจในสถานะปัจจุบันของสาขานี้ โดยสามารถใช้การแก้ไขที่ละเอียดและซับซ้อนกับภาพที่ฉายเข้าสู่พื้นที่ 潛 ของโมเดล – โดยไม่ต้องแก้ไขที่ไม่สำคัญหรือท่วมท้นเนื้อหาต้นฉบับในภาพต้นฉบับ:

With Tight Inversion applied to existing inversion methods, the source selection is considered in a far more granular way, and the transformations conform to the original material instead of overwriting it.
นักสมัครเล่นและผู้ปฏิบัติงาน LDM อาจรู้จักผลลัพธ์ประเภทนี้ เนื่องจากส่วนใหญ่สามารถสร้างได้ในเวิร์กโฟลว์ที่ซับซ้อนโดยใช้ระบบภายนอก เช่น Controlnet และ IP-Adapter
ในความเป็นจริง วิธีการใหม่ – ที่เรียกว่า Tight Inversion – จริงๆ แล้วใช้ IP-Adapter ร่วมกับโมเดลที่อุทิศให้กับภาพคน

From the original 2023 IP-Adapter paper, examples of crafting apposite edits to the source material. Source: https://arxiv.org/pdf/2308.06721
การบรรลุผลที่สำคัญของ Tight Inversion คือการทำให้เทคนิคที่ซับซ้อนเป็นรูปแบบการทำงานที่สามารถใช้ได้กับระบบที่มีอยู่ รวมถึงการกระจาย LDM ที่ได้รับความนิยมมากที่สุด
ตามธรรมชาติแล้ว สิ่งนี้หมายความว่า Tight Inversion (TI) เช่นเดียวกับระบบเสริมที่มันใช้ จะใช้ภาพต้นฉบับเป็นปัจจัยในการปรับเปลี่ยนสำหรับ版本ที่แก้ไขของมันเอง แทนที่จะพึ่งพาเฉพาะคำสั่งป้อนข้อความที่แม่นยำ:

Further examples of Tight Inversion’s ability to apply truly blended edits to source material.
แม้ว่าผู้เขียนจะยอมรับว่าวิธีการของพวกเขาจะไม่ปราศจากความตึงเครียดระหว่างความซื่อสัตย์และการแก้ไขที่มีอยู่ในเทคนิคการแก้ไขภาพที่ใช้การกระจาย พวกเขารายงานผลลัพธ์ที่ดีที่สุดเมื่อฉีด TI เข้าสู่ระบบที่มีอยู่ เมื่อเทียบกับการทำงานพื้นฐาน
งานใหม่ ใหม่ มีชื่อว่า Tight Inversion: Image-Conditioned Inversion for Real Image Editing และมาจากนักวิจัยห้าคนจาก Tel Aviv University และ Snap Research
Method
ในตอนแรก โมเดลภาษาขนาดใหญ่ (LLM) จะใช้สร้างชุดคำสั่งป้อนข้อความที่หลากหลายจากที่ภาพจะถูกสร้างขึ้น จากนั้น DDIM inversion ที่กล่าวถึงก่อนหน้านี้จะถูกใช้กับภาพแต่ละภาพ ด้วยสามเงื่อนไขข้อความ: คำสั่งป้อนข้อความที่ใช้สร้างภาพ; รูปแบบที่ย่อของคำสั่งป้อนข้อความเดียวกัน; และคำสั่งป้อนข้อความว่าง (ไม่มีข้อความ)
ด้วยการกลับด้านของเสียงที่ส่งกลับจากกระบวนการเหล่านี้ ภาพจะถูกสร้างขึ้นอีกครั้งด้วยเงื่อนไขเดียวกัน และไม่มีการ การชี้นำแบบไม่มีคลาส (CFG)

DDIM inversion scores across various metrics with varying prompt settings.
เมื่อดูจากกราฟด้านบน คะแนนในเมตริกต่างๆ จะดีขึ้นเมื่อความยาวของข้อความเพิ่มขึ้น เมตริกที่ใช้คือ อัตราสัญญาณต่อเสียง (PSNR); ระยะทาง L2; ดัชนีความคล้ายคลึงกันโครงสร้าง (SSIM); และ ความคล้ายคลึงกันของภาพที่เรียนรู้ (LPIPS)
Image-Conscious
โดยทั่วไป Tight Inversion เปลี่ยนวิธีการแก้ไขภาพที่มีอยู่โดยการปรับเปลี่ยนกระบวนการกลับด้านให้ขึ้นอยู่กับภาพตัวเอง แทนที่จะพึ่งพาเฉพาะคำสั่งป้อนข้อความที่แม่นยำ
ปกติ การกลับด้านภาพเข้าสู่พื้นที่เสียงของโมเดลการกระจายต้องใช้การประมาณค่าเสียงเริ่มต้นที่เมื่อถูกดีโนイズ จะสร้างภาพต้นฉบับขึ้นมาใหม่ วิธีการมาตรฐานใช้คำสั่งป้อนข้อความเพื่อชี้นำกระบวนการนี้ แต่คำสั่งป้อนข้อความที่ไม่สมบูรณ์อาจนำไปสู่ข้อผิดพลาด ทำให้สูญเสียรายละเอียดหรือเปลี่ยนแปลงโครงสร้าง
Tight Inversion ใช้ IP Adapter เพื่อเลี้ยงข้อมูลภาพเข้าสู่โมเดล เพื่อให้สามารถสร้างภาพขึ้นมาใหม่ได้แม่นยำยิ่งขึ้น โดยการแปลงภาพต้นฉบับเป็นโทเค็นการปรับเปลี่ยน และฉายภาพเข้าสู่กระบวนการกลับด้าน
พารามิเตอร์เหล่านี้สามารถแก้ไขได้: การเพิ่มผลกระทบของภาพต้นฉบับทำให้การสร้างภาพใหม่ใกล้เคียงกับภาพต้นฉบับมากขึ้น ในขณะที่การลดผลกระทบนี้ทำให้สามารถแก้ไขได้มากขึ้น ทำให้ Tight Inversion มีประโยชน์ทั้งสำหรับการแก้ไขเล็กๆ น้อยๆ เช่น การเปลี่ยนสีเสื้อ หรือการแก้ไขที่สำคัญ เช่น การเปลี่ยนวัตถุ – โดยไม่มีผลข้างเคียงที่พบใน phương phápกลับด้านอื่นๆ เช่น การสูญเสียรายละเอียดหรือการเปลี่ยนแปลงพื้นหลังที่ไม่คาดคิด
ผู้เขียนระบุ:
‘เราสังเกตเห็นว่า Tight Inversion สามารถรวมเข้ากับวิธีการกลับด้านก่อนหน้านี้ได้อย่างง่ายดาย (เช่น Edit Friendly DDPM, ReNoise) โดย [เปลี่ยนโมเดลการกระจายดั้งเดิมเป็นโมเดล IP Adapter ที่เปลี่ยนแปลง] [และ] Tight Inversion ปรับปรุงวิธีการเหล่านี้อย่างต่อเนื่องในแง่ของการสร้างภาพใหม่และความสามารถในการแก้ไข’
Data and Tests
นักวิจัยประเมิน TI ในความสามารถในการสร้างภาพใหม่และแก้ไขภาพที่มีอยู่จริง ทั้งการทดลองใช้ Stable Diffusion XL โดยใช้ DDIM scheduler ตามที่ระบุไว้ใน เอกสาร Stable Diffusion เดิม; และการทดลองทั้งหมดใช้ขั้นตอนการดีโนイズ 50 ขั้นตอน โดยใช้ค่าชี้นำเริ่มต้น 7.5
สำหรับการปรับเปลี่ยนภาพ ใช้ IP-Adapter-plus sdxl vit-h สำหรับการทดสอบแบบไม่มีขั้นตอน ผู้วิจัยใช้ SDXL-Turbo โดยใช้เครื่องมือจัดกำหนดการ Euler และยังทดสอบกับ FLUX.1-dev โดยปรับเปลี่ยนโมเดลในกรณีหลังบน PuLID-Flux โดยใช้ RF-Inversion ที่ 28 ขั้นตอน
PulID ใช้เฉพาะในกรณีที่มีภาพคน เนื่องจากนี่คือโดเมนที่ PulID ได้รับการฝึกฝนมา – และแม้ว่าเราจะสนใจในการสร้างภาพคนมาก แต่การอาศัยน้ำหนักของโมเดลพื้นฐาน เช่น Stable Diffusion เพียงอย่างเดียว อาจไม่เพียงพอสำหรับมาตรฐานที่เราต้องการสำหรับงานนี้
การทดสอบการสร้างภาพใหม่ดำเนินการเพื่อการประเมินเชิงคุณภาพและเชิงปริมาณ ในภาพด้านล่าง เราจะเห็นตัวอย่างเชิงคุณภาพสำหรับการกลับด้าน DDIM:

Qualitative results for DDIM inversion. Each row shows a highly detailed image alongside its reconstructed versions, with each step using progressively more precise conditions during inversion and denoising. As the conditioning becomes more accurate, the reconstruction quality improves. The rightmost column demonstrates the best results, where the original image itself is used as the condition, achieving the highest fidelity. CFG was not used at any stage. Please refer to the source document for better resolution and detail.
เอกสารระบุ:
‘ตัวอย่างเหล่านี้เน้นย้ำว่าการปรับเปลี่ยนกระบวนการกลับด้านให้ขึ้นอยู่กับภาพจะปรับปรุงการสร้างภาพใหม่ในพื้นที่ที่มีรายละเอียดสูงมาก’
‘โดยเฉพาะอย่างยิ่ง ในตัวอย่างที่สาม [ในภาพด้านล่าง] วิธีการของเราสามารถสร้างภาพใหม่ได้สำเร็จโดยการสร้างภาพที่มีรายละเอียดสูงมาก และยังสามารถรักษาโครงสร้างของภาพได้ดี’

Further qualitative results for DDIM inversion. Descriptive conditions improve DDIM inversion, with image conditioning outperforming text, especially on complex images.
ผู้เขียนยังทดสอบ Tight Inversion ในฐานะโมดูลแบบ drop-in สำหรับระบบที่มีอยู่ โดยนำระบบที่แก้ไขแล้วมาเปรียบเทียบกับการทำงานพื้นฐาน
ระบบที่ทดสอบคือ DDIM Inversion และ RF-Inversion; และ ReNoise ซึ่งมีผู้เขียนร่วมบางคนจากเอกสารที่กำลังอภิปรายอยู่

Left, qualitative reconstruction results for Tight Inversion with SDXL. Right, reconstruction with Flux. The layout of these results in the published work makes it difficult to reproduce here, so please refer to the source PDF for a true impression of the differences obtained.
ที่นี่ ผู้เขียนแสดงความคิดเห็น:
‘ตามที่แสดง Tight Inversion จะปรับปรุงการสร้างภาพใหม่โดยสม่ำเสมอ’
ผู้เขียนยังทดสอบระบบเชิงปริมาณ ตามงานก่อนหน้านี้ พวกเขาทดสอบโดยใช้ชุดตรวจสอบของ MS-COCO และสังเกตว่าผลลัพธ์ (แสดงด้านล่าง) ได้ปรับปรุงการสร้างภาพใหม่ทั่วทั้งเมตริกสำหรับวิธีการทั้งหมด

Comparing the metrics for performance of the systems with and without Tight Inversion.
ต่อไป ผู้เขียนทดสอบความสามารถของระบบในการ แก้ไข ภาพ โดยนำระบบมาเปรียบเทียบกับวิธีการพื้นฐานของวิธีการก่อนหน้า

Selections from the sprawling qualitative results (rather confusingly) spread throughout the paper. We refer the reader to the source PDF for improved resolution and meaningful clarity.
ผู้เขียนอ้างว่า Tight Inversion มีประสิทธิภาพเหนือกว่าวิธีการกลับด้านที่มีอยู่โดยการสร้างสมดุลที่ดีกว่าระหว่างการสร้างภาพใหม่และความสามารถในการแก้ไข
Conclusion
แม้ว่า Tight Inversion จะไม่แสดงถึง ‘การ突破’ ในหนึ่งในความท้าทายที่ยากที่สุดในการสังเคราะห์ภาพที่ใช้ LDM แต่ก็รวมวิธีการที่ยุ่งยากเข้าด้วยกันเป็นวิธีการที่เป็นเอกภาพในการแก้ไขภาพ AI
แม้ว่าความตึงเครียดระหว่างความสามารถในการแก้ไขและความซื่อสัตย์จะยังคงอยู่ แต่ก็ลดลงอย่างเห็นได้ชัดตามผลลัพธ์ที่นำเสนอ
เมื่อพิจารณาว่าความท้าทายหลักที่งานนี้ต้องเผชิญอาจเป็นปัญหาในที่สุดหากจัดการกับ LDM โดยไม่ต้องมองหาวิธีแก้ปัญหาใหม่ Tight Inversion จึงเป็นการปรับปรุงที่ดีในการทำงานร่วมกัน
เผยแพร่ครั้งแรกวันศุกร์ที่ 28 กุมภาพันธ์ 2025












