ปัญญาประดิษฐ์

การแก้ไขภาพด้วย Gaussian Splatting

Published October 3, 2024

Updated April 27, 2026

Martin Anderson

A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

การทำงานร่วมกันใหม่ระหว่างนักวิจัยในโปแลนด์และสหราชอาณาจักรเสนอแนวคิดในการใช้ Gaussian Splatting เพื่อแก้ไขภาพ โดยการแปลส่วนหนึ่งของภาพเป็น 3D ชั่วคราว ช่วยให้ผู้ใช้สามารถแก้ไขและจัดการรูปภาพ 3D แล้วนำการเปลี่ยนแปลงมาใช้

การเปลี่ยนมุมของหัวแมว โดยการย้ายส่วนนั้นเข้าสู่พื้นที่ 3D ผ่าน Gaussian Splatting แล้วจัดการโดยผู้ใช้ การเปลี่ยนแปลงจะถูกนำไปใช้ กระบวนการนี้คล้ายกับเทคนิคต่างๆ ในซอฟต์แวร์ Adobe ที่ล็อกอินเทอร์เฟซจนกว่ากระบวนการที่ซับซ้อนจะเสร็จสิ้น Source: https://github.com/waczjoan/MiraGe/

เนื่องจากองค์ประกอบ Gaussian Splat ถูกแทนที่ด้วยเมชของสามเหลี่ยมชั่วคราว และเข้าสู่ ‘CGI state’暂时 จึงสามารถตีความการเคลื่อนไหวตามธรรมชาติได้ ไม่ว่าจะเป็นการเปลี่ยนสถานะของวัตถุหรือการสร้างแอนิเมชั่น

เครื่องยนต์ฟิสิกส์ที่รวมอยู่ในระบบ MiraGe ใหม่สามารถตีความการเคลื่อนไหวทางกายภาพตามธรรมชาติได้ ไม่ว่าจะเป็นการสร้างแอนิเมชั่นหรือการเปลี่ยนแปลงภาพที่ไม่เคลื่อนไหว

ไม่มีการใช้ AI ที่สร้างข้อมูลใหม่ในกระบวนการนี้ ซึ่งหมายความว่าไม่มีการใช้ Latent Diffusion Models (LDMs) ซึ่งไม่เหมือนกับระบบ Firefly ของ Adobe ซึ่งได้รับการฝึกอบรมจาก Adobe Stock (เดิมคือ Fotolia)

ระบบที่เรียกว่า MiraGe ตีความการคัดเลือกเป็นพื้นที่ 3D และอนุมานเรขาคณิตโดยการสร้าง ภาพสะท้อน ของการคัดเลือก และการประมาณค่าพิกัด 3D ที่สามารถแสดงเป็น Splat ซึ่งจะนำภาพมาแปลเป็นเมช

คลิกเพื่อเล่นตัวอย่างเพิ่มเติมขององค์ประกอบที่ถูกเปลี่ยนแปลงโดยผู้ใช้ระบบ MiraGe หรือได้รับผลกระทบจากการเปลี่ยนแปลงตามฟิสิกส์

ผู้เขียนเปรียบเทียบระบบ MiraGe กับแนวทางที่ผ่านมา และพบว่าระบบ MiraGe มีประสิทธิภาพสูงสุดในงานที่ตั้งเป้าหมาย

ผู้ใช้ระบบ zBrush จะคุ้นเคยกับกระบวนการนี้ เนื่องจาก zBrush ช่วยให้ผู้ใช้สามารถ ‘แบน’ โมเดล 3D และเพิ่มรายละเอียด 2D ในขณะที่ยังคงเมชที่อยู่ภายใต้ และตีความรายละเอียดใหม่เข้าไป – ‘การแช่แข็ง’ ที่ตรงกันข้ามกับวิธีการ MiraGe ซึ่งทำงานเหมือนกับ Firefly หรือเทคนิคการเปลี่ยนแปลงรูปแบบอื่นๆ ในซอฟต์แวร์ Adobe เช่น การบิดเบือนหรือการวาดภาพ 3D แบบหยาบ

Gaussian Splats ที่มีพารามิเตอร์ช่วยให้ MiraGe สร้างการสร้างภาพที่มีคุณภาพสูงของพื้นที่ที่เลือกในภาพ 2D และใช้ฟิสิกส์ของร่างกายอ่อนให้กับการเลือกที่เป็น 3D ชั่วคราว

เอกสารระบุ:

‘[เรา] นำเสนอแบบจำลองที่เข้ารหัสภาพ 2D โดยการจำลองการรับรู้ของมนุษย์ โดยเฉพาะอย่างยิ่ง แบบจำลองของเราตีความภาพ 2D ว่าเป็นภาพถ่ายหรือกระดาษที่มองเห็นได้ โดยมองว่าเป็นวัตถุเรียบในพื้นที่ 3D

‘แนวทางนี้ช่วยให้สามารถแก้ไขภาพได้อย่าง直观และยืดหยุ่น โดยจับภาพความแตกต่างของการรับรู้ของมนุษย์ ในขณะเดียวกันก็ช่วยให้สามารถเปลี่ยนแปลงที่ซับซ้อนได้’

เอกสารวิจัยใหม่ ใหม่ มีชื่อว่า MiraGe: แก้ไขภาพ 2D โดยใช้ Gaussian Splatting และมาจากผู้เขียนสี่คนจากมหาวิทยาลัย Jagiellonian ใน Kraków และมหาวิทยาลัย Cambridge โค้ดที่สมบูรณ์ของระบบได้รับการเผยแพร่บน GitHub

มาดูกันว่านักวิจัยจัดการกับความท้าทายได้อย่างไร

วิธีการ

แนวทาง MiraGe ใช้ Gaussian Mesh Splatting (GaMeS) พารามิเตอร์ ซึ่งเป็นเทคนิคที่พัฒนาโดยกลุ่มที่รวมผู้เขียนสองคนของเอกสารใหม่ GaMeS ช่วยให้ Gaussian Splats สามารถตีความเป็นเมช CGI แบบดั้งเดิม และสามารถเปลี่ยนแปลงได้ตามเทคนิคที่ชุมชน CGI พัฒนาขึ้นในช่วงหลายทศวรรษที่ผ่านมา

MiraGe ตีความ ‘Gaussians ที่เรียบ’ ในพื้นที่ 2D และใช้ GaMeS เพื่อ ‘ดึง’ เนื้อหาสู่พื้นที่ 3D ที่มี GSplat ชั่วคราว

แต่ละ Gaussian ที่เรียบถูกแทนที่ด้วยสามจุดในเมฆของสามเหลี่ยมที่เรียกว่า ‘ซุปสามเหลี่ยม’ ทำให้ภาพที่อนุมานสามารถจัดการได้ Source: https://arxiv.org/pdf/2410.01521

เราจะเห็นได้ในมุมล่างซ้ายของภาพด้านบน bahwa MiraGe สร้าง ‘ภาพสะท้อน’ ของส่วนของภาพที่จะถูกตีความ

ผู้เขียนระบุ:

‘[เรา] ใช้แนวทางใหม่โดยใช้กล้องสองตัวที่ตั้งตรงข้ามกันตามแกน Y ซึ่งจัดตำแหน่งสมมาตรรอบจุดกำเนิดและหันเข้าหากัน กล้องตัวแรกมีหน้าที่ในการสร้างภาพดั้งเดิม ในขณะที่กล้องตัวที่สองสร้างภาพสะท้อน

‘ภาพถูกมองว่าเป็นแผ่นกระดาษที่มีความโปร่งใสที่ฝังอยู่ในบริบทพื้นที่ 3D การสะท้อนสามารถแสดงได้โดยการพลิกภาพตามแนวนอน

เอกสารระบุว่าเมื่อการถอดรหัสนี้เสร็จสิ้น การปรับเปลี่ยนมุมมองซึ่งปกติจะท้าทายสามารถเข้าถึงได้โดยการแก้ไขโดยตรงใน 3D ในตัวอย่างด้านล่าง เราจะเห็นตัวอย่างของภาพหญิงที่ครอบคลุมเฉพาะมือของเธอ ในกรณีนี้ ผู้ใช้ได้เอียงมือลงในลักษณะที่สมเหตุสมผล ซึ่งเป็นงานที่ท้าทายหากเพียงแค่ดันพิกเซล

ตัวอย่างของเทคนิคการแก้ไข MiraGe

การพยายามใช้เครื่องมือ Firefly ที่สร้างข้อมูลใหม่ใน Photoshop จะหมายถึงการแทนที่มือด้วยมือที่สังเคราะห์จากภาพที่จินตนาการได้ ทำให้การแก้ไขไม่มีความถูกต้อง แม้แต่ระบบที่มีความสามารถมากกว่า เช่น ControlNet ซึ่งเป็นระบบเสริมสำหรับ Stable Diffusion และ Latent Diffusion Models อื่นๆ เช่น Flux ยังต้องดิ้นรนเพื่อให้ได้การแก้ไขดังกล่าวในพายพ์ภาพต่อภาพ

การไล่ตามนี้ถูกครอบงำโดยวิธีการที่ใช้ Implicit Neural Representations (INRs) เช่น SIREN และ WIRE ความแตกต่างระหว่างการแสดงผลที่ชัดเจนและไม่ชัดเจนคือพิกัดของแบบจำลองไม่สามารถเข้าถึงได้โดยตรงใน INRs ซึ่งใช้ ฟังก์ชันแบบต่อเนื่อง

ในทางตรงกันข้าม Gaussian Splatting เสนอการแสดงผลที่ชัดเจนและเข้าถึงได้ โดยมีพิกัด X/Y/Z Cartesian แม้ว่าจะใช้ Gaussian ellipses แทน voxels หรือวิธีการอื่นๆ ในการแสดงเนื้อหาที่มี 3D

แนวคิดในการใช้ GSplat ในพื้นที่ 2D ถูกนำเสนออย่างโดดเด่นโดยความร่วมมือทางวิชาการของจีนในปี 2024 GaussianImage ซึ่งเสนอรูปแบบ 2D ของ Gaussian Splatting ทำให้สามารถอนุมานเฟรมเรทได้ถึง 1000fps อย่างไรก็ตาม โมเดลนี้ไม่มีการใช้งานที่เกี่ยวข้องกับการแก้ไขภาพ

หลังจากที่ GaMeS parametrization ถอดรหัสพื้นที่ที่เลือกออกเป็นรูปแบบ Gaussian/mesh แล้ว ภาพจะถูกสร้างขึ้นใหม่โดยใช้เทคนิค Material Points Method (MPM) ซึ่งถูกอธิบายไว้ใน เอกสาร CSAIL ปี 2018

ใน MiraGe ระหว่างกระบวนการเปลี่ยนแปลง Gaussian Splat จะมีอยู่ในฐานะตัวแทนสำหรับเมชที่เทียบเท่า เช่นเดียวกับ 3DMM CGI models ที่ใช้บ่อยๆ เป็นวิธีการจัดลำดับสำหรับเทคนิคการแสดงภาพแบบไม่ชัดเจน เช่น Neural Radiance Fields (NeRF)

ในกระบวนการนี้ วัตถุ 2 มิติจะถูกสร้างแบบจำลองในพื้นที่ 3D และส่วนของภาพที่ไม่ได้รับผลกระทบจะไม่ปรากฏให้ผู้ใช้เห็น จนกระทั่งกระบวนการเสร็จสิ้น

MiraGe สามารถรวมเข้ากับโปรแกรม 3D ที่เปิด源ที่ได้รับความนิยม Blender ซึ่งปัจจุบัน ใช้บ่อย ในการทำงานที่รวม AI โดยเฉพาะอย่างยิ่งสำหรับการทำงานภาพต่อภาพ

การทำงานสำหรับ MiraGe ใน Blender ซึ่งเกี่ยวข้องกับการเคลื่อนไหของแขนของตัวละครที่แสดงในภาพ 2D

ผู้เขียนเสนอวิธีการเปลี่ยนแปลงสองวิธีโดยใช้ Gaussian Splatting – Amorphous และ Graphite

วิธีการ Amorphous ใช้ GaMeS โดยตรง และช่วยให้การคัดเลือก 2D ที่ถูกดึงออกมาเคลื่อนไหวได้อย่างอิสระในพื้นที่ 3D ในขณะที่วิธีการ Graphite ควบคุม Gaussian ในพื้นที่ 2D ระหว่างการเริ่มต้นและฝึกอบรม

ผู้วิจัยพบว่าแม้ว่าวิธีการ Amorphous อาจจัดการรูปทรงที่ซับซ้อนได้ดีกว่าวิธีการ Graphite แต่ ‘รอยแตก’ หรือรอยขาดจะปรากฏชัดเจนยิ่งขึ้น เมื่อขอบของการเปลี่ยนแปลงสอดคล้องกับส่วนของภาพที่ไม่ได้รับผลกระทบ

ดังนั้น พวกเขาจึงพัฒนา ‘ระบบภาพสะท้อน’ ที่กล่าวถึงข้างต้น:

‘[เรา] ใช้แนวทางใหม่โดยใช้กล้องสองตัวที่ตั้งตรงข้ามกันตามแกน Y ซึ่งจัดตำแหน่งสมมาตรรอบจุดกำเนิดและหันเข้าหากัน

‘กล้องตัวแรกมีหน้าที่ในการสร้างภาพดั้งเดิม ในขณะที่กล้องตัวที่สองสร้างภาพสะท้อน ภาพถูกมองว่าเป็นแผ่นกระดาษที่มีความโปร่งใสที่ฝังอยู่ในบริบทพื้นที่ 3D การสะท้อนสามารถแสดงได้โดยการพลิกภาพตามแนวนอน

‘การกำหนดค่ากล้องสะท้อนแบบนี้ช่วยเพิ่มความถูกต้องของการสะท้อนที่สร้างขึ้น โดยให้คำตอบที่มั่นคงสำหรับการจับภาพองค์ประกอบภาพได้อย่างแม่นยำ’

เอกสารระบุว่า MiraGe สามารถใช้เครื่องยนต์ฟิสิกส์ภายนอก เช่น ที่มีอยู่ใน Blender หรือใน Taichi_Elements

ข้อมูลและการทดสอบ

สำหรับการประเมินคุณภาพภาพในการทดสอบที่ดำเนินการสำหรับ MiraGe ใช้ อัตราส่วนสัญญาณต่อเสียง (SNR) และ MS-SIM เมตริก

ชุดข้อมูลที่ใช้คือ Kodak Lossless True Color Image Suite และ DIV2K ชุดตรวจสอบ ความละเอียดของชุดข้อมูลเหล่านี้เหมาะสมสำหรับการเปรียบเทียบกับผลงานก่อนหน้าที่ใกล้ที่สุด คือ Gaussian Image ระบบที่เป็นคู่แข่งที่ทดสอบ ได้แก่ SIREN, WIRE, NVIDIA’s Instant Neural Graphics Primitives (I-NGP) และ NeuRBF

การทดสอบดำเนินการบน NVIDIA GEFORCE RTX 4070 แล็ปท็อปและ NVIDIA RTX 2080

MiraGe เสนอผลลัพธ์ที่ดีที่สุดเมื่อเปรียบเทียบกับระบบก่อนหน้าที่เลือก ตามผลลัพธ์ที่นำเสนอในเอกสารใหม่

เกี่ยวกับผลลัพธ์เหล่านี้ ผู้เขียนระบุ:

‘เราเห็นว่าข้อเสนอของเรามีประสิทธิภาพเหนือกว่าโซลูชันก่อนหน้าทั้งหมดในสองชุดข้อมูล คุณภาพที่วัดโดยทั้งสองเมตริกแสดงถึงการปรับปรุงที่สำคัญเมื่อเปรียบเทียบกับแนวทางก่อนหน้าทั้งหมด’

สรุป

การปรับใช้ Gaussian Splatting 2D ของ MiraGe เป็นการบุกเบิกและทดลองอย่างชัดเจนในทางเลือกที่อาจเป็นทางเลือกที่น่าสนใจในการแก้ไขภาพโดยไม่ต้องใช้การสร้างข้อมูลใหม่ (เช่น ผ่าน Firefly และวิธีการกระจายข้อมูลอื่นๆ) แม้ว่าจะมีโมเดลการกระจายข้อมูลหลายรูปแบบที่สามารถเปลี่ยนแปลงภาพได้ แต่ LDMs มีข้อจำกัดโดยแนวทางเชิงอุปนัยและบ่อยครั้ง ‘จินตนาการมากเกินไป’ ต่อคำขอของผู้ใช้ในการเปลี่ยนแปลง

ดังนั้น ความสามารถในการดึงส่วนหนึ่งของภาพเข้าสู่พื้นที่ 3D ชั่วคราว จัดการและแทนที่กลับเข้าไปในภาพ โดยใช้เพียงภาพต้นฉบับเป็นข้อมูลอ้างอิง ทำให้ดูเหมือนว่า Gaussian Splatting อาจเหมาะสมกับการทำงานนี้ในอนาคต

* มีความสับสนในเอกสารที่อ้างถึง ‘Amorphous-Mirage’ ว่าเป็นวิธีที่มีประสิทธิภาพและสามารถใช้ได้ดีที่สุด ในขณะเดียวกันก็อ้างว่า ‘Graphite-Mirage’ มีความยืดหยุ่นมากกว่า ดูเหมือนว่า Amorphous-Mirage จะได้รับรายละเอียดที่ดีที่สุด ในขณะที่ Graphite-Mirage ได้รับความยืดหยุ่นที่ดีที่สุด เนื่องจากทั้งสองวิธีถูกนำเสนอในเอกสารพร้อมกับจุดแข็งและจุดอ่อนที่หลากหลาย ความชอบของผู้เขียน (ถ้ามี) จึงไม่ชัดเจนในขณะนี้

เผยแพร่ครั้งแรกวันพฤหัสบดีที่ 3 ตุลาคม 2024