มุมมองของ Anderson
การลบวัตถุและบุคคลออกจากวิดีโอโดยใช้ AI

ไม่ เด็กไม่อยู่ในภาพถ้า AI มีอะไรที่จะทำกับมัน
การลบวัตถุและบุคคลออกจากภาพและวิดีโอเป็นหนึ่งในสาขาวิจัยยอดนิยมในด้าน VFX-centric AI โดยมีฐานข้อมูลและเฟรมเวิร์กที่อุทิศให้กับการท้าทายนี้มีจำนวนมากขึ้นเรื่อยๆ ซึ่งใหม่ล่าสุดจากสถาบัน Big Data ของมหาวิทยาลัย Fudan ในประเทศจีน คือ EffectErase ซึ่งเป็นระบบการลบวัตถุจากวิดีโอที่มี “effect-aware” ซึ่งผู้เขียนอ้างว่าสามารถปรับปรุงผลลัพธ์ได้อย่างมากเมื่อเทียบกับผลลัพธ์ก่อนหน้านี้
ประกอบจากวัสดุในเว็บไซต์โครงการ ตัวอย่างของวิธีการ EffectErase (โปรดทราบว่าแม้ว่าเราจะให้ลิงก์ แต่เว็บไซต์ต้นฉบับมีวิดีโอที่มีความละเอียดสูงและไม่ได้ปรับให้เหมาะสมซึ่งอาจส่งผลต่อเสถียรภาพของเบราว์เซอร์ของคุณ วิดีโอบน YouTube ที่แนบมาด้านล่างเป็นแหล่งอ้างอิงที่ดีกว่าและสมบูรณ์กว่า) แหล่งที่มา
งานใหม่นี้เกี่ยวข้องกับการสร้างและคัดเลือกฐานข้อมูลที่มีวิดีโอที่แท้จริงและซินเทติกเกือบ 350 รายการ (โดยใช้คลังข้อมูลสาธารณะ*) ซึ่งถูกบันทึกด้วยอุปกรณ์เฉพาะหรือได้รับและนำมาใช้ในกระบวนการที่สร้างขึ้นโดยใช้เฟรมเวิร์ก Blender 3D ที่เปิดกว้าง
ฐานข้อมูลการลบวัตถุจากวิดีโอ (VOR) แบบผสมผสานนี้เป็นพื้นฐานสำหรับการใช้งาน EffectErase ซึ่งสร้างขึ้นบนระบบการสร้างวิดีโอ Wan2.1 นอกจากนี้ยังกำหนดมาตรฐานใหม่สองแบบ: VOR Eval และ VOR Wild สำหรับตัวอย่างที่มีและไม่มี ข้อมูลที่ถูกต้อง
(แม้ว่าบทความจะมี เว็บไซต์โครงการ แต่ก็ยังหนักเกินไปด้วยวิดีโอที่มีความละเอียดสูงหลายรายการ และยากที่จะโหลด ดังนั้นโปรดอ้างอิงตัวอย่างที่ฉันจัดทำไว้ในวิดีโอที่แนบมาด้านบน หากคุณพบว่าเว็บไซต์โครงการยากที่จะใช้งาน)

การเปรียบเทียบปริมาณระหว่างฐานข้อมูลที่เทียบเท่ากัน โดยอ้างอิงถึงข้อเสนอใหม่ แหล่งที่มา
นักวิจัยอ้างว่าวิธีการของพวกเขาสามารถให้ผลลัพธ์ที่ดีที่สุดในด้านปริมาณและคุณภาพตามการประเมินของมนุษย์
พวกเขาสังเกตว่างานก่อนหน้านี้ไม่ได้ประสบความสำเร็จในการลบผลกระทบของวัตถุ เช่น เงาและภาพสะท้อน และฐานข้อมูลของพวกเข己ถูกสร้างขึ้นเพื่อแก้ไขข้อบกพร่องนี้

ตัวอย่างของวิธีการก่อนหน้าที่ไม่สามารถลบผลกระทบของวัตถุได้
บทความใหม่นี้มีชื่อว่า EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing และมาจากนักวิจัยสี่คนจาก College of Computer Science and Artificial Intelligence ของมหาวิทยาลัย Fudan
วิธีการ
ฐานข้อมูล VOR แบบผสมผสานนี้ได้รับการออกแบบเพื่อให้ครอบคลุมสถานการณ์ที่หลากหลายเพื่อให้ครอบคลุมผลกระทบของการลบวัตถุหรือบุคคลออกจากวิดีโอ

เฟรมคู่จากฐานข้อมูล VOR แสดงให้เห็นว่าการลบวัตถุจะต้องขยายออกไปนอกเหนือจากวัตถุเห็นได้ชัดเจน
五 ประเภทรบกวนที่ต้องจัดการได้รับการกำหนดโดยผู้เขียนเป็น การบดบัง รวมถึงการบดบังของกระจกและควัน; เงา; แสง (เช่น เมื่อวัตถุที่จะลบสร้างหรือเปลี่ยนแปลงเส้นทางของแสง); การสะท้อน; และ การเปลี่ยนแปลงรูปทรง (เช่น การกดทับของคนบนหมอนซึ่งไม่ควรอยู่หลังจากการลบคนออก)

กระบวนการสร้างฐานข้อมูล VOR โดยผสมผสานฉากสังเคราะห์ที่สร้างด้วย Blender กับฉากจริงที่บันทึก
สำหรับข้อมูลจริงที่บันทึกด้วยกล้องคงที่เพื่อบันทึกฉาก “มี” และ “ไม่มี” ในสภาพแวดล้อมที่หลากหลาย
สำหรับข้อมูลสังเคราะห์ มุมมองหลายมุมถูกสร้างขึ้น และสถานการณ์หลายวัตถุถูกสร้างขึ้น โดยมีการเคลื่อนไหวของกล้องที่ซับซ้อนและท้าทาย เช่นเดียวกับที่เกิดขึ้นในฉากจริง
เพื่อเพิ่มความหลากหลายของการเคลื่อนไหว ผลกระทบของ Ken Burns ถูกใช้กับกล้องที่บันทึกคู่ โดยเพิ่มการเคลื่อนไหวที่ควบคุมได้ เช่น การซูมและเคลื่อนไหวของมือที่ถือกล้อง
ขนาดและความหลากหลายถูกขยายโดยการผสมผสานวัตถุสังเคราะห์กับการตั้งค่ากล้องหลายแบบ
การสร้างและการทำความสะอาดข้อมูลสุดท้ายมีระยะเวลา 145 ชั่วโมง ของวิดีโอที่ครอบคลุม 60,000 วิดีโอคู่ จริงและสังเคราะห์ ใน 366 คลาสวัตถุใน 443 ฉาก
เครือข่าย EffectErase นี้ใช้ VAE โดยมีการลดความเสี่ยงด้วย Wan2.1
ข้อมูลและทดสอบ
นักวิจัยทดสอบวิธีการของพวกเขากับวิธีการอื่นๆ เช่น OmniPaint; ObjectClear; VACE; DiffuEraser; ProPainter; ROSE; และ MiniMax-Remover
ผลลัพธ์แสดงให้เห็นว่าวิธีการ EffectErase สามารถให้ผลลัพธ์ที่ดีที่สุดในด้านคุณภาพและความสม่ำเสมอ
นักวิจัยสร้าง QScore ซึ่งเป็นมาตรการที่ใช้ในการประเมินคุณภาพของวิดีโอที่ลบวัตถุออก

การเปรียบเทียบผลลัพธ์ระหว่างฐานข้อมูล ROSE และ VOR
สรุป
นักวิจัยสรุปว่าวิธีการ EffectErase สามารถให้ผลลัพธ์ที่ดีที่สุดในด้านคุณภาพและความสม่ำเสมอ และสามารถใช้ในการลบวัตถุหรือบุคคลออกจากวิดีโอได้อย่างมีประสิทธิภาพ
* หนึ่งควรหวังว่าด้วยความกังวลที่เพิ่มขึ้นเกี่ยวกับปัญหาสิทธิ์ในทรัพย์สินทางปัญญา ว่าแหล่งที่มาเหล่านั้นจะถูกอ้างอิงอย่างเหมาะสม แต่ถ้าแหล่งที่มาของงานใหม่ไม่ได้ระบุแหล่งที่มาของโมเดล 3 มิติ ฉันไม่สามารถระบุแหล่งที่มาได้
† แหล่งที่มาที่ให้มานั้นเป็น ข้อความอธิบายทั่วไป จากปี 2013 โดยไม่ได้ระบุ VAE ที่เฉพาะเจาะจง
†† การอ้างอิงจากบทความนี้เป็นคำอธิบายที่ไม่ชัดเจน เนื่องจากการปรับให้เหมาะสมและ LoRA เป็นกระบวนการที่แตกต่างกันโดยสิ้นเชิง
เผยแพร่ครั้งแรกวันเสาร์ที่ 21 มีนาคม 2026












