มุมมองของ Anderson

การลบวัตถุและบุคคลออกจากวิดีโอโดยใช้ AI

เผยแพร่ 21 มีนาคม 2026

อัปเดต 16 พฤษภาคม 2026

Martin Anderson

AI-generated stylized image depicting a magician robot showing an empty cabinet with a lady's tiara at the bottom. GPT-1.5

ไม่ เด็กไม่อยู่ในภาพถ้า AI มีอะไรที่จะทำกับมัน

การลบวัตถุและบุคคลออกจากภาพและวิดีโอเป็นหนึ่งในสาขาวิจัยยอดนิยมในด้าน VFX-centric AI โดยมีฐานข้อมูลและเฟรมเวิร์กที่อุทิศให้กับการท้าทายนี้มีจำนวนมากขึ้นเรื่อยๆ ซึ่งใหม่ล่าสุดจากสถาบัน Big Data ของมหาวิทยาลัย Fudan ในประเทศจีน คือ EffectErase ซึ่งเป็นระบบการลบวัตถุจากวิดีโอที่มี “effect-aware” ซึ่งผู้เขียนอ้างว่าสามารถปรับปรุงผลลัพธ์ได้อย่างมากเมื่อเทียบกับผลลัพธ์ก่อนหน้านี้

ประกอบจากวัสดุในเว็บไซต์โครงการ ตัวอย่างของวิธีการ EffectErase (โปรดทราบว่าแม้ว่าเราจะให้ลิงก์ แต่เว็บไซต์ต้นฉบับมีวิดีโอที่มีความละเอียดสูงและไม่ได้ปรับให้เหมาะสมซึ่งอาจส่งผลต่อเสถียรภาพของเบราว์เซอร์ของคุณ วิดีโอบน YouTube ที่แนบมาด้านล่างเป็นแหล่งอ้างอิงที่ดีกว่าและสมบูรณ์กว่า) แหล่งที่มา

งานใหม่นี้เกี่ยวข้องกับการสร้างและคัดเลือกฐานข้อมูลที่มีวิดีโอที่แท้จริงและซินเทติกเกือบ 350 รายการ (โดยใช้คลังข้อมูลสาธารณะ*) ซึ่งถูกบันทึกด้วยอุปกรณ์เฉพาะหรือได้รับและนำมาใช้ในกระบวนการที่สร้างขึ้นโดยใช้เฟรมเวิร์ก Blender 3D ที่เปิดกว้าง

ฐานข้อมูลการลบวัตถุจากวิดีโอ (VOR) แบบผสมผสานนี้เป็นพื้นฐานสำหรับการใช้งาน EffectErase ซึ่งสร้างขึ้นบนระบบการสร้างวิดีโอ Wan2.1 นอกจากนี้ยังกำหนดมาตรฐานใหม่สองแบบ: VOR Eval และ VOR Wild สำหรับตัวอย่างที่มีและไม่มี ข้อมูลที่ถูกต้อง

(แม้ว่าบทความจะมี เว็บไซต์โครงการ แต่ก็ยังหนักเกินไปด้วยวิดีโอที่มีความละเอียดสูงหลายรายการ และยากที่จะโหลด ดังนั้นโปรดอ้างอิงตัวอย่างที่ฉันจัดทำไว้ในวิดีโอที่แนบมาด้านบน หากคุณพบว่าเว็บไซต์โครงการยากที่จะใช้งาน)

การเปรียบเทียบปริมาณระหว่างฐานข้อมูลที่เทียบเท่ากัน โดยอ้างอิงถึงข้อเสนอใหม่ แหล่งที่มา

นักวิจัยอ้างว่าวิธีการของพวกเขาสามารถให้ผลลัพธ์ที่ดีที่สุดในด้านปริมาณและคุณภาพตามการประเมินของมนุษย์

พวกเขาสังเกตว่างานก่อนหน้านี้ไม่ได้ประสบความสำเร็จในการลบผลกระทบของวัตถุ เช่น เงาและภาพสะท้อน และฐานข้อมูลของพวกเข己ถูกสร้างขึ้นเพื่อแก้ไขข้อบกพร่องนี้

ตัวอย่างของวิธีการก่อนหน้าที่ไม่สามารถลบผลกระทบของวัตถุได้

บทความใหม่นี้มีชื่อว่า EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing และมาจากนักวิจัยสี่คนจาก College of Computer Science and Artificial Intelligence ของมหาวิทยาลัย Fudan

วิธีการ

ฐานข้อมูล VOR แบบผสมผสานนี้ได้รับการออกแบบเพื่อให้ครอบคลุมสถานการณ์ที่หลากหลายเพื่อให้ครอบคลุมผลกระทบของการลบวัตถุหรือบุคคลออกจากวิดีโอ

เฟรมคู่จากฐานข้อมูล VOR แสดงให้เห็นว่าการลบวัตถุจะต้องขยายออกไปนอกเหนือจากวัตถุเห็นได้ชัดเจน

五 ประเภทรบกวนที่ต้องจัดการได้รับการกำหนดโดยผู้เขียนเป็น การบดบัง รวมถึงการบดบังของกระจกและควัน; เงา; แสง (เช่น เมื่อวัตถุที่จะลบสร้างหรือเปลี่ยนแปลงเส้นทางของแสง); การสะท้อน; และ การเปลี่ยนแปลงรูปทรง (เช่น การกดทับของคนบนหมอนซึ่งไม่ควรอยู่หลังจากการลบคนออก)

กระบวนการสร้างฐานข้อมูล VOR โดยผสมผสานฉากสังเคราะห์ที่สร้างด้วย Blender กับฉากจริงที่บันทึก

สำหรับข้อมูลจริงที่บันทึกด้วยกล้องคงที่เพื่อบันทึกฉาก “มี” และ “ไม่มี” ในสภาพแวดล้อมที่หลากหลาย

สำหรับข้อมูลสังเคราะห์ มุมมองหลายมุมถูกสร้างขึ้น และสถานการณ์หลายวัตถุถูกสร้างขึ้น โดยมีการเคลื่อนไหวของกล้องที่ซับซ้อนและท้าทาย เช่นเดียวกับที่เกิดขึ้นในฉากจริง

เพื่อเพิ่มความหลากหลายของการเคลื่อนไหว ผลกระทบของ Ken Burns ถูกใช้กับกล้องที่บันทึกคู่ โดยเพิ่มการเคลื่อนไหวที่ควบคุมได้ เช่น การซูมและเคลื่อนไหวของมือที่ถือกล้อง

ขนาดและความหลากหลายถูกขยายโดยการผสมผสานวัตถุสังเคราะห์กับการตั้งค่ากล้องหลายแบบ

การสร้างและการทำความสะอาดข้อมูลสุดท้ายมีระยะเวลา 145 ชั่วโมง ของวิดีโอที่ครอบคลุม 60,000 วิดีโอคู่ จริงและสังเคราะห์ ใน 366 คลาสวัตถุใน 443 ฉาก

เครือข่าย EffectErase นี้ใช้ VAE โดยมีการลดความเสี่ยงด้วย Wan2.1

ข้อมูลและทดสอบ

นักวิจัยทดสอบวิธีการของพวกเขากับวิธีการอื่นๆ เช่น OmniPaint; ObjectClear; VACE; DiffuEraser; ProPainter; ROSE; และ MiniMax-Remover

ผลลัพธ์แสดงให้เห็นว่าวิธีการ EffectErase สามารถให้ผลลัพธ์ที่ดีที่สุดในด้านคุณภาพและความสม่ำเสมอ

นักวิจัยสร้าง QScore ซึ่งเป็นมาตรการที่ใช้ในการประเมินคุณภาพของวิดีโอที่ลบวัตถุออก

การเปรียบเทียบผลลัพธ์ระหว่างฐานข้อมูล ROSE และ VOR

สรุป

นักวิจัยสรุปว่าวิธีการ EffectErase สามารถให้ผลลัพธ์ที่ดีที่สุดในด้านคุณภาพและความสม่ำเสมอ และสามารถใช้ในการลบวัตถุหรือบุคคลออกจากวิดีโอได้อย่างมีประสิทธิภาพ

* หนึ่งควรหวังว่าด้วยความกังวลที่เพิ่มขึ้นเกี่ยวกับปัญหาสิทธิ์ในทรัพย์สินทางปัญญา ว่าแหล่งที่มาเหล่านั้นจะถูกอ้างอิงอย่างเหมาะสม แต่ถ้าแหล่งที่มาของงานใหม่ไม่ได้ระบุแหล่งที่มาของโมเดล 3 มิติ ฉันไม่สามารถระบุแหล่งที่มาได้

^†แหล่งที่มาที่ให้มานั้นเป็น ข้อความอธิบายทั่วไป จากปี 2013 โดยไม่ได้ระบุ VAE ที่เฉพาะเจาะจง

^†† การอ้างอิงจากบทความนี้เป็นคำอธิบายที่ไม่ชัดเจน เนื่องจากการปรับให้เหมาะสมและ LoRA เป็นกระบวนการที่แตกต่างกันโดยสิ้นเชิง

เผยแพร่ครั้งแรกวันเสาร์ที่ 21 มีนาคม 2026