ปัญญาประดิษฐ์

การลบวัตถุออกจากวิดีโอได้อย่างมีประสิทธิภาพมากขึ้นด้วย Machine Learning

Published May 19, 2022

Updated April 28, 2026

Martin Anderson

การวิจัยใหม่จากประเทศจีนรายงานผลลัพธ์ที่เป็นรัฐของศิลปะ – เช่นเดียวกับการปรับปรุงประสิทธิภาพที่น่าประทับใจ – สำหรับระบบวิดีโอ inpainting ใหม่ที่สามารถลบวัตถุออกจากวิดีโอได้อย่างชำนาญ

อุปกรณ์ยึดติดของนักบินเลื่อนเป็นภาพที่ถูกทาออกโดยขั้นตอนใหม่ ดูวิดีโอต้นฉบับ (ฝังไว้ที่ด้านล่างของบทความนี้) สำหรับภาพที่มีความละเอียดดีกว่าและตัวอย่างอื่นๆ

อุปกรณ์ยึดติดของนักบินเลื่อนเป็นภาพที่ถูกทาออกโดยขั้นตอนใหม่ ดูวิดีโอต้นฉบับสำหรับภาพที่มีความละเอียดดีกว่าและตัวอย่างอื่นๆ Source: https://www.youtube.com/watch?v=N–qC3T2wc4

เทคนิคนี้เรียกว่า End-to-End framework for Flow-Guided video Inpainting (E²FGVI) ยังสามารถลบเครื่องหมายน้ำและชนิดของการบดบังอื่นๆ ออกจากเนื้อหาวิดีโอได้

E2FGVI คำนวณการคาดการณ์สำหรับเนื้อหาที่อยู่เบื้องหลังการบดบัง ทำให้สามารถลบเครื่องหมายน้ำที่มีชื่อเสียงและยากจะเอาชนะได้ Source: https://github.com/MCG-NKU/E2FGVI

(ดูตัวอย่างเพิ่มเติมในความละเอียดที่ดีกว่า ที่ วิดีโอ)

แม้ว่าโมเดลที่ปรากฏในเอกสารที่ตีพิมพ์จะถูกฝึกฝนในวิดีโอที่มีขนาด 432px x 240px (ขนาดการเข้าใช้ที่ต่ำทั่วไปที่จำกัดโดยพื้นที่ GPU เทียบกับขนาดแบตช์ที่เหมาะสมและปัจจัยอื่นๆ) แต่ผู้เขียนได้เปิดตัว E²FGVI-HQ ซึ่งสามารถจัดการวิดีโอได้ที่ความละเอียดที่ไม่แน่นอน

โค้ดสำหรับเวอร์ชันที่ใช้อยู่สามารถเข้าถึงได้ที่ GitHub ในขณะที่เวอร์ชัน HQ ที่เปิดตัวเมื่อวันอาทิตย์ที่ผ่านมา สามารถดาวน์โหลดได้จาก Google Drive และ Baidu Disk

เด็กยังคงอยู่ในภาพ

E²FGVI สามารถประมวลผลวิดีโอ 432×240 ที่ 0.12 วินาทีต่อเฟรมบน Titan XP GPU (12GB VRAM) และผู้เขียนรายงานว่าระบบทำงานเร็วกว่าวิธีการที่เป็นรัฐของศิลปะก่อนหน้านี้ที่ใช้ การไหลของแสง ถึง 15 เท่า

นักเทนนิสออกจากฉากอย่างไม่คาดคิด

ที่ทดสอบบนชุดข้อมูลมาตรฐานสำหรับสาขานี้ของการวิจัยสังเคราะห์ภาพ ระบบใหม่สามารถเอาชนะคู่แข่งในรอบการประเมินเชิงคุณภาพและเชิงปริมาณ

การทดสอบกับวิธีการก่อนหน้า Source: https://arxiv.org/pdf/2204.02663.pdf

เอกสาร เอกสาร มีชื่อว่า Towards An End-to-End Framework for Flow-Guided Video Inpainting และเป็นความร่วมมือระหว่างนักวิจัยสี่คนจาก Nankai University ร่วมกับนักวิจัยจาก Hisilicon Technologies

สิ่งที่หายไปในภาพนี้

นอกจากการประยุกต์ใช้ที่ชัดเจนสำหรับผลกระทบทางภาพแล้ว การ inpainting วิดีโอที่มีคุณภาพสูงกำลังจะกลายเป็นคุณลักษณะที่กำหนดของเทคโนโลยีการสังเคราะห์ภาพและเทคโนโลยีการเปลี่ยนแปลงภาพที่ใช้ AI

สิ่งนี้เป็นกรณีเฉพาะสำหรับการใช้งานแฟชั่นที่เปลี่ยนแปลงรูปร่าง และเฟรมเวิร์กอื่นๆ ที่ พยายาม ‘ทำให้เล็กลง’ หรือเปลี่ยนแปลงฉากในภาพและวิดีโอ ในกรณีดังกล่าว จำเป็นต้อง ‘เติม’ พื้นหลังที่เปิดเผยโดยการสังเคราะห์ให้สมเหตุสมผล

จากเอกสารล่าสุด อัลกอริทึม ‘เปลี่ยนแปลงรูปร่าง’ มีหน้าที่ inpainting พื้นหลังที่เปิดเผยเมื่อเป้าหมายถูกปรับขนาด Based on source material from https://arxiv.org/pdf/2203.10496.pdf

การไหลของแสงแบบสอดคล้อง

การไหลของแสง (OF) ได้กลายเป็นเทคโนโลยีหลักในการพัฒนาการลบวัตถุออกจากวิดีโอ เช่น แผนที่ การไหลของแสงให้แผนที่การเคลื่อนไหวในลำดับเวลา Often ใช้เพื่อวัดความเร็วในการมองเห็นของ máy tính การไหลของแสงยังสามารถทำให้การ inpainting ที่สอดคล้องในแง่ของเวลา โดยที่ผลรวมของงานสามารถพิจารณาได้ในครั้งเดียว แทนที่จะใช้การดูแล ‘ต่อเฟรม’ แบบ Disney ซึ่งนำไปสู่การไม่สอดคล้องกันในแง่ของเวลา

วิธีการ inpainting วิดีโอที่ผ่านมาได้เน้นไปที่กระบวนการสามขั้นตอน: การเติมการไหล โดยที่วิดีโอที่ถูกแมปออกเป็นหน่วยที่แยกออกและสามารถสำรวจได้; การแพร่กระจายพิกเซล โดยที่รูใน ‘วิดีโอที่เสียหาย’ ถูกเติมโดยการแพร่กระจายพิกเซลไปในทิศทางที่ตรงกันข้าม; และ การสร้างเนื้อหาด้วยการคาดเดา (การ ‘คิดค้น’ พิกเซลที่คุ้นเคยสำหรับเราจาก deepfakes และเฟรมเวิร์ก text-to-image เช่น DALL-E) โดยที่เนื้อหาที่ ‘หายไป’ ถูกสร้างขึ้นและแทรกเข้าไปในวิดีโอ

นวัตกรรมหลักของ E²FGVI คือการรวมขั้นตอนเหล่านี้เข้าด้วยกันในระบบแบบ end-to-end ทำให้ไม่จำเป็นต้องดำเนินการด้วยมือบนเนื้อหาหรือกระบวนการ

เอกสารระบุว่าความจำเป็นในการแทรกแซงด้วยมือต้องใช้กระบวนการเก่าไม่ได้ใช้ GPU ทำให้ใช้เวลานาน จากเอกสาร*:

‘การนำ DFVI เป็นตัวอย่าง การเติมวิดีโอที่มีขนาด 432 × 240 จาก DAVIS ซึ่งมีประมาณ 70 เฟรม ต้องใช้เวลาประมาณ 4 นาที ซึ่งเป็นเวลาที่ไม่เหมาะสมสำหรับการใช้งานจริงส่วนใหญ่ นอกจากนี้ ยกเว้นข้อเสียที่กล่าวมาข้างต้น การใช้เครือข่าย inpainting ภาพที่ฝึกฝนไว้เพียงอย่างเดียวที่ขั้นตอนการสร้างเนื้อหาด้วยการคาดเดา ทำให้เนื้อหาที่สร้างขึ้นไม่สอดคล้องกันในวิดีโอ’

โดยการรวมขั้นตอนสามขั้นตอนของการ inpainting วิดีโอ E²FGVI สามารถแทนที่ขั้นตอนที่สอง การแพร่กระจายพิกเซล ด้วยการแพร่กระจายคุณลักษณะ ในกระบวนการที่แยกออกจากกันของงานก่อนหน้า คุณลักษณะไม่ได้มีอยู่อย่างกว้างขวาง เนื่องจากแต่ละขั้นตอนมีลักษณะเป็น hermetic และการทำงานเพียงครึ่งหนึ่ง

นอกจากนี้ ผู้วิจัยได้สร้าง การแปลงโฟกัสแบบชั่วคราว สำหรับขั้นตอนการสร้างเนื้อหาด้วยการคาดเดา ซึ่งพิจารณาไม่เพียง แต่เพื่อนบ้านโดยตรงของพิกเซลในเฟรมปัจจุบัน (เช่น สิ่งที่เกิดขึ้นในบริเวณนั้นของเฟรมในภาพก่อนหน้าหรือภาพถัดไป) แต่ยังพิจารณาเพื่อนบ้านที่อยู่ห่างออกไปซึ่งจะส่งผลต่อผลกระทบของการดำเนินการใดๆ ที่ดำเนินการในวิดีโอทั้งหมด

สถาปัตยกรรมของ E2FGVI.

ส่วนกลางของกระบวนการที่ใช้คุณลักษณะใหม่นี้สามารถใช้กระบวนการระดับคุณลักษณะและออฟเซตการ lấy mẫuที่เรียนรู้ได้ ในขณะที่การแปลงโฟกัสใหม่ของโครงการสามารถขยายขนาดของหน้าต่างโฟกัส ‘จาก 2D เป็น 3D’

การทดสอบและข้อมูล

ในการทดสอบ E²FGVI ผู้วิจัยประเมินระบบกับชุดข้อมูลการแบ่งวิดีโออย่าง YouTube-VOS และ DAVIS YouTube-VOS มีคลิปวิดีโอที่ใช้ในการฝึกฝน 3741 คลิป คลิปที่ใช้ในการตรวจสอบ 474 คลิป และคลิปที่ใช้ในการทดสอบ 508 คลิป ในขณะที่ DAVIS มีคลิปวิดีโอที่ใช้ในการฝึกฝน 60 คลิป และคลิปที่ใช้ในการทดสอบ 90 คลิป

E²FGVI ถูกฝึกฝนบน YouTube-VOS และประเมินบนชุดข้อมูลทั้งสอง ระหว่างการฝึกฝน มาสก์วัตถุ (พื้นที่สีเขียวในภาพด้านบน และ วิดีโอที่เกี่ยวข้อง) ถูกสร้างขึ้นเพื่อจำลองการเติมวิดีโอ

สำหรับมาตรการ ผู้วิจัยใช้ Peak signal-to-noise ratio (PSNR) Structural similarity (SSIM) Video-based Fréchet Inception Distance (VFID) และ Flow Warping Error – สุดท้ายเพื่อวัดความเสถียรในแง่ของเวลาของวิดีโอที่ได้รับผลกระทบ

สถาปัตยกรรมก่อนหน้าที่ระบบถูกทดสอบคือ VINet DFVI LGTSM CAP FGVC STTN และ FuseFormer

จากส่วนผลลัพธ์เชิงปริมาณของเอกสาร สัญลักษณ์화살ึ้งและลงบ่งชี้ว่าตัวเลขที่สูงกว่าหรือต่ำกว่านั้นดีกว่าตามลำดับ E2FGVI ได้รับคะแนนสูงสุดในทุกด้าน

นอกจากการได้รับคะแนนสูงสุดในทุกด้านแล้ว ผู้วิจัยยังได้ทำการตรวจสอบคุณภาพผู้ใช้ โดยที่วิดีโอที่เปลี่ยนแปลงด้วยวิธีการที่เป็นตัวแทน 5 วิธีถูกแสดงให้กับผู้เข้าร่วม 20 คน ซึ่งถูกขอให้ให้คะแนนตามคุณภาพทางภาพ

แกนแนวตั้งแสดงถึงเปอร์เซ็นต์ของผู้เข้าร่วมที่ชอบผลลัพธ์ของ E2FGVI ในแง่ของคุณภาพทางภาพ

แกนแนวตั้งแสดงถึงเปอร์เซ็นต์ของผู้เข้าร่วมที่ชอบผลลัพธ์ของ E²FGVI ในแง่ของคุณภาพทางภาพ

ผู้เขียนสังเกตว่าแม้ว่าจะมีการชอบอย่างเป็นเอกฉันท์สำหรับวิธีการของตน แต่หนึ่งในผลลัพธ์ FGVC ไม่สะท้อนถึงผลลัพธ์เชิงปริมาณ และพวกเขาชี้ให้เห็นว่านี่อาจบ่งบอกได้ว่า E²FGVI อาจ ‘สร้างผลลัพธ์ที่น่าดู’ อย่างไม่สมจริง

ในแง่ของประสิทธิภาพ ผู้เขียนสังเกตว่าระบบของพวกเขาลดการดำเนินการแบบลอยตัว (FLOPs) และเวลาการอนุมานบน GPU Titan เดียวในชุดข้อมูล DAVIS และสังเกตว่าผลลัพธ์แสดงให้เห็นว่า E²FGVI ทำงานเร็วกว่าวิธีการที่ใช้การไหลของแสงถึง 15 เท่า

พวกเขากล่าวว่า:

‘[E²FGVI] มี FLOPs ต่ำที่สุดเมื่อเทียบกับวิธีการอื่นๆ ซึ่งบ่งชี้ว่าวิธีการที่เสนอเป็นไปอย่างมีประสิทธิภาพสูงสำหรับการ inpainting วิดีโอ’

*การแปลงอ้างอิงภายในของฉันให้เป็นลิงก์

ตีพิมพ์ครั้งแรกเมื่อวันที่ 19 พฤษภาคม 2022

แก้ไขเมื่อวันอังคารที่ 28 ตุลาคม 2025 เพื่อลบการฝังวิดีโอที่เสียหายและแก้ไขการอ้างอิงถึงวิดีโอที่ฝังในเนื้อหาของบทความ