ปัญญาประดิษฐ์
การลบวัตถุออกจากวิดีโอได้อย่างมีประสิทธิภาพมากขึ้นด้วย Machine Learning

การวิจัยใหม่จากประเทศจีนรายงานผลลัพธ์ที่เป็นรัฐของศิลปะ – เช่นเดียวกับการปรับปรุงประสิทธิภาพที่น่าประทับใจ – สำหรับระบบวิดีโอ inpainting ใหม่ที่สามารถลบวัตถุออกจากวิดีโอได้อย่างชำนาญ

อุปกรณ์ยึดติดของนักบินเลื่อนเป็นภาพที่ถูกทาออกโดยขั้นตอนใหม่ ดูวิดีโอต้นฉบับสำหรับภาพที่มีความละเอียดดีกว่าและตัวอย่างอื่นๆ Source: https://www.youtube.com/watch?v=N–qC3T2wc4
เทคนิคนี้เรียกว่า End-to-End framework for Flow-Guided video Inpainting (E2FGVI) ยังสามารถลบเครื่องหมายน้ำและชนิดของการบดบังอื่นๆ ออกจากเนื้อหาวิดีโอได้

E2FGVI คำนวณการคาดการณ์สำหรับเนื้อหาที่อยู่เบื้องหลังการบดบัง ทำให้สามารถลบเครื่องหมายน้ำที่มีชื่อเสียงและยากจะเอาชนะได้ Source: https://github.com/MCG-NKU/E2FGVI
(ดูตัวอย่างเพิ่มเติมในความละเอียดที่ดีกว่า ที่ วิดีโอ)
แม้ว่าโมเดลที่ปรากฏในเอกสารที่ตีพิมพ์จะถูกฝึกฝนในวิดีโอที่มีขนาด 432px x 240px (ขนาดการเข้าใช้ที่ต่ำทั่วไปที่จำกัดโดยพื้นที่ GPU เทียบกับขนาดแบตช์ที่เหมาะสมและปัจจัยอื่นๆ) แต่ผู้เขียนได้เปิดตัว E2FGVI-HQ ซึ่งสามารถจัดการวิดีโอได้ที่ความละเอียดที่ไม่แน่นอน
โค้ดสำหรับเวอร์ชันที่ใช้อยู่สามารถเข้าถึงได้ที่ GitHub ในขณะที่เวอร์ชัน HQ ที่เปิดตัวเมื่อวันอาทิตย์ที่ผ่านมา สามารถดาวน์โหลดได้จาก Google Drive และ Baidu Disk

เด็กยังคงอยู่ในภาพ
E2FGVI สามารถประมวลผลวิดีโอ 432×240 ที่ 0.12 วินาทีต่อเฟรมบน Titan XP GPU (12GB VRAM) และผู้เขียนรายงานว่าระบบทำงานเร็วกว่าวิธีการที่เป็นรัฐของศิลปะก่อนหน้านี้ที่ใช้ การไหลของแสง ถึง 15 เท่า

นักเทนนิสออกจากฉากอย่างไม่คาดคิด
ที่ทดสอบบนชุดข้อมูลมาตรฐานสำหรับสาขานี้ของการวิจัยสังเคราะห์ภาพ ระบบใหม่สามารถเอาชนะคู่แข่งในรอบการประเมินเชิงคุณภาพและเชิงปริมาณ

การทดสอบกับวิธีการก่อนหน้า Source: https://arxiv.org/pdf/2204.02663.pdf
เอกสาร เอกสาร มีชื่อว่า Towards An End-to-End Framework for Flow-Guided Video Inpainting และเป็นความร่วมมือระหว่างนักวิจัยสี่คนจาก Nankai University ร่วมกับนักวิจัยจาก Hisilicon Technologies
สิ่งที่หายไปในภาพนี้
นอกจากการประยุกต์ใช้ที่ชัดเจนสำหรับผลกระทบทางภาพแล้ว การ inpainting วิดีโอที่มีคุณภาพสูงกำลังจะกลายเป็นคุณลักษณะที่กำหนดของเทคโนโลยีการสังเคราะห์ภาพและเทคโนโลยีการเปลี่ยนแปลงภาพที่ใช้ AI
สิ่งนี้เป็นกรณีเฉพาะสำหรับการใช้งานแฟชั่นที่เปลี่ยนแปลงรูปร่าง และเฟรมเวิร์กอื่นๆ ที่ พยายาม ‘ทำให้เล็กลง’ หรือเปลี่ยนแปลงฉากในภาพและวิดีโอ ในกรณีดังกล่าว จำเป็นต้อง ‘เติม’ พื้นหลังที่เปิดเผยโดยการสังเคราะห์ให้สมเหตุสมผล

จากเอกสารล่าสุด อัลกอริทึม ‘เปลี่ยนแปลงรูปร่าง’ มีหน้าที่ inpainting พื้นหลังที่เปิดเผยเมื่อเป้าหมายถูกปรับขนาด Based on source material from https://arxiv.org/pdf/2203.10496.pdf
การไหลของแสงแบบสอดคล้อง
การไหลของแสง (OF) ได้กลายเป็นเทคโนโลยีหลักในการพัฒนาการลบวัตถุออกจากวิดีโอ เช่น แผนที่ การไหลของแสงให้แผนที่การเคลื่อนไหวในลำดับเวลา Often ใช้เพื่อวัดความเร็วในการมองเห็นของ máy tính การไหลของแสงยังสามารถทำให้การ inpainting ที่สอดคล้องในแง่ของเวลา โดยที่ผลรวมของงานสามารถพิจารณาได้ในครั้งเดียว แทนที่จะใช้การดูแล ‘ต่อเฟรม’ แบบ Disney ซึ่งนำไปสู่การไม่สอดคล้องกันในแง่ของเวลา
วิธีการ inpainting วิดีโอที่ผ่านมาได้เน้นไปที่กระบวนการสามขั้นตอน: การเติมการไหล โดยที่วิดีโอที่ถูกแมปออกเป็นหน่วยที่แยกออกและสามารถสำรวจได้; การแพร่กระจายพิกเซล โดยที่รูใน ‘วิดีโอที่เสียหาย’ ถูกเติมโดยการแพร่กระจายพิกเซลไปในทิศทางที่ตรงกันข้าม; และ การสร้างเนื้อหาด้วยการคาดเดา (การ ‘คิดค้น’ พิกเซลที่คุ้นเคยสำหรับเราจาก deepfakes และเฟรมเวิร์ก text-to-image เช่น DALL-E) โดยที่เนื้อหาที่ ‘หายไป’ ถูกสร้างขึ้นและแทรกเข้าไปในวิดีโอ
นวัตกรรมหลักของ E2FGVI คือการรวมขั้นตอนเหล่านี้เข้าด้วยกันในระบบแบบ end-to-end ทำให้ไม่จำเป็นต้องดำเนินการด้วยมือบนเนื้อหาหรือกระบวนการ

เอกสารระบุว่าความจำเป็นในการแทรกแซงด้วยมือต้องใช้กระบวนการเก่าไม่ได้ใช้ GPU ทำให้ใช้เวลานาน จากเอกสาร*:
‘การนำ DFVI เป็นตัวอย่าง การเติมวิดีโอที่มีขนาด 432 × 240 จาก DAVIS ซึ่งมีประมาณ 70 เฟรม ต้องใช้เวลาประมาณ 4 นาที ซึ่งเป็นเวลาที่ไม่เหมาะสมสำหรับการใช้งานจริงส่วนใหญ่ นอกจากนี้ ยกเว้นข้อเสียที่กล่าวมาข้างต้น การใช้เครือข่าย inpainting ภาพที่ฝึกฝนไว้เพียงอย่างเดียวที่ขั้นตอนการสร้างเนื้อหาด้วยการคาดเดา ทำให้เนื้อหาที่สร้างขึ้นไม่สอดคล้องกันในวิดีโอ’
โดยการรวมขั้นตอนสามขั้นตอนของการ inpainting วิดีโอ E2FGVI สามารถแทนที่ขั้นตอนที่สอง การแพร่กระจายพิกเซล ด้วยการแพร่กระจายคุณลักษณะ ในกระบวนการที่แยกออกจากกันของงานก่อนหน้า คุณลักษณะไม่ได้มีอยู่อย่างกว้างขวาง เนื่องจากแต่ละขั้นตอนมีลักษณะเป็น hermetic และการทำงานเพียงครึ่งหนึ่ง
นอกจากนี้ ผู้วิจัยได้สร้าง การแปลงโฟกัสแบบชั่วคราว สำหรับขั้นตอนการสร้างเนื้อหาด้วยการคาดเดา ซึ่งพิจารณาไม่เพียง แต่เพื่อนบ้านโดยตรงของพิกเซลในเฟรมปัจจุบัน (เช่น สิ่งที่เกิดขึ้นในบริเวณนั้นของเฟรมในภาพก่อนหน้าหรือภาพถัดไป) แต่ยังพิจารณาเพื่อนบ้านที่อยู่ห่างออกไปซึ่งจะส่งผลต่อผลกระทบของการดำเนินการใดๆ ที่ดำเนินการในวิดีโอทั้งหมด
ส่วนกลางของกระบวนการที่ใช้คุณลักษณะใหม่นี้สามารถใช้กระบวนการระดับคุณลักษณะและออฟเซตการ lấy mẫuที่เรียนรู้ได้ ในขณะที่การแปลงโฟกัสใหม่ของโครงการสามารถขยายขนาดของหน้าต่างโฟกัส ‘จาก 2D เป็น 3D’
การทดสอบและข้อมูล
ในการทดสอบ E2FGVI ผู้วิจัยประเมินระบบกับชุดข้อมูลการแบ่งวิดีโออย่าง YouTube-VOS และ DAVIS YouTube-VOS มีคลิปวิดีโอที่ใช้ในการฝึกฝน 3741 คลิป คลิปที่ใช้ในการตรวจสอบ 474 คลิป และคลิปที่ใช้ในการทดสอบ 508 คลิป ในขณะที่ DAVIS มีคลิปวิดีโอที่ใช้ในการฝึกฝน 60 คลิป และคลิปที่ใช้ในการทดสอบ 90 คลิป
E2FGVI ถูกฝึกฝนบน YouTube-VOS และประเมินบนชุดข้อมูลทั้งสอง ระหว่างการฝึกฝน มาสก์วัตถุ (พื้นที่สีเขียวในภาพด้านบน และ วิดีโอที่เกี่ยวข้อง) ถูกสร้างขึ้นเพื่อจำลองการเติมวิดีโอ
สำหรับมาตรการ ผู้วิจัยใช้ Peak signal-to-noise ratio (PSNR) Structural similarity (SSIM) Video-based Fréchet Inception Distance (VFID) และ Flow Warping Error – สุดท้ายเพื่อวัดความเสถียรในแง่ของเวลาของวิดีโอที่ได้รับผลกระทบ
สถาปัตยกรรมก่อนหน้าที่ระบบถูกทดสอบคือ VINet DFVI LGTSM CAP FGVC STTN และ FuseFormer

จากส่วนผลลัพธ์เชิงปริมาณของเอกสาร สัญลักษณ์화살ึ้งและลงบ่งชี้ว่าตัวเลขที่สูงกว่าหรือต่ำกว่านั้นดีกว่าตามลำดับ E2FGVI ได้รับคะแนนสูงสุดในทุกด้าน
นอกจากการได้รับคะแนนสูงสุดในทุกด้านแล้ว ผู้วิจัยยังได้ทำการตรวจสอบคุณภาพผู้ใช้ โดยที่วิดีโอที่เปลี่ยนแปลงด้วยวิธีการที่เป็นตัวแทน 5 วิธีถูกแสดงให้กับผู้เข้าร่วม 20 คน ซึ่งถูกขอให้ให้คะแนนตามคุณภาพทางภาพ

แกนแนวตั้งแสดงถึงเปอร์เซ็นต์ของผู้เข้าร่วมที่ชอบผลลัพธ์ของ E2FGVI ในแง่ของคุณภาพทางภาพ
ผู้เขียนสังเกตว่าแม้ว่าจะมีการชอบอย่างเป็นเอกฉันท์สำหรับวิธีการของตน แต่หนึ่งในผลลัพธ์ FGVC ไม่สะท้อนถึงผลลัพธ์เชิงปริมาณ และพวกเขาชี้ให้เห็นว่านี่อาจบ่งบอกได้ว่า E2FGVI อาจ ‘สร้างผลลัพธ์ที่น่าดู’ อย่างไม่สมจริง
ในแง่ของประสิทธิภาพ ผู้เขียนสังเกตว่าระบบของพวกเขาลดการดำเนินการแบบลอยตัว (FLOPs) และเวลาการอนุมานบน GPU Titan เดียวในชุดข้อมูล DAVIS และสังเกตว่าผลลัพธ์แสดงให้เห็นว่า E2FGVI ทำงานเร็วกว่าวิธีการที่ใช้การไหลของแสงถึง 15 เท่า
พวกเขากล่าวว่า:
‘[E2FGVI] มี FLOPs ต่ำที่สุดเมื่อเทียบกับวิธีการอื่นๆ ซึ่งบ่งชี้ว่าวิธีการที่เสนอเป็นไปอย่างมีประสิทธิภาพสูงสำหรับการ inpainting วิดีโอ’
*การแปลงอ้างอิงภายในของฉันให้เป็นลิงก์
ตีพิมพ์ครั้งแรกเมื่อวันที่ 19 พฤษภาคม 2022
แก้ไขเมื่อวันอังคารที่ 28 ตุลาคม 2025 เพื่อลบการฝังวิดีโอที่เสียหายและแก้ไขการอ้างอิงถึงวิดีโอที่ฝังในเนื้อหาของบทความ













