ปัญญาประดิษฐ์

การลบวัตถุออกจากวิดีโออย่างมีประสิทธิภาพยิ่งขึ้นด้วยการเรียนรู้ของเครื่อง

วันที่อัพเดท on December 9, 2022

งานวิจัยใหม่จากประเทศจีนรายงานผลลัพธ์ที่ล้ำสมัย – เช่นเดียวกับการปรับปรุงประสิทธิภาพที่น่าประทับใจ – สำหรับระบบการลงสีวิดีโอใหม่ที่สามารถลบวัตถุออกจากฟุตเทจได้อย่างคล่องแคล่ว

สายรัดของเครื่องร่อนได้รับการทาสีใหม่ตามขั้นตอน ดูวิดีโอต้นฉบับ (ฝังอยู่ที่ด้านล่างของบทความนี้) เพื่อความละเอียดที่ดีขึ้นและตัวอย่างเพิ่มเติม ที่มา: https://www.youtube.com/watch?v=N–qC3T2wc4

เทคนิคที่เรียกว่า End-to-End framework สำหรับ Flow-Guided video Inpainting (E²เอฟจีวีไอ) ยังสามารถลบลายน้ำและการบดบังประเภทอื่นๆ ออกจากเนื้อหาวิดีโอได้อีกด้วย

E2FGVI คำนวณการคาดคะเนสำหรับเนื้อหาที่อยู่เบื้องหลังการบดบัง ทำให้สามารถลบแม้กระทั่งลายน้ำที่โดดเด่นและเข้าใจยากได้ ที่มา: https://github.com/MCG-NKU/E2FGVI

E2FGVI คำนวณการคาดคะเนสำหรับเนื้อหาที่อยู่เบื้องหลังการบดบัง ทำให้สามารถลบลายน้ำที่โดดเด่นและยากจะเข้าใจได้ ที่มา: https://github.com/MCG-NKU/E2FGVI

หากต้องการดูตัวอย่างเพิ่มเติมด้วยความละเอียดที่ดีขึ้น โปรดดูวิดีโอที่ฝังอยู่ที่ส่วนท้ายของบทความ

แม้ว่าโมเดลที่นำเสนอในเอกสารที่ตีพิมพ์นั้นได้รับการฝึกฝนบนวิดีโอขนาด 432px x 240px (โดยทั่วไปขนาดอินพุตต่ำ ถูกจำกัดโดยพื้นที่ GPU ที่มีอยู่ เทียบกับขนาดแบทช์ที่เหมาะสมและปัจจัยอื่นๆ) ผู้เขียนได้เผยแพร่ตั้งแต่นั้นเป็นต้นมา E²FGVI-กองบัญชาการซึ่งสามารถจัดการวิดีโอด้วยความละเอียดตามอำเภอใจ

รหัสสำหรับเวอร์ชันปัจจุบันคือ ใช้ได้ ที่ GitHub ในขณะที่เวอร์ชัน HQ ซึ่งเผยแพร่เมื่อวันอาทิตย์ที่ผ่านมาสามารถดาวน์โหลดได้จาก Google ไดรฟ์ และ ไป่ตู้ดิสก์.

เด็กอยู่ในภาพ

E²FGVI สามารถประมวลผลวิดีโอ 432×240 ที่ 0.12 วินาทีต่อเฟรมบน Titan XP GPU (12GB VRAM) และผู้เขียนรายงานว่าระบบทำงานได้เร็วกว่าวิธีการอันล้ำสมัยก่อนหน้าถึงสิบห้าเท่า การไหลของแสง.

นักเทนนิสออกตัวโดยไม่คาดคิด

จากการทดสอบชุดข้อมูลมาตรฐานสำหรับภาคย่อยของการวิจัยการสังเคราะห์ภาพ วิธีการใหม่นี้สามารถทำได้ดีกว่าคู่แข่งทั้งในรอบการประเมินเชิงคุณภาพและเชิงปริมาณ

ทดสอบกับวิธีการก่อนหน้านี้ ที่มา: https://arxiv.org/pdf/2204.02663.pdf

พื้นที่ กระดาษ มีบรรดาศักดิ์ มุ่งสู่เฟรมเวิร์กแบบ end-to-end สำหรับการลงสีวิดีโอแบบ Flow-Guidedและเป็นความร่วมมือระหว่างนักวิจัย XNUMX คนจากมหาวิทยาลัย Nankai ร่วมกับนักวิจัยจาก Hisilicon Technologies

สิ่งที่หายไปในภาพนี้

นอกเหนือจากการใช้งานที่ชัดเจนสำหรับวิชวลเอฟเฟ็กต์แล้ว การระบายสีวิดีโอคุณภาพสูงยังถูกกำหนดให้เป็นคุณลักษณะหลักที่กำหนดของเทคโนโลยีการสังเคราะห์รูปภาพและการปรับเปลี่ยนรูปภาพโดยใช้ AI ใหม่

โดยเฉพาะอย่างยิ่งในกรณีของแอพพลิเคชั่นแฟชั่นดัดแปลงร่างกายและกรอบงานอื่นๆ พยายามที่จะ 'ผอมลง' หรือเปลี่ยนฉากในภาพและวิดีโอ ในกรณีเช่นนี้ จำเป็นต้อง 'เติม' พื้นหลังเพิ่มเติมที่เปิดเผยโดยการสังเคราะห์อย่างน่าเชื่อถือ

จากบทความล่าสุด อัลกอริธึม 'การปรับรูปร่าง' ของร่างกายได้รับมอบหมายให้ทาสีพื้นหลังที่เพิ่งเปิดเผยเมื่อวัตถุถูกปรับขนาด ที่นี่ ความขาดแคลนนั้นแสดงด้วยโครงร่างสีแดงที่บุคคลรูปร่างท้วม (ในชีวิตจริง ดูภาพซ้าย) เคยครอบครอง อิงจากแหล่งข้อมูลจาก https://arxiv.org/pdf/2203.10496.pdf

การไหลของแสงที่สอดคล้องกัน

การไหลของแสง (OF) กลายเป็นเทคโนโลยีหลักในการพัฒนาการลบวัตถุวิดีโอ เช่นเดียวกับ สมุดแผนที่, OF จัดให้มีแผนที่แบบ one-shot ของลำดับเวลา มักใช้ในการวัดความเร็วในโครงการริเริ่มด้านการมองเห็นด้วยคอมพิวเตอร์ OF ยังช่วยให้สามารถวาดภาพในภาพวาดที่มีความสอดคล้องชั่วคราว โดยที่ผลรวมรวมของงานสามารถพิจารณาได้ในการส่งผ่านครั้งเดียว แทนที่จะเป็นความสนใจ 'ต่อเฟรม' แบบดิสนีย์ ซึ่งนำไปสู่อย่างหลีกเลี่ยงไม่ได้ ไปสู่ความไม่ต่อเนื่องชั่วคราว

วิธีการลงสีด้วยวิดีโอจนถึงปัจจุบันมีศูนย์กลางอยู่ที่กระบวนการสามขั้นตอน: เสร็จสิ้นการไหลซึ่งโดยหลักแล้ววิดีโอจะถูกแมปออกเป็นเอนทิตีที่แยกจากกันและสำรวจได้ การแพร่กระจายพิกเซลโดยที่ช่องโหว่ในวิดีโอที่ 'เสียหาย' ถูกเติมเต็มด้วยพิกเซลที่เผยแพร่แบบสองทิศทาง และ ภาพหลอนเนื้อหา ('สิ่งประดิษฐ์' พิกเซลที่พวกเราส่วนใหญ่คุ้นเคยจาก Deepfakes และเฟรมเวิร์กการแปลงข้อความเป็นรูปภาพ เช่น ซีรีส์ DALL-E) ซึ่งเนื้อหาที่ 'หายไป' โดยประมาณถูกคิดค้นและแทรกลงในวิดีโอ

นวัตกรรมหลักของ E²FGVI คือการรวมขั้นตอนทั้งสามนี้เข้าไว้ในระบบแบบ end-to-end โดยไม่จำเป็นต้องดำเนินการด้วยตนเองกับเนื้อหาหรือกระบวนการ

กระดาษตั้งข้อสังเกตว่าความจำเป็นในการแทรกแซงด้วยตนเองทำให้กระบวนการที่เก่ากว่าไม่ใช้ประโยชน์จาก GPU ทำให้ใช้เวลานานมาก จากกระดาษ*:

'การเอาไป ดีเอฟวีไอ ตัวอย่างเช่น กรอกหนึ่งวิดีโอที่มีขนาด 432 × 240 จาก DAVISซึ่งมีประมาณ 70 เฟรม ใช้เวลาประมาณ 4 นาที ซึ่งไม่เป็นที่ยอมรับในการใช้งานจริงส่วนใหญ่ นอกจากนี้ ยกเว้นข้อเสียที่กล่าวถึงข้างต้น เฉพาะการใช้เครือข่ายการระบายสีภาพที่ผ่านการฝึกอบรมมาแล้วในขั้นตอนภาพหลอนของเนื้อหาเท่านั้นที่ไม่สนใจความสัมพันธ์ของเนื้อหาในเพื่อนบ้านชั่วคราว ซึ่งนำไปสู่เนื้อหาที่สร้างขึ้นในวิดีโอที่ไม่สอดคล้องกัน'

ด้วยการรวมสามขั้นตอนของการลงสีด้วยวิดีโอเข้าด้วยกัน E²FGVI สามารถแทนที่ระยะที่สอง การขยายพิกเซล ด้วยการขยายคุณสมบัติ ในกระบวนการที่แบ่งส่วนมากขึ้นของงานก่อนหน้านี้ ฟีเจอร์ต่างๆ จะไม่สามารถใช้ได้มากนัก เนื่องจากแต่ละขั้นตอนค่อนข้างปิดสนิท และเวิร์กโฟลว์จะเป็นแบบกึ่งอัตโนมัติเท่านั้น

นอกจากนี้ นักวิจัยยังได้คิดค้นก หม้อแปลงโฟกัสชั่วขณะ สำหรับขั้นการหลอนเนื้อหา ซึ่งไม่พิจารณาเฉพาะเพื่อนบ้านโดยตรงของพิกเซลในเฟรมปัจจุบัน (เช่น สิ่งที่เกิดขึ้นในส่วนนั้นของเฟรมในภาพก่อนหน้าหรือภาพถัดไป) แต่ยังรวมถึงเพื่อนบ้านที่อยู่ห่างไกลซึ่งอยู่ห่างออกไปหลายเฟรมด้วย และ แต่จะมีอิทธิพลต่อการทำงานร่วมกันของการดำเนินการใด ๆ ที่ทำกับวิดีโอโดยรวม

สถาปัตยกรรมของ E2FGVI

ส่วนศูนย์กลางตามคุณลักษณะใหม่ของเวิร์กโฟลว์สามารถใช้ประโยชน์จากกระบวนการระดับคุณลักษณะที่มากขึ้นและการชดเชยการสุ่มตัวอย่างที่เรียนรู้ได้ ในขณะที่ Focal Transformer แบบใหม่ของโครงการ ผู้เขียนกล่าวว่าขยายขนาดของหน้าต่างโฟกัส 'จาก 2D เป็น 3D' .

การทดสอบและข้อมูล

เพื่อทดสอบ E²FGVI นักวิจัยประเมินระบบกับชุดข้อมูลการแบ่งส่วนวิดีโอยอดนิยมสองชุด: YouTube-VOSและ DAVIS. YouTube-VOS มีคลิปวิดีโอการฝึกอบรม 3741 คลิป คลิปการตรวจสอบ 474 คลิป และคลิปทดสอบ 508 คลิป ขณะที่ DAVIS มีคลิปวิดีโอการฝึกอบรม 60 คลิป และคลิปทดสอบ 90 คลิป

E²FGVI ได้รับการฝึกอบรมเกี่ยวกับ YouTube-VOS และได้รับการประเมินจากชุดข้อมูลทั้งสอง ในระหว่างการฝึกอบรม มีการสร้างออปเจกต์มาสก์ (พื้นที่สีเขียวในภาพด้านบน และวิดีโอแบบฝังด้านล่าง) เพื่อจำลองความสมบูรณ์ของวิดีโอ

สำหรับเมตริก นักวิจัยได้ใช้อัตราส่วนสัญญาณต่อสัญญาณรบกวนสูงสุด (PSNR) ความคล้ายคลึงกันของโครงสร้าง (SSIM) ระยะเริ่มต้นของวิดีโอ Fréchet Inception Distance (VFID) และ Flow Warping Error ซึ่งเป็นวิธีหลังในการวัดความเสถียรทางโลกในวิดีโอที่ได้รับผลกระทบ

สถาปัตยกรรมก่อนหน้านี้ที่มีการทดสอบระบบคือ วินเน็ต, ดีเอฟวีไอ, แอลจีทีเอสเอ็ม, CAP, เอฟจีวีซี, สททและ ฟิวส์ฟอร์เมอร์.

จากส่วนผลลัพธ์เชิงปริมาณของกระดาษ ลูกศรขึ้นและลงแสดงว่าตัวเลขสูงหรือต่ำดีกว่าตามลำดับ E2FGVI ได้รับคะแนนสูงสุดทั่วทั้งกระดาน วิธีการได้รับการประเมินตาม FuseFormer แม้ว่า DFVI, VINet และ FGVC จะไม่ใช่ระบบแบบ end-to-end ทำให้ไม่สามารถประเมิน FLOP ได้

นอกเหนือจากการได้รับคะแนนสูงสุดเมื่อเทียบกับระบบที่แข่งขันกันทั้งหมดแล้ว นักวิจัยยังได้ทำการศึกษาผู้ใช้เชิงคุณภาพ โดยแสดงวิดีโอที่เปลี่ยนรูปแบบด้วยวิธีตัวแทน XNUMX วิธีแยกกันให้กับอาสาสมัคร XNUMX คน ซึ่งถูกขอให้ให้คะแนนในด้านคุณภาพของภาพ

แกนตั้งแสดงเปอร์เซ็นต์ของผู้เข้าร่วมที่ต้องการเอาต์พุต E2FGVI ในแง่ของคุณภาพของภาพ

แกนตั้งแสดงเปอร์เซ็นต์ของผู้เข้าร่วมที่ต้องการ E²เอาต์พุต FGVI ในแง่ของคุณภาพของภาพ

ผู้เขียนทราบว่าแม้จะมีความเห็นชอบเป็นเอกฉันท์สำหรับวิธีการของพวกเขา แต่หนึ่งในผลลัพธ์ FGVC ไม่ได้สะท้อนถึงผลลัพธ์เชิงปริมาณ และพวกเขาแนะนำว่านี่บ่งชี้ว่า E²FGVI อาจสร้าง 'ผลลัพธ์ที่น่าพึงพอใจยิ่งขึ้น'

ในแง่ของประสิทธิภาพ ผู้เขียนทราบว่าระบบของพวกเขาลดการดำเนินการของจุดลอยตัวต่อวินาที (FLOPs) และเวลาอนุมานบน Titan GPU ตัวเดียวบนชุดข้อมูล DAVIS ลงอย่างมาก และสังเกตว่าผลลัพธ์แสดง E²FGVI ทำงานเร็วกว่าวิธีที่ใช้โฟลว์ x15

พวกเขาแสดงความคิดเห็น:

'[จ²FGVI] เก็บ FLOP ที่ต่ำที่สุดซึ่งตรงกันข้ามกับวิธีอื่นๆ ทั้งหมด สิ่งนี้บ่งชี้ว่าวิธีการที่เสนอนั้นมีประสิทธิภาพสูงสำหรับการลงสีวิดีโอ'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*การแปลงการอ้างอิงแบบอินไลน์ของผู้เขียนเป็นไฮเปอร์ลิงก์

เผยแพร่ครั้งแรก 19 พฤษภาคม 2022

หัวข้อที่เกี่ยวข้อง:การสังเคราะห์ภาพ การวิจัย หม้อแปลงไฟฟ้า วีดีโอ

ต่อไป

ตรวจจับบทวิจารณ์ออนไลน์ที่เป็นอันตราย 'มืออาชีพ' ด้วยการเรียนรู้ของเครื่อง

อย่าพลาด

เทคโนโลยีฮาร์ดแวร์ AI เลียนแบบการเปลี่ยนแปลงในโทโพโลยีโครงข่ายประสาทเทียม

Martin Anderson

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai

ยูไนเต็ด.เอไอ

การลบวัตถุออกจากวิดีโออย่างมีประสิทธิภาพยิ่งขึ้นด้วยการเรียนรู้ของเครื่อง

ปัญญาประดิษฐ์