ปัญญาประดิษฐ์

การแก้ไขวิดีโอ AI ที่สอดคล้องกันด้วยการนำเข้าข้อความ

Published April 7, 2022

Updated April 28, 2026

Martin Anderson

ในขณะที่ชุมชน VFX มืออาชีพตื่นเต้น – และบางครั้งรู้สึกถูกคุกคาม – โดยนวัตกรรมใหม่ๆ ในการสร้างภาพและวิดีโอ การขาดความต่อเนื่องทางเวลาในโครงการแก้ไขวิดีโอที่ใช้ AI ส่วนใหญ่ทำให้ความพยายามเหล่านี้อยู่ในด้าน “จิตบำบัด” ด้วยเนื้อหาที่เปลี่ยนแปลงอย่างรวดเร็วและเปลี่ยนแปลงอย่างรวดเร็ว เช่น สิ่งที่เปล่งแสงและเปลี่ยนแปลงอย่างรวดเร็ว และผลกระทบที่ไม่สอดคล้องกัน และเทคโนโลยีที่หยาบที่ทำให้นึกถึง ยุคฟิล์มโฟโต้เคมี ของเอฟเฟกต์ภาพ

หากคุณต้องการเปลี่ยนบางสิ่งที่เฉพาะเจาะจงในการแก้ไขวิดีโอที่ไม่อยู่ในด้านของ deepfakes (เช่น การกำหนดตัวตนใหม่ให้กับฟุตเทจที่มีอยู่ของบุคคล) วิธีแก้ปัญหาส่วนใหญ่ในปัจจุบันทำงานภายใต้ข้อจำกัดที่รุนแรงในแง่ของความแม่นยำที่จำเป็นสำหรับผลกระทบภาพที่มีคุณภาพการผลิต

หนึ่งในข้อยกเว้นคือการทำงานอย่างต่อเนื่องของนักวิจัยจากสถาบันวิทยาศาสตร์ Weizmann ในปี 2021 นักวิจัยสามคนจากสถาบันนี้ได้ร่วมมือกับ Adobe เพื่อ ประกาศ วิธีการใหม่สำหรับการแยกส่วนวิดีโอและวางแผนที่ภายในที่สอดคล้องกัน – layered neural atlas – ลงในเอาต์พุตที่ประกอบด้วยช่อง alpha และเอาต์พุตที่สอดคล้องกันในแง่ของเวลา

จากเอกสารปี 2021: การประมาณการของการเคลื่อนที่ที่สมบูรณ์ของถนนในคลิปต้นฉบับถูกแก้ไขผ่านเครือข่ายประสาทเทียมในลักษณะที่โดยปกติจะต้องใช้ rotoscoping และ match-moving อย่างกว้างขวาง เนื่องจากพื้นหลังและองค์ประกอบหน้าจัดการโดยเครือข่ายที่แตกต่างกัน มาสก์จริงๆ ‘อัตโนมัติ’ Source: https://layered-neural-atlases.github.io/

แม้ว่าจะอยู่ในด้านที่ครอบคลุมโดย optical flow ใน VFX pipelines แผนที่ที่มีหลายชั้นไม่มีเทียบเท่าในกระบวนการทำงาน CGI แบบดั้งเดิม เนื่องจากมันประกอบเป็น ‘แผนที่เนื้อหาเสมือน’ ที่สามารถสร้างและแก้ไขผ่านวิธีการซอฟต์แวร์แบบดั้งเดิมได้ ในรูปที่สองในรูปภาพด้านบน พื้นหลังของพื้นผิวถนนถูกแทนที่ (เป็นรูปภาพ) ทั่วระยะเวลาของวิดีโอ การเปลี่ยนแปลงภาพพื้นฐาน (รูปที่สามจากซ้ายในภาพด้านบน) ทำให้เกิดการเปลี่ยนแปลงที่สอดคล้องกันในพื้นหลัง

รูปภาพของ ‘แผนที่ที่ไม่มีการพับ’ ข้างต้นแสดงเฉพาะเฟรมที่ตีความได้ การเปลี่ยนแปลงที่สอดคล้องกันในเฟรมวิดีโอลูกฉบับใดๆ ถูกแมปกลับไปยังเฟรมต้นฉบับ โดยยังคงการบดบังและผลกระทบทางฉากที่จำเป็นอื่นๆ เช่น เงาหรือการสะท้อน

สถาปัตยกรรมหลักใช้ Multilayer Perceptron (MLP) เพื่อแสดงแผนที่ที่มีหลายชั้น ช่อง alpha และการแมปทั้งหมด ซึ่งได้รับการปรับให้เหมาะสมพร้อมกันและทั้งหมดในพื้นที่ 2 มิติ โดยไม่ต้องมีการรู้ล่วงหน้าเกี่ยวกับจุดเรขาคณิต 3 มิติ แผนที่ความลึก และสิ่งอื่นๆ ที่เกี่ยวข้องกับ CGI

แผนที่อ้างอิงของวัตถุแต่ละชิ้นสามารถเปลี่ยนแปลงได้อย่างน่าเชื่อถือ:

การเปลี่ยนแปลงที่สอดคล้องกันของวัตถุที่เคลื่อนที่ภายใต้โครงสร้างปี 2021. Source: https://www.youtube.com/watch?v=aQhakPFC4oQ

โดยพื้นฐานแล้ว ระบบปี 2021 นี้รวมการปรับแนวทางเรขาคณิต การเคลื่อนไหว การแมป การเปลี่ยนเนื้อหา และ rotoscoping เข้าด้วยกันในกระบวนการประสาทเทียมที่แยกจากกัน

Text2Live

นักวิจัยสามคนจากเอกสารปี 2021 ร่วมกับนักวิจัยจาก NVIDIA เป็นหนึ่งในผู้ร่วมให้ข้อมูลในการพัฒนาวิธีการใหม่ที่รวมพลังของแผนที่ที่มีหลายชั้นด้วยเทคโนโลยี CLIP ที่มีการควบคุมด้วยข้อความ ซึ่งได้รับความนิยมในขณะนี้ด้วยการเปิดตัว DALL-E 2 ของ OpenAI

สถาปัตยกรรมใหม่นี้มีชื่อว่า Text2Live และช่วยให้ผู้ใช้สามารถสร้างการแก้ไขที่เฉพาะเจาะจงในการแก้ไขวิดีโอตามข้อความ:

สองตัวอย่างของการแก้ไขหน้าจอ สำหรับการแก้ไขที่ดีขึ้นและชัดเจนยิ่งขึ้น โปรดดูที่วิดีโอเดิมที่ https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live มีการแก้ไขแบบอัตโนมัติและเฉพาะเจาะจงโดยไม่ต้องใช้เครื่องกำเนิดที่ได้รับการฝึกอบรมล่วงหน้า โดยใช้ฐานข้อมูลภายในที่เฉพาะเจาะจงสำหรับคลิปวิดีโอที่ได้รับผลกระทบ

การเปลี่ยนแปลงพื้นหลังและหน้าจอ (วัตถุ) ภายใต้ Text2Live. Source: https://text2live.github.io/sm/pages/video_results_atlases.html

เทคนิคนี้ไม่ต้องการมาสก์ที่ผู้ใช้ให้มา เช่น การทำงานแบบ rotoscoping หรือ green-screen ทั่วไป แต่ประมาณการ แผนที่ความเกี่ยวข้อง ผ่านเทคนิคการเริ่มต้นด้วย การวิจัยปี 2021 จาก School of Computer Science ที่ Tel Aviv University และ Facebook AI Research (FAIR)

แผนที่ที่สร้างขึ้นผ่านโมเดลการดึงความสนใจทั่วไปแบบทรานส์ฟอร์เมอร์.

เอกสารใหม่ เอกสาร มีชื่อว่า Text2LIVE: Text-Driven Layered Image and Video Editing ทีมดั้งเดิมปี 2021 ได้ร่วมมือกับ Omer Bar-Tal จาก Weizmann และ Yoni Kasten จาก NVIDIA Research

สถาปัตยกรรม

Text2Live ประกอบด้วยเครื่องกำเนิดที่ได้รับการฝึกอบรมจากภาพเดียวและข้อความที่กำหนดเป้าหมาย โมเดล CLIP ที่ได้รับการฝึกอบรมล่วงหน้าจาก 400 ล้านคู่ข้อความ/ภาพให้ข้อมูลภาพที่เกี่ยวข้องซึ่งการเปลี่ยนแปลงของผู้ใช้สามารถตีความได้

เครื่องกำเนิดรับภาพเข้า (เฟรม) และส่งออกชั้น RGBA ที่มีสารและข้อมูลความโปร่งใส ชั้นนี้ถูกประกอบเข้ากับวิดีโอเดิมพร้อมการเพิ่มเติม

ช่อง alpha ในชั้น RGBA ที่สร้างขึ้นให้ฟังก์ชันการประกอบภายในโดยไม่ต้องใช้เครื่องมือแบบดั้งเดิมที่เกี่ยวข้องกับซอฟต์แวร์แบบพิกเซล เช่น After Effects.

โดยการฝึกอบรมจากภาพภายในที่เกี่ยวข้องกับวิดีโอหรือรูปภาพเป้าหมาย Text2Live หลีกเลี่ยงการเปลี่ยนแปลงภาพเข้าไปในพื้นที่ 潛ของเครือข่าย Generative Adversarial (GAN) ซึ่งเป็นการปฏิบัติที่ปัจจุบัน ไม่แม่นยำพอที่จะ ตอบสนองความต้องการการแก้ไขวิดีโอสำหรับการผลิต หรือใช้โมเดล Diffusion ที่แม่นยำและสามารถกำหนดค่าได้ แต่ ไม่สามารถรักษาความจริง ของวิดีโอเป้าหมาย

การเปลี่ยนแปลงแบบสุ่มจาก Text2Live.

วิธีการก่อนหน้านี้ใช้ วิธีการแบบการแพร่กระจาย หรือ วิธีการแบบ optical flow เนื่องจากเทคนิคนี้อยู่ในระดับเฟรม การเปลี่ยนแปลงที่สอดคล้องกันในเอาต์พุตวิดีโอไม่สามารถสร้างขึ้นได้ แผนที่ที่มีหลายชั้นให้พื้นที่เดียวในการแก้ไข ซึ่งสามารถยังคงความจริงต่อการเปลี่ยนแปลงที่ได้รับการยอมรับเมื่อวิดีโอเดินหน้าต่อไป

ไม่มีการ ‘สปาร์ค’ หรือการเห็นภาพแบบสุ่ม: Text2Live ได้รับการตีความของข้อความ ‘รถจีพรusty’ และใช้มันครั้งเดียวในแผนที่ที่มีหลายชั้นของรถในคลิปวิดีโอ แทนที่จะเริ่มการเปลี่ยนแปลงสำหรับเฟรมที่ตีความแต่ละครั้ง.

กระบวนการเปลี่ยนแปลงที่สอดคล้องกันของ Text2Live สำหรับการเปลี่ยนแปลงรถจี๊ปให้เป็นซากเก่า.

Text2Live นั้นใกล้เคียงกับการพัฒนาที่สำคัญในด้านการประกอบภาพ AI มากกว่าในพื้นที่ text-to-image ที่ได้รับความสนใจมากในขณะนี้ด้วยการเปิดตัว รุ่นที่สอง ของเฟรมเวิร์ก DALL-E ของ OpenAI (ซึ่งสามารถรวมภาพเป้าหมายเป็นส่วนหนึ่งของกระบวนการเปลี่ยนแปลง แต่ยังคงจำกัดในการแทรกแซงโดยตรงในภาพ รวมถึง การเซ็นเซอร์ข้อมูลการฝึกอบรมและติดตั้งฟิลเตอร์ ที่ออกแบบมาเพื่อป้องกันการใช้งานที่ไม่เหมาะสมโดยผู้ใช้)

แทนที่จะช่วยให้ผู้ใช้สามารถดึงแผนที่และแก้ไขมันในครั้งเดียวในพื้นที่ที่มีการควบคุมสูง เช่น Photoshop (และอาจเป็นเฟรมเวิร์กสังเคราะห์ภาพที่เป็นนามธรรม เช่น NeRF) ก่อนที่จะส่งมันกลับเข้าไปในพื้นที่ที่ถูกต้องซึ่งไม่พึ่งพาการประมาณค่า 3 มิติหรือวิธีการ CGI ที่มองย้อนหลัง

นอกจากนี้ Text2Live ยังอ้างว่าเป็นเฟรมเวิร์กที่เทียบเท่าแรกที่บรรลุการสร้างมาสก์และการประกอบในลักษณะอัตโนมัติ

เผยแพร่ครั้งแรกเมื่อวันที่ 7 เมษายน 2022.