ปัญญาประดิษฐ์

การแก้ไขเนื้อหาวิดีโอ AI ที่สอดคล้องกับการป้อนข้อความแนะนำ

วันที่อัพเดท on December 9, 2022

ในขณะที่ชุมชน VFX มืออาชีพรู้สึกทึ่ง – และรู้สึกได้ในบางครั้ง ขู่เล็กน้อย – ด้วยนวัตกรรมใหม่ในการสังเคราะห์ภาพและวิดีโอ การขาดความต่อเนื่องชั่วคราวในโครงการตัดต่อวิดีโอที่ใช้ AI ส่วนใหญ่ทำให้ความพยายามเหล่านี้ลดลงไปสู่ขอบเขต 'ประสาทหลอน' ด้วย ส่องแสงระยิบระยับและเปลี่ยนแปลงอย่างรวดเร็ว พื้นผิวและโครงสร้าง เอฟเฟ็กต์ที่ไม่สอดคล้องกัน และการโต้เถียงกันเรื่องเทคโนโลยีดิบๆ ที่ชวนให้นึกถึง ยุคโฟโตเคมีคอล ของวิชวลเอฟเฟกต์

หากคุณต้องการเปลี่ยนแปลงบางสิ่งที่เฉพาะเจาะจงในวิดีโอที่ไม่ตกอยู่ในขอบเขตของ Deepfakes (เช่น การกำหนดอัตลักษณ์ใหม่ในฟุตเทจที่มีอยู่ของบุคคล) โซลูชันปัจจุบันส่วนใหญ่ทำงานภายใต้ข้อจำกัดที่ค่อนข้างเข้มงวด ในแง่ของ ความแม่นยำที่จำเป็นสำหรับวิชวลเอฟเฟกต์คุณภาพการผลิต

ข้อยกเว้นประการหนึ่งคือการทำงานอย่างต่อเนื่องของสมาคมนักวิชาการจากสถาบันวิทยาศาสตร์ Weizmann ในปี 2021 นักวิจัยสามคนร่วมกับ Adobe ประกาศ วิธีการใหม่ในการแยกย่อยวิดีโอและซ้อนทับการแมปภายในที่สอดคล้องกัน – Atlas ประสาทชั้น – เป็นเอาต์พุตแบบคอมโพสิต พร้อมช่องสัญญาณอัลฟ่าและเอาต์พุตแบบเชื่อมประสานชั่วคราว

จากบทความปี 2021: การประมาณการการเดินทางข้ามถนนทั้งหมดในคลิปต้นฉบับได้รับการแก้ไขผ่านโครงข่ายประสาทเทียมในลักษณะที่แต่เดิมจะต้องใช้กล้องส่องทางไกลและการเคลื่อนที่แบบจับคู่ เนื่องจากองค์ประกอบพื้นหลังและพื้นหน้าได้รับการจัดการโดยเครือข่ายที่แตกต่างกัน มาสก์จึงเป็น 'อัตโนมัติ' อย่างแท้จริง ที่มา: https://layered-neural-atlases.github.io/

แม้ว่ามันจะตกอยู่ที่ไหนสักแห่งในดินแดนที่ปกคลุมด้วย การไหลของแสง ใน VFX ไปป์ไลน์ Atlas แบบเลเยอร์นั้นไม่เทียบเท่าโดยตรงกับเวิร์กโฟลว์ CGI แบบดั้งเดิม เนื่องจากโดยพื้นฐานแล้วมันประกอบด้วย 'แผนที่พื้นผิวชั่วคราว' ที่สามารถสร้างและแก้ไขได้ด้วยวิธีการซอฟต์แวร์แบบดั้งเดิม ในภาพที่สองในภาพประกอบด้านบน พื้นหลังของพื้นผิวถนนจะแสดง (โดยเปรียบเทียบ) ตลอดรันไทม์ทั้งหมดของวิดีโอ การแก้ไขภาพพื้นฐานนั้น (ภาพที่สามจากซ้ายในภาพประกอบด้านบน) ทำให้เกิดการเปลี่ยนแปลงที่สอดคล้องกันในพื้นหลัง

รูปภาพของแผนที่ 'กางออก' ด้านบนแสดงเฉพาะเฟรมที่ตีความแต่ละเฟรมเท่านั้น การเปลี่ยนแปลงที่สอดคล้องกันในเฟรมวิดีโอเป้าหมายใดๆ จะถูกแมปกลับไปยังเฟรมดั้งเดิม โดยคงการบดบังที่จำเป็นและเอฟเฟกต์ฉากที่จำเป็นอื่นๆ เช่น เงาหรือแสงสะท้อน

สถาปัตยกรรมหลักใช้ Multilayer Perceptron (MLP) เพื่อแสดงแผนที่ที่กางออก ช่องอัลฟ่า และการแมป ซึ่งทั้งหมดนี้ได้รับการปรับให้เหมาะสมที่สุดในพื้นที่ 2 มิติ โดยลบล้างความรู้เดิมของ NeRF เกี่ยวกับจุดเรขาคณิต 3 มิติ แผนที่เชิงลึก และเครื่องประดับสไตล์ CGI ที่คล้ายกัน

Atlas อ้างอิงของแต่ละวัตถุยังสามารถแก้ไขได้อย่างน่าเชื่อถือ:

การเปลี่ยนแปลงอย่างต่อเนื่องเป็นวัตถุเคลื่อนที่ภายใต้กรอบปี 2021 ที่มา: https://www.youtube.com/watch?v=aQhakPFC4oQ

โดยพื้นฐานแล้ว ระบบปี 2021 จะรวมการจัดตำแหน่งทางเรขาคณิต การจับคู่การเคลื่อนที่ การทำแผนที่ การทำพื้นผิวใหม่ และการหมุนภาพแบบหมุนเข้าเป็นกระบวนการทางประสาทที่แยกจากกัน

Text2Live

นักวิจัยดั้งเดิมสามคนของรายงานปี 2021 ร่วมกับงานวิจัยของ NVIDIA เป็นหนึ่งในผู้มีส่วนร่วมในนวัตกรรมใหม่เกี่ยวกับเทคนิคที่รวมพลังของแผนที่แบบเลเยอร์เข้ากับชนิดของเทคโนโลยี CLIP แบบข้อความที่กลับมาโดดเด่นในสัปดาห์นี้ด้วย OpenAI ของ ปล่อย ของกรอบ DALL-E 2

สถาปัตยกรรมใหม่ชื่อ Text2Liveอนุญาตให้ผู้ใช้ปลายทางสร้างการแก้ไขเนื้อหาวิดีโอจริงตามการแปลเป็นภาษาท้องถิ่นตามข้อความแจ้ง:

สองตัวอย่างของการแก้ไขเบื้องหน้า เพื่อความละเอียดและความคมชัดที่ดีขึ้น โปรดดูวิดีโอต้นฉบับที่ https://text2live.github.io/sm/pages/video_results_atlases.html

สองตัวอย่างของการแก้ไขเบื้องหน้า เพื่อความละเอียดและความคมชัดที่ดียิ่งขึ้น โปรดดูวิดีโอต้นฉบับที่ https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live เสนอการตัดต่อที่สื่อความหมายและเป็นภาษาท้องถิ่นสูงโดยไม่ต้องใช้ตัวสร้างที่ฝึกไว้ล่วงหน้า โดยใช้ฐานข้อมูลภายในที่เฉพาะเจาะจงสำหรับวิดีโอคลิปที่ได้รับผลกระทบ

การแปลงพื้นหลังและพื้นหน้า (วัตถุ) ภายใต้ Text2Live ที่มา: https://text2live.github.io/sm/pages/video_results_atlases.html

เทคนิคนี้ไม่ต้องการมาสก์ที่ผู้ใช้จัดหาให้ เช่น กระบวนการทำงานแบบ rotoscoping หรือกรีนสกรีนทั่วไป แต่เป็นการประมาณการ แผนที่ที่เกี่ยวข้อง ผ่านเทคนิคการบู๊ตสแตรปตาม การวิจัย 2021 จากคณะวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยเทลอาวีฟ และ Facebook AI Research (FAIR)

แผนผังเอาต์พุตที่สร้างผ่านโมเดลความสนใจทั่วไปที่ใช้หม้อแปลง

ใหม่ กระดาษ มีบรรดาศักดิ์ Text2LIVE: การแก้ไขรูปภาพและวิดีโอแบบเลเยอร์ที่ขับเคลื่อนด้วยข้อความ. ทีมดั้งเดิมของปี 2021 เข้าร่วมโดย Omer Bar-Tal จาก Weizmann และ Yoni Kasten จาก NVIDIA Research

สถาปัตยกรรม

Text2Live ประกอบด้วยตัวสร้างที่ได้รับการฝึกฝนเกี่ยวกับรูปภาพอินพุตเพียงอย่างเดียวและข้อความแจ้งเป้าหมาย โมเดล Contrastive Language-Image Pretraining (CLIP) ที่ผ่านการฝึกอบรมมาแล้วในคู่ข้อความ/รูปภาพ 400 ล้านคู่ จัดเตรียมสื่อภาพที่เกี่ยวข้องซึ่งสามารถตีความการแปลงข้อมูลที่ป้อนโดยผู้ใช้ได้

เครื่องกำเนิดยอมรับภาพอินพุต (เฟรม) และส่งออกเลเยอร์ RGBA เป้าหมายที่มีข้อมูลสีและความทึบ เลเยอร์นี้จะถูกรวมเข้าด้วยกันเป็นฟุตเทจต้นฉบับพร้อมส่วนเสริมเพิ่มเติม

ช่องอัลฟ่าในเลเยอร์ RGBA ที่สร้างขึ้นมีฟังก์ชันการจัดองค์ประกอบภายในโดยไม่ต้องใช้ไปป์ไลน์แบบดั้งเดิมที่เกี่ยวข้องกับซอฟต์แวร์ที่ใช้พิกเซล เช่น After Effects

ด้วยการฝึกอบรมรูปภาพภายในที่เกี่ยวข้องกับวิดีโอหรือรูปภาพเป้าหมาย Text2Live หลีกเลี่ยงข้อกำหนดเช่นกัน กลับหัวกลับหาง ภาพอินพุตในพื้นที่แฝงของ Generative Adversarial Network (GAN) ซึ่งเป็นวิธีปฏิบัติในปัจจุบัน ห่างไกลจากความแน่นอนพอสมควร สำหรับข้อกำหนดการตัดต่อวิดีโอการผลิต หรืออื่น ๆ ให้ใช้โมเดลการแพร่กระจายที่แม่นยำและกำหนดค่าได้มากกว่า แต่ ไม่สามารถรักษาความจงรักภักดีได้ ไปยังวิดีโอเป้าหมาย

การแก้ไขการเปลี่ยนแปลงตามพร้อมท์จิปาถะจาก Text2Live

วิธีการก่อนหน้านี้เคยใช้อย่างใดอย่างหนึ่ง วิธีการขยายพันธุ์ or ตามการไหลของแสง แนวทาง เนื่องจากเทคนิคเหล่านี้มีขอบเขตบางส่วนหรือบางส่วนขึ้นอยู่กับเฟรม จึงไม่สามารถสร้างลักษณะชั่วคราวที่สอดคล้องกันของการเปลี่ยนแปลงในวิดีโอเอาต์พุต Atlas แบบเลเยอร์ของระบบประสาทกลับให้ช่องว่างเดียวเพื่อจัดการกับการเปลี่ยนแปลง ซึ่งจากนั้นจะสามารถคงความซื่อตรงต่อการเปลี่ยนแปลงที่มุ่งมั่นเมื่อวิดีโอดำเนินไป

ไม่มี 'ร้อนฉ่า' หรือภาพหลอนแบบสุ่ม: Text2Live ได้รับการตีความของข้อความแจ้ง 'rusty jeep' และนำไปใช้เพียงครั้งเดียวกับแผนที่ชั้นประสาทของรถในวิดีโอ แทนที่จะเริ่มการแปลงใหม่สำหรับแต่ละเฟรมที่ตีความ

เวิร์กโฟลว์ของการเปลี่ยนแปลงอย่างต่อเนื่องของ Text2Live ของรถจี๊ปให้เป็นโบราณวัตถุที่เป็นสนิม

Text2Live เข้าใกล้ความก้าวหน้าในการจัดองค์ประกอบภาพด้วย AI มากกว่าพื้นที่แปลงข้อความเป็นรูปภาพที่อุดมสมบูรณ์ ซึ่งได้รับความสนใจอย่างมากในสัปดาห์นี้ด้วยการเปิดตัว รุ่นที่สอง ของกรอบ DALL-E ของ OpenAI (ซึ่งสามารถรวมภาพเป้าหมายเป็นส่วนหนึ่งของกระบวนการเปลี่ยนแปลง แต่ยังคงมีข้อจำกัดในความสามารถในการแทรกแซงโดยตรงในภาพถ่าย นอกเหนือไปจาก การเซ็นเซอร์ข้อมูลการฝึกอบรมแหล่งที่มาและการกำหนดตัวกรองออกแบบมาเพื่อป้องกันผู้ใช้ในทางที่ผิด)

แต่ Text2Live ช่วยให้ผู้ใช้สามารถแยกแผนที่แล้วแก้ไขได้ในครั้งเดียวในสภาพแวดล้อมที่ใช้พิกเซลที่มีการควบคุมสูงเช่น Photoshop (และกรอบการสังเคราะห์ภาพที่เป็นนามธรรมเช่น เนอาร์เอฟ) ก่อนที่จะป้อนกลับเข้าไปในสภาพแวดล้อมที่มุ่งเน้นอย่างถูกต้องซึ่งไม่ต้องพึ่งพาการประมาณค่าแบบ 3 มิติหรือแนวทางที่ใช้ CGI แบบย้อนกลับ

นอกจากนี้ Text2Live ผู้เขียนอ้างว่าเป็นเฟรมเวิร์กที่เทียบเคียงได้ตัวแรกเพื่อให้ได้มาสก์และองค์ประกอบในลักษณะอัตโนมัติทั้งหมด

เผยแพร่ครั้งแรก 7 เมษายน 2022

หัวข้อที่เกี่ยวข้อง:GAN เครือข่ายปฏิปักษ์ทั่วไป การสังเคราะห์ภาพ เนอาร์เอฟ การวิจัย

ต่อไป

การตรวจจับ Deepfake ตามลักษณะไบโอเมตริกซ์ดั้งเดิมของมนุษย์

อย่าพลาด

นักวิจัยเข้าใกล้ความสำเร็จ AI “ความฉลาดทางอารมณ์” มากขึ้น

Martin Anderson

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai