มุมมองของ Anderson

การเพิ่มสนทนาในวิดีโอด้วย AI

mm
Montage of subjects from the demonstration video-clips for FacEDiT. Source: https://facedit.github.io/

เฟรมเวิร์ก AI ใหม่สามารถเขียนซ้ำ ลบหรือเพิ่มคำพูดของบุคคลในวิดีโอโดยไม่ต้องถ่ายซ้ำในระบบสิ้นสุดต่อสิ้นสุด

 

เมื่อสามปีที่แล้ว อินเทอร์เน็ตจะถูกช็อกโดยเฟรมเวิร์กการเปลี่ยนแปลงวิดีโอ AI 20-30 รายการที่เผยแพร่ในพอร์ทัลวิชาการทุกสัปดาห์ แต่สตรีมการวิจัยที่ได้รับความนิยมประเภทนี้ได้กลายเป็นเช่นนั้นมากจนเกือบจะประกอบเป็นสาขาอื่นของ ‘AI Slop’ และฉันครอบคลุมการเปิดตัวดังกล่าวน้อยกว่าที่ฉันจะทำสองหรือสามปีที่แล้ว

อย่างไรก็ตาม การเปิดตัวปัจจุบันในประเภทนี้จับตามองฉัน: ระบบที่รวมที่สามารถแทรกสอดสนทนาใหม่เข้าไปในวิดีโอคلیป์จริง (ไม่ใช่การสร้างคลิปที่สร้างขึ้นทั้งหมดจากใบหน้าหรือเฟรม ซึ่งเป็นเรื่องธรรมดา)

ในตัวอย่างด้านล่าง ซึ่งฉันแก้ไขจากวิดีโอตัวอย่างหลายรายการที่มีอยู่ในเว็บไซต์โครงการ project website เราจะเห็นคลิปต้นฉบับจริง แล้วต่อด้วยสนทนาที่บังคับโดย AI ในกลางคลิป รวมถึงการซิงค์เสียงและลิปซิงค์:

คลิกเพื่อเล่นการแก้ไขท้องถิ่นด้วยการเย็บ – หนึ่งในหลายรูปแบบที่ FacEDiT เสนอ ให้ไปที่เว็บไซต์ต้นฉบับสำหรับการแก้ไขที่ดีกว่าที่มา – https://facedit.github.io/

วิธีการนี้เป็นหนึ่งในสามที่พัฒนาสำหรับวิธีการใหม่นี้ ซึ่งมีชื่อว่า ‘การแก้ไขท้องถิ่นด้วยการเย็บ’ และเป็นวิธีที่นักเขียนสนใจมากที่สุด (เช่นเดียวกับฉัน) โดยพื้นฐานแล้ว คลิปจะถูกขยายโดยใช้เฟรมกลางหนึ่งเฟรมเป็นจุดเริ่มต้นสำหรับการตีความ AI ใหม่ และเฟรมที่ตามมา (จริง) เป็นเป้าหมายที่คลิปที่สร้างขึ้นควรพยายามจับคู่ขึ้น ในคลิปที่เห็นด้านบน เฟรม ‘เมล็ด’ และ ‘เป้าหมาย’ เหล่านี้แสดงโดยวิดีโอด้านบนหยุดชั่วคราว ในขณะที่วิดีโอที่แก้ไขด้านล่างให้การเติมที่สร้างขึ้น

ผู้เขียนถือว่าวิธีการสังเคราะห์ใบหน้าและเสียงนี้เป็นวิธีการแรกที่รวมที่สมบูรณ์แบบสำหรับการแก้ไขวิดีโอ AI ประเภทนี้ โดยสังเกตเห็นถึงศักยภาพของเฟรมเวิร์กที่พัฒนาแล้วเช่นนี้สำหรับการผลิตโทรทัศน์และภาพยนตร์:

‘ผู้สร้างภาพยนตร์และผู้ผลิตสื่อมักต้องแก้ไขส่วนเฉพาะของวิดีโอที่บันทึกไว้ – อาจเป็นคำที่พูดผิดหรือสคริปต์เปลี่ยนแปลงหลังการถ่ายทำ ตัวอย่างเช่น ในฉากที่มีชื่อเสียงจากTitanic (1997) ที่โรสพูดว่า “I’ll never let go, Jack,” ผู้กำกับอาจตัดสินใจต่อมาว่าควรเป็น “I’ll never forget you, Jack”ตามปกติ การเปลี่ยนแปลงดังกล่าวต้องการการถ่ายทำซ้ำทั้งฉาก ซึ่งมีค่าใช้จ่ายสูงและใช้เวลานาน การสังเคราะห์ใบหน้าแบบพูดคุยเสนอทางเลือกที่เป็นไปได้โดยการเปลี่ยนแปลงการเคลื่อนไหวของใบหน้าโดยอัตโนมัติเพื่อให้ตรงกับการพูดที่แก้ไข โดยไม่ต้องมีการถ่ายทำซ้ำ’

แม้ว่าการแทรกสอด AI ประเภทนี้อาจเผชิญกับการต่อต้านทางวัฒนธรรมหรืออุตสาหกรรม แต่ก็อาจประกอบเป็นฟังก์ชันใหม่ในระบบ VFX ที่มีมนุษย์เป็นผู้นำและชุดเครื่องมือ ในทุกกรณี สำหรับขณะนี้ ความท้าทายเป็นเพียงเทคนิค

นอกจากการขยายคลิปผ่านสนทนาที่สร้างขึ้นแล้ว ระบบใหม่นี้ยังสามารถเปลี่ยนแปลงสนทนาที่มีอยู่:

คลิกเพื่อเล่นตัวอย่างของการเปลี่ยนแปลงสนทนาที่มีอยู่แทนที่จะแทรกสอดสนทนาเพิ่มเติม

สถานะของศิลปะ

ปัจจุบันไม่มีระบบสิ้นสุดต่อสิ้นสุดที่เสนอกำลังการซิงค์ประเภทนี้ แม้ว่าแพลตฟอร์ม AI ที่สร้างขึ้นหลายตัว เช่น Veo series ของ Google จะสามารถสร้างเสียง และเฟรมเวิร์กอื่น ๆ อีกมากมายสามารถสร้างเสียงที่ปลอมได้ แต่ปัจจุบันต้องสร้าง파イプไลน์ที่ซับซ้อนของสถาปัตยกรรมและเทคนิคที่หลากหลายเพื่อเข้าแทรกในภาพจริงในลักษณะที่ระบบใหม่ – ที่เรียกว่า FacEDiT – สามารถทำได้

ระบบใช้ Diffusion Transformers (DiT) ในร่วมกับ Flow Matching เพื่อสร้างการเคลื่อนไหวของใบหน้าที่มีเงื่อนไขตามการเคลื่อนไหวและเนื้อหาสpeech audio

นอกจากนี้ยังมีวิธีการอื่น ๆ ที่ผู้เขียนสร้างขึ้น เนื่องจากวิธีการของพวกเขาคือวิธีแรกที่รวมความท้าทายเหล่านี้เข้าด้วยกัน ผู้เขียนได้สร้างมาตรฐานใหม่ที่เรียกว่า FacEDiTBench พร้อมด้วยเมตริกการประเมินใหม่หลายรายการซึ่งเหมาะสมกับงานเฉพาะนี้

งานใหม่ ใหม่ มีชื่อว่า FacEDiT: Unified Talking Face Editing and Generation via Facial Motion Infilling และมาจากนักวิจัยสี่คนจากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยี Pohang (POSTECH) ของเกาหลี สถาบันเทคโนโลยีและวิทยาศาสตร์เกาหลี (KAIST) และมหาวิทยาลัยเท็กซัสที่ออสติน

วิธีการ

FacEDiT ถูกฝึกให้สร้างการเคลื่อนไหวของใบหน้าโดยการเรียนรู้วิธีการเติมส่วนขาดของการแสดงของนักแสดงโดยอาศัยการเคลื่อนไหวที่อยู่รอบ ๆ และเสียงพูด ในรูปด้านล่างแสดงถึงกระบวนการนี้ ซึ่งช่วยให้โมเดลสามารถทำงานเป็นช่องว่างระหว่างการฝึกอบรม โดยการคาดเดาการเคลื่อนไหวของใบหน้าที่ตรงกับเสียงในขณะที่ยังคงสม่ำเสมอตามวิดีโอ:

ภาพรวมของระบบ FacEDiT ซึ่งแสดงว่าการเคลื่อนไหวของใบหน้าถูกเรียนรู้ผ่านการเติมอัตโนมัติระหว่างการฝึกอบรม โดยได้รับการชี้นำจากเสียงพูดที่แก้ไขในช่วงการอนุมาน และสุดท้ายแสดงกลับเข้าไปในวิดีโอโดยใช้การปรากฏของวิดีโอต้นฉบับในขณะที่แทนที่การเคลื่อนไหวที่มุ่งเน้นไปที่การเปลี่ยนแปลงเท่านั้น

ภาพรวมของระบบ FacEDiT ซึ่งแสดงว่าการเคลื่อนไหวของใบหน้าถูกเรียนรู้ผ่านการเติมอัตโนมัติระหว่างการฝึกอบรม โดยได้รับการชี้นำจากเสียงพูดที่แก้ไขในช่วงการอนุมาน และสุดท้ายแสดงกลับเข้าไปในวิดีโอโดยใช้การปรากฏของวิดีโอต้นฉบับในขณะที่แทนที่การเคลื่อนไหวที่มุ่งเน้นไปที่การเปลี่ยนแปลงเท่านั้น ที่มา

ในขณะการอนุมาน สถาปัตยกรรมเดียวกันรองรับผลลัพธ์ที่แตกต่างกันสองแบบขึ้นอยู่กับว่าวิดีโอมีการปิดบังมากเพียงใด: การแก้ไขบางส่วน โดยที่เพียงวลีหนึ่งถูกเปลี่ยนแปลงและที่เหลือไม่ได้รับผลกระทบ; หรือการสร้างประโยคเต็ม โดยที่การเคลื่อนไหวใหม่ถูกสังเคราะห์ขึ้นจากศูนย์

โมเดลถูกฝึกอบรมผ่าน flow matching ซึ่งถือการแก้ไขวิดีโอเป็นเส้นทางระหว่างสองรูปแบบของการเคลื่อนไหวของใบหน้า

แทนการเรียนรู้วิธีการเดาใบหน้าที่แก้ไขแล้วจากศูนย์ การจับคู่การไหลเรียนรู้วิธีการเคลื่อนไหวอย่างค่อยเป็นค่อยไปและเรียบระหว่างตัวแทนการวางที่มีช่องว่างและเคลื่อนไหวที่ถูกต้อง เพื่ออำนวยความสะดวกนี้ ระบบแสดงการเคลื่อนไหวของใบหน้าเป็นชุดตัวเลขที่กะทัดรัดซึ่งถูกดึงออกจากแต่ละเฟรมโดยใช้รุ่นของระบบ LivePortrait ที่กล่าวถึงก่อนหน้านี้ (ดูแผนภาพด้านบน)

เวกเตอร์การเคลื่อนไหวเหล่านี้ได้รับการออกแบบมาเพื่ออธิบายน้ำเสียงและท่าทางของศีรษะโดยไม่ ผสม ตัวตน เพื่อให้การเปลี่ยนแปลงเสียงสามารถถูกยึดไว้โดยไม่ส่งผลกระทบต่อลักษณะโดยรวมของบุคคล

การฝึกอบรม FacEDiT

ในการฝึกอบรม FacEDiT คลิปวิดีโอทุกคลิปถูกแบ่งออกเป็นชุดการเคลื่อนไหวของใบหน้า และแต่ละเฟรมถูกจับคู่กับชิ้นส่วนของเสียงที่สอดคล้องกัน ส่วนบางส่วนของข้อมูลการเคลื่อนไหวถูกซ่อน และโมเดลถูกขอให้คาดเดาว่าการเคลื่อนไหวที่หายไปควรจะดูเหมือนอย่างไร โดยใช้ทั้งเสียงและเคลื่อนไหวที่ไม่ได้ปิดบังโดยรอบเพื่อให้ได้ข้อมูลบริบท

เนื่องจากส่วนการเคลื่อนไหวที่ซ่อนและตำแหน่งของส่วนเหล่านั้นแตกต่างกันไปในแต่ละตัวอย่างการฝึกอบรม โมเดลจึงเรียนรู้วิธีการจัดการทั้งการแก้ไขภายในที่เล็กและช่องว่างที่ยาวกว่าสำหรับการสร้างประโยคเต็ม ตามจำนวนข้อมูลที่ให้ไว้

Diffusion Transformer ที่กล่าวถึงก่อนหน้านี้เรียนรู้วิธีการกู้คืนการเคลื่อนไหวที่ซ่อนโดยการปรับปรุงการป้อนเข้าที่มีเสียงรบกวนเมื่อเวลาผ่านไป แทนที่จะป้อนเสียงและเคลื่อนไหวเข้าไปในโมเดลพร้อมกัน เสียงถูกป้อนเข้าไปในแต่ละบล็อกการประมวลผลผ่าน cross-attention ซึ่งช่วยให้ระบบจับคู่การเคลื่อนไหวของ губกับเสียงพูดได้แม่นยำยิ่งขึ้น

เพื่อรักษาความสมจริงตลอดการแก้ไข การ chú ýถูกเอนเอียงไปที่เฟรมที่อยู่ใกล้เคียงมากกว่าเส้นเวลาโดยรวม ซึ่งบังคับให้โมเดลมุ่งเน้นไปที่ความต่อเนื่องในท้องถิ่น และป้องกันไม่ให้เกิดการกระตุกหรือการกระโดดของการเคลื่อนไหวที่ขอบเขตของพื้นที่ที่แก้ไข

การฝึกอบรม ระบบเรียนรู้วิธีการคาดเดาการเคลื่อนไหวของใบหน้าที่หายไปโดยการสร้างส่วนการเคลื่อนไหวที่ซ่อนตามเสียงและเคลื่อนไหวที่ไม่ได้ปิดบังโดยรอบ ในขณะการอนุมาน การตั้งค่าเดียวกันนี้ถูกนำมาใช้อีกครั้ง แต่การปิดบังถูกชี้นำโดยการแก้ไขเสียง

เมื่อมีการแทรกหรือลบหรือเปลี่ยนคำหรือวลี ระบบจะระบุพื้นที่ที่ได้รับผลกระทบ ปิดบัง และสร้างการเคลื่อนไหวใหม่ที่ตรงกับเสียงใหม่ การสร้างประโยคเต็มถือเป็นกรณีพิเศษ โดยที่พื้นที่ทั้งหมดถูกปิดบังและถูกสังเคราะห์จากศูนย์

ข้อมูลและการทดสอบ

กระดูกสันหลังของระบบประกอบด้วย 22 ชั้นสำหรับ Diffusion Transformer แต่ละชั้นมี 16 attention heads และขนาดฟีดฟอร์เวิร์ดของ 1024 และ 2024px คุณลักษณะการเคลื่อนไหวและคุณลักษณะการปรากฏถูกดึงออกโดยใช้ frozen ส่วนประกอบของ LivePortrait และเสียงถูกเข้ารหัสโดย WavLM และถูกดัดแปลงโดย VoiceCraft

ชั้นการฉายภาพที่อุทิศให้จะทำการแมปคุณลักษณะเสียง 786 มิติไปยังพื้นที่ 潛ของ DiT โดยมีเพียง DiT และโมดูลการฉายภาพที่ได้รับการฝึกอบรมจากศูนย์

การฝึกอบรมดำเนินการภายใต้ AdamW โดยมีอัตราการเรียนรู้เป้าหมายที่ 1e-4 เป็นเวลา 1 ล้านขั้นตอน บน GPU A6000 สองตัว (แต่ละตัวมี VRAM 48GB) โดยมีขนาดบैचทั้งหมด 8

FacEDiTBench

ชุดข้อมูล FacEDiTBench มีตัวอย่าง 250 รายการ แต่ละรายการมีคลิปวิดีโอของสนทนาต้นฉบับและแก้ไข และคำบรรยายสำหรับทั้งสองวิดีโอ วิดีโอมาจากสามแหล่ง โดย 100 คลิปมาจาก HDTF 100 คลิปมาจาก Hallo3 และ 50 คลิปมาจาก CelebV-Dub แต่ละคลิปถูกตรวจสอบด้วยมือเพื่อยืนยันว่าเสียงและวิดีโอทั้งสองมีความชัดเจนเพียงพอสำหรับการประเมิน

GPT-4o ถูกใช้ในการแก้ไขคำบรรยายแต่ละรายการเพื่อสร้างการแก้ไขที่ถูกต้องตามไวยากรณ์ คำบรรยายที่แก้ไขแล้วพร้อมกับเสียงต้นฉบับถูกส่งไปยัง VoiceCraft เพื่อสร้างเสียงใหม่ และในแต่ละขั้นตอน ทั้งคำบรรยายและเสียงที่สร้างขึ้นถูกตรวจสอบคุณภาพด้วยมือ

แต่ละตัวอย่างถูกป้ายกำกับด้วยประเภทการแก้ไข เวลาในการเปลี่ยนแปลง และความยาวของส่วนที่แก้ไข และการแก้ไขถูกจัดประเภทเป็น การแทรก การลบ หรือ การแทนที่ จำนวนคำที่เปลี่ยนแปลงตั้งแต่การแก้ไขสั้น ๆ 1-3 คำ การแก้ไขขนาดกลาง 4-6 คำ และการแก้ไขที่ยาวกว่า 7-10 คำ

สามเมตริกที่กำหนดเองถูกกำหนดขึ้นเพื่อประเมินคุณภาพการแก้ไข ความต่อเนื่องของภาพ เพื่อวัดว่าส่วนแก้ไขสอดคล้องกับวิดีโอที่อยู่รอบ ๆ ได้ดีเพียงใด โดยการเปรียบเทียบความแตกต่างระดับพิกเซลที่ขอบเขต; ความต่อเนื่องของการเคลื่อนไหว เพื่อประเมินความสม่ำเสมอของการเคลื่อนไหวของใบหน้า โดยการวัดการเปลี่ยนแปลงของการไหลของภาพเชิงออปติกระหว่างเฟรมที่แก้ไขและไม่ได้แก้ไข; และ การรักษาตัวตน เพื่อประเมินว่าลักษณะของบุคคลยังคงสม่ำเสมอหลังการแก้ไขหรือไม่ โดยการเปรียบเทียบการฝังใบหน้าจากลำดับต้นฉบับและที่สร้างขึ้นโดยใช้ ArcFace โมเดลการรู้จำใบหน้า

การทดสอบ

โมเดลที่ใช้ในการทดสอบถูกฝึกอบรมจากข้อมูลจากชุดข้อมูลทั้งสามที่กล่าวถึงข้างต้น ซึ่งมีเวลาวิดีโอรวมประมาณ 200 ชั่วโมง รวมถึงวิดีโอบล็อกและภาพยนตร์ และวิดีโอยูทูบความละเอียดสูง

ในการประเมินการแก้ไขใบหน้าแบบพูดคุย FacEDiTBench ถูกใช้ร่วมกับการแบ่งการทดสอบ HDTF ซึ่งได้กลายเป็นมาตรฐานในการทดสอบสำหรับชุดงานเหล่านี้

เนื่องจากไม่มีระบบที่เทียบเท่าซึ่งสามารถรวมฟังก์ชันการทำงานประเภทนี้ได้ ผู้เขียนจึงเลือกเฟรมเวิร์กหลายตัวที่สามารถทำซ้ำฟังก์ชันการทำงานบางส่วน และสามารถใช้เป็นบรรทัดฐานได้ ได้แก่ KeyFace EchoMimic EchoMimicV2 Hallo Hallo2 Hallo3 V-Express AniPortrait และ SadTalker

เมตริกที่กำหนดไว้แล้วหลายตัวถูกใช้ในการประเมินคุณภาพการสร้างและการแก้ไข โดยความแม่นยำของการซิงค์ губถูกประเมินผ่าน SyncNet โดยรายงานความผิดพลาดสัมบูรณ์ระหว่างการเคลื่อนไหวของ губและเสียง (LSE-D) และคะแนนความมั่นใจ (LSE-C) Fréchet Video Distance (FVD) ซึ่งวัดความสมจริงของวิดีโอทั้งหมด และ Learned Perceptual Similarity Metrics (LPIPS) ซึ่งวัดความคล้ายคลึงกันเชิงการรับรู้ระหว่างเฟรมที่สร้างขึ้นและต้นฉบับ

สำหรับการแก้ไข เมตริกทั้งหมดยกเว้น LPIPS ถูกนำมาใช้กับส่วนแก้ไขเท่านั้น สำหรับการสร้างทั้งวิดีโอถูกประเมิน โดยไม่รวมความต่อเนื่องของขอบเขต

แต่ละโมเดลถูกบังคับให้สังเคราะห์ส่วนวิดีโอที่ตรงกัน ซึ่งถูกตัดเข้ากับคลิปต้นฉบับ (นักวิจัยสังเกตว่าวิธีการนี้มักจะแนะนำการไม่ต่อเนื่องแบบมองเห็นได้ ที่ส่วนแก้ไขพบกับวิดีโอที่อยู่รอบ ๆ ) วิธีการที่สองที่ทดสอบคือการสร้างวิดีโอทั้งหมดใหม่จากเสียงที่แก้ไข – แต่วิธีนี้จะลบพื้นที่ที่ไม่ได้แก้ไข และไม่สามารถรักษาการแสดงผลต้นฉบับได้:

<img class=" wp-image-229583" src="https://www.unite.ai/wp-content/uploads/2025/12/table-3-1.jpg" alt="การเปรียบเทียบผลการแก้ไขระหว่างระบบที่ออกแบบมาเพื่อการสร้างใบหน้าแบบพูดคุย โดย FacEDiT มีประสิทธิภาพเหนือกว่าบรรทัดฐานทั้งหมดในทุกเมตริก โดยมีข้อผิดพลาดการซิงค์ губที่ต่ำกว่า (LSE-D) ความมั่นใจในการซิงค์ที่สูงกว่า (LSE-C) การรักษาตัวตนที่แข็งแกร่งกว่า (IDSIM) ความสมจริงที่มากกว่า (FVD) และการเปลี่ยนแปลงที่ราบรื่นกว่าที่ขอบเขตการแก้ไข (Pcontinuity, Mcontinuity) คอลัมน์ที่แรเงาเน้นย้ำเกณฑ์หลักในการประเมินคุณภาพขอบเขต; ค่าในตัวที่เป็น ตัวหนา และ ตัวใต้ แสดงถึงผลลัพธ์ที่ดีที่สุดและดีที่สุดเป็นอันดับสองตามลำดับ” width=”868″ height=”320″ /> การเปรียบเทียบผลการแก้ไขระหว่างระบบที่ออกแบบมาเพื่อการสร้างใบหน้าแบบพูดคุย โดย FacEDiT มีประสิทธิภาพเหนือกว่าบรรทัดฐานทั้งหมดในทุกเมตริก โดยมีข้อผิดพลาดการซิงค์ губที่ต่ำกว่า (LSE-D) ความมั่นใจในการซิงค์ที่สูงกว่า (LSE-C) การรักษาตัวตนที่แข็งแกร่งกว่า (IDSIM) ความสมจริงที่มากกว่า (FVD) และการเปลี่ยนแปลงที่ราบรื่นกว่าที่ขอบเขตการแก้ไข (Pcontinuity, Mcontinuity) คอลัมน์ที่แรเงาเน้นย้ำเกณฑ์หลักในการประเมินคุณภาพขอบเขต; ค่าในตัวที่เป็น ตัวหนา และ ตัวใต้ แสดงถึงผลลัพธ์ที่ดีที่สุดและดีที่สุดเป็นอันดับสองตามลำดับ

เกี่ยวกับผลลัพธ์เหล่านี้ ผู้เขียนแสดงความคิดเห็นว่า:

‘โมเดลของเราแสดงผลการแก้ไขที่เหนือกว่าระบบที่มีอยู่อย่างมีนัยสำคัญ มันบรรลุความต่อเนื่องของขอบเขตที่แข็งแกร่งและการรักษาตัวตนที่สูง โดยแสดงให้เห็นถึงความสามารถในการรักษาความต่อเนื่องทางเวลาและความสม่ำเสมอทางภาพในระหว่างการแก้ไข นอกจากนี้ ความแม่นยำของการซิงค์ губและ FVD ที่ต่ำยังสะท้อนถึงความสมจริงของวิดีโอที่สังเคราะห์’

คลิกเพื่อเล่นผลลัพธ์ โดยรวบรวมจากวิดีโอที่เผยแพร่ที่เว็บไซต์โครงการ

นอกจากนี้ยังมีการศึกษาด้วยมนุษย์เพื่อประเมินคุณภาพที่รับรู้ทั้งการแก้ไขและการสร้าง

สำหรับการเปรียบเทียบทั้งหมด ผู้เข้าร่วมดูวิดีโอ 6 คลิปและจัดอันดับตามคุณภาพโดยรวม โดยพิจารณาจากความแม่นยำของการซิงค์ губ ความเป็นธรรมชาติ และความสมจริงของการเคลื่อนไหวของศีรษะ ในการทดสอบการแก้ไข ผู้เข้าร่วมยังให้คะแนนความเรียบของการเปลี่ยนแปลงระหว่างส่วนที่แก้ไขและไม่ได้แก้ไข:

ค่าเฉลี่ยของอันดับที่กำหนดโดยผู้ประเมิน โดยที่ค่าต่ำกว่าหมายถึงคุณภาพที่ดีกว่า ในทั้งการแก้ไขและการสร้าง ผู้เข้าร่วมประเมินว่าวิดีโอดูเป็นธรรมชาติและซิงค์กันอย่างไร สำหรับการแก้ไข พวกเขายังให้คะแนนความเรียบของการเปลี่ยนแปลงระหว่างส่วนที่แก้ไขและไม่ได้แก้ไขอีกด้วย

ค่าเฉลี่ยของอันดับที่กำหนดโดยผู้ประเมิน โดยที่ค่าต่ำกว่าหมายถึงคุณภาพที่ดีกว่า ในทั้งการแก้ไขและการสร้าง ผู้เข้าร่วมประเมินว่าวิดีโอดูเป็นธรรมชาติและซิงค์กันอย่างไร สำหรับการแก้ไข พวกเขายังให้คะแนนความเรียบของการเปลี่ยนแปลงระหว่างส่วนที่แก้ไขและไม่ได้แก้ไขอีกด้วย

ในศึกษา FacEDiT ได้รับการจัดอันดับสูงสุดอย่างต่อเนื่องโดยผู้เข้าร่วมสำหรับทั้งคุณภาพการแก้ไขและความเรียบของการเปลี่ยนแปลง และยังได้รับคะแนนสูงในการสร้างด้วย ซึ่งบ่งชี้ว่าข้อได้เปรียบเชิงวัดของมันสามารถแปลเป็นผลลัพธ์ที่ต้องการได้เช่นกัน

เนื่องจากขาดพื้นที่ เราแนะนำให้ผู้อ่านไปที่เอกสารต้นฉบับสำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการศึกษาแบบลบและการทดสอบเพิ่มเติมที่ดำเนินการในงานใหม่นี้ ในความเป็นจริง การวิจัยเชิงโพรโทไทป์ประเภทนี้มักจะดิ้นรนในการสร้างส่วนผลการทดสอบที่มีความหมาย เนื่องจากการนำเสนอหลักของมันเองมีศักยภาพที่จะกลายเป็นบรรทัดฐานสำหรับการทำงานในอนาคต

สรุป

แม้ว่าระบบเช่นนี้อาจต้องใช้ทรัพยากรการคำนวณที่สำคัญในช่วงการอนุมาน ทำให้ยากสำหรับผู้ใช้ปลายทาง – ในที่นี้คือร้าน VFX – ที่จะรักษางานภายในสถานที่ของตนเอง วิธีการที่สามารถปรับให้เหมาะสมกับทรัพยากรท้องถิ่นที่สมจริงจึงมักจะถูกเลือกโดยผู้ให้บริการ ซึ่งถูกผูกพันตามกฎหมายในการปกป้องฟุตเทจและทรัพย์สินทางปัญญาของลูกค้า

ไม่ใช่ว่าฉันจะวิพากษ์วิจารณ์การนำเสนอใหม่นี้ ซึ่งอาจทำงานได้อย่างสมบูรณ์แบบภายใต้น้ำหนักที่ปรับให้เหมาะสมหรือการเพิ่มประสิทธิภาพอื่น ๆ และเป็นการนำเสนอประเภทนี้ครั้งแรกที่ดึงดูดฉันกลับมาสู่แนวทางวิจัยนี้ในระยะเวลาที่ยาวนาน

 

เผยแพร่ครั้งแรกวันพุธที่ 17 ธันวาคม 202. แก้ไข 20.10 EET ในวันเดียวกัน เพื่อเพิ่มพื้นที่ในย่อหน้าแรก

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai