มุมมองของ Anderson

ความก้าวหน้าที่น่าสังเกตใน AI วิดีโอขับเคลื่อนด้วยมนุษย์

Published April 4, 2025

Updated April 26, 2026

Martin Anderson

Examples from the DreamActor project page.

หมายเหตุ: หน้าโครงการสำหรับการทำงานนี้รวมถึงวิดีโอที่เล่นอัตโนมัติ 33 รายการ ซึ่งมีขนาดรวมกันครึ่ง گیگابایت ซึ่งทำให้ระบบของฉันไม่เสถียรเมื่อโหลด ด้วยเหตุนี้ ฉันจึงไม่เชื่อมโยงไปที่โดยตรง ผู้อ่านสามารถค้นหา URL ในบทคัดย่อของเอกสารหรือ PDF หากพวกเขาเลือก

หนึ่งในวัตถุประสงค์หลักในการวิจัยสังเคราะห์วิดีโอปัจจุบันคือการสร้างการแสดงวิดีโอ AI ที่ขับเคลื่อนด้วยมนุษย์จากภาพเดียว ในสัปดาห์นี้ เอกสารใหม่จาก Bytedance Intelligent Creation อธิบายว่าอาจเป็นระบบที่ครอบคลุมที่สุดของประเภทนี้จนถึงตอนนี้ ซึ่งสามารถสร้างการเคลื่อนไหวเต็มร่างกายและครึ่งร่างกายที่รวมรายละเอียดการแสดงออกบนใบหน้าเข้ากับการเคลื่อนไหวขนาดใหญ่ที่แม่นยำ ในขณะเดียวกันก็บรรลุความสอดคล้องของอัตลักษณ์ที่ดีขึ้น – พื้นที่ที่แม้แต่ระบบเชิงพาณิชย์ที่นำหน้าหลายระบบก็ล้มเหลว

ในตัวอย่างด้านล่าง เราจะเห็นการแสดงผลที่ขับเคลื่อนด้วยนักแสดง (ด้านซ้ายบน) และได้รับจากภาพเดียว (ด้านขวาบน) ซึ่งให้การแสดงผลที่ยืดหยุ่นและคล่องตัวอย่างน่าประทับใจ โดยไม่มีปัญหาโดยทั่วไปเกี่ยวกับการสร้างการเคลื่อนไหวขนาดใหญ่หรือ ‘เดา’ เกี่ยวกับพื้นที่ที่ซ่อนอยู่ (เช่น ส่วนของเสื้อผ้าและมุมหน้าที่ต้องอนุมานหรือคิดค้นเพราะไม่มองเห็นได้ในรูปถ่ายเดียว)

เนื้อหาออดิโอ คลิกเพื่อเล่น การแสดงผลเกิดขึ้นจากสองแหล่ง รวมถึงการซิงค์แลปซึ่งเป็นปกติของระบบอุปกรณ์เสริมที่อุทิศให้ นี่คือรุ่นที่ลดลงจากแหล่งที่มา (ดูหมายเหตุในตอนต้นของบทความ – ใช้กับวิดีโอที่ฝังทั้งหมดที่นี่)

แม้ว่าเราจะเห็นความท้าทายบางอย่างที่เหลืออยู่เกี่ยวกับการคงอยู่ของอัตลักษณ์ในแต่ละคลิป แต่นี่เป็นระบบแรกที่ฉันเห็นว่าโดดเด่นโดยทั่วไป (แม้ไม่ใช่เสมอไป) ในการรักษาอัตลักษณ์ในช่วงเวลาที่ยั่งยืนโดยไม่ใช้ LoRAs:

เนื้อหาออดิโอ คลิกเพ่นเล่น ตัวอย่างเพิ่มเติมจากโครงการ DreamActor

ระบบใหม่ซึ่งมีชื่อว่า DreamActor ใช้ระบบควบคุมไฮบริดสามส่วนที่ให้ความสนใจเป็นพิเศษกับการแสดงออกบนใบหน้า การหมุนหัว และการออกแบบกระดูกสันหลัง ทำให้สามารถรองรับการแสดงผลที่ขับเคลื่อนด้วย AI โดยที่ทั้งใบหน้าและร่างกายไม่ต้องทนทุกข์ทรมานจากกันและกัน – ความสามารถที่หายากและอาจไม่ทราบในระบบที่คล้ายกัน

ด้านล่าง เราจะเห็นหนึ่งในด้านเหล่านี้ การหมุนหัว ในการทำงาน ลูกบอลสีที่มุมขวาของทั้งภาพขนาดย่อแต่ละภาพแสดงถึงการกำหนดทิศทางการหมุนหัวที่เป็นอิสระจากการเคลื่อนไหวและแสดงออกบนใบหน้า ซึ่งขับเคลื่อนด้วยนักแสดง (ด้านซ้ายล่าง)

คลิกเพื่อเล่น ลูกบอลสีหลายสีที่แสดงไว้ที่นี่แทนแกนการหมุนของหัวอาวาตาร์ ในขณะที่นักแสดงขับเคลื่อนการแสดงออก (ด้านซ้ายล่าง)

หนึ่งในฟังก์ชันการทำงานที่น่าสนใจที่สุดของโครงการซึ่งไม่ได้รวมอยู่ในกระดาษทดสอบอย่างเหมาะสมคือความสามารถในการอนุมานการเคลื่อนไหวซิงค์แลปโดยตรงจากออดิโอ – ความสามารถที่ทำงานได้ดีไม่ปกติแม้ไม่มีวิดีโอของนักแสดงขับเคลื่อน

นักวิจัยได้เผชิญหน้ากับผู้นำที่ดีที่สุดในความพยายามนี้ รวมถึง Runway Act-One และ LivePortrait ที่ได้รับการยกย่องอย่างมาก และรายงานว่า DreamActor สามารถบรรลุผลลัพธ์เชิงปริมาณที่ดีกว่า

เนื่องจากนักวิจัยสามารถกำหนดเกณฑ์ของตนเอง ผลลัพธ์เชิงปริมาณจึงไม่ใช่มาตรฐานเชิงประจักษ์เสมอไป แต่การทดสอบเชิงคุณภาพที่มาพร้อมกันดูเหมือนจะสนับสนุนข้อสรุปของผู้เขียน

ไม่幸ด้วย ระบบนี้ไม่ได้มีเจตนาที่จะเผยแพร่สู่สาธารณะ และคุณค่าเพียงอย่างเดียวที่ชุมชนสามารถได้รับจากงานนี้คือการทำซ้ำวิธีการที่อธิบายไว้ในเอกสาร (เช่นเดียวกับที่ทำกับ Google Dreambooth ที่ไม่เปิดเผยแหล่งที่มาในปี 2022)

เอกสารระบุว่า:

‘การเคลื่อนไหวภาพมนุษย์มีความเสี่ยงทางสังคม เช่น การใช้เพื่อสร้างวิดีโอที่ปลอมแปลง เทคโนโลยีที่เสนออาจใช้ในการสร้างวิดีโอที่ปลอมของคน แต่เครื่องมือตรวจจับที่มีอยู่ [Demamba, Dormant] สามารถระบุวิดีโอที่ปลอมเหล่านี้ได้

‘เพื่อลดความเสี่ยงเหล่านี้ กฎทางจริยธรรมและแนวทางการใช้งานที่รับผิดชอบเป็นสิ่งจำเป็น เราจะจำกัดการเข้าถึงแบบจำลองหลักและโค้ดของเราอย่างเข้มงวดเพื่อป้องกันการใช้ในทางที่ผิด’

ตามธรรมชาติ การพิจารณาด้านจริยธรรมประเภทนี้มีความสะดวกจากมุมมองเชิงพาณิชย์ เนื่องจากให้เหตุผลในการเข้าถึง API เท่านั้นไปยังแบบจำลอง ซึ่งสามารถสร้างรายได้จากมันได้ ByteDance ได้ทำเช่นนี้แล้วในปี 2025 โดยการทำให้ OmniHuman ที่ได้รับการยกย่องอย่างมากพร้อมใช้งานสำหรับเครดิตที่จ่ายบนเว็บไซต์ Dreamina ดังนั้น เนื่องจาก DreamActor อาจเป็นผลิตภัณฑ์ที่แข็งแกร่งกว่า จึงดูเหมือนผลลัพธ์ที่น่าจะเป็นไปได้ สิ่งที่เหลืออยู่ที่จะเห็นคือว่าหลักการของมัน ในปริมาณที่อธิบายไว้ในเอกสาร จะช่วยชุมชนโอเพ่นซอร์สได้เท่าใด

เอกสารใหม่ชื่อ DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance มาจากนักวิจัยของ Bytedance หกราย

วิธีการ

ระบบ DreamActor ที่เสนอในเอกสารมีจุดมุ่งหมายเพื่อสร้างการเคลื่อนไหวภาพจากภาพอ้างอิงและวิดีโอที่ขับเคลื่อน โดยใช้โครงสร้าง Diffusion Transformer (DiT) ที่ปรับให้เหมาะสมสำหรับพื้นที่ 潛在 (ดูเหมือนจะเป็นรูปแบบของ Stable Diffusion แม้ว่าเอกสารจะอ้างอิงเฉพาะการเผยแพร่ฉบับสำคัญปี 2022)

แทนที่จะพึ่งพาโมดูลภายนอกเพื่อจัดการการกำหนดค่าอ้างอิง ผู้เขียนรวมคุณลักษณะการแสดงและเคลื่อนไหวเข้าด้วยกันภายในโครงสร้าง DiT โดยตรง ทำให้สามารถโต้ตอบกันข้ามพื้นที่และเวลาผ่านการดึงความสนใจ:

สคีมาสำหรับระบบใหม่: DreamActor โค้ดพื้นฐาน การเคลื่อนไหวใบหน้า และการแสดงออกเป็น 潜在ที่แยกจากกัน โดยรวมเข้ากับ 潜ที่วิดีโอที่มีเสียงรบกวนโดย 3D VAE ซึ่งรวมเข้าด้วยกันภายใน Diffusion Transformer โดยใช้การดึงความสนใจตนเองและข้ามการดึงความสนใจ โดยมีน้ำหนักที่ใช้ร่วมกันระหว่างสาขา โมเดลนี้ได้รับการดูแลโดยการเปรียบเทียบการผลลัพธ์ที่ไม่มีเสียงรบกวนไปยัง 潜ที่วิดีโอที่สะอาด

สคีมาสำหรับระบบใหม่: DreamActor โค้ดพื้นฐาน การเคลื่อนไหวใบหน้า และการแสดงออกเป็น 潜ที่แยกจากกัน โดยรวมเข้ากับ 潜ที่วิดีโอที่มีเสียงรบกวนโดย 3D VAE ซึ่งรวมเข้าด้วยกันภายใน Diffusion Transformer โดยใช้การดึงความสนใจตนเองและข้ามการดึงความสนใจ โดยมีน้ำหนักที่ใช้ร่วมกันระหว่างสาขา โมเดลนี้ได้รับการดูแลโดยการเปรียบเทียบการผลลัพธ์ที่ไม่มีเสียงรบกวนไปยัง 潜ที่วิดีโอที่สะอาด Source: https://arxiv.org/pdf/2504.01724

เพื่อทำเช่นนี้ โมเดลจะใช้ 3D Variational Autoencoder ที่ได้รับการฝึกฝนแล้วเพื่อเข้ารหัสทั้งวิดีโอที่ขับเคลื่อนและภาพอ้างอิง 潜ที่เหล่านี้จะถูก patchified ต่อกัน และส่งเข้าไปใน DiT ซึ่งประมวลผลร่วมกัน

โครงสร้างนี้แตกต่างจากแนวทางทั่วไปในการติดโมดูลที่สองสำหรับการฉีดอ้างอิง ซึ่งเป็นแนวทางที่ใช้ในโครงการ Animate Anyone และ Animate Anyone 2 ที่มีอิทธิพล

แทน DreamActor สร้างการผสมผสานเข้าไปในโมเดลหลักเอง ทำให้การออกแบบง่ายขึ้นในขณะเดียวกันก็เพิ่มการไหลของข้อมูลระหว่างสัญญาณการแสดงออกและการเคลื่อนไหว โมเดลนี้ได้รับการฝึกฝนโดยใช้ flow matching แทนที่จะเป็นเป้าหมายการกระจายที่มาตรฐาน (Flow matching ฝึกโมเดลการกระจายโดยการคาดการณ์สนามความเร็วระหว่างข้อมูลและเสียงรบกวน โดยไม่ต้องประมาณคะแนน)

การควบคุมการเคลื่อนไหวแบบไฮบริด

วิธีการควบคุมการเคลื่อนไหวแบบไฮบริดที่ให้ข้อมูลแก่การแสดงภาพแบบประสาทสังเคราะห์รวมถึงโทเค็นพื้นฐานที่ได้รับจากกระดูกสันหลัง 3 มิติและทรงกลมศีรษะ; การแสดงออกบนใบหน้าที่ชัดเจนซึ่งถูกดึงออกโดยตัวเข้ารหัสใบหน้าที่ได้รับการฝึกฝนแล้ว; และโทเค็นการแสดงออกที่ได้รับจากภาพอ้างอิง

องค์ประกอบเหล่านี้ถูกผสมผสานภายใน Diffusion Transformer โดยใช้กลไกการดึงความสนใจที่แตกต่างกัน ทำให้ระบบสามารถประสานการเคลื่อนไหวทั่วไป การแสดงออกบนใบหน้า และอัตลักษณ์ทางภาพตลอดกระบวนการสร้าง

สำหรับรายการแรก ระบบใช้การแสดงออกบนใบหน้าที่ชัดเจนเพื่อควบคุมการสร้างน้ำเสียง ในขณะที่การเคลื่อนไหวของหัวถูกควบคุมโดยทรงกลม 3 มิติ

PD-FGC ที่ใช้ใน DreamActor สร้างหัวที่พูดจากภาพอ้างอิงพร้อมการควบคุมที่แยกจากกันของการซิงค์แลป การหมุนหัว การเคลื่อนไหวของตา และการแสดงออก (จากวิดีโอต่างๆ) Source: https://arxiv.org/pdf/2211.14506

ผลลัพธ์คือลำดับของโทเค็นการเคลื่อนไหวใบหน้า ซึ่งถูกฉีดเข้าไปใน Diffusion Transformer ผ่านชั้นการดึงความสนใจข้าม

การควบคุมการแสดงออก

เพื่อเพิ่มความจริงของการแสดงออก ระบบจะเสริมภาพอ้างอิงหลักด้วยภาพอ้างอิงปลอมที่ตัวอย่างจากวิดีโอที่ขับเคลื่อน

คลิกเพื่อเล่น ระบบคาดการณ์ถึงความจำเป็นในการแสดงพื้นที่ที่ซ่อนอยู่อย่างแม่นยำและสม่ำเสมอ นี่คือสิ่งที่ใกล้เคียงที่สุดที่ฉันเห็นในโครงการประเภทนี้กับแนวทางแบบ bitmap-texture ของ CGI

การฝึกอบรม

DreamActor ถูกฝึกอบรมในสามขั้นตอนเพื่อนำความซับซ้อนมาอย่างค่อยเป็นค่อยไปและปรับปรุงความเสถียร

ข้อมูลและการทดสอบ

สำหรับขั้นตอนการทดสอบ โมเดลถูกเริ่มต้นจากจุดตรวจสอบการฝึกอบรมของ DiT ที่แปลงภาพเป็นวิดีโอ และฝึกอบรมในสามขั้นตอน: 20,000 ขั้นตอนสำหรับแต่ละสองขั้นตอนแรกและ 30,000 ขั้นตอนสำหรับขั้นตอนสุดท้าย

สรุป

ในขณะที่คาดการณ์ถึงความจำเป็นในการสร้างพื้นที่ที่ซ่อนอยู่ที่ไม่มีอยู่ในภาพอ้างอิงเดียวที่ขับเคลื่อนการสร้างเหล่านี้ Bytedance ได้กล่าวถึงหนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุดในการสร้างวิดีโอโดยใช้การกระจาย – พื้นที่ที่สม่ำเสมอและคงอยู่

แม้ว่าระบบนี้จะไม่ได้มีเจตนาที่จะเผยแพร่สู่สาธารณะ แต่คุณค่าเพียงอย่างเดียวที่ชุมชนสามารถได้รับจากงานนี้คือการทำซ้ำวิธีการที่อธิบายไว้ในเอกสาร

เผยแพร่ครั้งแรกวันศุกร์ที่ 4 เมษายน 2025