ปัญญาประดิษฐ์

CameraCtrl: เปิดใช้งานการควบคุมกล้องสำหรับการสร้างข้อความเป็นวิดีโอ

การตีพิมพ์

3 สัปดาห์ที่ผ่านมา

May 23, 2024

เฟรมเวิร์กล่าสุดที่พยายามสร้างข้อความเป็นวิดีโอหรือ T2V ใช้ประโยชน์จากโมเดลการแพร่กระจายเพื่อเพิ่มความเสถียรในกระบวนการฝึกอบรม และโมเดลการแพร่กระจายวิดีโอ ซึ่งเป็นหนึ่งในผู้บุกเบิกในเฟรมเวิร์กการสร้างข้อความเป็นวิดีโอ ได้ขยายสถาปัตยกรรมการกระจายภาพ 2D ในความพยายามที่จะรองรับ ข้อมูลวิดีโอ และฝึกโมเดลในวิดีโอและรูปภาพร่วมกันตั้งแต่เริ่มต้น ด้วยการสร้างจากสิ่งเดียวกัน และเพื่อที่จะนำเครื่องสร้างภาพที่ได้รับการฝึกอบรมล่วงหน้ามาใช้งาน เช่น Stable Diffusion งานล่าสุดได้ขยายสถาปัตยกรรม 2D ของพวกเขาให้ใหญ่ขึ้นโดยการแทรกเลเยอร์ชั่วคราวระหว่างเลเยอร์ 2D ที่ได้รับการฝึกไว้ล่วงหน้า และปรับแต่งโมเดลใหม่บนชุดข้อมูลขนาดใหญ่ที่มองไม่เห็น แม้จะมีแนวทางดังกล่าว โมเดลการแพร่กระจายข้อความเป็นวิดีโอต้องเผชิญกับความท้าทายที่สำคัญ เนื่องจากความคลุมเครือของคำอธิบายข้อความที่ใช้เพียงอย่างเดียวเพื่อสร้างตัวอย่างวิดีโอ มักจะส่งผลให้โมเดลข้อความเป็นวิดีโอมีการควบคุมการสร้างที่อ่อนแอลง เพื่อจัดการกับข้อจำกัดนี้ บางรุ่นให้คำแนะนำที่ได้รับการปรับปรุง ในขณะที่บางรุ่นทำงานกับสัญญาณที่แม่นยำเพื่อควบคุมฉากหรือการเคลื่อนไหวของมนุษย์ในวิดีโอสังเคราะห์อย่างแม่นยำ ในทางกลับกัน มีเฟรมเวิร์กข้อความเป็นวิดีโอบางส่วนที่ใช้รูปภาพเป็นสัญญาณควบคุมไปยังตัวสร้างวิดีโอ ซึ่งส่งผลให้เกิดการสร้างแบบจำลองความสัมพันธ์ชั่วคราวที่แม่นยำ หรือคุณภาพของวิดีโอสูง

จะปลอดภัยที่จะกล่าวว่าความสามารถในการควบคุมมีบทบาทสำคัญในงานสร้างรูปภาพและวิดีโอ เนื่องจากช่วยให้ผู้ใช้สามารถสร้างเนื้อหาที่พวกเขาต้องการได้ อย่างไรก็ตาม กรอบงานที่มีอยู่มักจะมองข้ามการควบคุมท่ากล้องที่แม่นยำซึ่งทำหน้าที่เป็นภาษาภาพยนตร์เพื่อแสดงความแตกต่างในการเล่าเรื่องที่ลึกซึ้งยิ่งขึ้นให้กับโมเดลได้ดีขึ้น เพื่อจัดการกับข้อจำกัดด้านการควบคุมในปัจจุบัน ในบทความนี้ เราจะพูดถึง CameraCtrl ซึ่งเป็นแนวคิดใหม่ที่พยายามเปิดใช้งานการควบคุมท่าทางกล้องที่แม่นยำสำหรับโมเดลข้อความเป็นวิดีโอ หลังจากกำหนดพารามิเตอร์ทิศทางของกล้องอย่างแม่นยำแล้ว โมเดลจะฝึกโมดูลกล้องแบบ Plug and Play บนโมเดลข้อความเป็นวิดีโอ และทำให้ส่วนประกอบอื่นๆ ไม่ถูกแตะต้อง นอกจากนี้ โมเดล CameraCtrl ยังดำเนินการศึกษาที่ครอบคลุมเกี่ยวกับผลกระทบของชุดข้อมูลต่างๆ และแนะนำว่าวิดีโอที่มีลักษณะคล้ายกันและมีการกระจายกล้องที่หลากหลายจะช่วยเพิ่มความสามารถในการควบคุมโดยรวมและความสามารถในการวางลักษณะทั่วไปของโมเดลได้ การทดลองที่ดำเนินการเพื่อวิเคราะห์ประสิทธิภาพของโมเดล CameraCtrl ในงานในโลกแห่งความเป็นจริง บ่งชี้ถึงประสิทธิภาพของเฟรมเวิร์กในการบรรลุการควบคุมกล้องที่ปรับเปลี่ยนตามโดเมนได้อย่างแม่นยำ และเป็นการปูทางไปสู่การแสวงหาการสร้างวิดีโอแบบไดนามิกที่ปรับแต่งเองจากท่ากล้องและการป้อนข้อความ

บทความนี้มีจุดมุ่งหมายเพื่อครอบคลุมกรอบงาน CameraCtrl ในเชิงลึก และเราสำรวจกลไก วิธีการ สถาปัตยกรรมของกรอบงาน รวมถึงการเปรียบเทียบกับกรอบงานที่ทันสมัย มาเริ่มกันเลย

CameraCtrl : การควบคุมกล้องสำหรับการสร้าง T2V

การพัฒนาและความก้าวหน้าล่าสุดของโมเดลการแพร่กระจายได้สร้างวิดีโอแนะนำข้อความขั้นสูงอย่างมีนัยสำคัญในช่วงไม่กี่ปีที่ผ่านมา และปฏิวัติขั้นตอนการออกแบบเนื้อหา การควบคุมมีบทบาทสำคัญในแอปพลิเคชันการสร้างวิดีโอที่ใช้งานได้จริง เนื่องจากช่วยให้ผู้ใช้ปรับแต่งผลลัพธ์ที่สร้างขึ้นตามความต้องการและความต้องการของตน ด้วยความสามารถในการควบคุมที่สูง โมเดลนี้สามารถเพิ่มความสมจริง คุณภาพ และการใช้งานของวิดีโอที่สร้างขึ้นได้ และในขณะที่โมเดลใช้การป้อนข้อความและรูปภาพโดยทั่วไปเพื่อเพิ่มความสามารถในการควบคุมโดยรวม แต่มักจะขาดการควบคุมการเคลื่อนไหวและเนื้อหาที่แม่นยำ . เพื่อจัดการกับข้อจำกัดนี้ บางเฟรมเวิร์กได้เสนอให้ใช้ประโยชน์จากสัญญาณควบคุม เช่น โครงสร้างท่าทาง โฟลว์แสง และสัญญาณหลายรูปแบบอื่นๆ เพื่อให้สามารถควบคุมได้แม่นยำยิ่งขึ้นเพื่อเป็นแนวทางในการสร้างวิดีโอ ข้อจำกัดอีกประการหนึ่งที่เฟรมเวิร์กที่มีอยู่ต้องเผชิญก็คือ ขาดการควบคุมที่แม่นยำในการกระตุ้นหรือปรับจุดกล้องในการสร้างวิดีโอ เนื่องจากความสามารถในการควบคุมกล้องเป็นสิ่งสำคัญ เนื่องจากไม่เพียงแต่เพิ่มความสมจริงของวิดีโอที่สร้างขึ้นเท่านั้น แต่ยังด้วยการอนุญาตให้มีมุมมองที่ปรับแต่งได้ ปรับปรุงการมีส่วนร่วมของผู้ใช้ ซึ่งเป็นคุณลักษณะที่จำเป็นในการพัฒนาเกม ความเป็นจริงเสริม และความเป็นจริงเสมือน นอกจากนี้ การจัดการการเคลื่อนไหวของกล้องอย่างเชี่ยวชาญยังช่วยให้ผู้สร้างสามารถเน้นความสัมพันธ์ของตัวละคร เน้นอารมณ์ และชี้นำการมุ่งเน้นที่ผู้ชมเป้าหมาย ซึ่งเป็นสิ่งที่มีความสำคัญอย่างยิ่งในอุตสาหกรรมภาพยนตร์และโฆษณา

เพื่อจัดการและเอาชนะข้อจำกัดเหล่านี้ กรอบงาน CameraCtrl ซึ่งเป็นโมดูลกล้องแบบพลักแอนด์เพลย์ที่เรียนรู้ได้และแม่นยำ พร้อมความสามารถในการควบคุมมุมมองของกล้องสำหรับการสร้างวิดีโอ อย่างไรก็ตาม การรวมกล้องที่ปรับแต่งเองเข้ากับไปป์ไลน์โมเดลข้อความเป็นวิดีโอที่มีอยู่นั้นเป็นงานที่พูดง่ายกว่าทำ ทำให้เฟรมเวิร์ก CameraCtrl ต้องมองหาวิธีในการนำเสนอและแทรกกล้องในสถาปัตยกรรมโมเดลอย่างมีประสิทธิภาพ ในบันทึกเดียวกัน กรอบงาน CameraCtrl ใช้การฝังตัวดึงข้อมูลเป็นรูปแบบหลักของพารามิเตอร์กล้อง และเหตุผลในการเลือกการฝังตัวดึงข้อมูลอาจเนื่องมาจากความสามารถในการเข้ารหัสคำอธิบายทางเรขาคณิตของข้อมูลท่าโพสของกล้อง นอกจากนี้ เพื่อให้มั่นใจถึงความสามารถทั่วไปและการบังคับใช้ของโมเดล CameraCtrl หลังการฝึกอบรม โมเดลจึงแนะนำโมเดลการควบคุมกล้องที่ยอมรับเฉพาะการฝังตัวดึงข้อมูลเป็นอินพุตเท่านั้น เพื่อให้แน่ใจว่าโมเดลการควบคุมกล้องได้รับการฝึกฝนอย่างมีประสิทธิภาพ เฟรมเวิร์กและนักพัฒนาจึงได้ทำการศึกษาที่ครอบคลุมเพื่อตรวจสอบว่าข้อมูลการฝึกที่แตกต่างกันส่งผลต่อเฟรมเวิร์กตั้งแต่ข้อมูลสังเคราะห์ไปจนถึงข้อมูลจริงอย่างไร ผลการทดลองระบุว่าการนำข้อมูลไปใช้โดยมีการกระจายท่ากล้องที่หลากหลายและรูปลักษณ์ที่คล้ายคลึงกับโมเดลพื้นฐานดั้งเดิม ทำให้เกิดการแลกเปลี่ยนที่ดีที่สุดระหว่างความสามารถในการควบคุมและความสามารถในการทั่วไป นักพัฒนาเฟรมเวิร์ก CameraCtrl ได้นำโมเดลนี้ไปใช้งานบนเฟรมเวิร์ก AnimateDiff ซึ่งช่วยให้สามารถควบคุมการสร้างวิดีโอได้อย่างแม่นยำจากโมเดลส่วนบุคคลที่แตกต่างกัน ซึ่งแสดงให้เห็นถึงความสามารถรอบด้านและประโยชน์ใช้สอยในบริบทการสร้างวิดีโอที่หลากหลาย

กรอบงาน AnimateDiff ใช้ประสิทธิภาพ ลอร่า แนวทางการปรับแต่งอย่างละเอียดเพื่อให้ได้น้ำหนักของแบบจำลองสำหรับช็อตประเภทต่างๆ กรอบงาน Direct-a-video เสนอให้ใช้ตัวฝังกล้องเพื่อควบคุมท่าทางของกล้องในระหว่างกระบวนการสร้างวิดีโอ แต่จะกำหนดเงื่อนไขเฉพาะพารามิเตอร์กล้องสามตัวเท่านั้น ซึ่งจำกัดความสามารถในการควบคุมของกล้องให้เป็นประเภทพื้นฐานส่วนใหญ่ ในทางกลับกัน เฟรมเวิร์กรวมถึง MotionCtrl จะออกแบบตัวควบคุมการเคลื่อนไหวที่ยอมรับพารามิเตอร์อินพุตมากกว่าสามตัว และสามารถสร้างวิดีโอที่มีท่ากล้องที่ซับซ้อนมากขึ้นได้ อย่างไรก็ตาม ความจำเป็นในการปรับแต่งบางส่วนของวิดีโอที่สร้างขึ้นจะขัดขวางความสามารถทั่วไปของโมเดล นอกจากนี้ เฟรมเวิร์กบางตัวยังรวมสัญญาณควบคุมเชิงโครงสร้างเพิ่มเติม เช่น แผนที่เชิงลึก เข้าไปในกระบวนการ เพื่อเพิ่มความสามารถในการควบคุมสำหรับทั้งการสร้างรูปภาพและข้อความ โดยทั่วไปแล้ว โมเดลจะป้อนสัญญาณควบคุมเหล่านี้ไปยังตัวเข้ารหัสเพิ่มเติม จากนั้นจึงฉีดสัญญาณเข้าไปในเครื่องกำเนิดไฟฟ้าโดยใช้การดำเนินการต่างๆ

CameraCtrl: สถาปัตยกรรมโมเดล

ก่อนที่เราจะดูสถาปัตยกรรมและกระบวนทัศน์การฝึกอบรมสำหรับตัวเข้ารหัสกล้อง ก่อนที่เราจะเข้าใจการนำเสนอกล้องแบบต่างๆ เป็นสิ่งสำคัญสำหรับเรา โดยทั่วไป ท่าทางกล้องหมายถึงพารามิเตอร์ภายในและภายนอก และหนึ่งในตัวเลือกที่ตรงไปตรงมาเพื่อให้เงื่อนไขของตัวสร้างวิดีโอบนท่าทางของกล้องคือการป้อนค่าดิบที่เกี่ยวข้องกับพารามิเตอร์ของกล้องเข้าไปในตัวสร้าง อย่างไรก็ตาม การใช้แนวทางดังกล่าวอาจไม่ปรับปรุงการควบคุมกล้องที่แม่นยำด้วยเหตุผลบางประการ ประการแรก ในขณะที่เมทริกซ์การหมุนถูกจำกัดโดย orthogonality เวกเตอร์การแปลโดยทั่วไปจะไม่ถูกจำกัดขนาด และนำไปสู่ความไม่ตรงกันในกระบวนการเรียนรู้ที่อาจส่งผลต่อความสม่ำเสมอของการควบคุม ประการที่สอง การใช้พารามิเตอร์ Raw Camera โดยตรงอาจทำให้โมเดลเชื่อมโยงค่าเหล่านี้กับพิกเซลของภาพได้ยาก ส่งผลให้การควบคุมรายละเอียดของภาพลดลง เพื่อหลีกเลี่ยงข้อจำกัดเหล่านี้ กรอบงาน CameraCtrl จะเลือกการฝังตัวดึงข้อมูลเพื่อเป็นตัวแทนสำหรับท่ากล้อง เนื่องจากการฝังตัวดึงข้อมูลมีการแสดงทางเรขาคณิตของแต่ละพิกเซลของเฟรมวิดีโอ และสามารถให้คำอธิบายที่ละเอียดยิ่งขึ้นของข้อมูลท่ากล้องได้

ความสามารถในการควบคุมกล้องในตัวสร้างวิดีโอ

เนื่องจากโมเดลกำหนดพารามิเตอร์วิถีการเคลื่อนที่ของกล้องให้เป็นลำดับการฝังตัวดึงข้อมูล เช่น แผนที่เชิงพื้นที่ โมเดลมีตัวเลือกในการใช้โมเดลตัวเข้ารหัสเพื่อแยกคุณสมบัติของกล้อง จากนั้นจึงหลอมรวมคุณสมบัติของกล้องเข้ากับเครื่องกำเนิดวิดีโอ คล้ายกับ ข้อความเป็นภาพ อะแดปเตอร์ รุ่น CameraCtrl ขอแนะนำตัวเข้ารหัสกล้องที่ออกแบบมาสำหรับวิดีโอโดยเฉพาะ ตัวเข้ารหัสของกล้องมีโมเดลความสนใจชั่วคราวหลังจากแต่ละบล็อกการบิด ทำให้สามารถจับภาพความสัมพันธ์ชั่วคราวของท่ากล้องตลอดทั้งคลิปวิดีโอ ดังที่แสดงในภาพต่อไปนี้ ตัวเข้ารหัสของกล้องยอมรับเฉพาะอินพุตที่ฝังตัวดึงข้อมูลเท่านั้น และนำเสนอคุณสมบัติหลายขนาด หลังจากได้รับฟีเจอร์กล้องหลายสเกลแล้ว โมเดล CameraCtrl มีเป้าหมายที่จะรวมคุณสมบัติเหล่านี้เข้ากับสถาปัตยกรรม U-net ของโมเดลข้อความเป็นวิดีโอได้อย่างราบรื่น และกำหนดเลเยอร์ที่ควรใช้เพื่อรวมข้อมูลกล้องอย่างมีประสิทธิภาพ นอกจากนี้ เนื่องจากเฟรมเวิร์กที่มีอยู่ส่วนใหญ่ใช้สถาปัตยกรรมแบบ U-Net ที่มีทั้งชั้นความสนใจชั่วคราวและเชิงพื้นที่ โมเดล CameraCtrl จึงแทรกการแสดงภาพของกล้องเข้าไปในบล็อกความสนใจชั่วคราว ซึ่งเป็นการตัดสินใจที่ได้รับการสนับสนุนจากความสามารถของความสนใจชั่วคราว เลเยอร์เพื่อจับภาพความสัมพันธ์ชั่วคราว ซึ่งสอดคล้องกับธรรมชาติของวิถีกล้องที่ไม่เป็นทางการและเป็นลำดับโดยธรรมชาติพร้อมกับเลเยอร์ความสนใจเชิงพื้นที่ที่แสดงภาพแต่ละเฟรม

การเรียนรู้การกระจายกล้อง

การฝึกอบรมส่วนประกอบตัวเข้ารหัสของกล้องภายในเฟรมเวิร์ก CameraCtrl บนเครื่องสร้างวิดีโอต้องใช้วิดีโอที่มีป้ายกำกับและใส่คำอธิบายประกอบอย่างดีจำนวนมาก โดยที่โมเดลสามารถรับวิถีของกล้องโดยใช้โครงสร้างจากการเคลื่อนไหวหรือแนวทาง SfM กรอบงาน CameraCtrl พยายามเลือกชุดข้อมูลที่มีลักษณะตรงกับข้อมูลการฝึกของข้อความพื้นฐานกับโมเดลวิดีโออย่างใกล้ชิด และมีการกระจายท่ากล้องให้กว้างที่สุด ตัวอย่างในชุดข้อมูลที่สร้างขึ้นโดยใช้เอ็นจิ้นเสมือนแสดงการกระจายกล้องที่หลากหลาย เนื่องจากนักพัฒนามีความยืดหยุ่นในการควบคุมพารามิเตอร์ของกล้องในระหว่างขั้นตอนการเรนเดอร์ แม้ว่าจะประสบปัญหาช่องว่างในการกระจายเมื่อเปรียบเทียบกับชุดข้อมูลที่มีตัวอย่างในโลกแห่งความเป็นจริง เมื่อทำงานกับชุดข้อมูลที่มีตัวอย่างในโลกแห่งความเป็นจริง การกระจายของกล้องมักจะแคบ และในกรณีเช่นนี้ กรอบงานจำเป็นต้องค้นหาสมดุลระหว่างความหลากหลายระหว่างวิถีกล้องที่แตกต่างกันและความซับซ้อนของวิถีกล้องแต่ละตัว ความซับซ้อนของวิถีกล้องแต่ละตัวช่วยให้โมเดลเรียนรู้ที่จะควบคุมวิถีที่ซับซ้อนในระหว่างกระบวนการฝึกอบรม ในขณะที่ความหลากหลายในวิถีกล้องที่แตกต่างกันทำให้โมเดลไม่พอดีกับรูปแบบคงที่บางอย่างมากเกินไป นอกจากนี้ เพื่อตรวจสอบกระบวนการฝึกอบรมตัวเข้ารหัสกล้อง เฟรมเวิร์ก CameraCtrl จะเสนอตัววัดการจัดตำแหน่งกล้องเพื่อวัดคุณภาพการควบคุมของกล้องโดยการหาปริมาณข้อผิดพลาดระหว่างวิถีกล้องของตัวอย่างที่สร้างขึ้นและเงื่อนไขของกล้องอินพุต

CameraCtrl : การทดลองและผลลัพธ์

เฟรมเวิร์ก CameraCtrl ใช้โมเดล AnimateDiff เป็นโมเดลฐานข้อความเป็นวิดีโอ และเหตุผลหลักที่อยู่เบื้องหลังสิ่งเดียวกันก็คือ กลยุทธ์การฝึกอบรมของโมเดล AnimateDiff ช่วยให้โมดูลการเคลื่อนไหวสามารถผสานรวมกับโมเดลฐานข้อความเป็นรูปภาพ หรือ LoRA ข้อความเป็นรูปภาพเพื่อรองรับวิดีโอ รุ่นข้ามประเภทและโดเมนที่แตกต่างกัน โมเดลนี้ใช้เครื่องมือเพิ่มประสิทธิภาพ Adam เพื่อฝึกโมเดลด้วยอัตราการเรียนรู้คงที่ที่ 1e-4 นอกจากนี้ เพื่อให้แน่ใจว่าโมเดลจะไม่ส่งผลกระทบต่อความสามารถในการสร้างวิดีโอของต้นฉบับ ข้อความเป็นโมเดลวิดีโอ ในทางลบ กรอบงาน CameraCtrl ใช้ตัววัด FID หรือ Frechet Inception Distance เพื่อประเมินคุณภาพรูปลักษณ์ของวิดีโอ และเปรียบเทียบคุณภาพของวิดีโอที่สร้างขึ้นก่อนและหลังรวมโมดูลกล้อง

เพื่อประเมินประสิทธิภาพ เฟรมเวิร์ก CameraCtrl ได้รับการประเมินเทียบกับเฟรมเวิร์กการควบคุมกล้องที่มีอยู่สองเฟรม: MotionCtrl และ AnimateDiff อย่างไรก็ตาม เนื่องจากเฟรมเวิร์ก AnimateDiff รองรับวิถีกล้องพื้นฐานเพียงแปดวิถี การเปรียบเทียบระหว่าง CameraCtrl และ AnimateDiff จึงจำกัดอยู่ที่วิถีพื้นฐานสามวิถี ในทางกลับกัน เมื่อเปรียบเทียบกับ MotionCtrl เฟรมเวิร์กจะเลือกวิถีกล้องแบบสุ่มกว่าพันเส้นจากชุดข้อมูลที่มีอยู่ นอกเหนือจากวิถีกล้องพื้นฐาน สร้างวิดีโอโดยใช้วิถีเหล่านี้ และประเมินโดยใช้ตัววัด TransErr และ RotErr

ดังที่สังเกตได้ กรอบงาน CameraCtrl มีประสิทธิภาพเหนือกว่ากรอบงาน AnimateDiff ในวิถีพื้นฐาน และให้ผลลัพธ์ที่ดีกว่าเมื่อเปรียบเทียบกับกรอบงาน MotionCtrl บนตัววัดวิถีที่ซับซ้อน

นอกจากนี้ รูปต่อไปนี้ยังแสดงให้เห็นถึงผลกระทบของสถาปัตยกรรมตัวเข้ารหัสของกล้องที่มีต่อคุณภาพโดยรวมของตัวอย่างที่สร้างขึ้น แถว a ถึง แถว d แสดงถึงผลลัพธ์ที่สร้างขึ้นด้วยตัวเข้ารหัสกล้องที่ใช้งานในสถาปัตยกรรม: ControlNet, ControlNet ที่มีความสนใจชั่วคราว, อะแดปเตอร์ T2I และอะแดปเตอร์ T2I ที่มีความสนใจชั่วคราว ตามลำดับ

ในรูปต่อไปนี้ สองรายการแรกจะแทนที่วิดีโอที่สร้างขึ้นโดยใช้การผสมผสานระหว่างตัวเข้ารหัส RGB ของเฟรมเวิร์ก SparseCtrl และวิธีการที่ใช้ในเฟรมเวิร์ก CameraCtrl

ข้อคิด

ในบทความนี้ เราได้พูดคุยเกี่ยวกับ CameraCtrl ซึ่งเป็นแนวคิดใหม่ที่พยายามเปิดใช้งานการควบคุมท่าทางกล้องที่แม่นยำสำหรับโมเดลข้อความเป็นวิดีโอ หลังจากกำหนดพารามิเตอร์ทิศทางของกล้องอย่างแม่นยำแล้ว โมเดลจะฝึกโมดูลกล้องแบบ Plug and Play บนโมเดลข้อความเป็นวิดีโอ และทำให้ส่วนประกอบอื่นๆ ไม่ถูกแตะต้อง นอกจากนี้ โมเดล CameraCtrl ยังดำเนินการศึกษาที่ครอบคลุมเกี่ยวกับผลกระทบของชุดข้อมูลต่างๆ และแนะนำว่าวิดีโอที่มีลักษณะคล้ายกันและมีการกระจายกล้องที่หลากหลายจะช่วยเพิ่มความสามารถในการควบคุมโดยรวมและความสามารถในการวางลักษณะทั่วไปของโมเดลได้ การทดลองที่ดำเนินการเพื่อวิเคราะห์ประสิทธิภาพของโมเดล CameraCtrl ในงานในโลกแห่งความเป็นจริง บ่งชี้ถึงประสิทธิภาพของเฟรมเวิร์กในการบรรลุการควบคุมกล้องที่ปรับเปลี่ยนตามโดเมนได้อย่างแม่นยำ และเป็นการปูทางไปสู่การแสวงหาการสร้างวิดีโอแบบไดนามิกที่ปรับแต่งเองจากท่ากล้องและการป้อนข้อความ

หัวข้อที่เกี่ยวข้อง:CameraCtrl รุ่นที2วี ข้อความเป็นภาพ ข้อความเป็นโมเดลวิดีโอ เครื่องกำเนิดข้อความเป็นวิดีโอ การแพร่กระจายวิดีโอ

ต่อไป

MambaOut: เราต้องการ Mamba เพื่อการมองเห็นจริงหรือ?

อย่าพลาด

เกิดอะไรขึ้นกับ PIN AI ที่มีมนุษยธรรม?

คุณกุล เกจริวัล

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ