الذكاء الاصطناعي

CameraCtrl: تمكين التحكم في الكاميرا لإنشاء فيديو من النص

نُشر في 23 مايو 2024

تم التحديث في 21 مايو 2026

بواسطة

Kunal Kejriwal

الاطار الأخير الذي يحاول إنشاء فيديو من النص أو T2V يعتمد على نماذج الانتشار لاضافة الاستقرار في عملية التدريب، ونموذج فيديو الانتشار، واحد من الرواد في اطار إنشاء فيديو من النص، يوسع بنية صورة ثنائية الابعاد في محاولة لاستيعاب بيانات الفيديو، ويدرب النموذج على الفيديو والصورة معا من البداية. بناء على ذلك، و为了 تنفيذ مولد صورة مسبق التدريب القوي مثل Stable Diffusion، يعمل الأعمال الحديثة على توسيع بنية ثنائية الابعاد عن طريق وضع طبقات زمنية بين الطبقات ثنائية الابعاد المسبقة التدريب، وضبط النموذج الجديد على مجموعات بيانات كبيرة غير مرئية. على الرغم من نهجهم، نموذج فيديو الانتشار من النص يواجه تحديا كبيرا منذ الغموض في استخدام وصف النص فقط لإنشاء عينة الفيديو غالبا ما يؤدي إلى نموذج فيديو من النص الذي لديه سيطرة أضعف على الإنشاء. لمواجهة هذا القصور، بعض النماذج توفر توجيهات محسنة في حين أن البعض الآخر يعمل مع إشارات دقيقة للسيطرة على المشهد أو حركات الإنسان في الفيديوهات الم合نة بدقة. من ناحية أخرى، هناك بعض اطارات فيديو من النص التي تعتمد الصور كإشارة تحكم للفيديو الناتج مما يؤدي إلى نمذجة علاقة زمنية دقيقة أو جودة فيديو عالية.

يمكن القول بأمان أن التحكم يلعب دورا حاسما في المهام التوليدية للصور والفيديوهات منذ أن يسمح للمستخدمين بإنشاء المحتوى الذي يرغبون فيه. ومع ذلك، غالبا ما يتغاضى الاطار الحالي عن التحكم الدقيق في وضع الكاميرا الذي يخدم كلغة سينمائية لتعبير النغمات السردية العميقة للنموذج بشكل أفضل. لمواجهة قيود التحكم الحالية، في هذه المقالة، سنناقش CameraCtrl، فكرة جديدة تحاول تمكين التحكم الدقيق في وضع الكاميرا لنموذج فيديو من النص. بعد تمثيل مسار الكاميرا بدقة، يدرب النموذج وحدة كاميرا قابلة للتشغيل على نموذج فيديو من النص، وترك المكونات الأخرى دون تغيير. بالإضافة إلى ذلك، يقوم نموذج CameraCtrl أيضا بدراسة شاملة لتأثير مجموعات بيانات مختلفة، ويشير إلى أن الفيديوهات التي لها مظهر مشابه وتوزيع كاميرا متنوع يمكن أن تعزز القدرة على التحكم والعمومية للنموذج. التجارب التي أجريت لتحليل أداء نموذج CameraCtrl على مهام العالم الحقيقي تشير إلى كفاءة الإطار في تحقيق تحكم دقيق ومتكيف مع المجال للكاميرا، مما يفتح طريقا لل追求 إنشاء فيديو مخصص وديناميكي من وضع الكاميرا ومدخلات النص.

تهدف هذه المقالة إلى تغطية إطار CameraCtrl بالتفصيل، ونتناول آليته ومنهجيته وعمارة الإطار جنبا إلى جنب مع مقارنته مع اطارات متقدمة الحالة. لذا دعونا نبدأ.

CameraCtrl : التحكم في الكاميرا لإنشاء فيديو من النص

التطورات الحديثة والتقدم في نماذج الانتشار قد قدمت تقدما كبيرا في توليد الفيديو الموجه بالنص في السنوات الأخيرة، وثورة في تدفقات تصميم المحتوى. يلعب التحكم دورا هاما في تطبيقات توليد الفيديو العملية منذ أن يسمح للمستخدمين بتعديل النتائج المولدة وفقا لمتطلباتهم. مع تحكم عالي، يمكن للنموذج تعزيز الواقعية والجودة والقابلية للاستخدام للفيديوهات التي تم إنشاؤها، وفي حين أن مدخلات النص والصورة تستخدم بشكل شائع من قبل النماذج لتعزيز التحكم العام، غالبا ما تفتقر إلى التحكم الدقيق في الحركة والمحتوى. لمواجهة هذا القصور، اقترحت بعض الاطارات استخدام إشارات تحكم مثل هيكل العظام والتدفق البصري وإشارات متعددة الوسائط الأخرى لتمكين التحكم الأكثر دقة لتوجيه توليد الفيديو. قيود أخرى تواجهها اطارات موجودة هي أنها تفتقر إلى التحكم الدقيق في تحفيز أو تعديل نقاط الكاميرا في توليد الفيديو منذ أن القدرة على التحكم في الكاميرا حاسمة لا فقط لتعزيز واقعية الفيديوهات المولدة ولكن من خلال السماح بمواقع مخصصة، تعزز أيضا مشاركة المستخدم، وهي ميزة أساسية في تطوير الألعاب والواقع المعزز والواقع الافتراضي. بالإضافة إلى ذلك، يسمح إدارة حركات الكاميرا بمهارة للمبدعين بتحديد علاقات الشخصيات، وتأكيد العواطف، وتوجيه انتباه الجمهور المستهدف، وهو أمر مهم للغاية في صناعات السينما والإعلان.

لمواجهة هذه القيود، يقدم إطار CameraCtrl، وحدة كاميرا قابلة للتعلم والتحكم الدقيق مع القدرة على التحكم في وجهات نظر الكاميرا لتوليد الفيديو. ومع ذلك، دمج كاميرا مخصصة في خط أنابيب نموذج فيديو من النص هو مهمة أسهل قولا من فعلا، مما يضطر إطار CameraCtrl إلى البحث عن طرق لتمثيل الكاميرا وفكها في عمارة النموذج بشكل فعال. في نفس السياق، يعتمد إطار CameraCtrl على تنسيق Plucker كشكل رئيسي لمعلمات الكاميرا، والسبب في اختيار تنسيق Plucker يعود إلى قدرته على ترميز وصف هندسي لمعلومات وضع الكاميرا. بالإضافة إلى ذلك، لضمان القابلية العامة والتطبيقية لنموذج CameraCtrl بعد التدريب، يقدم النموذج نموذج تحكم في الكاميرا الذي يقبل فقط تنسيق Plucker كمدخل. لضمان تدريب نموذج التحكم في الكاميرا بشكل فعال، يقوم الإطار ومطوروه بدراسة شاملة لتحقيق كيفية تأثير بيانات التدريب المختلفة على الإطار من البيانات الاصطناعية إلى البيانات الواقعية. تشير النتائج التجريبية إلى أن تنفيذ بيانات ذات توزيع وضع كاميرا متنوع ومظهر مشابه إلى النموذج الأساسي يتحقق من أفضل توازن بين التحكم والعمومية. وقد قام مطورو إطار CameraCtrl بتنفيذ النموذج على نموذج AnimateDiff، وبالتالي تمكين التحكم الدقيق في توليد الفيديو عبر سياقات إنشاء فيديو مخصصة مختلفة، مما يظهر مرونته وفائدته في مجموعة واسعة من سياقات إنشاء الفيديو.

يتبنى إطار AnimateDiff نهج ضبط LoRA الفعال لتحصل على أوزان النموذج لمختلف أنواع اللقطات. يقترح إطار Direct-a-video تنفيذ وحدةكاميرا لتحكم في وضع الكاميرا أثناء عملية توليد الفيديو، لكنه يعتمد فقط على ثلاثة معلمات كاميرا، مما يحد من khảية التحكم في الكاميرا إلى أنواع أساسية فقط. من ناحية أخرى، اطارات مثل MotionCtrl تصمم وحدة تحكم في الحركة التي تقبل أكثر من ثلاثة معلمات مدخلة ويمكنها إنتاج فيديوهات ذات مواقف كاميرا أكثر تعقيدا. ومع ذلك، الحاجة إلى ضبط أجزاء من الفيديوهات المولدة تعيق قابلية النموذج العام. بالإضافة إلى ذلك، بعض الاطارات تدمج إشارات تحكم هيكلية إضافية مثل خرائط العمق في العملية لتعزيز التحكم ل cả توليد الصور والنص. عادة، يقوم النموذج بتمرير إشارات التحكم هذه إلى مشفر إضافي، ثم يقوم بتمرير الإشارات إلى مولد باستخدام عمليات مختلفة.

CameraCtrl: عمارة النموذج

قبل أن نتمكن من النظر إلى عمارة ونمط التدريب لمشفر الكاميرا، من المهم لنا فهم تمثيلات الكاميرا المختلفة. عادة، يشير وضع الكاميرا إلى المعلمات الداخلية والخارجية، وواحدة من الخيارات البسيطة لتوجيه مولد الفيديو على وضع الكاميرا هي تغذية قيم خام لمعلمات الكاميرا إلى المولد. ومع ذلك، قد لا يؤدي تنفيذ مثل هذا النهج إلى تحسين التحكم الدقيق في الكاميرا لعدة أسباب. أولا، في حين أن مصفوفة الدوران مقيدة بالارتباطية، فإن متجه الترجمة عادة غير مقيد في الحجم، مما يؤدي إلى عدم تطابق في عملية التعلم التي يمكن أن تؤثر على اتساق التحكم. ثانيا، استخدام معلمات الكاميرا الخام مباشرة يمكن أن يجعل من الصعب على النموذج ربط هذه القيم ببكسل الصورة، مما يؤدي إلى انخفاض التحكم في التفاصيل البصرية. لتجنب هذه القيود، يختار إطار CameraCtrl تنسيق Plucker كتمثيل لوضع الكاميرا منذ أن تنسيق Plucker له تمثيلات هندسية لكل بكسل من إطار الفيديو، ويمكن أن يوفر وصفا أكثر تفصيلا لمعلومات وضع الكاميرا.

التحكم في الكاميرا في مولدات الفيديو

عندما يرمز النموذج لمسار الكاميرا إلى تسلسل تنسيق Plucker (خرائط فضائية)، يكون للنموذج خيار استخدام نموذج مشفر لاستخراج ميزات الكاميرا، ثم دمج ميزات الكاميرا في مولدات الفيديو. مشابه ل النص إلى الصورة، يقدم نموذج CameraCtrl نموذج كاميرا مصمم خصيصا للفيديوهات. يتضمن نموذج الكاميرا نموذج انتباه زمني بعد كل كتلة تقليدي، مما يسمح له بتقاط العلاقات الزمنية لوضع الكاميرا على طول شريط الفيديو. كما هو موضح في الصورة التالية، يقبل نموذج الكاميرا فقط مدخلات تنسيق Plucker، ويتحقق من الميزات متعددة المقاييس. بعد الحصول على ميزات الكاميرا متعددة المقاييس، يهدف نموذج CameraCtrl إلى دمج هذه الميزات في هيكل U-Net لنموذج النص إلى الفيديو بشكل متساو، ويتحقق من الطبقات التي يجب استخدامها لدمج معلومات الكاميرا بشكل فعال. بالإضافة إلى ذلك، منذ أن يعتمد معظم الاطارات الحالية هيكلا شبيها ب U-Net الذي يحتوي على طبقات انتباه زمنية ومكانية، يقوم نموذج CameraCtrl بدمج تمثيلات الكاميرا في كتلة الانتباه الزمني، وهي قرار مدعوم بقدرة طبقات الانتباه الزمني على التقاط العلاقات الزمنية، والتي تتوافق مع الطبيعة السببية والترتيبية للمسار الكاميرا مع طبقات الانتباه المكاني التي تصور الإطارات الفردية.

تعلم توزيعات الكاميرا

تدريب مكون مشفر الكاميرا في إطار CameraCtrl على مولد فيديو يتطلب كمية كبيرة من الفيديوهات المسموح بها وتم توجيهها، مع khảية النموذج لتحقيق مسار الكاميرا باستخدام نهج الحركة من البناء. يحاول إطار CameraCtrl اختيار مجموعة البيانات التي تماثل مظهر بيانات التدريب للنموذج الأساسي للنص إلى الفيديو بشكل وثيق، ولها توزيع وضع الكاميرا واسع كما هو ممكن. العينات في مجموعة البيانات التي تم إنشاؤها باستخدام محركات افتراضية تظهر توزيع كاميرا متنوعا منذ أن يكون للمطورين مرونة في التحكم في معلمات الكاميرا خلال مرحلة الت描. ومع ذلك، يعاني من فجوة توزيع عند مقارنته بمجموعات البيانات التي تحتوي على عينات من العالم الحقيقي. عند العمل مع مجموعات البيانات التي تحتوي على عينات من العالم الحقيقي، يكون توزيع الكاميرا عادة ضيقا، وفي هذه الحالات، يحتاج الإطار إلى إيجاد توازن بين تنوع المسارات الكاميرا المختلفة و複雑ية المسار الكاميرا الفردية. يضمن phức tạpية المسار الكاميرا الفردية أن النموذج يتعلم التحكم في مسارات معقدة خلال عملية التدريب، في حين أن تنوع المسارات الكاميرا المختلفة يضمن أن النموذج لا يعتمد على أنماط محددة. بالإضافة إلى ذلك، لمراقبة عملية تدريب مشفر الكاميرا، يقترح إطار CameraCtrl مقياس محاذاة الكاميرا لقياس جودة التحكم في الكاميرا عن طريق كمية الخطأ بين مسار الكاميرا للعينات المولدة وشرطات الكاميرا المدخلة.

CameraCtrl : التجارب والنتائج

يطبق إطار CameraCtrl نموذج AnimateDiff كنموذج النص إلى الفيديو الأساسي، والسبب الرئيسي وراء ذلك هو أن استراتيجية التدريب لنموذج AnimateDiff تسمح لمодуله الحركي بالتكامل مع نماذج النص إلى الصورة أو نماذج LoRA للنص إلى الصورة لاستيعاب توليد الفيديو عبر أصناف و مجالات مختلفة. يستخدم النموذج محسّن Adam لتدريب النموذج بمعدل تعلم ثابت من 1e-4. بالإضافة إلى ذلك، لضمان أن النموذج لا يؤثر سلبا على khảية توليد الفيديو للنموذج النص إلى الفيديو الأصلي، يستخدم إطار CameraCtrl مقياس المسافة الفريتشة لتقدير جودة المظهر للفيديو، ويقارن جودة الفيديو المولدة قبل وبعد إضافة وحدة الكاميرا.

لتحليل أدائه، يتم تقييم إطار CameraCtrl مقابل اطاران موجودان للتحكم في الكاميرا: MotionCtrl و AnimateDiff. ومع ذلك، منذ أن يحتوي إطار AnimateDiff على دعم لثمانية مسارات كاميرا أساسية فقط، يتم تقييد المقارنة بين CameraCtrl و AnimateDiff إلى ثلاثة مسارات أساسية. من ناحية أخرى، للمقارنة مع MotionCtrl، يختار الإطار أكثر من ألف مسار كاميرا عشوائي من مجموعة بيانات موجودة بالإضافة إلى مسارات الكاميرا الأساسية، وينشئ فيديوهات باستخدام هذه المسارات، ويتحقق منها باستخدام مقاييس TransErr و RotErr.

كما يمكن ملاحظة، يتفوق إطار CameraCtrl على إطار AnimateDiff في المسار الأساسي، ويقدم نتائج أفضل عند المقارنة مع إطار MotionCtrl على مقياس المسار المعقد.

علاوة على ذلك، يظهر الشكل التالي تأثير هيكل مشفر الكاميرا على جودة العينات المولدة. الصف من الصفحة أ إلى الصفحة د ي代表 النتائج التي تم إنشاؤها مع مشفر الكاميرا المنفذ في الهيكل: ControlNet، ControlNet مع انتباه زمني، T2I Adaptor، و T2I adaptor مع انتباه زمني على التوالي.

في الشكل التالي، يظهر الفيديو الذي تم إنشاؤه باستخدام مزيج من مشفر RGB لاطار SparseCtrl وطريقة المستخدمة في إطار CameraCtrl.

الافكار النهائية

في هذه المقالة، تحدثنا عن CameraCtrl، فكرة جديدة تحاول تمكين التحكم الدقيق في وضع الكاميرا لنموذج فيديو من النص. بعد تمثيل مسار الكاميرا بدقة، يدرب النموذج وحدة كاميرا قابلة للتشغيل على نموذج فيديو من النص، وترك المكونات الأخرى دون تغيير. بالإضافة إلى ذلك، يقوم نموذج CameraCtrl أيضا بدراسة شاملة لتأثير مجموعات بيانات مختلفة، ويشير إلى أن الفيديوهات التي لها مظهر مشابه وتوزيع كاميرا متنوع يمكن أن تعزز القدرة على التحكم والعمومية للنموذج. التجارب التي أجريت لتحليل أداء نموذج CameraCtrl على مهام العالم الحقيقي تشير إلى كفاءة الإطار في تحقيق تحكم دقيق ومتكيف مع المجال للكاميرا، مما يفتح طريقا لل追求 إنشاء فيديو مخصص وديناميكي من وضع الكاميرا ومدخلات النص.

Kunal Kejriwal

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.