الذكاء الاصطناعي

CameraCtrl: تمكين التحكم في الكاميرا لإنشاء تحويل النص إلى فيديو

تم النشر

قبل أسابيع 3

23 مايو 2024

تعمل الأطر الحديثة التي تحاول تحويل النص إلى فيديو أو إنشاء T2V على الاستفادة من نماذج الانتشار لإضافة الاستقرار في عملية التدريب الخاصة بها، ويقوم نموذج نشر الفيديو، وهو أحد الرواد في أطر إنشاء النص إلى الفيديو، بتوسيع بنية نشر الصور ثنائية الأبعاد في محاولة للتكيف بيانات الفيديو، وتدريب النموذج على الفيديو والصورة معًا من البداية. بناءً على نفس الشيء، ومن أجل تنفيذ مولد صور قوي مدرب مسبقًا مثل Stable Diffusion، تعمل الأعمال الحديثة على تضخيم بنيتها ثنائية الأبعاد عن طريق تشذير الطبقات الزمنية بين الطبقات ثنائية الأبعاد المدربة مسبقًا، وضبط النموذج الجديد على مجموعات كبيرة غير مرئية من البيانات. على الرغم من النهج الذي تتبعه، تواجه نماذج نشر النص إلى الفيديو تحديًا كبيرًا نظرًا لأن غموض أوصاف النص المستخدمة فقط لإنشاء عينة الفيديو غالبًا ما يؤدي إلى ضعف التحكم في نموذج النص إلى الفيديو على التوليد. ولمعالجة هذا القيد، توفر بعض النماذج إرشادات معززة بينما يعمل البعض الآخر بإشارات دقيقة للتحكم في المشهد أو الحركات البشرية في مقاطع الفيديو المركبة بدقة. من ناحية أخرى، هناك عدد قليل من أطر تحويل النص إلى فيديو التي تعتمد الصور كإشارة تحكم لمولد الفيديو مما يؤدي إما إلى نمذجة علاقة زمنية دقيقة، أو جودة فيديو عالية.

سيكون من الآمن أن نقول إن إمكانية التحكم تلعب دورًا حاسمًا في مهام إنشاء الصور والفيديو لأنها تتيح للمستخدمين إنشاء المحتوى الذي يرغبون فيه. ومع ذلك، غالبًا ما تتجاهل الأطر الحالية التحكم الدقيق في وضعية الكاميرا التي تعمل كلغة سينمائية للتعبير عن الفروق الدقيقة السردية الأعمق للنموذج بشكل أفضل. لمعالجة قيود إمكانية التحكم الحالية، سنتحدث في هذه المقالة عن CameraCtrl، وهي فكرة جديدة تحاول تمكين التحكم الدقيق في وضعية الكاميرا لنماذج النص إلى الفيديو. بعد تحديد مسار الكاميرا بدقة، يقوم النموذج بتدريب وحدة كاميرا التوصيل والتشغيل على نموذج النص إلى الفيديو، ويترك المكونات الأخرى دون تغيير. علاوة على ذلك، يجري نموذج CameraCtrl أيضًا دراسة شاملة حول تأثير مجموعات البيانات المختلفة، ويقترح أن مقاطع الفيديو ذات المظاهر المتشابهة والتوزيع المتنوع للكاميرا يمكن أن تعزز إمكانية التحكم الشاملة وقدرات التعميم للنموذج. تشير التجارب التي أجريت لتحليل أداء نموذج CameraCtrl في مهام العالم الحقيقي إلى كفاءة الإطار في تحقيق تحكم دقيق ومتكيف مع الكاميرا، مما يمهد الطريق للمضي قدمًا في السعي إلى إنشاء فيديو مخصص وديناميكي من وضعية الكاميرا والمدخلات النصية.

تهدف هذه المقالة إلى تغطية إطار عمل CameraCtrl بعمق، ونستكشف الآلية والمنهجية وبنية الإطار بالإضافة إلى مقارنته بأطر العمل الحديثة. اذا هيا بنا نبدأ.

CameraCtrl: التحكم في الكاميرا لجيل T2V

أدى التطوير والتقدم الأخير لنماذج النشر إلى تطوير إنشاء مقاطع فيديو موجهة بالنص بشكل ملحوظ في السنوات الأخيرة، وأحدث ثورة في سير عمل تصميم المحتوى. تلعب إمكانية التحكم دورًا مهمًا في تطبيقات توليد الفيديو العملية لأنها تتيح للمستخدمين تخصيص النتائج الناتجة وفقًا لاحتياجاتهم ومتطلباتهم. بفضل إمكانية التحكم العالية، يكون النموذج قادرًا على تعزيز الواقعية والجودة وسهولة استخدام مقاطع الفيديو التي أنشأها، وبينما يتم استخدام مدخلات النص والصورة بشكل شائع بواسطة النماذج لتعزيز إمكانية التحكم الشاملة، فإنها غالبًا ما تفتقر إلى التحكم الدقيق في الحركة والمحتوى . لمعالجة هذا القيد، اقترحت بعض الأطر الاستفادة من إشارات التحكم مثل الهيكل العظمي للوضعية، والتدفق البصري، وغيرها من الإشارات متعددة الوسائط لتمكين التحكم الأكثر دقة لتوجيه إنشاء الفيديو. هناك قيد آخر تواجهه الأطر الحالية وهو أنها تفتقر إلى التحكم الدقيق في تحفيز أو تعديل نقاط الكاميرا في إنشاء الفيديو نظرًا لأن القدرة على التحكم في الكاميرا أمر بالغ الأهمية لأنها لا تعزز واقعية مقاطع الفيديو التي تم إنشاؤها فحسب، بل من خلال السماح بوجهات نظر مخصصة، كما أنها يعزز مشاركة المستخدم، وهي ميزة ضرورية في تطوير الألعاب والواقع المعزز والواقع الافتراضي. علاوة على ذلك، فإن إدارة حركات الكاميرا بمهارة تسمح للمبدعين بتسليط الضوء على العلاقات الشخصية، والتأكيد على العواطف، وتوجيه تركيز الجمهور المستهدف، وهو أمر ذو أهمية كبيرة في صناعتي الأفلام والإعلان.

لمعالجة هذه القيود والتغلب عليها، تم استخدام إطار عمل CameraCtrl، وهو عبارة عن وحدة كاميرا قابلة للتوصيل والتشغيل دقيقة وقابلة للتعلم مع القدرة على التحكم في وجهات نظر الكاميرا لإنشاء الفيديو. ومع ذلك، فإن دمج كاميرا مخصصة في نص موجود في خط أنابيب نموذج الفيديو يعد مهمة أسهل من التنفيذ، مما يجبر إطار عمل CameraCtrl على البحث عن طرق حول كيفية تمثيل الكاميرا وإدخالها في بنية النموذج بشكل فعال. على نفس المنوال، يعتمد إطار عمل CameraCtrl تضمينات الناتف كشكل أساسي لمعلمات الكاميرا، ويمكن أن يُعزى سبب اختيار تضمينات الناتف إلى قدرتها على تشفير الأوصاف الهندسية لمعلومات وضعية الكاميرا. علاوة على ذلك، ولضمان تعميم وقابلية تطبيق نموذج CameraCtrl بعد التدريب، يقدم النموذج نموذجًا للتحكم في الكاميرا يقبل فقط تضمينات الناتف كمدخل. لضمان تدريب نموذج التحكم في الكاميرا بشكل فعال، يقوم إطار العمل ومطوروه بإجراء دراسة شاملة للتحقيق في كيفية تأثير بيانات التدريب المختلفة على إطار العمل من البيانات الاصطناعية إلى البيانات الواقعية. تشير النتائج التجريبية إلى أن تنفيذ البيانات باستخدام توزيع متنوع للكاميرا ومظهر مشابه للنموذج الأساسي الأصلي يحقق أفضل مفاضلة بين إمكانية التحكم وقابلية التعميم. قام مطورو إطار عمل CameraCtrl بتنفيذ النموذج أعلى إطار عمل AnimateDiff، مما يتيح التحكم الدقيق في إنشاء الفيديو عبر مختلف العناصر المخصصة، مما يدل على تعدد استخداماته وفائدته في نطاق واسع من سياقات إنشاء الفيديو.

يعتمد إطار عمل AnimateDiff على الكفاءة لورا أسلوب الضبط الدقيق للحصول على أوزان النموذج لأنواع مختلفة من اللقطات. يقترح إطار عمل Direct-a-video تنفيذ أداة تضمين الكاميرا للتحكم في وضع الكاميرات أثناء عملية إنشاء الفيديو، ولكنه يعتمد فقط على ثلاث معلمات للكاميرا، مما يحد من قدرة التحكم في الكاميرا على معظم الأنواع الأساسية. من ناحية أخرى، تقوم الأطر بما في ذلك MotionCtrl بتصميم وحدة تحكم في الحركة تقبل أكثر من ثلاثة معلمات إدخال وتكون قادرة على إنتاج مقاطع فيديو بأوضاع كاميرا أكثر تعقيدًا. ومع ذلك، فإن الحاجة إلى ضبط أجزاء من مقاطع الفيديو التي تم إنشاؤها تعرقل إمكانية تعميم النموذج. علاوة على ذلك، تتضمن بعض الأطر إشارات تحكم هيكلية إضافية مثل خرائط العمق في العملية لتعزيز إمكانية التحكم في إنشاء الصور والنصوص. عادةً ما يقوم النموذج بتغذية إشارات التحكم هذه إلى جهاز تشفير إضافي، ثم يقوم بحقن الإشارات في المولد باستخدام عمليات مختلفة.

CameraCtrl: بنية النموذج

قبل أن نتمكن من إلقاء نظرة على البنية ونموذج التدريب الخاص بجهاز تشفير الكاميرا، من المهم بالنسبة لنا أن نفهم تمثيلات الكاميرا المختلفة. عادةً، يشير وضع الكاميرا إلى معلمات جوهرية وخارجية، وأحد الخيارات المباشرة للسماح بوضع مولد الفيديو على الكاميرا هو تغذية القيم الأولية المتعلقة بمعلمات الكاميرا في المولد. ومع ذلك، فإن تنفيذ مثل هذا النهج قد لا يعزز التحكم الدقيق في الكاميرا لعدة أسباب. أولا، في حين أن مصفوفة التناوب مقيدة بالتعامد، فإن ناقل الترجمة عادة ما يكون غير مقيد من حيث الحجم، ويؤدي إلى عدم التطابق في عملية التعلم التي يمكن أن تؤثر على اتساق التحكم. ثانيًا، قد يؤدي استخدام معلمات الكاميرا الأولية مباشرةً إلى صعوبة قيام النموذج بربط هذه القيم ببكسلات الصورة، مما يؤدي إلى تقليل التحكم في التفاصيل المرئية. لتجنب هذه القيود، يختار إطار عمل CameraCtrl تضمينات الناتف كتمثيل لوضعية الكاميرا نظرًا لأن تضمينات الناتف تحتوي على تمثيلات هندسية لكل بكسل في إطار الفيديو، ويمكن أن توفر وصفًا أكثر تفصيلاً لمعلومات وضعية الكاميرا.

إمكانية التحكم في الكاميرا في مولدات الفيديو

نظرًا لأن النموذج يحدد مسار الكاميرا في تسلسل تضمين ناتف، أي الخرائط المكانية، فإن النموذج لديه خيار استخدام نموذج تشفير لاستخراج ميزات الكاميرا، ثم دمج ميزات الكاميرا في مولدات الفيديو. مشابه ل نص إلى صورة المحول، يقدم طراز CameraCtrl أداة تشفير الكاميرا المصممة خصيصًا لمقاطع الفيديو. يشتمل برنامج تشفير الكاميرا على نموذج انتباه زمني بعد كل كتلة تلافيفية، مما يسمح له بالتقاط العلاقات الزمنية التي تشكلها الكاميرا طوال مقطع الفيديو. كما هو موضح في الصورة التالية، يقبل برنامج تشفير الكاميرا فقط مدخلات التضمين الناتف، ويقدم ميزات متعددة النطاق. بعد الحصول على ميزات الكاميرا متعددة النطاق، يهدف نموذج CameraCtrl إلى دمج هذه الميزات في بنية U-net لنموذج النص إلى الفيديو بسلاسة، وتحديد الطبقات التي يجب استخدامها لدمج معلومات الكاميرا بشكل فعال. علاوة على ذلك، نظرًا لأن غالبية الأطر الحالية تتبنى بنية تشبه U-Net تحتوي على طبقات الاهتمام الزمانية والمكانية، فإن نموذج CameraCtrl يحقن تمثيلات الكاميرا في كتلة الانتباه الزمني، وهو قرار مدعوم بقدرة الانتباه الزمني طبقات لالتقاط العلاقات الزمنية، بما يتماشى مع الطبيعة العرضية والمتسلسلة المتأصلة لمسار الكاميرا مع طبقات الاهتمام المكاني التي تصور الإطارات الفردية.

تعلم توزيعات الكاميرا

يتطلب تدريب مكون تشفير الكاميرا ضمن إطار عمل CameraCtrl على مولد فيديو كمية كبيرة من مقاطع الفيديو ذات العلامات الجيدة والتعليقات التوضيحية مع قدرة النموذج على الحصول على مسار الكاميرا باستخدام البنية من الحركة أو نهج SfM. يحاول إطار عمل CameraCtrl تحديد مجموعة البيانات ذات المظاهر المطابقة لبيانات التدريب الخاصة بالنص الأساسي ونموذج الفيديو بشكل وثيق، مع توزيع وضعية الكاميرا على أوسع نطاق ممكن. تُظهر العينات الموجودة في مجموعة البيانات التي تم إنشاؤها باستخدام محركات افتراضية توزيعًا متنوعًا للكاميرات حيث يتمتع المطورون بالمرونة للتحكم في معلمات الكاميرا أثناء مرحلة العرض، على الرغم من أنها تعاني من فجوة التوزيع عند مقارنتها بمجموعات البيانات التي تحتوي على عينات من العالم الحقيقي. عند العمل مع مجموعات البيانات التي تحتوي على عينات من العالم الحقيقي، يكون توزيع الكاميرا عادةً ضيقًا، وفي مثل هذه الحالات، يحتاج الإطار إلى إيجاد توازن بين التنوع بين مسارات الكاميرا المختلفة وتعقيد مسار الكاميرا الفردية. يضمن تعقيد مسار الكاميرا الفردية أن يتعلم النموذج التحكم في المسارات المعقدة أثناء عملية التدريب، بينما يضمن التنوع بين مسارات الكاميرا المختلفة عدم تجاوز النموذج لأنماط ثابتة معينة. علاوة على ذلك، لمراقبة عملية تدريب أداة تشفير الكاميرا، يقترح إطار عمل CameraCtrl مقياس محاذاة الكاميرا لقياس جودة التحكم في الكاميرا عن طريق قياس الخطأ بين مسار الكاميرا للعينات التي تم إنشاؤها وظروف الكاميرا المدخلة.

CameraCtrl: التجارب والنتائج

ينفذ إطار عمل CameraCtrl نموذج AnimateDiff كنموذج أساسي لتحويل النص إلى فيديو والسبب الرئيسي وراء ذلك هو أن استراتيجية التدريب لنموذج AnimateDiff تسمح لوحدة الحركة الخاصة بها بالتكامل مع نماذج قاعدة النص إلى الصورة أو LoRAs من النص إلى الصورة لاستيعاب الفيديو جيل عبر مختلف الأنواع والمجالات. يستخدم النموذج مُحسِّن Adam لتدريب النموذج بمعدل تعلم ثابت يبلغ 1e-4. علاوة على ذلك، للتأكد من أن النموذج لا يؤثر على قدرات إنشاء الفيديو الأصلية نموذج النص إلى الفيديو بشكل سلبي، يستخدم إطار عمل CameraCtrl مقياس FID أو Frechet Inception Distance لتقييم جودة مظهر الفيديو، ويقارن جودة الفيديو الذي تم إنشاؤه قبل وبعد تضمين وحدة الكاميرا.

لتقييم أدائه، يتم تقييم إطار عمل CameraCtrl مقابل إطارين موجودين للتحكم في الكاميرا: MotionCtrl وAnimateDiff. ومع ذلك، نظرًا لأن إطار عمل AnimateDiff يدعم ثمانية مسارات أساسية فقط للكاميرا، فإن المقارنة بين CameraCtrl وAnimateDiff تقتصر على ثلاثة مسارات أساسية. من ناحية أخرى، للمقارنة مع MotionCtrl، يختار الإطار أكثر من ألف مسار عشوائي للكاميرا من مجموعة البيانات الموجودة بالإضافة إلى مسارات الكاميرا الأساسية، وينشئ مقاطع فيديو باستخدام هذه المسارات، ويقيمها باستخدام مقاييس TransErr وRotErr.

كما يمكن ملاحظته، يتفوق إطار عمل CameraCtrl على إطار عمل AnimateDiff في المسار الأساسي، ويقدم نتائج أفضل عند مقارنته بإطار عمل MotionCtrl على مقياس المسار المعقد.

علاوة على ذلك، يوضح الشكل التالي تأثير بنية تشفير الكاميرا على الجودة الشاملة للعينات التي تم إنشاؤها. يمثل الصف أ إلى الصف د النتائج الناتجة عن أداة تشفير الكاميرا المطبقة في البنية: ControlNet، وControlNet مع الاهتمام الزمني، ومحول T2I، ومحول T2I مع الاهتمام الزمني على التوالي.

في الشكل التالي، يقوم الأولان بإزاحة الفيديو الذي تم إنشاؤه باستخدام مزيج من أداة تشفير RGB الخاصة بإطار عمل SparsCtrl، والطريقة المستخدمة في إطار عمل CameraCtrl.

افكار اخيرة

في هذه المقالة، تحدثنا عن CameraCtrl، وهي فكرة جديدة تحاول تمكين التحكم الدقيق في وضعية الكاميرا لنماذج النص والفيديو. بعد تحديد مسار الكاميرا بدقة، يقوم النموذج بتدريب وحدة كاميرا التوصيل والتشغيل على نموذج النص إلى الفيديو، ويترك المكونات الأخرى دون تغيير. علاوة على ذلك، يجري نموذج CameraCtrl أيضًا دراسة شاملة حول تأثير مجموعات البيانات المختلفة، ويقترح أن مقاطع الفيديو ذات المظاهر المتشابهة والتوزيع المتنوع للكاميرا يمكن أن تعزز إمكانية التحكم الشاملة وقدرات التعميم للنموذج. تشير التجارب التي أجريت لتحليل أداء نموذج CameraCtrl في مهام العالم الحقيقي إلى كفاءة الإطار في تحقيق تحكم دقيق ومتكيف مع الكاميرا، مما يمهد الطريق للمضي قدمًا في السعي إلى إنشاء فيديو مخصص وديناميكي من وضعية الكاميرا والمدخلات النصية.

MambaOut: هل نحتاج حقًا إلى مامبا للرؤية؟

لا تفوت

ما الخطأ الذي حدث في دبوس الذكاء الاصطناعي الإنساني؟

كونال كيجريوال

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.