الذكاء الاصطناعي
AniPortrait: التوليف الصوتي للرسوم المتحركة للصور الواقعية

على مر السنين، وجد إنشاء صور متحركة واقعية ومعبرة من الصور الثابتة والصوت مجموعة من التطبيقات بما في ذلك الألعاب والوسائط الرقمية والواقع الافتراضي وغير ذلك الكثير. على الرغم من إمكانية تطبيقه، لا يزال من الصعب على المطورين إنشاء أطر عمل قادرة على إنشاء رسوم متحركة عالية الجودة تحافظ على الاتساق الزمني وتكون جذابة بصريًا. أحد الأسباب الرئيسية للتعقيد هو الحاجة إلى التنسيق المعقد لحركات الشفاه ووضعيات الرأس وتعبيرات الوجه لصياغة تأثير مقنع بصريًا.
في هذه المقالة، سنتحدث عن AniPortrait، وهو إطار عمل جديد مصمم لإنشاء رسوم متحركة عالية الجودة تعتمد على صورة شخصية مرجعية وعينة صوتية. ينقسم عمل إطار عمل AniPortrait إلى مرحلتين. أولاً، يقوم إطار عمل AniPortrait باستخراج التمثيلات المتوسطة ثلاثية الأبعاد من العينات الصوتية، ويعرضها في سلسلة من معالم الوجه ثنائية الأبعاد. بعد ذلك، يستخدم الإطار نموذج نشر قوي مقترنًا بوحدة حركة لتحويل التسلسلات المميزة إلى رسوم متحركة متسقة مؤقتًا وواقعية. تُظهر النتائج التجريبية تفوق إطار عمل AniPortrait وقدرته على إنشاء رسوم متحركة عالية الجودة بجودة بصرية استثنائية، وتنوع الأوضاع، وطبيعية الوجه، وبالتالي تقديم تجربة إدراكية محسنة ومثرية. علاوة على ذلك، يحمل إطار عمل AniPortrait إمكانات ملحوظة من حيث إمكانية التحكم والمرونة، ويمكن تطبيقه بفعالية في مجالات تشمل إعادة تمثيل الوجه، وتحرير حركات الوجه، والمزيد. تهدف هذه المقالة إلى تغطية إطار عمل AniPortrait بعمق، ونستكشف الآلية والمنهجية وبنية الإطار بالإضافة إلى مقارنته بأطر العمل الحديثة. اذا هيا بنا نبدأ.
AniPortrait: الرسوم المتحركة للصورة الواقعية
لقد كان إنشاء رسوم متحركة واقعية ومعبرة هو محور اهتمام الباحثين لفترة من الوقت الآن نظرًا لإمكاناته المذهلة وتطبيقاته التي تمتد من الوسائط الرقمية والواقع الافتراضي إلى الألعاب والمزيد. على الرغم من سنوات البحث والتطوير، فإن إنتاج رسوم متحركة عالية الجودة تحافظ على الاتساق الزمني وتكون جذابة بصريًا لا يزال يمثل تحديًا كبيرًا. تتمثل إحدى العقبات الرئيسية أمام المطورين في الحاجة إلى التنسيق المعقد بين أوضاع الرأس والتعبيرات المرئية وحركات الشفاه لصياغة تأثير مقنع بصريًا. لقد فشلت الأساليب الحالية في معالجة هذه التحديات، ويرجع ذلك أساسًا إلى أن معظمها يعتمد على مولدات ذات سعة محدودة مثل NeRF وأجهزة فك التشفير القائمة على الحركة وGAN لإنشاء المحتوى المرئي. تظهر هذه الشبكات قدرات تعميمية محدودة، وغير مستقرة في توليد محتوى عالي الجودة. ومع ذلك، فإن ظهور نماذج الانتشار مؤخرًا قد سهّل إنشاء صور عالية الجودة، وقد سهلت بعض الأطر المبنية على نماذج الانتشار جنبًا إلى جنب مع الوحدات الزمنية إنشاء مقاطع فيديو مقنعة، مما سمح لنماذج الانتشار بالتفوق.
بناءً على التطورات في نماذج الانتشار، يهدف إطار عمل AniPortrait إلى إنشاء صور متحركة عالية الجودة باستخدام صورة مرجعية وعينة صوتية. ينقسم عمل إطار عمل AniPortrait إلى مرحلتين. في المرحلة الأولى، يستخدم إطار عمل AniPortrait نماذج قائمة على المحولات لاستخراج سلسلة من شبكة الوجه ثلاثية الأبعاد ووضعية الرأس من مدخلات الصوت، ويعرضها لاحقًا في سلسلة من معالم الوجه ثنائية الأبعاد. تعمل المرحلة الأولى على تسهيل إطار عمل AniPortrait لالتقاط حركات الشفاه والتعبيرات الدقيقة من الصوت بالإضافة إلى حركات الرأس التي تتزامن مع إيقاع العينة الصوتية. المرحلة الثانية، إطار AniPortrait يستخدم نموذج نشر قوي ويدمجه مع وحدة الحركة لتحويل تسلسل معالم الوجه إلى صورة متحركة واقعية ومتسقة مؤقتًا. لكي نكون أكثر تحديدًا، يعتمد إطار عمل AniPortrait على بنية الشبكة من نموذج AnimateAnyone الحالي الذي يستخدم Stable Diffusion 3، وهو برنامج قوي نموذج الانتشار لتوليد صور نابضة بالحياة وسائلة بناءً على صورة مرجعية وتسلسل حركة الجسم. ما تجدر الإشارة إليه هو أن إطار عمل AniPortrait لا يستخدم وحدة توجيه الوضع داخل هذه الشبكة كما تم تنفيذها في إطار عمل AnimateAnyone، ولكنه يعيد تصميمها، مما يسمح لإطار عمل AniPortrait ليس فقط بالحفاظ على تصميم خفيف الوزن ولكن أيضًا يعرض دقة معززة في إنشاء الشفاه الحركات.
تُظهر النتائج التجريبية تفوق إطار عمل AniPortrait في إنشاء رسوم متحركة تتميز بطبيعية وجه مذهلة وجودة بصرية ممتازة وأوضاع متنوعة. من خلال استخدام تمثيلات الوجه ثلاثية الأبعاد كميزات وسيطة، يكتسب إطار عمل AniPortrait المرونة اللازمة لتعديل هذه التمثيلات وفقًا لمتطلباته. تعمل القدرة على التكيف بشكل كبير على تعزيز قابلية تطبيق إطار عمل AniPortrait عبر المجالات بما في ذلك إعادة تمثيل الوجه وتحرير حركات الوجه.
AniPortrait: العمل والمنهجية
يتكون إطار عمل AniPortrait المقترح من وحدتين، هما Lmk2Video وAudio2Lmk. تحاول وحدة Audio2Lmk استخراج سلسلة من المعالم التي تلتقط حركات الشفاه المعقدة وتعبيرات الوجه من إدخال الصوت بينما تستخدم وحدة Lmk2Video هذا التسلسل التاريخي لإنشاء مقاطع فيديو شخصية عالية الجودة مع استقرار زمني. يعرض الشكل التالي نظرة عامة على عمل إطار عمل AniPortrait. كما يمكن ملاحظته، يقوم إطار عمل AniPortrait أولاً باستخراج شبكة الوجه ثلاثية الأبعاد ووضعية الرأس من الصوت، ويعرض هذين العنصرين في نقاط رئيسية ثنائية الأبعاد لاحقًا. في المرحلة الثانية، يستخدم الإطار نموذج الانتشار لتحويل النقاط الرئيسية ثنائية الأبعاد إلى فيديو عمودي مع تدريب مرحلتين بشكل متزامن داخل الشبكة.
Audio2Lmk
بالنسبة لتسلسل معين من مقتطفات الكلام، فإن الهدف الأساسي لإطار عمل AniPortrait هو التنبؤ بتسلسل شبكة الوجه ثلاثي الأبعاد المقابل مع تمثيلات متجهة للترجمة والتدوير. يستخدم إطار عمل AniPortrait طريقة wav3vec المدربة مسبقًا لاستخراج ميزات الصوت، ويُظهر النموذج درجة عالية من التعميم، وهو قادر على التعرف على التجويد والنطق من الصوت بدقة والذي يلعب دورًا حاسمًا في توليد الصوت. الرسوم المتحركة الوجه واقعية. من خلال الاستفادة من ميزات الكلام القوية المكتسبة، يستطيع إطار عمل AniPortrait الاستخدام الفعال لبنية بسيطة تتكون من طبقتين fc لتحويل هذه الميزات إلى شبكات وجه ثلاثية الأبعاد. يلاحظ إطار عمل AniPortrait أن هذا التصميم المباشر الذي ينفذه النموذج لا يعزز كفاءة عملية الاستدلال فحسب، بل يضمن الدقة أيضًا. عند تحويل الصوت إلى وضعية، يستخدم إطار عمل AniPortrait نفس شبكة wav3vec مثل العمود الفقري، على الرغم من أن النموذج لا يشارك الأوزان مع وحدة الصوت إلى الشبكة. ويرجع ذلك بشكل رئيسي إلى حقيقة أن الوضعية ترتبط بشكل أكبر بالنغمة والإيقاع الموجود في الصوت، والذي يحمل تركيزًا مختلفًا عند مقارنته بمهام الصوت إلى المهام الشبكية. لمراعاة تأثير الحالات السابقة، يستخدم إطار عمل AniPortrait وحدة فك ترميز المحولات لفك تشفير تسلسل الوضع. خلال هذه العملية، يقوم إطار العمل بدمج ميزات الصوت في وحدة فك التشفير باستخدام آليات الانتباه المتبادل، وبالنسبة لكلا الوحدتين، يقوم إطار العمل بتدريبهما باستخدام فقدان L2. بمجرد أن يحصل النموذج على الوضعية والتسلسل الشبكي، فإنه يستخدم الإسقاط المنظوري لتحويل هذه التسلسلات إلى تسلسل ثنائي الأبعاد لمعالم الوجه التي يتم استخدامها بعد ذلك كإشارات إدخال للمرحلة اللاحقة.
Lmk2Video
بالنسبة لصورة شخصية مرجعية معينة وتسلسل لمعالم الوجه، تقوم وحدة Lmk2Video المقترحة بإنشاء رسوم متحركة عمودية متسقة مؤقتًا، وتقوم هذه الرسوم المتحركة بمحاذاة الحركة مع تسلسل المعالم، وتحافظ على المظهر الذي يتوافق مع الصورة المرجعية، وأخيرًا ، يمثل الإطار الرسوم المتحركة للصورة كسلسلة من الإطارات الشخصية. يسعى تصميم هيكل شبكة Lmk2Video إلى الإلهام من إطار عمل AnimateAnyone الموجود بالفعل. يستخدم إطار عمل AniPortrait أ انتشار مستقر 1.5، وهو نموذج نشر قوي للغاية باعتباره العمود الفقري له، ويتضمن وحدة حركة مؤقتة تعمل بشكل فعال على تحويل مدخلات الضوضاء متعددة الإطارات إلى سلسلة من إطارات الفيديو. وفي الوقت نفسه، يعكس مكون شبكة ReferencenNet بنية Stable Diffusion 1.5، ويستخدمها لاستخراج معلومات المظهر من الصورة المرجعية، ودمجها في العمود الفقري. يضمن التصميم الاستراتيجي بقاء معرف الوجه ثابتًا طوال الفيديو الناتج. وبتمييزه عن إطار عمل AnimateAnyone، يعزز إطار عمل AniPortrait تعقيد تصميم PoseGuider. يشتمل الإصدار الأصلي من إطار عمل AnimateAnyone على عدد قليل من طبقات الالتواء التي يتم دمج المعالم التاريخية فيها مع الطبقة الكامنة في الطبقة المدخلة للعمود الفقري. يكتشف إطار عمل AniPortrait أن التصميم يعجز عن التقاط الحركات المعقدة للشفاه، ولمعالجة هذه المشكلة، يعتمد الإطار استراتيجية متعددة النطاق لبنية ConvNet، ويدمج ميزات بارزة للمقاييس المقابلة في كتل مختلفة من العمود الفقري. علاوة على ذلك، يقدم إطار عمل AniPortrait تحسينًا إضافيًا من خلال تضمين معالم الصورة المرجعية كمدخل إضافي. تعمل وحدة الانتباه المتبادل في مكون PoseGuider على تسهيل التفاعل بين المعالم المستهدفة لكل إطار والمعالم المرجعية. توفر هذه العملية للشبكة إشارات إضافية لفهم العلاقة بين المظهر ومعالم الوجه، وبالتالي المساعدة في إنشاء رسوم متحركة للصور بحركة أكثر دقة.
AniPortrait: التنفيذ والنتيجة
بالنسبة لمرحلة Audio2Lmk، يعتمد إطار عمل AniPortrait مكون wav2vec2.0 باعتباره العمود الفقري له، ويستفيد من بنية MediaPipe لاستخراج الشبكات ثلاثية الأبعاد والوضعيات السداسية الأبعاد للتعليقات التوضيحية. يقوم النموذج بمصادر بيانات التدريب الخاصة بمكون Audio3Mesh من مجموعة البيانات الداخلية الخاصة به والتي تضم ما يقرب من 6 دقيقة من بيانات الكلام عالية الجودة مصدرها مكبر صوت واحد. لضمان استقرار الشبكة ثلاثية الأبعاد المستخرجة بواسطة مكون MediaPipe، يُطلب من الممثل الصوتي مواجهة الكاميرا والحفاظ على وضع رأس ثابت أثناء عملية التسجيل بأكملها. بالنسبة لوحدة Lmk2Video، يطبق إطار عمل AniPortrait نهجًا تدريبيًا على مرحلتين. في المرحلة الأولى، يركز الإطار على تدريب ReferenceNet وPoseGuider، المكون ثنائي الأبعاد للعمود الفقري، ويتجاهل وحدة الحركة. في الخطوة الثانية، يقوم إطار عمل AniPortrait بتجميد جميع المكونات الأخرى، ويركز على تدريب وحدة الحركة. في هذه المرحلة، يستخدم إطار العمل مجموعتين كبيرتين من بيانات فيديو الوجه عالية الجودة لتدريب النموذج، ويعالج جميع البيانات باستخدام مكون MediaPipe لاستخراج معالم الوجه ثنائية الأبعاد. علاوة على ذلك، لتعزيز حساسية الشبكة تجاه حركات الشفاه، يميز نموذج AniPortrait بين الشفاه العلوية والسفلية بألوان مميزة عند عرض الصورة الوضعية من معالم ثنائية الأبعاد.
كما هو موضح في الصورة التالية، يقوم إطار عمل AniPortrait بإنشاء سلسلة من الرسوم المتحركة التي تظهر الجودة العالية والواقعية.
يستخدم الإطار بعد ذلك تمثيلاً متوسطًا ثلاثي الأبعاد يمكن تحريره لمعالجة المخرجات وفقًا للمتطلبات. على سبيل المثال، يمكن للمستخدمين استخراج المعالم من مصدر معين وتغيير معرفه، وبالتالي السماح لإطار عمل AniPortrait بإنشاء تأثير إعادة تمثيل الوجه.
الخلاصة
تحدثنا في هذه المقالة عن AniPortrait، وهو إطار عمل جديد مصمم لإنشاء رسوم متحركة عالية الجودة تعتمد على صورة شخصية مرجعية وعينة صوتية. بمجرد إدخال صورة مرجعية ومقطع صوتي، يستطيع إطار عمل AniPortrait إنشاء فيديو عمودي يتميز بالحركة الطبيعية للرؤوس وحركة الشفاه السلسة. من خلال الاستفادة من إمكانات التعميم القوية لنموذج الانتشار، يقوم إطار عمل AniPortrait بإنشاء رسوم متحركة تعرض جودة صورة واقعية مذهلة وحركة نابضة بالحياة. ينقسم عمل إطار عمل AniPortrait إلى مرحلتين. أولاً، يقوم إطار عمل AniPortrait باستخراج التمثيلات المتوسطة ثلاثية الأبعاد من العينات الصوتية، ويعرضها في سلسلة من معالم الوجه ثنائية الأبعاد. بعد ذلك، يستخدم الإطار نموذج نشر قوي مقترنًا بوحدة حركة لتحويل التسلسلات المميزة إلى رسوم متحركة متسقة مؤقتًا وواقعية. تُظهر النتائج التجريبية تفوق إطار عمل AniPortrait وقدرته على إنشاء رسوم متحركة عالية الجودة بجودة بصرية استثنائية، وتنوع الأوضاع، وطبيعية الوجه، وبالتالي تقديم تجربة إدراكية محسنة ومثرية. علاوة على ذلك، يحمل إطار عمل AniPortrait إمكانات ملحوظة من حيث إمكانية التحكم والمرونة، ويمكن تطبيقه بفعالية في مجالات تشمل إعادة تمثيل الوجه، وتحرير حركات الوجه، والمزيد.