الذكاء الاصطناعي
صعود Hunyuan فيديو Deepfakes

نظرًا لطبيعة بعض المواد المذكورة هنا ، سيحتوي هذا المقال على عدد أقل من روابط المراجع والصور من المعتاد.
يحدث شيء ملحوظ حاليًا في مجتمع التركيب الاصطناعي للصور ، على الرغم من أن أهميته قد تستغرق بعض الوقت حتى تصبح واضحة. يتم تدريب هواة تركيب الصور على نماذج فيديو اصطناعية لتحقيق تماثل الأشخاص ، باستخدام فيديوهات LoRAs على إطار Hunyuan Video المفتوح المصدر الذي أصدرته Tencent مؤخرًا.*
انقر للتشغيل. نتائج متنوعة من تعديلات Hunyuan LoRA متاحة مجانًا في مجتمع Civit. من خلال تدريب نماذج التكيف منخفض الرتبة (LoRAs) ، يتم تقليل مشاكل الاستقرار الزمني ، التي كانت تؤثر على توليد الفيديو الاصطناعي لمدة عامين ، بشكل كبير. مصادر: civit.ai
في الفيديو المذكور أعلاه ، تم تدريب تماثل الممثلات ناتالي بورتمان و كريستينا هيندركس و سكارليت جوهانسون ، جنبًا إلى جنب مع زعيم التكنولوجيا إيلون ماسك ، إلى ملفات إضافية صغيرة لمنظومة Hunyuan الاصطناعية للفيديو ، والتي يمكن تثبيتها بدون مرشحات المحتوى (مثل مرشحات NSFW) على جهاز الكمبيوتر للمستخدم.
يصرح مؤلف Christina Hendricks LoRA المذكور أعلاه بأنه كان يلزم فقط 16 صورة من برنامج Mad Men للتلفزيون لتطوير النموذج (الذي يبلغ حجمه 307mb فقط) ؛ تؤكد العديد من المنشورات من مجتمع Stable Diffusion على Reddit و Discord أن LoRAs من هذا النوع لا يتطلبون كميات كبيرة من بيانات التدريب ، أو أوقات تدريب طويلة ، في معظم الحالات.
انقر للتشغيل. يتم جعل أرنولد شوارزنيجر على قيد الحياة في Hunyuan فيديو LoRA يمكن تحميله من Civit. انظر https://www.youtube.com/watch?v=1D7B9g9rY68 لمزيد من أمثلة Arnie ، من هواة التكنولوجيا بوب دويل.
يمكن تدريب Hunyuan LoRAs على الصور الثابتة أو الفيديوهات ، على الرغم من أن التدريب على الفيديوهات يتطلب موارد أجهزة أكبر ووقت تدريب أطول.
تتميز Hunyuan Video بنموذج يحتوي على 13 مليار معامل ، متجاوزة بذلك 12 مليار معامل في Sora ، ومتجاوزة بذلك النموذج الأقل قدرة Hunyuan-DiT الذي تم إطلاقه كمصدر مفتوح في صيف 2024 ، والذي يحتوي على 1.5 مليار معامل فقط.
كما كان الحال منذ عامين ونصف العام مع Stable Diffusion و LoRA (انظر أمثلة على Stable Diffusion 1.5 ‘الnative’ المشاهير هنا) ، فإن النموذج الأساسي المعني لديه فهمًا محدودًا جدًا لشخصيات المشاهير ، مقارنة بمستوى الدقة الذي يمكن الحصول عليه من خلال تطبيقات LoRA المُحَقَّنَة بالهوية.
بفعالية ، يحصل LoRA المخصص والمُركَّز على الشخصية على “رحلة مجانية” على قدرات التركيب الكبيرة للنموذج الأساسي Hunyuan ، ويوفر تركيبًا بشريًا أكثر فعالية من الذي يمكن الحصول عليه إما عن طريق النماذج الاصطناعية العميقة من عام 2017 أو عن طريق محاولة إضافة الحركة إلى الصور الثابتة عبر أنظمة مثل LivePortrait الشهيرة.
يمكن تحميل جميع LoRAs الموضحة هنا مجانًا من مجتمع Civit الشهير ، بينما يمكن أن تُخَصِّص LoRAs “الصور الثابتة” القديمة أكثر عددًا لإنشاء “صور بذرة” لعملية إنشاء الفيديو (أي ، صورة إلى فيديو ، وهو إصدار قيد الانتظار ل Hunyuan Video ، على الرغم من أن الحلول البديلة ممكنة ، للوقت الحالي).
انقر للتشغيل. فيما فوق ، عينات من Flux LoRA “ثابت” ؛ في الأسفل ، أمثلة من Hunyuan فيديو LoRA يضم الفنان تايلور سويفت. يمكن تحميل كلا LoRAs هذين من مجتمع Civit.
عندما أكتب ، يقدم موقع Civit 128 نتيجة بحث عن ‘Hunyuan’*. تقريبا جميعها تتعلق بطريقة ما بنماذج NSFW ؛ 22 تمثل المشاهير ؛ 18 مصممة لتسهيل إنشاء البورنوغرافيا الصريحة ؛ و 7 فقط منها تصور الرجال بدلاً من النساء.
ما الجديد؟
نظرًا لتطور مفهوم مصطلح النماذج الاصطناعية العميقة ، و محدودية الفهم العام لمحدوديات (شديدة) إطارات التركيب الاصطناعي للفيديو البشري حتى الآن ، فإن أهمية Hunyuan LoRA ليست سهلة الفهم لشخص يتابع بلا إرادة مجتمع التوليد الاصطناعي.
لنراجع بعض الفروق الرئيسية بين Hunyuan LoRAs والمناهج السابقة لإنشاء فيديو اصطناعي قائم على الهوية.
1: التثبيت المحلي غير المقيد
الجوانب الأكثر أهمية في Hunyuan Video هي حقيقة أن Hunyuan Video يمكن تحميله محليًا ، وأنها توفر نظامًا قويًا و غير محظور لإنشاء فيديو اصطناعي في أيدي المستخدم العادي ، بالإضافة إلى مجتمع التأثيرات البصرية (في حدود ما قد يسمح به التراخيص عبر المناطق الجغرافية).
كانت المرة السابقة التي حدثت فيها هذه الحالة هي ظهور إصدار Stable Diffusion المفتوح المصدر في صيف 2022. في ذلك الوقت ، كان DALL-E2 قد أسر الخيال العام ، على الرغم من أن DALLE-2 كان خدمة مدفوعة مع قيود ملحوظة (التي نمت مع مرور الوقت).
عندما أصبح Stable Diffusion متاحًا ، وأصبح من الممكن بعد ذلك تحقيق تماثل أي شخص (مشهور أو لا) من خلال Low-Rank Adaptation ، ساعدت مجموعة كبيرة من المطورين والاستهلاك في جعل Stable Diffusion يفوق شعبية DALLE-2 ؛ على الرغم من أن الأخير كان نظامًا أكثر قدرة خارج الصندوق ، إلا أن روتيناته للتSENSOR كانت مُحَصَّنَة من قبل العديد من مستخدميه ، ولم يكن التخصيص ممكنًا.
يمكن القول بأن السيناريو نفسه ينطبق الآن على Sora و Hunyuan – أو ، بدقة أكبر ، بين نظم التوليد الاصطناعي للفيديو من فئة Sora و المنافسين المفتوحين المصدر ، من بينهم Hunyuan هو الأول – ولكن ربما ليس الأخير (هنا ، ضع في الاعتبار أن Flux سوف يكتسب في النهاية أرضًا كبيرة على Stable Diffusion).
يمكن للمستخدمين الذين يرغبون في إنشاء مخرجات Hunyuan LoRA ، ولكنهم يفتقرون إلى معدات قوية ، كما هو الحال دائمًا ، تفريغ جانب GPU من التدريب إلى خدمات الحوسبة عبر الإنترنت مثل RunPod. هذا ليس مثل إنشاء فيديوهات اصطناعية على منصات مثل Kaiber أو Kling ، منذ أن لا يوجد ترشيح семанти أو قائم على الصور (الرقابة) متضمن في استئجار GPU عبر الإنترنت لدعم تدفق عمل محلي.
2: لا حاجة إلى فيديوهات “مضيفة” و مجهود كبير
عندما ظهرت النماذج الاصطناعية العميقة على الساحة في نهاية 2017 ، سوف يتحول الكود الذي تم نشره بشكل مجهول إلى الفروع الشهيرة DeepFaceLab و FaceSwap (بالإضافة إلى نظام DeepFaceLive ل بث النماذج الاصطناعية العميقة في الوقت الفعلي).
تتطلب هذه الطريقة تحرير دقيق لآلاف صور الوجه لكل هوية يتم تبديلها ؛ كلما قلت الجهد المبذول في هذه المرحلة ، زادت فعالية النموذج. بالإضافة إلى ذلك ، تختلف أوقات التدريب بين 2-14 يومًا ، حسب الأجهزة المتاحة ، مما يؤدي إلى ضغط حتى الأنظمة القادرة على المدى الطويل.
عندما يكون النموذج جاهزًا في النهاية ، يمكنه فقط وضع الوجوه في فيديو موجود ، وغالبًا ما يحتاج إلى “هدف” (أي ، هوية حقيقية) يتشابه في المظهر مع الهوية المُضَغَطة.
في الآونة الأخيرة ، قدمت ROOP و LivePortrait و إطارات مماثلة وظيفية مماثلة مع جهد أقل ، وأحيانًا مع نتائج أفضل – ولكن بدون القدرة على إنشاء نماذج اصطناعية عميقة كاملة للجسم – أو أي عنصر آخر غير الوجوه.

أمثلة على ROOP Unleashed و LivePortrait (في الزاوية اليسرى السفلى) ، من تيار المحتوى بوب دويل على YouTube. مصادر: https://www.youtube.com/watch?v=i39xeYPBAAM و https://www.youtube.com/watch?v=QGatEItg2Ns
من خلال المقارنة ، يسمح Hunyuan LoRAs (و النظم المماثلة التي سوف تتبعها بالتأكيد) بإنشاء غير مقيد لعوالم كاملة ، بما في ذلك محاكاة كاملة للجسم للهوية المُدَرَّبَة LoRA.
3: تحسين الاستقرار الزمني بشكل كبير
لقد كان الاستقرار الزمني هو الغاية من التوليد الاصطناعي للفيديو لعدة سنوات الآن. استخدام LoRA ، جنبًا إلى جنب مع التوجيهات المناسبة ، يعطي Hunyuan فيديو توليد هوية مرجعية ثابتة للالتزام بها. في النظرية (هذه هي الأيام الأولى) ، يمكن تدريب LoRAs متعددة للهوية معينة ، كل منها يرتدي ملابس محددة.
في ظل هذه الظروف ، من الأقل احتمالًا أن “تتطور” الملابس أيضًا في جميع أنحاء الفيديو التوليد (既然 النظام التوليدي يعتمد الإطار التالي على نافذة محدودة من الإطارات السابقة).
(بديل ، كما هو الحال مع أنظمة LoRA القائمة على الصور ، يمكن تطبيق LoRAs متعددة ، مثل هوية + LoRAs ملابس ، على توليد فيديو واحد)
4: الوصول إلى “التجربة البشرية”
كما لاحظت مؤخرًا ، يبدو أن قطاع التكنولوجيا الاصطناعية المملوك للشركات والمنافسين من فئة FAANG يبدو مترددًا بشكل متزايد فيما يتعلق بقدرات التوليد البشري لمشاريعه ، بحيث نادرًا ما تظهر أشخاص حقيقيون في صفحات المشاريع للإعلانات والإعلانات. بدلاً من ذلك ، تميل أدبيات الإعلان المتعلقة بالمشاريع بشكل متزايد إلى عرض مواضيع “لطيفة” و “غير مهددة” في النتائج المولدة.
مع ظهور Hunyuan LoRAs ، للمرة الأولى ، يكون للمجتمع فرصة للضغط على حدود التوليد الاصطناعي للفيديو البشري القائم على LDM في نظام قوي (بدلاً من نظام هامشي) ، و لاستكشاف الموضوع الذي يهم معظمنا أكثر – الناس.
الآثار
نظرًا لأن بحث “Hunyuan” في مجتمع Civit يظهر في الغالب LoRAs للمشاهير و “LoRAs الصريحة” ، فإن الفكرة المركزية لظهور Hunyuan LoRAs هي أنها سوف تُستَخْدَم لإنشاء فيديوهات إباحية اصطناعية (أو تشهيرية) لآشخاص حقيقيين – مشاهير ومجهولين على حد سواء.
من أجل الأغراض القانونية ، يحرص الهواة الذين يخلقون Hunyuan LoRAs و الذين يجرّبونها على خواديم Discord المختلفة على منع نشر أمثلة لأشخاص حقيقيين. الحقيقة هي أن حتى الصور الاصطناعية العميقة أصبحت مسلحة بشكل كبير ؛ و قد يبرر احتمال إضافة فيديوهات واقعية حقًا إلى المزيج أخيرًا مخاوف الوسائط التي كانت متكررة خلال السنوات السبع الماضية ، والتي أدت إلى لوائح جديدة.
القوة الدافعة
كما هو الحال دائمًا ، يبقى الجنس محرك التقدم. مهما كانت رأينا في هذا الاستخدام ، فإن هذا المحرك غير قابل للوقف يدفع التقدم في الحالة الفنية التي يمكن أن تفيد في النهاية بالتكنولوجيا الشائعة.
في هذه الحالة ، من الممكن أن يكون السعر أعلى من المعتاد ، منذ أن يؤدي إطلاق نظام إنشاء فيديو واقعي للغاية إلى عواقب واضحة للاستخدام غير القانوني والسياسي والأخلاقي.
يوجد مجموعة Reddit (التي لن أذكرها هنا) مخصصة لإنشاء فيديو NSFW بواسطة التكنولوجيا الاصطناعية ، و يوجد خادم Discord مفتوح يرتبط بها ، حيث يُحسِّن المستخدمون تدفقات عمل ComfyUI لإنشاء فيديو إباحي قائم على Hunyuan. يوميًا ، ينشر المستخدمون أمثلة على مقاطع NSFW – العديد منها يمكن وصفها بشكل معقول بأنها “متطرفة” أو على الأقل تُخَطِّط حدود القواعد المذكورة في قواعد المنتدى.
يحتفظ هذا المجتمع أيضًا بمستودع GitHub كبير ومطور يحتوي على أدوات يمكنها تحميل ومعالجة فيديوهات إباحية ، لتوفير بيانات تدريب لنماذج جديدة.
منذ أن يُدَعِّم مُدَرِّب LoRA الأكثر شعبية ، Kohya-ss الآن تدريب Hunyuan LoRA ، تقلل الحواجز أمام تدريب الفيديو الاصطناعي غير المقيد يومًا بعد يوم ، جنبًا إلى جنب مع متطلبات الأجهزة لتدريب Hunyuan و إنشاء الفيديو.
الجوانب الحاسمة للنظم المخصصة لتدريب التكنولوجيا الاصطناعية على البورنوغرافيا (بدلاً من نماذج قائمة على الهوية ، مثل المشاهير) هي أن نظامًا أساسيًا قياسيًا مثل Hunyuan لم يتم تدريبه على مخرجات NSFW ، و قد يؤدي إلى أداء ضعيف عند الطلب إنشاء مخرجات NSFW ، أو فشل في فك الارتباط المفاهيم و العلاقات المكتسبة بطريقة مقنعة.
من خلال تطوير نماذج أساسية مخصصة ل NSFW و LoRAs ، سوف يصبح من الممكن بشكل متزايد投影 هوية مدربة إلى مجال فيديو “إباحي” مخصص ؛ بعد كل شيء ، هذا هو الإصدار الفيديوي لما حدث بالفعل للصور الثابتة خلال العامين والنصف الماضيين.
التأثيرات البصرية
الزيادة الكبيرة في الاستقرار الزمني التي تقدمها Hunyuan Video LoRAs هي عائد واضح لصناعة التأثيرات البصرية الاصطناعية ، التي تعتمد بشكل كبير على تعديل البرمجيات المفتوحة المصدر.
على الرغم من أن Hunyuan Video LoRA يولد إطارًا كاملاً وبيئة ، إلا أن شركات التأثيرات البصرية قد بدأت بالفعل في تجريب عزل الوجوه الثابتة الزمنيًا التي يمكن الحصول عليها بهذه الطريقة ، لدمجها في لقطات مصدر حقيقية.
مثل مجتمع الهواة ، يجب على شركات التأثيرات البصرية انتظار وظيفة صورة إلى فيديو و فيديو إلى فيديو من Hunyuan Video ، والتي قد تكون الجسر الأكثر فائدة بين محتوى “النماذج الاصطناعية العميقة” القائم على LoRA و الهوية ؛ أو يبتكروا ، و يستخدمون الفترة لاستكشاف القدرات الخارجية للإطار و التكيفات المحتملة ، و حتى الفروع المملوكة ملكية خاصة من Hunyuan Video.
على الرغم من أن شروط الترخيص ل Hunyuan Video تسمح تقنيًا bằng صورة الأفراد الحقيقيين طالما تم الحصول على إذن ، إلا أنها تحظر استخدامها في الاتحاد الأوروبي و المملكة المتحدة و كوريا الجنوبية. هذا لا يعني بالضرورة أن Hunyuan Video لن يتم استخدامه في هذه المناطق ؛ ومع ذلك ، قد يجعلهم خطر تدقيق البيانات الخارجي ، لفرض لوائح متزايدة حول التكنولوجيا الاصطناعية ، استخدامًا مخاطِرًا.
هناك بند واحد آخر في شروط الترخيص يبدو غامضًا :
‘إذا ، في تاريخ إصدار إصدار Tencent Hunyuan ، كان عدد المستخدمين النشطين الشهريين لجميع المنتجات أو الخدمات المتاحة من قبل أو من أجل المرخص له أكثر من 100 مليون مستخدم نشط شهريًا في الشهر السابق ، يجب عليك طلب ترخيص من Tencent ، والذي قد يمنحه لك Tencent وفقًا لتقديره الخاص ، وأنت لا تمتلك السلطة للقيام بأي من الحقوق بموجب هذه الاتفاقية إلا إذا منحك إياها Tencent صراحة.’
يبدو هذا البند موجهًا إلى الكثير من الشركات التي من المحتمل أن “توسط” Hunyuan Video لمجموعة من المستخدمين غير متقدمة تقنيًا ، و التي سوف يُطَلَّب منهم تقديم حصة لتينسنت ، فوق سقف معين من المستخدمين.
قد يحتاج توضيح ما إذا كان النص الواسع يمكن أن يغطي أيضًا الاستخدام غير المباشر (أي ، من خلال توفير مخرجات التأثيرات البصرية المُحَسَّنَة التي تعمل بالهونيان في الأفلام والتلفزيون الشهيرة).
الخلاصة
منذ أن تم إنشاء فيديو النماذج الاصطناعية العميقة منذ فترة طويلة ، سيكون من السهل التقليل من أهمية Hunyuan Video LoRA كنهج لتحليل الهوية و النماذج الاصطناعية العميقة ؛ و افتراض أن الجهود الحالية التي تظهر في مجتمع Civit و في Discords و subreddits ذات الصلة تمثل مجرد دفع متزايد تجاه التوليد الاصطناعي للفيديو البشري القابل للتحكم.
من المرجح أن تمثل الجهود الحالية فقط جزءًا صغيرًا من إمكانات Hunyuan Video لإنشاء نماذج اصطناعية عميقة كاملة وواقعية للجسم والبيئة ؛ بمجرد إصدار مكون صورة إلى فيديو (الذي يُشاع أنه سيحدث هذا الشهر) ، سوف يصبح مستوى أكثر دقة من القدرة التوليدية متاحًا للمجتمعات الهواة والمهنية.
عندما أصدرت Stability.ai Stable Diffusion في 2022 ، لم يكن من الممكن تحديد سبب إعطاء الشركة نظام توليد اصطناعي قوي وقيم في ذلك الوقت. مع Hunyuan Video ، يتم بناء الدافع الربحي مباشرة في الترخيص – على الرغم من أن من المحتمل أن يثبت صعوبة تينسنت في تحديد متى تُفَعِّل شركة الخطة لتشارك الأرباح.
في أي حال ، النتيجة هي نفسها كما كانت في 2022: تكوين مجتمعات التطوير المخصصة على الفور و باندفاع شديد حول الإصدار. بعض الطرق التي سوف تأخذها هذه الجهود في العام المقبل هي بالتأكيد سوف تثير عناوين جديدة.
* حتى 136 في وقت النشر.
نُشِر لأول مرة يوم الثلاثاء ، 7 يناير 2025










