اتصل بنا للحصول على مزيد من المعلومات

لماذا يعني تشابك المفاهيم أنه لا يمكنك الحصول على فيديو الذكاء الاصطناعي "على طريقتك"؟

زاوية أندرسون

لماذا يعني تشابك المفاهيم أنه لا يمكنك الحصول على فيديو الذكاء الاصطناعي "على طريقتك"؟

mm
صورة مولدة بواسطة الذكاء الاصطناعي (GPT-1.5) تصور رجلاً يحاول تركيب قطع ليغو متباينة معًا.

تعد أدوات الفيديو التي تعمل بالذكاء الاصطناعي بالتحكم الكامل، لكن "التشابك المفاهيمي" الخفي يربط الهويات والتعبيرات والسلوكيات معًا، مما يجبر على اللجوء إلى الاختراقات والحيل الجاهزة التي تحطم أسطورة سحر الذكاء الاصطناعي العام السهل.

 

مراجعة منذ أن تناولت الموضوع بالتفصيل آخر مرة قبل خمس سنوات، مشكلة مفهوم التشابك لقد امتد استخدام أنظمة الذكاء الاصطناعي المدربة إلى نطاق أوسع بكثير من المستخدمين، دون أن يتم فهمها بشكل أفضل وفقًا لشروطها الخاصة.

في ذلك الوقت، المشفر التلقائي أنظمة التزييف العميق (أي الأنظمة التي لم تعد موجودة الآن) ديب فيس لاب والأقل تركيزًا على المواد الإباحية تبديل الوجهكلاهما مشتق من موقع Reddit الذي تعرض للعار وتم حظره على الفور تقريبًا في عام 2017 إصدار الكودكانت هذه التقنية هي الخيار الوحيد المتاح لإنشاء صور مزيفة واقعية نسبياً للأشخاص.

اعتمدت هذه الأنظمة على مجموعات بيانات تدريب واسعة النطاق للوجوه، والتي كان الهدف منها تزويد نموذج الذكاء الاصطناعي بمعلومات حول: أ) كيف يبدو الشخص في حالة الراحة (أ) الكنسي (ب) تضمين المرجع) و ب) كيف بدت في ظل المواقف المتنوعة التي يمكن أن يعكسها الوجه، من النوم من خلال ل ضحك, رعب, ملل, السخرية, حزن، الخ.

لا تتشكل الهوية بمعزل عن غيرها، بل تترافق مع تعابير الوجه. إضافةً إلى ذلك، قد لا تتوفر بيانات الوجه لبعض المشاعر إلا من زوايا محددة وشديدة، مما قد يربط الزاوية بالمشاعر والعكس صحيح.

لا تتشكل الهوية بمعزل عن غيرها، بل تترافق مع تعابير الوجه. إضافةً إلى ذلك، قد لا تتوفر بيانات الوجه لبعض المشاعر إلا من زوايا محددة وشديدة، مما قد يربط الزاوية بالمشاعر والعكس صحيح.

تكمن المشكلة في أن الهوية المتعارف عليها عادةً ما تُستنتج من صور الوجه التي لم تكن في حد ذاتها "محايدة"، بحيث أن غلبة الابتسامات والضحكات التي يتم الحصول عليها عند استخراج مجموعات بيانات الأسهم ستؤدي إلى تغيير توزيع نحو "افتراضي مبتسم". ويعود ذلك إلى العدد الكبير من صور الباباراتزي على السجادة الحمراء في بيانات التدريب التي يتم جمعها من الإنترنت والتي تُستخدم عادةً في تغذية هذه النماذج، بالإضافة إلى أي سبب آخر مماثل قد يجعل مجموعة البيانات متحيزة نحو نوع واحد من الصور.

بمعنى آخر، سيتعين على نظام التشفير التلقائي محاولة استخراج مفهوم هوية "محايد" من آلاف الصور التي تم فيها تشويه ملامح الوجه بواسطة تعابير الوجه الطبيعية.

كان عليها أيضاً أن تحاول فك تشابك المفاهيم الدلالية للوجه التي تعبر عن مشاعر مختلفة من الزوايا التي التُقطت منها الصوروهذا يعني أنه إذا كانت تعابير الوجه "المرعبة" الوحيدة المتاحة مأخوذة من عرض جانبي، فلن يتمكن النظام المدرب من إعادة إنتاج هذا الشعور على النحو الأمثل إلا من هذا العرض.

توجه للأمام

As قائم على الانتشار منذ عام 2022، سيطرت الأساليب على مشهد الصور (والفيديوهات) باستخدام الذكاء الاصطناعي، وأصبحت الأنظمة التوليدية أفضل بكثير في استقراء تعابير الوجه الدقيقة عند تزويدها ببيانات وجه محدودة.

حتى الشائكة للغاية تحدى لقد تم التغلب تقريبًا على مشكلة إنشاء صور شخصية مقنعة، وفقًا لأحدث التقنيات، بينما تم فصل بيانات التعبير بشكل فعال عن الهوية - لدرجة أن نوع التزييف العميق المباشر الذي ابتكره نظام التشفير التلقائي ديب فيس لايف يتمتع نظام البث بالعديد من تطبيقات النشر الفعالة دون اتصال بالإنترنت، ومن المرجح أن يكون التنفيذ في الوقت الفعلي تطوراً مستقبلياً:

انقر للعب. من مشروع "FlashPortrait"، أمثلة متنوعة لتحريك الصور الرمزية عبر مقاطع الفيديو الأصلية. في هذه الحالة، لا يهم أي جانب يقع عليه نطاق "الواقعية"، إن وجد. مصدر 

مع ذلك، ومع اتساع نطاق الذكاء الاصطناعي العام وتطور مخرجاته، امتدت مشكلة التشابك إلى مجالات أخرى متعددة، ويجري حاليًا "حلها" بحيل قديمة ورخيصة. إذا كنت تجهل هذه الحيل، فقد يكون لديك نظرة أكثر إيجابية حول سرعة تطور الذكاء الاصطناعي في مجال الفيديو والصور وتغلبه على مشاكله القديمة.

القطط الشاتية

نأمل أن يكون واضحًا سبب صعوبة فصل الهوية عن العاطفة في أنظمة التشفير التلقائي القديمة التي ظهرت في عام 2017. يعود ذلك إلى سببين: أولهما، وجود كمية كبيرة جدًا من البيانات من نوع واحد، أو وجود نسخة محددة جدًا من نوع واحد من البيانات المهمة، مما يؤدي إلى تحيز في التوزيع؛ وثانيهما، أن بنية النموذج لم تكن قادرة على فصل هذه الخصائص، فكانت تميل إلى دمجها معًا أثناء الاستدلال، إلا إذا حرص المستخدم بشكل استثنائي على ضمان توازن مجموعة البيانات.

وللسبب نفسه تمامًا، ظهرت مشاكل مماثلة في عدد من نماذج الفيديو مفتوحة المصدر والاحتكارية خلال السنوات القليلة الماضية، على الرغم من أنها طغت عليها مستويات أكبر من الانتقادات حول هلوسة, انعدام الرقابةومواضيع أخرى متنوعة.

على سبيل المثال ، في نظام Wan2.+وقد وجد العديد من المستخدمين أنه مفيد للغاية صعبة لمنع الشخصيات التي يتم إنشاؤها من يتحدث بلا انقطاعوغالباً ما يكون من الصعب أيضاً إيقافهم ينظر إلى الكاميرا.

إن المسألة الأخيرة (النظر إلى الكاميرا، أو كسر الجدار الرابع) تسبق ظهور أنظمة توليف الفيديو، حيث ظهرت في العديد من أنظمة نشر الصور فقط، وذلك بسبب انتشار صور "النظر إلى الكاميرا" في مجموعات البيانات التي تم جمعها من الإنترنت مثل LAION.

تكمن المشكلة المتعلقة بالشخصيات "الثرثارة" في وفرة مقاطع الفيديو "للمؤثرين" على يوتيوب، والتي تقدم بطبيعة الحال آلاف الساعات من الخطاب المباشر أمام الكاميرا، وغالبًا ما تكون هذه المقاطع "ثرثارة". تم تنظيمها في مجموعات بيانات حيث يمكن لعلماء الأبحاث غسل استخراج البيانات من الويب من خلال توفير سياق أكاديمي.

لكن ما لم يحرص القائمون الأصليون أو اللاحقون على الحد من عدد مقاطع الفيديو من هذا النوع، وموازنتها مع أنواع أخرى مختلفة من اللقطات، فإن تحيزًا شديدًا يتطور في نموذج الفيديو، الأمر الذي سيحتاج إلى معالجة من خلال حلول قائمة على التوجيه وأنظمة مساعدة متنوعة من جهات خارجية.

في مواجهة مشكلة "ثرثرة" وان، ابتكر مستخدم ريديت u/Several-Estimate-681 الحل يستفيد ذلك من إعداد في Wan 2.1 اتصال لا نهائي V2V النظام – إطار عمل مصمم لـ شجع ثرثرة على غرار المؤثرين - مما يسمح للمستخدم بإسكات الشخصية المعروضة:

انقر للعب: فقط استمع – حل بديل لتحقيق انتباه الشخصيات في Wan2.+. مصدر 

من الواضح أن هذه الاختصارات لا تمثل حلولاً معمارية منخفضة المستوى، وفي غياب حلول حقيقية يتم إيجادها وتطبيقها من قبل مصممي نماذج الأساس (لأن الهواة العاديين لا يملكون عادةً ملايين الدولارات لإعادة إنشائها أو ضبط دقيق (مثل هذا العمل)، وهذا يعني أن لعبة التشابك "اضرب الخلد" من المرجح أن تكون تمت إعادة تعيينها إلى الصفر في الإصدار التالي.

رخيص وهش

لا يوجد في بنية الانتشار نفسها ما يجعل هذه المشاكل حتمية؛ بل في الواقع، لو كانت هناك طريقة ما لتطبيق تنظيم وفرز فعالين حقًا وجودة عالية إضافة التعليقات والشرح بالنسبة لمجموعات البيانات الضخمة التي تحتوي على ملايين نقاط البيانات، فمن المرجح أن تختفي جميع هذه المشاكل تقريبًا.

ومع ذلك، فإن هذا المستوى من الاهتمام بالتفاصيل سيكون مماثلاً لمشروع مانهاتن من حيث اللوجستيات والنطاق والموارد اللازمة والجهد المبذول على المدى الطويل. في مناخٍ حيث لا يمكن تطبيق هندسة معمارية جديدة، أو حتى هندسة معمارية جديدة الإصدار إذا كان من الممكن أن يؤدي ذلك إلى إهدار كل هذا الجهد، فلا توجد إرادة حالية لتقديم هذا النوع من الالتزام.

وبالتالي، وبقدر ما يتوافق ذلك مع الحصول على نماذج قابلة للاستخدام، تظل الأساليب الأقل تكلفة هي المفضلة. ومن الأمثلة على هذا "البخل" ما يلي: زيادة البيانات، والتي، عند تطبيقها بشكل غير متسامح وعلى أنواع خاطئة من مقاطع الفيديو في مجموعات البيانات، يمكن أن يكون لها نتائج مضحكة:

لأن عملية زيادة البيانات غالباً ما تعكس اتجاه مقاطع الفيديو الأصلية في مجموعة البيانات، فإن نموذج الذكاء الاصطناعي يمكن أن يتعلم أحياناً بعض الحركات "المستحيلة". - مصدر

ومع ذلك، في المجمل، فإن تدحرج الصخور إلى أعلى التل وخروج الناس عن طبيعتهم من خلال تشغيل "وضع المؤثر" يميل إلى أن يعتبر أمثلة على الأضرار الجانبية في الأنظمة التوليدية التي يمكن، على الرغم من هذه الأخطاء المستمرة ونقاط الضعف، إقناعها بإنتاج نتائج مبهرة وعناوين مثيرة للإعجاب بما فيه الكفاية.

حلول جاهزة

في الفترة الحالية، ظهرت مئات من مجالات الفيديو التوليدي، والتي يخرق معظمها بطريقة أو بأخرى... مجموعة جديدة من القوانين وردود فعل سلبية في مواجهة الذكاء الاصطناعي العام، يستمتعون بوقتهم في المتناول قبل أن تقوم جهات إنفاذ القانون أو قوائم الحظر أو أنواع أخرى من إزالة المنصات بإزالة هذه الخدمات التجارية.

تميل المواقع الأكبر والأكثر شهرة من هذا النوع، مثل Kling و Grok، إما إلى الالتزام بنوع من الرقابة الذاتية (في نهاية المطاف)، أو إلى الاستجابة للنقد عن طريق تغيير أنواع المحتوى التي توفرها منصاتها للمستخدمين.

لكن وراء تلك الأسماء الكبيرة توجد مئات من العمليات العابرة الأخرى، التي تلبي باستمرار الطلب على أنواع جديدة (وغالباً ما تكون أكثر تطرفاً) من المحتوى.

يُغني هذا النوع من التوفير السهل عن التكلفة والجهد الباهظين لتدريب النماذج الأساسية من الصفر. وفي كثير من الأحيان، يُستبعد حتى الضبط الدقيق، الذي يكلف أقل بكثير.

لذلك، تقدم هذه المواقع "قوالب" تتصرف بشكل متطابق تمامًا في الممارسة العملية لـ LoRAs المدربة خصيصًا، والتي يستخدمها هواة الذكاء الاصطناعي منذ أكثر من أربع سنوات، لتدريب أي هوية أو أسلوب أو كائن مرغوب فيه (وفي حالة فيديو LoRA) الحركة أو الإجراء في ملحق LoRA مخصص.

مع وجود طبقة LoRA بين المستخدم والنموذج الأساسي، ستكون النتائج المُتحصَّل عليها مُرتبطة بشكلٍ كبير بما تم تدريب LoRA عليه، وعادةً ما يتأثر الأداء العام للنموذج سلبًا بتأثير LoRA في تغيير أوزان البيانات، حيث تُعيد إنتاج موضوعها الخاص بدقة عالية، ولكنها تُقحم تلك البيانات أيضًا في أي طلب مهما كان (لو سمحت مواقع الفيديو GenAI غير الموثوقة بهذا المستوى من التحكم - فهي لا تسمح بذلك؛ إنها تُقدم فقط...). [الإجراء الذي تختاره] قم بتطبيق القالب، وقم بتفسير النصوص/الصور/مقاطع الفيديو المدخلة بالطريقة التي من المرجح أن تؤدي إلى تطبيق ناجح للقالب).

لأسبابٍ واضحة، لا يمكنني تضمين نماذج مواقع إلكترونية في هذه المقالة؛ لكنّ الدراسات الحديثة قدّمت بعض الأمثلة المشابهة. هنا، على سبيل المثال، مشروع EffectMaker يوضح هذا المبدأ عملياً، حيث يتم تطبيق إجراء محدد على صورة يقدمها المستخدم:

انقر للعب. في برنامج EffectMaker، يمكن تطبيق تأثيرات محددة بدقة على المدخلات المخصصة. مصدر 

حتى في هذه الظروف المُنتقاة والمُستهدفة بدقة، غالباً ما يشكو المستخدمون من ضرورة القيام بمحاولات متعددة ومُكلفة للحصول على نتيجة جيدة، وربما لا ينبغي لنا أن نُعزي إلى جشع المُزود أو ممارساته المُلتوية ما هو على الأرجح خطأ "الضرب والخطأ" المُتأصل. DIT أطر عمل الذكاء الاصطناعي العام.

يمكن القول إن عامة الناس يستقون انطباعهم عن قدرات الذكاء الاصطناعي التوليدي من أمثلة منتقاة بعناية لا تمثل ما قد يحصل عليه المستخدم العادي المبتدئ. فإذا حاول المستخدم ست مرات تطبيق نموذج معين (مثل نموذج LoRA المقدم من موقع الذكاء الاصطناعي)، فسيميل إلى نشر أفضل هذه المحاولات والإشادة بها، مما يوحي بإمكانية الحصول على مثل هذه النتائج من خلال الاستعلام عن النموذج الأساسي، ويوحي بأن نماذج الأساس التوليدية أبسط بكثير مما هي عليه في الواقع.

خاتمة

لا تزال الدراسات تتناول مشكلة التشابك، التي برزت بجدية لأول مرة حوالي عام 2020، في مشروع ماكس بلانك/جوجل للاتعاون نظرة موضوعية على التعلم غير الخاضع للإشراف للتمثيلات المفككة وتقييمها.

بالإضافة إلى العديد من الخلفاء لـ فك التشابك عبر التباين (ديسكوتظهر هذه الظاهرة بشكل دوري، ويبقى المشهد نابضًا بالحياة مع وعي بالمشكلة يتجاوز بكثير الوعي العام بماهية الذكاء الاصطناعي. لا تستطيع افعل ذلك في هذا الصدد.

واحد دراسة صينية من عام 2024 يشير هذا إلى أن حل مشكلة التشابك قد لا يكون ضروريًا على الإطلاق لحل المشكلات التي تنجم عنه. تاريخيًا، يبدو هذا صحيحًا، إذ تم التغلب على العديد من المشكلات المستعصية في مجال رؤية الحاسوب ليس بحلها، بل بتجاوزها من خلال تقنيات وأساليب جديدة كليًا.

إلى أن يظهر منافس متميز كهذا، يبدو أننا سنظل بحاجة إلى تطبيق حلول مؤقتة وحلول ترقيعية على أوجه القصور والقيود في الذكاء الاصطناعي العام، وتحمل المبالغة العامة في تقدير مرونة نماذج الأساس وقابليتها للتغيير.

 

نُشرت لأول مرة يوم الاثنين 23 مارس 2026

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai