الذكاء الاصطناعي
وجهة نظر شخصية عن اتجاهات الأدب في رؤية الكمبيوتر في عام 2024

لقد كنت أتابع باستمرار مشهد أبحاث رؤية الكمبيوتر (CV) و 합성 الصور في Arxiv و في أماكن أخرى لمدة خمس سنوات ، لذلك يصبح الاتجاهات واضحة مع مرور الوقت ، وتتغير في اتجاهات جديدة كل عام.
لذلك ، مع اقتراب عام 2024 من نهايته ، فكرت في أنظر إلى بعض الخصائص الجديدة أو المتطورة في إرسال Arxiv في قسم رؤية الكمبيوتر و التعرف على الأنماط قسم. هذه الملاحظات ، على الرغم من أنها مستنيرة بعد مئات الساعات دراسة المشهد ، هي حقاً مجرد قصة قصيرة.
استمرار صعود شرق آسيا
من خلال نهاية عام 2023 ، لاحظت أن الغالبية العظمى من الأدب في فئة “合成 الصوت” كانت تأتي من الصين و مناطق أخرى في شرق آسيا. في نهاية عام 2024 ، يجب أن ألاحظ (قصصياً) أن هذا ينطبق الآن أيضاً على مشهد أبحاث合성 الصور و الفيديو.
هذا لا يعني أن الصين و الدول المجاورة تنتج دائماً أفضل الأعمال (في الواقع ، هناك بعض الادلة على العكس) ؛ ولا يأخذ في الاعتبار الاحتمال العالي في الصين (مثل الغرب) أن بعض الأنظمة الجديدة الأكثر إثارة و قوة التي يتم تطويرها هي ملكية ، و مستثناة من الأدب البحثي.
لكن هذا يشير إلى أن شرق آسيا يغلب الغرب من حيث الحجم ، في هذا الصدد. ما قيمته يعتمد على مدى تصديقك في فعالية مثابرة إديسون ، التي تثبت عادة عدم فعاليتها في مواجهة العقبات التي لا يمكن التغلب عليها.
هناك عقبات كثيرة في الذكاء الاصطناعي التوليدي ، ومن الصعب معرفة أيهما يمكن حلها عن طريق معالجة الهياكل الحالية ، وأيهما سيتعين إعادة النظر فيه من الصفر.
على الرغم من أن الباحثين من شرق آسيا يبدو أنهم ينتجون عدداً أكبر من أوراق رؤية الكمبيوتر ، لاحظت زيادة في تكرار مشاريع “فرانكنشتاين” – المبادرات التي تشكل مزيجاً من الأعمال السابقة ، مع إضافة قليلاً من الجدة المعمارية (أو ربما فقط نوع مختلف من البيانات).
في هذا العام ، زادت عدد كبير من المقالات الآسيوية (بشكل رئيسي الصينية أو التعاونات التي تشمل الصين) التي بدت وكأنها مدفوعة بالحجم أكثر من الجدارة ، مما زاد من نسبة الإشارة إلى الضوضاء في مجال منعزلة بالفعل.
في الوقت نفسه ، جذبت عدد أكبر من المقالات الآسيوية انتباهي و إعجابي في عام 2024. لذلك ، إذا كانت هذه لعبة أرقام ، فهي لا تفشل – ولكنها ليست رخيصة أيضاً.
زيادة حجم الإرسال
حجم الأوراق ، عبر جميع البلدان الأصلية ، يبدو أنه قد زاد في عام 2024.
يغير يوم النشر الأكثر شعبية على مدار العام ؛ في الوقت الحالي هو يوم الثلاثاء ، عندما يكون عدد الإرسالات إلى قسم رؤية الكمبيوتر و التعرف على الأنماط souvent حول 300-350 في يوم واحد ، في الفترات “الذروة” (مايو-أغسطس و أكتوبر-ديسمبر ، أي موسم المؤتمر و “موسم الحصص السنوية” على التوالي).
خارج خبرتي الخاصة ، تقارير Arxiv نفسها رقمًا قياسيًا للإرسالات في أكتوبر من عام 2024 ، مع 6000 إرسال جديد ، وقسم رؤية الكمبيوتر هو ثاني أكثر قسم إرسال بعد تعلم الآلة.
ومع ذلك ، منذ أن يتم استخدام قسم تعلم الآلة في Arxiv غالباً كفئة超ية إضافية أو مجمعة ، هذا يargument لصالح رؤية الكمبيوتر و التعرف على الأنماط كفئة أكثر إرسالاً في Arxiv.
إحصائيات Arxiv الخاصة تعرض بالفعل علم الحاسوب كقائد واضح في الإرسالات :

يغلب علم الحاسوب (CS) إحصائيات الإرسال في Arxiv على مدار الخمس سنوات الماضية. Source: https://info.arxiv.org/about/reports/submission_category_by_year.html
تقرير AI Index لجامعة ستانفورد ، على الرغم من عدم khảية الإبلاغ عن الإحصائيات الأكثر حداثة حتى الآن ، يؤكد أيضاً على زيادة ملحوظة في إرسال الأوراق الأكاديمية حول تعلم الآلة في السنوات الأخيرة :

مع الأرقام غير متاحة لعام 2024 ، يظهر تقرير ستانفورد زيادة ملحوظة في حجم إرسال الأوراق حول تعلم الآلة. Source: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf
توسع إطارات Diffusion>Mesh
اتجاه واضح آخر ظهر لي هو زيادة كبيرة في الأوراق التي تتعامل مع الاستفادة من نماذج الانتشار الكامن (LDMs) كمولدات لنمذجة CGI التقليدية القائمة على الشبكة.
تتضمن مشاريع من هذا النوع InstantMesh3D ، 3Dtopia ، Diffusion2 ، V3D ، MVEdit ، و GIMDiffusion ، من بين العديد من العروض المماثلة.

إنشاء شبكة و تحسينها من خلال عملية انتشار في 3Dtopia. Source: https://arxiv.org/pdf/2403.02234
هذا الخيط البحثي الناشئ يمكن اعتباره اعترافاً ضمنياً بالصعوبات المستمرة للنظم التوليدية مثل نماذج الانتشار ، التي كانت من قبل عامين فقط تُعتبر بديلاً محتملًا لجميع النظم التي تسعى نماذج Diffusion>Mesh إلى ملؤها ؛ و تقليص الانتشار إلى دور أداة في التكنولوجيا و سير العمل التي تعود إلى ثلاثين سنة أو أكثر.
Stability.ai ، المنشئون للنموذج المفتوح Stable Diffusion ، قد أصدرت مؤخرًا Stable Zero123 ، الذي يمكن ، من بين أشياء أخرى ، استخدام تفسير Neural Radiance Fields (NeRF) لصورة مولدة بالذكاء الاصطناعي كجسر لإنشاء نموذج CGI صريح قائم على الشبكة يمكن استخدامه في منصات CGI مثل Unity ، في ألعاب الفيديو ، و الواقع المعزز ، و في منصات أخرى تتطلب إحداثيات 3D صريحة ، على عكس الإحداثيات الخفية للدوال المركبة.
انقر للعب. يمكن تحويل الصور المولدة في Stable Diffusion إلى شبكات CGI عقلانية. هنا نرى نتيجة سير عمل صورة>CGI باستخدام Stable Zero 123. Source: https://www.youtube.com/watch?v=RxsssDD48Xc
معنى 3D
يفرق مجال الذكاء الاصطناعي التوليدي بين تنفيذات 2D و 3D للرؤية و النظم التوليدية. على سبيل المثال ، إطارات الوجه ، على الرغم من تمثيل الكائنات 3D (الأوجه) في جميع الحالات ، لا تتطلب جميعها بالضرورة حساب إحداثيات 3D قابلة للعنونة.
يمكن أن تستوعب نظام FANAlign الشائع ، الذي يتم استخدامه على نطاق واسع في архيتكتشرات Deepfake من عام 2017 (من بين أمور أخرى) ، كلا النهجين :

في الأعلى ، يتم إنشاء معالم 2D بناءً على ملامح و سمات الوجه المعترف بها فقط. في الأسفل ، يتم ترشيد المعالم في فضاء 3D X / Y / Z. Source: https://github.com/1adrianb/face-alignment
لذلك ، كما أصبح مصطلح “الغش العميق” غامضاً و مسروقاً ، أصبح مصطلح “3D” غامضاً أيضاً في أبحاث رؤية الكمبيوتر.
للمستهلكين ، كان يعني عادة وسائل الإعلام المزودة بتقنية الاستريو (مثل الأفلام التي يجب على المشاهد ارتداء نظارات خاصة) ؛ لأخصائيي التأثيرات البصرية و النماذج ، يوفر الفرق بين الفن 2D (مثل الرسومات المفاهيمية) و النماذج القائمة على الشبكة التي يمكن تحريكها في برنامج “3D” مثل Maya أو Cinema4D.
لكن في رؤية الكمبيوتر ، يعني ببساطة أن نظام إحداثيات ديكارت يوجد في مكان ما في فضاء النموذج – لا أن بإمكانها بالضرورة أن تكون قابلة للعنونة أو التلاعب بها من قبل المستخدم ؛ على الأقل ، ليس بدون أنظمة CGI تفسيرية ثالثة مثل 3DMM أو FLAME.
لذلك فإن مفهوم Diffusion>3D غير دقيق ؛ لا يمكن فقط استخدام أي نوع من الصور (بما في ذلك صورة فوتوغرافية حقيقية) كمدخل لإنشاء نموذج CGI مولد ، ولكن مصطلح “شبكة” أكثر دقة.
ومع ذلك ، لتعقيد الغموض ، يحتاج الانتشار إلى تفسير الصورة المصدر إلى شبكة ، في معظم المشاريع الناشئة. لذلك ، وصف أفضل قد يكون صورة>شبكة ، بينما صورة>انتشار>شبكة هو وصف أكثر دقة.
لكن هذا بيع صعب في اجتماع مجلس الإدارة ، أو في إعلان دعائي مصمم لجذب المستثمرين.
دليل على تعطل الهياكل
حتى بالمقارنة مع عام 2023 ، يظهر المحصول الأخير من الأوراق زيادة في اليأس حول إزالة الحدود العملية الصعبة على التوليد القائم على الانتشار.
العقبة الرئيسية لا تزال تتمثل في توليد فيديو متسق و متسلسل و متسق في السرد و الزمن ، و الحفاظ على مظهر متسق للشخصيات و الأشياء – ليس فقط عبر مقاطع فيديو مختلفة ، ولكن حتى عبر مدة تشغيل قصيرة لمقطع فيديو مولد واحد.
الابتكار الأخير الكبير في التوليد القائم على الانتشار كان ظهور LoRA في عام 2022. بينما تحسنت أنظمة جديدة مثل Flux بعض مشاكل الأوتليير ، مثل عدم قدرة Stable Diffusion السابقة على إعادة إنتاج المحتوى النصي داخل صورة مولدة ، و تحسنت جودة الصورة بشكل عام ، كانت معظم الأوراق التي درستها في عام 2024 في الأساس مجرد تحريك الطعام على الطبق.
تكررت هذه الحالات من التعطل من قبل ، مع الشبكات التوليدية المعادية (GANs) و الحقول الإشعاعية العصبية (NeRF) ، التي فشلت في تحقيق إمكاناتها الأولية الظاهرة – و كلاهما يتم استخدامهما بشكل متزايد في أنظمة أكثر تقليدية (مثل استخدام NeRF في Stable Zero 123 ، انظر أعلاه). يبدو أن هذا يحدث أيضاً مع نماذج الانتشار.
توجيهات البحث حول Gaussian Splatting
يبدو أنه في نهاية عام 2023 ، كان من المفترض أن يغدو أسلوب الترصيع 3D Gaussian Splatting (3DGS) ، الذي ظهر لأول مرة كتقنية التصوير الطبي في بداية التسعينيات ، سوف يغدو فجأة يغلب على الأنظمة القائمة على التشفير الذاتي لتحديات合성 الصور البشرية (مثل محاكاة و إعادة إنشاء الوجه ، بالإضافة إلى نقل الهوية).
وعد ورقة ASH لعام 2023 بوجود بشر كاملين من 3DGS ، بينما قدم Gaussian Avatars تفاصيل محسنة بشكل كبير (بالمقارنة مع أساليب التشفير الذاتي و المنافسة الأخرى) ، مع تحسينات مثيرة للإعجاب في إعادة تمثيلها.
然而 ، هذا العام كان قصيراً نسبياً على أي لحظات كسرية لمثل هذه التطورات في合_synthesis البشرية 3DGS ؛ كانت معظم الأوراق التي تناولت هذا الموضوع إما مشتقة من الأعمال المذكورة أعلاه ، أو فشلت في تجاوز قدراتها.
بدلاً من ذلك ، ركزت الاهتمام على 3DGS على تحسين جدوى الهيكل الأساسي ، مما أدى إلى ظهور عدد من الأوراق التي تقدم تحسينات في البيئات الخارجية 3DGS. تم توجيه الانتباه الخاص إلى نهج Simultaneous Localization and Mapping (SLAM) 3DGS ، في مشاريع مثل Gaussian Splatting SLAM ، Splat-SLAM ، Gaussian-SLAM ، DROID-Splat ، من بين العديد من المشاريع الأخرى.
المشاريع التي حاولت استمرار أو توسيع合_synthesis البشرية 3DGS تشمل MIGS ، GEM ، EVA ، OccFusion ، FAGhead ، HumanSplat ، GGHead ، HGM ، و Topo4D. على الرغم من وجود مشاريع أخرى ، لم تكن أي من هذه الإصدارات تتمتع بالتأثير الأولي للأوراق التي ظهرت في نهاية عام 2023.
انحدار時代 Weinstein
الابحاث من جنوب شرق آسيا بشكل عام (والصين على وجه الخصوص) غالباً ما تتميز بأمثلة اختبار مشكلة في إعادة نشرها في مقال استعراضي ، لأنها تتميز بمادة قليلاً “ساخنة”.
سواء كان هذا لأن علماء الأبحاث في تلك المنطقة من العالم يسعون لجذب الانتباه إلى إنتاجهم يبقى موضع جدل ؛ ولكن خلال الأشهر الثمانية عشر الماضية ، زادت عدد كبير من الأوراق حول الذكاء الاصطناعي التوليدي (صورة و / أو فيديو) من استخدام نساء شابات و عاريات و فتيات في أمثلة المشروع. وتشمل الأمثلة الحدودية غير مناسبة للاستخدام العام UniAnimate ، ControlNext ، و حتى أوراق جافة مثل تقييم الاتساق الحركي بواسطة Fréchet Video Motion Distance (FVMD).
هذا يتبع الاتجاهات العامة للمجتمعات على الإنترنت التي تجمعت حول نماذج الانتشار الكامن (LDMs) ، حيث لا يزال قانون 34 ساري المفعول.
مواجهة المشاهير
يتداخل هذا النوع من الأمثلة غير المناسبة مع زيادة الاعتراف بأن عمليات الذكاء الاصطناعي لا ينبغي أن تستغل بشكل تعسفي أسماء المشاهير – خاصة في الدراسات التي تستخدم أمثلة تتميز بمشاهير جذابة ، غالباً إناث ، و توضع في سياقات مشكوك فيها.
تتضمن الأمثلة AnyDressing ، الذي يضم أيضاً شخصيات أنثوية كرتونية شابة ، و يستخدم بحرية هويات مشاهير كلاسيكية مثل مارلين مونرو ، و مشاهير حاليين مثل آن هاثاواي (التي أدانت هذا النوع من الاستخدام بصوت عال).

استخدام تعسفي للمشاهير الحاليين و الكلاسيكيين لا يزال شائعاً في الأوراق من جنوب شرق آسيا ، على الرغم من أن الممارسة تتراجع قليلاً. Source: https://crayon-shinchan.github.io/AnyDressing/
في الأوراق “الغربية” ، انخفضت هذه الممارسة بشكل ملحوظ على مدار عام 2024 ، بقيادة الإصدارات الكبيرة من FAANG و هيئات أبحاث أخرى رفيعة المستوى مثل OpenAI. و على دراية بالخوف من الملاحقة القضائية في المستقبل ، يبدو أن هذه الكيانات الكبيرة غير راغبة في تمثيل حتى أشخاص خياليين واقعيين.
على الرغم من أن الأنظمة التي tạoها (مثل LoRAs) يمكن إنشاؤها بسهولة بواسطة مستخدمي المنازل بمعدات متواضعة ، أدى ذلك إلى انفجار في النماذج المشهورة التي يمكن تحميلها مجاناً في مجال civit.ai و المجتمع. و يظل هذا الاستخدام غير المشروع ممكناً من خلال إتاحة الهياكل المفتوحة مثل Stable Diffusion و Flux.
على الرغم من أنه غالباً ما يكون من الممكن اختراق ميزات الأمان لأنظمة الصورة إلى نص و فيديو إلى نص (T2I و T2V) لإنشاء مواد محظورة بواسطة شروط الاستخدام المنصوص عليها في المنصة ، فإن الفجوة بين القدرات المقيدة لأنظمة الأفضل (مثل RunwayML و Sora) و القدرات غير المقيدة لأنظمة الأداء (مثل Stable Video Diffusion و CogVideo و التثبيتات المحلية ل Hunyuan) لا تتقارب حقاً ، كما يعتقد الكثيرون.
بدلاً من ذلك ، تهديد هذه الأنظمة المملوكة و المفتوحة ، على التوالي ، بأن تصبح متساوية العقل ، حيث قد تصبح الأنظمة التوليدية التوليدية التكلفة و التكلفة المفرطة بسبب مخاوف من الملاحقة القضائية ، في حين أن عدم وجود بنية ترخيص و إشراف على مجموعة البيانات في الأنظمة المفتوحة قد يقفلها تماماً من السوق مع اتخاذ لوائح أكثر صرامة.
نشر لأول مرة يوم الثلاثاء ، 24 ديسمبر 2024












