زاوية أندرسون
بث صور رمزية بتقنية الذكاء الاصطناعي كما لو كان عام 1999

يقدم بحث جديد طريقة لبث صور رمزية ثلاثية الأبعاد واقعية تظهر على الفور تقريبًا وتتحسن في الوقت الفعلي، بدلاً من إجبار المستخدمين على انتظار اكتمال عمليات التنزيل الضخمة.
من نواحٍ عديدة، أدت متطلبات الموارد الهائلة لأنظمة الذكاء الاصطناعي التوليدي وأنظمة العرض المدعومة بالذكاء الاصطناعي إلى تأخير استعداد المستهلكين لعشرين عامًا أو أكثر. ففي عام 2023 فقط، كان تخصيص 64 جيجابايت من ذاكرة الوصول العشوائي (RAM) في جهاز كمبيوتر محمول أو مكتبي يبدو مبالغًا فيه؛ أما الآن، ومع تزايد شعبية ذاكرة الوصول العشوائي و/أو تفريغ وحدة المعالجة المركزيةتُعتبر سعة 64 جيجابايت متواضعة للغاية بالنسبة لاحتياجات الذكاء الاصطناعي المحلي؛ ولا تزال هذه العناصر التي كانت في السابق عادية وبأسعار معقولة في أجهزة الكمبيوتر الشخصية تُستخدم ارتفع السعر بشكل صاروخي في ظل سعي الشركات جاهدة لتلبية الطلب على خدمات الذكاء الاصطناعي.
إن حجم وجشع الذكاء الاصطناعي وعملياته وبيئاته عادةً ما يفوق بكثير قدرة الأجهزة الاستهلاكية، وحتى تشغيل نماذج محلية "مُصغّرة" كـ إصدارات GGUF سيؤدي ذلك عادةً إلى إجهاد النظام العادي.
حتى خدمات الذكاء الاصطناعي القائمة على النصوص مثل ChatGPT عرضة لضغط كبير على مستوى العميل والخادم على حد سواء. لذلك، بمجرد تكليف الذكاء الاصطناعي بتقديم تجارب الوسائط المتعددة عبر الإنترنت في الوقت الفعلي، يمكننا أن نتوقع بشكل معقول بعض التنازلات الخطيرة في زمن الاستجابة و/أو الجودة - على غرار الصعوبات التي واجهها الإنترنت في بداياته مع بث الوسائط، وأيقونات "التخزين المؤقت" المتحركة المكروهة. لاعب حقيقي و وقت سريع.
آخر مرة تسببت فيها مشاكل الوسائط المتعددة والشبكات في حدوث خلل في تجربة المستخدم، كانت الأجهزة المخصصة للمستهلكين لا تزال تتطور من خلال قانون موروتتحسن هذه التقنيات بشكل شبه متسارع كل عام، حتى مع تطور أنظمة التشغيل والشبكات والبنية التحتية الداعمة الأخرى لتلبية الطلب؛ وعلى مدى السنوات العشر الماضية، تجاوزت قدرات تكنولوجيا المستهلك متطلبات الوسائط المتعددة (ربما حتى إلى الحد الذي أصبح فيه معدل التخلي عن الخدمة مرتفعًا). كان لا بد من إطلاقها بقوة (من أجل الحفاظ على المبيعات).
لكن هذا الفائض من القدرات المحلية قد يقترب من نهايته قريباً، حيث تصبح الأجهزة المحلية ذات مواصفات أقل وأكثر تكلفةونظرًا لأن الخدمات القائمة على الذكاء الاصطناعي تتطلب موارد أكبر من جانب الخادم والموارد المحلية.
الحصول على رأس
في عصر ما قبل النطاق العريض، وحتى قبل ظهور أول فيديو قابل للاستخدام عبر البث المباشر، كان مستخدمو الإنترنت معتادين على ظهور الصور تدريجيًا، ملفات JPEG التقدمية سمح ذلك للمستخدم الذي يعاني من نقص في النطاق الترددي بمشاهدة عملية تنزيل الصورة، في بعض الأحيان ببطء مؤلم، حيث تم تحميل المزيد من بيانات الصورة محليًا.
والآن، يبدو أننا قد نشهد تجربة مماثلة مع الذكاء الاصطناعي صور رمزية بتقنية Gaussian Splat:
انقر للعب. من مشروع ProgressiveAvatars الجديد، مقارنة بين صور رمزية غاوسية متدفقة. على اليسار، يحصل مشروع GaussianAvatars القديم على بيانات جديدة ببطء، لكن جودته تتدهور مع تراكم البيانات؛ على اليمين، يبني إصدار Progressive Avatars التفاصيل ببطء أيضًا، لكنه يفعل ذلك بطريقة ذكية تُعطي مظهرًا بشريًا أساسيًا منذ البداية. مصدر
نرى أعلاه نسختين من صورة رمزية تعتمد على تقنية Gaussian Splat (GSplat) - تمثيل بشري تم تمكينه جزئيًا بواسطة تقنية عرض غير ذكاء اصطناعي تعود إلى أوائل التسعينيات، وأيضًا بواسطة أساليب أكثر حداثة، مثل لهب نموذج بشري بارامتري، وأساليب تدريب قائمة على الذكاء الاصطناعي:

تستخدم تقنية Gaussian Splatting تمثيلاً غاوسياً للألوان والمعلومات ثلاثية الأبعاد بدلاً من البكسل أو الفوكسل، وتقوم برسم هذا النسيج فائق الواقعية على نوع أكثر تقليدية من شبكة CGI، والتي يتم تسهيلها في حد ذاتها بواسطة "إنسان بارامتري"، وهو وجه و/أو جسم CGI، في أنظمة مثل لهب و النجوم. مصدر
في الفيديو أعلاه، نلاحظ على اليسار أن تطبيقًا تقليديًا لتقنية "التشويش الغاوسي" في الصور الرمزية يبدو بشعًا للغاية أثناء انتظار تحميل البيانات. أما على اليمين، فنرى تطبيقًا جديدًا من الصين، يُطلق عليه اسم الصور الرمزية التقدمية، وهو قادر على حل المشكلة بشكل أكثر أناقة مع تحميل البيانات، مما يعرض صورة بشرية غير مثيرة للقلق منذ البداية.
يدعي المؤلفون أن طريقتهم هي الأولى التي تقوم فعلاً بـ "بث" صورة رمزية غاوسية، وبالتأكيد الأولى التي تفعل ذلك بطريقة تدريجية، حيث تتراكم الصورة بشكل أنيق، ويمكن إعطاء الأولوية لأهم المناطق - مثل العينين والشفاه - بحيث يمكن أن تصبح الصورة الرمزية قابلة للمحادثة حتى عند تحميلها جزئياً فقط:
انقر للعب. من موقع مشروع ProgressiveAvatars، رسم توضيحي للتحميل الواعي بالانتباه.
قبل ذلك، تم استخدام نهج "مستوى التفاصيل" (LOD) في المحاولات السابقة لتقليل حجم الصور الرمزية "GSplat"، على غرار تحسينات ألعاب الفيديو، حيث يتم تحميل نسخ أكثر تفصيلاً للشخص بشكل متتابع وفقًا لما إذا كانت تشغل مساحة كافية من منفذ العرض أو انتباه المشاهد بحيث تستحق الجهد المبذول.
بطبيعة الحال، يستلزم هذا الأمر وجود عدد كبير من الصور الرمزية "الاحتياطية" الزائدة، ويصف المؤلفون نهجهم بأنه نظام أكثر منطقية. وبناءً على ذلك، تسمح هذه الطريقة بإجراء تغييرات على شخصية GSplat (أي تخصيصها) دون الحاجة إلى نشر هذه التغييرات عبر سلسلة من نسخ LOD المختلفة.
مجال ناشئ
إذا بدت هذه المشكلة وكأنها مشكلة متخصصة، فقد كانت كذلك بالنسبة لبث الفيديو في الماضي، عندما كان تشغيل الإضافات الأولى يُوكل إلى أقرب خبير تقني متاح. علاوة على ذلك، فإن إمكانات تمثيلات البث القائمة على الذكاء الاصطناعي تتجاوز الصور الرمزية البشرية، وتمتد إلى توليد المدينة, ألعابونسخ ثلاثية الأبعاد* لأي نطاق إلكتروني تقريبًا - مثل تجربة افتراضية، للتسوق لشراء الملابس:
انقر للعب. من مشروعٍ لعام 2024، نظرةٌ أولية على مستقبل تجربة الملابس عبر الإنترنت. وتسعى مشاريع أخرى إلى إضافة الحركة والتفاعلية، وهي جوانب تتطلب معالجةً وتدفقاً وإدارةً. مصدر
وكما هو الحال مع أساليب مستوى التفاصيل (LOD) التي استُخدمت بشكل أساسي في ألعاب الفيديو حتى الآن، فمن المرجح أن تؤثر العديد من الاعتبارات الأخرى التي كانت حكرًا على تطوير الألعاب على تمثيلات GSplat. على سبيل المثال، تُصوّر معظم هذه الإصدارات المبكرة من GSplat إنسان واحد التعبير عن الغضب والتجهم، أو ربما التحدث؛ ولكن ستكون هناك حاجة إلى العديد من المواقف التي تضم العديد من البشر، بالإضافة إلى السمات البيئية والأجواء - وهو سيناريو ستحدد فيه أنظمة "الفرز" عالية الأداء أين يجب إعطاء الأولوية لبيانات البث، من أجل إبقاء المشاهد في اللحظة الحالية.
استخدم ورقة جديدة بعنوان صور رمزية متطورة: صور رمزية ثلاثية الأبعاد متحركة بتقنية غاوسويأتي هذا البحث من ثلاثة باحثين في جامعة العلوم والتكنولوجيا الصينية في خفي.
الأسلوب
تعتمد هذه الطريقة في البداية على فيديو لرأس شخص ما. لكل إطار، معيار لهب يتم تركيب نموذج وجه بارامتري بحيث يتغير الشكل والتعبير بمرور الوقت، بينما تبقى بنية الشبكة الأساسية ثابتة. ولأن البنية الأساسية لا تتغير، يمكن إعادة استخدام قالب FLAME مستقر وتحسينه بدلاً من إعادة بنائه من الصفر في كل مرة، كما هو الحال في الأعمال السابقة المماثلة.

يتم أولاً تزويد فيديو الرأس بشبكة FLAME متتبعة، ثم تُضاف منحنيات غاوسية ثلاثية الأبعاد إلى كل وجه وتُنمّى بشكل هرمي حيث تشير تدرجات مساحة الشاشة إلى التفاصيل المفقودة. أثناء التدريب، يبني هذا التقسيم التكيفي تمثيلاً متعدد المستويات تحت إشراف متعدد المشاهد، وعند الاستدلال، تحدد درجات أهمية كل وجه أي المنحنيات الغاوسية يتم بثها أولاً، مما يسمح بظهور الصورة الرمزية بسرعة وتحسينها تدريجياً مع إضافة مستويات تفاصيل أعلى.
فوق هذا الهيكل الأساسي، تتم إضافة التفاصيل في طبقات؛ يتم تقسيم السطح ضمنيًا إلى تسلسل هرمي، ويتم إرفاق غاوسيات ثلاثية الأبعاد صغيرة بالوجوه في كل مستوى من مستويات التفاصيل.
على الرغم من أن الطبقات الأولية الخشنة تلتقط الشكل العام للرأس وحركته، فإن الطبقات اللاحقة الأكثر دقة توفر التجاعيد والتشوهات الطفيفة والنسيج عالي التردد. ثم تُعالج الصور من هذه التوزيعات الغاوسية باستخدام مُرَسِّم غاوسي تفاضلي، وتُدرَّب على لقطات مرجعية متعددة المشاهد، بحيث يتعلم النموذج الافتراضي محاكاة مظهر الشخص الحقيقي.
أثناء التدريب، ينمو هذا التسلسل الهرمي تلقائيًا: يتم تقسيم المناطق التي تحتاج إلى مزيد من التفاصيل بشكل أكبر، مسترشدة بإشارات مساحة الشاشة، بحيث يتركز الجهد الحسابي حيث من المرجح أن تلاحظ عين المشاهد الأخطاء.
أثناء الاستدلال، يُمكّن هذا التسلسل الهرمي نفسه البث التدريجي، حيث يمكن عرض نسخة أولية من الصورة الرمزية أولاً، ومع تحميل طبقات إضافية، يمكن إضافة توزيعات غاوسية جديدة دون تغيير ما تم عرضه بالفعل، مما يتيح صورة رمزية متحركة للرأس تظهر بسرعة، وتصبح أكثر وضوحًا وتفصيلاً مع وصول المزيد من البيانات.
يلاحظ المؤلفون أن النظام بأكمله يعتمد على تحديد أولويات البيانات الواردة:

عندما تكون جميع التوزيعات الغاوسية عند مستوى معين متاحة، يتم عرض النموذج الكامل بأقصى دقة؛ ولكن أثناء البث، فإن إرسال التوزيعات الغاوسية ذات المساهمة الأعلى أولاً يسمح للنتائج الجزئية المبكرة بمطابقة الصورة النهائية بشكل وثيق، في حين أن إرسال التوزيعات الغاوسية ذات المساهمة المنخفضة أولاً يشوه توازن الألوان ويؤكد على المكونات الثانوية.
البيانات والاختبارات
لأغراض الاختبار، تم تقييم الطريقة الجديدة على نيرسمبل مجموعة البيانات، التي تتكون من مقاطع فيديو متعددة المشاهد لكل موضوع يتم تناوله، مع معايير معايرة عبر جميع المشاهد:

أمثلة على التفسيرات المتنوعة للمواضيع المدرجة في مجموعة بيانات NeRSemble المستخدمة في اختبارات ProgressiveAvatars. مصدر
تماشياً مع الأصل صور رمزية من غاوسيان في هذه المنهجية، تم تقليل دقة الصور إلى 802 × 550 بكسل، وتم إنشاء قناع أمامي، وتم استخدام بيانات التدريب/الاختبار الخاصة بالمشروع الأصلي. انقسم اعتمد.
استخدم محسن آدم تم استخدامها لتحديث المعلمات، مع معدل التعليم 1 × 10-2 على كل مركز الثقل الإحداثيات. استمر التدريب لمدة 60,000 تكرار، مع توسيع التسلسل الهرمي تلقائيًا كل 2,000 تكرار.
في البداية، اختبر المؤلفون ما يلي: إعادة البناء والتحريك – مهمة تحويل الفيديو ثنائي الأبعاد إلى نظام ثلاثي الأبعاد (x/y/x)، باستخدام برنامج FLAME الكنسي تمثيل الصور المولدة بالحاسوب كشبكة تثبيت. ولتحقيق ذلك، تم تدريب جميع النماذج الأساسية من الصفر، وكانت الأطر المنافسة التي تم اختبارها هي GaussianAvatars المذكورة سابقًا، و بوينت أفاتار.
في هذه الاختبارات، كانت المقاييس المستخدمة هي نسبة الإشارة إلى الضوضاء القصوى (PSNR)، مؤشر التشابه البنيوي (SSIM)، و تشابه رقعة الصورة الإدراكية المكتسبة (LPIPS):

مقارنة نوعية بين توليف الرؤية الجديدة وتوليف التعبير الجديد. يعاني نموذج GaussianAvatars الأساسي من صعوبة التعامل مع التفاصيل الدقيقة حول العينين والتجاعيد وملمس الجلد، بينما تحافظ الطريقة المقترحة بالفعل على بنية الوجه الرئيسية في حوالي خمسة بالمائة من البيانات المرسلة وتتقارب نحو الحقيقة الأساسية مع زيادة تدفق Gaussian، مما يطابق النموذج الكامل والصور المرجعية (الحقيقة الأساسية) بشكل وثيق.
وفيما يتعلق بهذه النتائج، يؤكد المؤلفون ما يلي:
تُعيد طريقتنا بناء تفاصيل أكثر وضوحًا في عدة مناطق، لا سيما حول الرقبة والكتفين والملابس. وتكون هذه المناطق ذات تقسيم خشن نسبيًا في قالب FLAME مقارنةً بمناطق الوجه البارزة (مثل المنطقة المحيطة بالعينين).
وبالتالي، غالباً ما تخصص الطرق السابقة عدداً قليلاً جداً من دوال غاوس ثلاثية الأبعاد لهذه المناطق بحيث لا تستطيع التقاط تفاصيلها الدقيقة بدقة. في المقابل، تعمل استراتيجيتنا للنمو التكيفي على زيادة عدد دوال غاوس وتحسين التسلسل الهرمي فقط عند الحاجة، مما يجعل التخصيص غير حساس لتجزئة FLAME غير المنتظمة.
ويشير المؤلفون كذلك إلى أن نهجهم يضاهي أحدث الأساليب، مما ينتج عنه صورة رمزية قابلة للتطبيق مع تخصيص ضئيل للغاية لعرض النطاق الترددي بنسبة 5%:

مقارنة كمية لتوليف المشاهد الجديدة وتوليف التعبيرات الجديدة باستخدام PSNR وSSIM وLPIPS. عند الإرسال الكامل، تحقق الطريقة المقترحة أعلى قيمة PSNR في كلتا المهمتين، وتبقى منافسة لـ GaussianAvatars في المقاييس الإدراكية، بينما يوضح إعداد 5% المفاضلة بين الجودة والقيود المفروضة على عرض النطاق الترددي.
بعد ذلك، اختبر الباحثون عملية العرض التدريجي نفسها. أُجري هذا الاختبار على بطاقة رسومات NVIDIA RTX 4090، بذاكرة وصول عشوائي للفيديو (VRAM) سعتها 24 جيجابايت، وبدقة عرض 550×802 بكسل. في هذا السيناريو، يشير الباحثون إلى أن ميزانية بنسبة 25% ستستهلك جميع توزيعات غاوس من المستوى الأول، بالإضافة إلى مجموعة فرعية من توزيعات غاوس من المستوى الثاني، مما يعطي لمحة عامة عن كيفية تراكم التفاصيل في مجموعات غاوس ذات الأرقام الأعلى، وكيف تُشكل مجموعات الأرقام الأدنى أساس اللوحة.

الأداء في ظل ميزانيات نقل مختلفة لعرض جديد وتوليف تعبير جديد، مما يدل على أن الجودة تقترب بثبات من GaussianAvatars أو تتجاوزها مع زيادة تدفق Gaussian والبيانات، مع الحفاظ على سرعات الوقت الحقيقي، على RTX 4090.
تعليق المؤلفين:
مع نقل 2.60 ميجابايت فقط (5% من الميزانية المخصصة)، تصل الصورة الرمزية إلى جودة معقولة. ومع تدفق صور غاوسية ذات مستوى أعلى، تزداد دقة التفاصيل الدقيقة مثل أزرار القميص والأسنان والشعر تدريجيًا مع الحفاظ على استقرارها الزمني.
"عند نقل البيانات بنسبة 100%، يحقق أسلوبنا جودة عرض تضاهي أحدث الطرق. والجدير بالذكر أن معدلات الإطارات لا تنخفض بشكل ملحوظ، ويرجع ذلك على الأرجح إلى أن عبء عمل 3DGS لم يصل بعد إلى الحد الأقصى لقدرة وحدة معالجة الرسومات."
مع ذلك، يشير الباحثون إلى أنه في سيناريوهات الواقع الافتراضي متعددة المستخدمين، سيزداد عدد نماذج غاوس ثلاثية الأبعاد بسرعة إلى الحد الذي تصبح فيه عملية تحويل الصور النقطية إلى رسومات بواسطة وحدة معالجة الرسومات (GPU) عائقًا أمام الأداء. في هذه السيناريوهات الأكثر تعقيدًا، يوفر النهج المقترح ميزةً تتمثل في تمكين النظام من الموازنة بين عدد العناصر الأولية وجودة الصورة، مما يخفف العبء دون التأثير على جودة العرض.
على الرغم من أن الورقة لا تُفصّل ذلك، إلا أن موقع المشروع يتضمن مقارنات اختبارية إضافية، تتضمن أيضًا ميجا مشروع صورة رمزية هجينة تجمع بين الشبكة والتوزيع الغاوسي:
انقر للعب. هذا الفيديو هو واحد من سلسلة فيديوهات تكميلية من موقع المشروع المصاحب للورقة البحثية، وهو يقارن النهج الجديد من حيث توليف العرض المبتكر.
خاتمة
قد يستمر تأثير تقنية Gaussian Splatting، أو قد لا يستمر، أو حتى قد لا يُذكر اسمها أكثر من RealPlayer حاليًا، في ظل ظهور البث التفاعلي: تجارب تمثيلية ثلاثية الأبعاد مدعومة أو مُساعدة بالذكاء الاصطناعي، تشمل محادثات الفيديو، والتسوق الافتراضي، والتنقل، وتطبيقات ترفيهية متنوعة. قد تتفوق تقنيات أو أساليب بديلة، أو قد تُثبت تقنية Gaussian Splatting أنها التمثيل الأكثر موثوقية للفيديو بتقنية الذكاء الاصطناعي.
إن لم يكن هناك شيء آخر، فإن هذه الورقة البحثية الجديدة والمثيرة للاهتمام تبشر بجزء من نطاق هذا المجال الجديد، بينما تذكرنا، ربما بحنين، بالإنترنت الذي كان يعاني من نقص في عرض النطاق الترددي في الماضي.
* لا أقصد بـ "ثلاثي الأبعاد" نوع التجربة التي تتطلب نظارات خاصة، بل التجارب التي يكون فيها محتوى الوسائط المتعددة لديه نوع من الفهم لإحداثيات X/Y/Z.
نُشرت لأول مرة يوم الأربعاء 18 مارس 2026






