زاوية Anderson
بث أفاتار الذكاء الاصطناعي مثل عام 1999

يقدم البحث الجديد طريقة لبث أفاتار ثلاثي الأبعاد متحركة تشبه الحياة وتظهر تقريبًا على الفور وتحسن في الوقت الفعلي، بدلاً من إجبار المستخدمين على الانتظار حتى انتهاء التنزيلات الكبيرة.
في nhiều طرق، فإن الطلب الهائل للموارد من قبل أنظمة الذكاء الاصطناعي وتصيير المساعدة قد أرجع جاهزية المستهلكين إلى الوراء بمقدار عشرين عامًا أو أكثر. فقط في عام 2023، بدا تخصيص 64 جيجا رام في جهاز لوحي أو كمبيوتر شخصي مثل الإفراط؛ الآن، مع زيادة شعبية رام و/أو إيقاف تشغيل CPU، يبدو 64 جيجا رام متواضعًا لاحتياجات الذكاء الاصطناعي المحلية؛ وتستمر هذه العناصر السابقة البسيطة والمتاحة من أجهزة الكمبيوتر في الارتفاع في السعر سعر بينما يصارع الشركات للوفاء بالطلب على خدمات الذكاء الاصطناعي.
المقياس والجشع لأنظمة الذكاء الاصطناعي وعملها وبيئاتها عادة ما يهزم الأجهزة الصغيرة المستخدمة من قبل المستهلكين، وحتى تشغيل نماذج محلية مخففة مثل نماذج GGUF سوف يسبب عادةً ضغطًا على النظام المتوسط.
حتى خدمات الذكاء الاصطناعي القائمة على النص مثل ChatGPT خاضعة لضغط كبير على مستوى العميل والخادم. لذلك، عندما يتم تكليف الذكاء الاصطناعي بتوفير تجارب الوسائط المتعددة عبر الإنترنت في الوقت الفعلي، يمكننا توقع بعض التنازلات الجدية في التأخير و/أو الجودة – مشابهة لمكافحة الإنترنت المبكرة مع بث الوسائط، والأيقونات المتحركة الم嫌ة “التحميل” من RealPlayer و QuickTime.
كانت المرة الأخيرة التي خلقت فيها مشاكل الوسائط المتعددة وشبكات الاتصال احتكاكًا في تجربة المستخدم، كانت الأجهزة الصغيرة للمستهلك لا تزال تتطور من خلال قانون مور، وتحسن تقريبًا بشكل指数ي كل عام، حتى عندما تتطور أنظمة التشغيل وشبكات البنية التحتية الأخرى لتلبية الطلب؛ ولأكثر من عشر سنوات، تفوقت قدرات التكنولوجيا الاستهلاكية على طلبات الوسائط المتعددة (ربما حتى إلى الحد الذي يحتاج فيه التحفيز على التشغيل لبدء الحفاظ على المبيعات).
ولكن هذا الفائض من القدرة المحلية قد ينتهي قريبًا، حيث تكون الأجهزة المحلية أقل مواصفات وأغلى، وحيث يطلب خدمات الذكاء الاصطناعي موارد خادمية محلية أعلى.
الحصول على رأس
في العصر السابق لإنترنت النطاق العريض، حتى قبل أول فيديو متدفق قابل للاستخدام، كان مستخدمو الويب معتادين على الصور التي تظهر ببطء، حيث سمحت الصور المتطورة JPEG للمستخدم الذي يعاني من نقص النطاق الترددي بمشاهدة الصورة التي يتم تحميلها، أحيانًا ببطء شديد، حيث يتم تحميل المزيد من بيانات الصورة محليًا.
الآن، يبدو أننا قد نواجه تجربة مماثلة مع أفاتار الذكاء الاصطناعي المُساعد: أفاتار Gaussian Splat:
انقر للعب. من مشروع ProgressiveAvatars الجديد، مقارنة بين أفاتار Gaussian المتدفقة. المصدر
فيما يلي، نرى两个 إصدار من أفاتار Gaussian Splat – تمكين تمثيل إنسان部分يًا من خلال تقنية غير الذكاء الاصطناعي للتصيير التي تعود إلى بداية التسعينيات، وأيضًا من خلال أساليب أكثر حداثة، مثل نموذج FLAME البارامتري، ومنهجات التدريب القائمة على الذكاء الاصطناعي:

يستخدم التقطير الغاوسي تمثيلًا غاوسيًا للون والمعلومات ثلاثية الأبعاد بدلاً من بكسل أو voxel، ويخيط هذا النسيج الفائق الواقعية على شبكة CGI تقليدية، والتي يتم تسهيلها بدورها بواسطة “إنسان بارامتري”، وجه و/أو جسم، في أنظمة مثل FLAME و STAR. المصدر
مجال متطور
إذا بدا هذا وكأنه مشكلة محددة، حسنًا، كان بث الفيديو أيضًا كذلك، في الأيام التي كانت فيها الحصول على أول ملحقات تعمل معرضًا للمهام المحددة إلى النيرد المتاح.
الطريقة
تعتمد هذه الطريقة في البداية على فيديو لرأس شخص. لكل إطار، يتم تطبيق نموذج FLAME البارامتري القياسي، بحيث يتغير الشكل والتعبير مع مرور الوقت، بينما يبقى الهيكل التحتية الثابت.
البيانات والاختبارات
للاختبارات، تم تقييم الطريقة الجديدة على مجموعة بيانات NeRSemble، التي تتكون من مقاطع فيديو متعددة الزوايا لكل موضوع، مع معلمات محددة عبر جميع الزوايا:

أمثلة على تفسيرات متنوعة للموضوعات المضمنة في مجموعة بيانات NeRSemble المستخدمة في اختبارات ProgressiveAvatars. المصدر
الاستنتاج
قد تدوم تقنية Gaussian Splatting أو لا، أو حتى تُذكر أكثر من RealPlayer فيما يتعلق بفجر البث التفاعلي: تجارب تمثيل ثلاثية الأبعاد مدعومة بالذكاء الاصطناعي، بما في ذلك دردشة الفيديو، التسوق الافتراضي، وتوجيه المسار، وتطبيقات ترفيهية متنوعة. قد تفوز تقنيات أو نهج بديلة، أو يثبت أن GSplat هو تمثيل الفيديو الأكثر موثوقية.
إذا لم يكن هناك شيء آخر، فإن هذا الورق الجديد المثير يعلن بعض نطاق هذا المجال الجديد، بينما يذكرنا، ربما بشكل متعاطف، بالإنترنت المحروم من النطاق الترددي في الماضي.
* من خلال “ثلاثي الأبعاد”، لا أعني النوع من التجارب التي تتطلب نظارات خاصة، ولكن بالأحرى تجارب حيث يحتوي المحتوى المتعددة على نوع من الفهم للاطارات X / Y / Z.
نشر لأول مرة يوم الأربعاء، 18 مارس 2026












