الذكاء الاصطناعي
باحثون يستخدمون التعلم العميق لتحويل صور المعالم إلى 4D

قام باحثون في جامعة كورنيل بتطوير طريقة جديدة تستخدم التعلم العميق لتحويل صور المعالم العالمية إلى 4D. اعتمد الفريق على صور سياحية متاحة للجمهور لمعالم رئيسية مثل نافورة تريفى في روما، والنتائج هي صور ثلاثية الأبعاد يمكن تحريكها ويمكنهاแสดง التغييرات في المظهر مع مرور الوقت.
تستخدم الطريقة الجديدة آلاف الصور غير المُصنفة وغير المُؤرخة، وهي خطوة كبيرة إلى الأمام في رؤية الكمبيوتر.
تمت تسمية العمل بـ “عينة الجمهور للوظيفة البصرية“، وتم تقديمه في المؤتمر الأوروبي الافتراضي للرؤية الكمبيوترية، الذي عقد بين 23-28 أغسطس.
نوح سنايلي هو أستاذ مساعد في علوم الكمبيوتر في كورنيل تيك وأستاذ مساعد في الورقة. تشمل المساهمين الآخرين طالب الدكتوراه في كورنيل جينجكي لي، أول مؤلف للورقة، بالإضافة إلى آبي ديفيس، أستاذ مساعد في علوم الكمبيوتر في كلية الحوسبة والعلوم المعلوماتية، وطالب الدكتوراه في كورنيل تيك وينكي شيان.
قال سنايلي: “إنه طريقة جديدة لنمذجة المشهد لا تسمح لك فقط بالتحرك برأسك ومراقبة، على سبيل المثال، النافورة من زوايا مختلفة، ولكنها أيضا توفر لك أدوات للتحكم في تغيير الوقت”.
وأضاف: “إذا كنت حقًا ذهبت إلى نافورة تريفى في عطلتك، فإن المظهر سوف يعتمد على الوقت الذي ذهبت فيه – في الليل، سوف تكون مضاءة بأضواء الفيضانات من الأسفل. في بعد الظهر، سوف تكون مضاءة بالشمس، إلا إذا كنت في يوم غائم”.
“لقد تعلمنا toàn نطاق المظهر، بناءً على وقت اليوم والطقس، من هذه المجموعات غير المنظمة من الصور، بحيث يمكنك استكشاف toàn النطاق وفي نفس الوقت التحرك حول المشهد”.
قيود الرؤية الكمبيوترية التقليدية
منذ أن هناك العديد من النسيج المختلفة التي يجب إعادة إنتاجها، من الصعب على الرؤية الكمبيوترية التقليدية تمثيل الأماكن بدقة من خلال الصور.
قال سنايلي: “العالم الحقيقي متنوع للغاية في مظهره وله أنواع مختلفة من المواد – أشياء لامعة، ماء، هياكل رقيقة”.
إضافة إلى هذه العوائق، تعاني الرؤية الكمبيوترية التقليدية من صعوبات مع البيانات غير المتسقة. الوظيفة البصرية هي كيفية مظهر شيء ما من كل زاوية ممكنة في الفضاء والزمن، ولكن من أجل إعادة إنتاج هذا، يتم الحاجة إلى مئات من الكاميرات الويب في المشهد. ليس ذلك فقط، ولكنها يجب أن تكون مسجلة طوال اليوم والليل. يمكن القيام بذلك، ولكنها مهمة ثقيلة للغاية من حيث الموارد عند النظر إلى عدد المشاهد التي تتطلب هذه الطريقة.
التعلم من الصور الأخرى
为了 تجاوز ذلك، قام فريق الباحثين بتطوير الطريقة الجديدة.
قال سنايلي: “قد لا يكون هناك صورة تم التقاطها في الساعة 4 مساءً من هذا المنظور الدقيق في مجموعة البيانات. لذلك يجب علينا التعلم من صورة تم التقاطها في الساعة 9 مساءً من موقع ما، وصور تم التقاطها في الساعة 4:03 من موقع آخر”.
أدخلت مجموعة الباحثين تمثيلاً جديداً للمشهد يسمى الصور متعددة الطائرات العميقة، لتحقيق التأثير في أربعة أبعاد، وهي 3D والتغيير مع مرور الوقت.
وفقًا لسنايلي، “نستخدم نفس الفكرة التي اخترعت لإنشاء تأثيرات ثلاثية الأبعاد في الرسوم المتحركة ثنائية الأبعاد لإنشاء تأثيرات ثلاثية الأبعاد في المشاهد الحقيقية، لإنشاء هذه الصورة متعددة الطبقات العميقة من خلال تطبيقها على جميع هذه القياسات المتنوعة من صور السياح. من المثير للاهتمام أن هذا يأتي من تقنية قديمة كلاسيكية تستخدم في الرسوم المتحركة”.
أظهرت الدراسة أن النموذج المدرب يمكنه إنشاء مشهد باستخدام 50,000 صورة متاحة للجمهور من مواقع مختلفة. يعتقد الفريق أنه يمكن أن يكون له آثار في العديد من المجالات، بما في ذلك أبحاث الرؤية الكمبيوترية والسياحة الافتراضية.
قال سنايلي: “يمكنك الحصول على شعور بأنك حقًا هناك. يعمل بشكل مفاجئ للغاية بالنسبة لمجموعة من المشاهد”.
تلقى المشروع دعمًا من الرئيس التنفيذي السابق لجوجل والمنفذ إريك شميدت، بالإضافة إلى وندت شميدت.
https://www.youtube.com/watch?v=MAVFKWX8LYo&feature=emb_title












