Connect with us

تحرير الصور باستخدام تقنية Gaussian Splatting

الذكاء الاصطناعي

تحرير الصور باستخدام تقنية Gaussian Splatting

mm
A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

يُقترح بحث جديد مشترك بين باحثين في بولندا وبريطانيا إمكانية استخدام تقنية Gaussian Splatting لتحرير الصور، عن طريق تفسير جزء معين من الصورة بشكل مؤقت في الفضاء ثلاثي الأبعاد، مما يسمح للمستخدم بتغيير وتحويل التمثيل ثلاثي الأبعاد للصورة، ثم تطبيق التحويل.

لتغيير اتجاه رأس القط، يتم نقل الجزء المعني إلى الفضاء ثلاثي الأبعاد بواسطة تقنية Gaussian Splatting، ثم يُتحرك بواسطة المستخدم. يتم تطبيق التعديل بعد ذلك. Этот عملية مشابهة للتقنيات المتنوعة في برنامج Adobe، والتي تقفز واجهة المستخدم حتى يتم إكمال عملية معقدة حالية. مصدر: https://github.com/waczjoan/MiraGe/

لتغيير اتجاه رأس القط، يتم نقل الجزء المعني إلى الفضاء ثلاثي الأبعاد بواسطة تقنية Gaussian Splatting، ثم يُتحرك بواسطة المستخدم. يتم تطبيق التعديل بعد ذلك. Этот عملية مشابهة للتقنيات المتنوعة في برنامج Adobe، والتي تقفز واجهة المستخدم حتى يتم إكمال عملية معقدة حالية. مصدر: https://github.com/waczjoan/MiraGe/

نظرًا لأن عنصر Gaussian Splat يتم تمثيله بشكل مؤقت بواسطة شبكة من المثلثات، ويدخل إلى “حالة CGI”، يمكن لمحرك فيزيائي متكامل في العملية تفسير الحركة الطبيعية، إما لتغيير الحالة الثابتة للكائن، أو لإنتاج رسوم متحركة.

يمكن لمحرك فيزيائي متكامل في نظام MiraGe الجديد تفسير الحركة الفيزيائية بشكل طبيعي، إما لرسوم متحركة أو تعديلات ثابتة على الصورة.

يمكن لمحرك فيزيائي متكامل في نظام MiraGe الجديد تفسير الحركة الفيزيائية بشكل طبيعي، إما لرسوم متحركة أو تعديلات ثابتة على الصورة.

لا يوجد أي ذكاء اصطناعي توليدي متضمن في العملية، مما يعني أن لا يوجد نماذج انتشار كامنة (LDMs) متضمنة، على عكس نظام Firefly من Adobe، الذي تم تدريبه على Adobe Stock (سابقًا Fotolia).

النظام – المسمى MiraGe – يفسر الانتقالات إلى الفضاء ثلاثي الأبعاد ويفترض الهندسة عن طريق إنشاء صورة مرآة للانتقالات، وتقريب إحداثيات ثلاثية الأبعاد التي يمكن تمثيلها في Splat، والتي تفسر الصورة إلى شبكة.

انقر للتشغيل. أمثلة إضافية للعناصر التي تم تعديلها يدويا بواسطة مستخدم نظام MiraGe، أو خاضعة لتشوه قائم على الفيزياء.

قارن المؤلفون نظام MiraGe بالمناهج السابقة، ووجدوا أنه يحقق أداءً على مستوى الدولة في المهمة المستهدفة.

سيشعر مستخدمو نظام zBrush بالتعرف على هذه العملية، منذ أن يسمح zBrush للمستخدم بessentially ‘مسطح 3D نموذج’ وإضافة تفاصيل 2D، مع الحفاظ على الشبكة الأساسية، وتفسير التفاصيل الجديدة فيها – “تجميد” هو العكس من طريقة MiraGe، والتي تعمل أكثر مثل Firefly أو تقنيات التلاعب الأخرى في Photoshop، مثل تشويه أو تفسيرات 3D خشن.

تسمح Splats الغاوسية المعلمة لنظام MiraGe بإنشاء إعادة بناء عالية الجودة لمناطق معينة من صورة 2D، وتطبيق فيزياء الجسم الناعم على الانتقالات المؤقتة 3D.

تسمح Splats الغاوسية المعلمة لنظام MiraGe بإنشاء إعادة بناء عالية الجودة لمناطق معينة من صورة 2D، وتطبيق فيزياء الجسم الناعم على الانتقالات المؤقتة 3D.

ينص الورق على:

‘[نحن] نقدم نموذجًا يرمز إلى صور 2D عن طريق محاكاة تفسير الإنسان. على وجه التحديد، نموذجنا يرى صورة 2D كما يرى الإنسان صورة فوتوغرافية أو ورقة، معاملتها ككائن مسطح في الفضاء ثلاثي الأبعاد.

‘تسمح هذه النهج بتعديل الصور بطرق直ة ومرونة، مما يلائم دقة الإدراك البشري في الوقت نفسه ويسمح بالتحويلات المعقدة.’

الورق الجديد بعنوان MiraGe: Editable 2D Images using Gaussian Splatting، ويأتي من أربعة مؤلفين من جامعة ياغيلونيا في كراكوف، وجامعة كامبريدج. تم إصدار الكود الكامل للنظام على GitHub.

دعونا نلقي نظرة على كيفية تعامل الباحثون مع التحدي.

الطريقة

تستخدم نهج MiraGe تمثيل Gaussian Mesh Splatting (GaMeS) المعلم، وهو تقنية تم تطويرها بواسطة مجموعة تشمل اثنين من مؤلفي الورق الجديد. يسمح GaMeS لتقنية Gaussian Splatting أن تُفهم كشبكات CGI تقليدية، وتخضع إلى مجموعة متنوعة من تقنيات التشويه والتعديل التي طورتها مجتمع CGI على مدار العقود القليلة الماضية.

يُفسر نظام MiraGe “الغاوسيات المسطحة” في الفضاء 2D، ويتخدم GaMeS “لجذب” المحتوى إلى الفضاء 3D المتمكن من GSplat، بشكل مؤقت.

تمثل كل غاوسية مسطحة بثلاث نقاط في سحابة من المثلثات، تسمى “حساء المثلثات”، مما يفتح الصورة المفترضة للتلاعب. مصدر: https://arxiv.org/pdf/2410.01521

نرى في الزاوية السفلية اليسرى من الصورة أعلاه أن نظام MiraGe يخلق “صورة مرآة” للجزء من الصورة الذي سيتم تفسيره.

ينص المؤلفون على:

‘[نحن] نستخدم نهجًا جديدًا باستخدام كاميرتين متعارضتين موضعتين على طول المحور Y، متوازيتين بشكل متماثل حول الأصل والمتجهة تجاه بعضهما البعض. تُكلف الكاميرا الأولى بإنشاء الصورة الأصلية، في حين أن الكاميرا الثانية تمثل انعكاس المرآة.

‘تُconceptualized الصورة على أنها ورقة تتبع شفافة، مشبعة في السياق المكاني ثلاثي الأبعاد. يمكن تمثيل الانعكاس بشكل فعال عن طريق قلب الصورة أفقيًا.

‘تُحسن إعداد الكاميرا المرآة من دقة الانعكاسات المولدة، مما يوفر حلًا قويًا لالتقاط العناصر البصرية بدقة.’

ينص الورق على أن نظام MiraGe يمكنه استخدام محركات فيزيائية خارجية مثل تلك الموجودة في Blender، أو في Taichi_Elements.

البيانات والاختبارات

للتقييمات الجودة للصور في الاختبارات التي أجريت لنظام MiraGe، تم استخدام نسبة الإشارة إلى الضوضاء (SNR) وMS-SIM المقاييس.

تم استخدام مجموعات البيانات Kodak Lossless True Color Image Suite، وDIV2K validation مجموعة. كانت دقة هذه المجموعات من البيانات مناسبة لمقارنة بأقرب عمل سابق، Gaussian Image. كانت الإطارات الأخرى التي تم اختبارها هي SIREN، WIRE، NVIDIA’s Instant Neural Graphics Primitives (I-NGP)، وNeuRBF.

أجريت التجارب على جهاز كمبيوتر محمول NVIDIA GEFORCE RTX 4070 وNVIDIA RTX 2080.

يقدم نظام MiraGe نتائج على مستوى الدولة مقابل الإطارات السابقة المختارة، وفقًا للنتائج المذكورة في الورق الجديد.

يقدم نظام MiraGe نتائج على مستوى الدولة مقابل الإطارات السابقة المختارة، وفقًا للنتائج المذكورة في الورق الجديد.

من هذه النتائج، ينص المؤلفون على:

‘نرى أن مقترحنا يتفوق على الحلول السابقة في كلا المجموعتين من البيانات. تُظهر الجودة المقاسة بواسطة كلا المقاييس تحسنًا كبيرًا مقارنة بجميع النهج السابقة.’

الخلاصة

تكييف نظام MiraGe لتقنية Gaussian Splatting 2D واضح أنه محاولة أولية وجريئة لما قد يثبت أنه بديل مثير للاهتمام للتعامل مع الغموض والاهتمامات المتعلقة باستخدام نماذج انتشار لتعديل الصور (أي عبر Firefly وطرق انتشار مفتوحة المصدر مثل Stable Diffusion و Flux).

على الرغم من وجود العديد من نماذج الانتشار التي يمكنها إجراء تعديلات طفيفة على الصور، فإن نماذج الانتشار الكامنة (LDMs) مقيدة بنهجها الدلالي والغالبًا ما يكون خياليًا لطلب تعديل قائم على النص.

لذلك، يبدو أن القدرة على سحب جزء من الصورة إلى الفضاء ثلاثي الأبعاد بشكل مؤقت، وتعديله، واستبداله مرة أخرى في الصورة، مع استخدام الصورة الأصلية فقط كمرجع، يبدو أن هذه المهمة قد تكون مناسبة لتقنية Gaussian Splatting في المستقبل.

 

* هناك بعض الارتباك في الورق، حيث يذكر “Amorphous-Mirage” كأفضل وأكثر طريقة قادرة، على الرغم من ميلها لإنتاج غاوسيات غير مرغوب فيها (تشوهات)، في حين يُحاجج بأن “Graphite-Mirage” أكثر مرونة. يبدو أن Amorphous-Mirage يحصل على أفضل تفاصيل، و Graphite-Mirage على أفضل مرونة. منذ أن يتم تقديم كلا النهجين في الورق، مع نقاط قوتهما وضعفها المتنوعة، لا يبدو أن تفضيل المؤلفين واضحًا في هذا الوقت.

 

نُشر لأول مرة يوم الخميس، 3 أكتوبر 2024

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai