زاوية أندرسون
استخدام الذكاء الاصطناعي لمحاكاة حبيبات الفيلم

استعادة جمال أمريكا: أداة ذكاء اصطناعي جديدة تُزيل حبيبات الأفلام من اللقطات القديمة، وتضغط الفيديو إلى جزء صغير من حجمه، ثم تُعيد الحبيبات إلى حجمها الأصلي بحيث لا يلاحظها المشاهدون. تعمل هذه الأداة مع معايير الفيديو الحالية، وتُقلل عرض النطاق الترددي بنسبة تصل إلى 90%، مع الحفاظ على المظهر الكلاسيكي.
بالنسبة للعديد منا الذين يشاهدون الأفلام أو البرامج التلفزيونية القديمة، فإن صوت "هسهسة" حبيبات الفيلم مطمئن؛ حتى عندما لا نسجلها بوعي، فإن الحبيبات تخبرنا أن ما نشاهده تم صنعه باستخدام مواد كيميائية، وليس رموزًا، وتربط التجربة بالعالم المادي: باختيار الأسهم، والتعرض، وعمليات المختبر، والعصور الماضية.

لقد تغير نهج هوليوود تجاه الحبيبات مع تغير الثقافة وأساليب الإنتاج. خلال ستينيات القرن الماضي، ساهمت تطورات كاميرات التصوير الفوتوغرافي وممارسات التصوير في الهوية البصرية المميزة لذلك العقد. لاحقًا، بدأ المخرجون العاملون في التصوير الرقمي بإعادة استخدام الحبيبات عمدًا. في منتصف الثمانينيات، اختار المخرج جيمس كاميرون مادة كوداك خشنة للغاية لفيلم "الفضائيون" (1960، أسفل اليمين في الصورة أعلاه)، مما يُرجّح أن يُحسّن الجو العام، ويُساعد أيضًا في إخفاء الأسلاك عن أعمال المؤثرات البصرية المصغرة. المصدر: https://archive.is/3ZSjN (مقالتي الأخيرة حول هذا الموضوع)
يأتي النسيج التناظري من وقت حيث كان إنتاج الوسائط يكلف أموالاً حقيقية، وكان الوصول إليه محدودًا، وكان هناك على الأقل شعور فضفاض بأن الأكثر قدرة أو تصميمًا فقط هم من يمكنهم الوصول إليه، وكان بمثابة اختصار للواقعية والمصداقية - وعندما قامت تقنيات التقاط الدقة العالية بالقضاء عليه، حنين.
كريستوفر نولان لم يتم التبديل أبدًافي حين أن معظم الصناعة تبنت التكنولوجيا الرقمية لسرعتها ومرونتها، إلا أن المخرج المشهور تمسك بها، وأصر على استخدام السيلولويد كأداة مساعدة. الانضباط والجمالية.
لا يزال دينيس فيلنوف، الذي يعمل بشكل مباشر ضمن خطوط الأنابيب الرقمية، يُحلل لقطاته من خلال العمليات الكيميائية الضوئية. كثيب الأفلام التي تم تصويرها رقميًا، تمت طباعة اللقطات على مخزون الفيلم ثم تم مسحها ضوئيًا مرة أخرى إلى النسخة الرقمية، فقط من أجل الجو والتأثير.
حبوب مزيفة
يربط عشاق جودة الأفلام والتلفزيون بين الحبيبات المرئية والدقة العالية، حيث معدل البت (كمية البيانات التي يتم دفعها إلى كل إطار) عالية جدًا لدرجة أن حتى أصغر التفاصيل، مثل حبيبات الهاليد، يتم الحفاظ عليها.
ومع ذلك، إذا أتاحت شبكات البث هذا المعدل من البتات بالفعل، فسيؤدي ذلك إلى ضغط شديد على سعة الشبكة، ومن المرجح أن يتسبب في حدوث تخزين مؤقت وتقطع. لذلك، تُعتبر منصات مثل نتفليكس إنشاء إصدارات AV1 مُحسّنة من محتواها واستخدام برنامج الترميز AV1 القدرة على إضافة الحبوب للفيلم أو الحلقة بطريقة ذكية ومناسبة، توفير 30% من النطاق الترددي في هذه العملية.

تم تصميم AV1 لدمج حبيبات الفيلم الاصطناعية، كما هو الحال في هذه الأمثلة. المصدر: https://waveletbeam.com/index.php/av1-film-grain-synthesis
إن "شغف الحبوب" هو معادل رقمي نادر نسبيًا للاتجاهات البدائية مثل إحياء الفينيل، ومن الصعب أن نقول ما إذا كان يتم استخدامه من قبل مقدمي البث لجعل الفيديو المحسن للغاية يبدو وكأنه "فيديو خام" باهظ الثمن حقًا (بالنسبة لأولئك المشاهدين الذين ربطوا هذه الخصائص دون وعي)، مما يجعل معدل البت يبدو أعلى مما هو عليه؛ أو لصرف انخفاض الجودة الإدراكية التي قد تتعرض لها عروض 4:3 القديمة عندما يضطر مقدمو البث إلى استخدام "فيديوهات خام" باهظة الثمن. اقتصاصها إلى نسب العرض إلى الارتفاع للشاشة العريضة؛ أو فقط لإرضاء "جماليات نولان" الرجعية بشكل عام.
الحبوب المخزّنة في صوامع
المشكلة هي أن الحبوب تُعتبر ضوضاء أيضًا. تكره الأنظمة الرقمية الضوضاء، وتُزيلها برامج ترميز البث مثل AV1 لتوفير سعة النطاق الترددي، ما لم تُضبط إعدادات الحبوب بشكل صريح. وبالمثل، مُحسّنات الذكاء الاصطناعي على سبيل المثال، تتعامل سلسلة Topaz Gigapixel مع الحبوب باعتبارها عيبًا يجب تصحيحه.
في مجال تركيب الصور القائمة على الانتشار، يعد توليد الحبيبات أمرًا صعبًا للغاية، لأنه يمثل تفاصيل شديدةوبالتالي فإنها تظهر عادةً بكميات كبيرة فقط مهيأة النماذج، لأن بنية نموذج الانتشار الكامن (LDM) بأكملها هي مصممة لتفكيك الضوضاء (مثل الحبوب) في صور واضحة، بدلاً من التعامل مع بقع الحبوب باعتبارها خصائص ضمنية في الوسائط.
لذلك، قد يكون من الصعب إنشاء حبيبات مُقنعة باستخدام التعلم الآلي. وحتى لو أمكن تحقيق ذلك، فإن تحويلها مباشرةً إلى فيديو مُحسّن سيؤدي إلى زيادة حجم ملف الفيديو بشكل كبير.
وبسبب هذا الاعتبار اللوجستي الأخير، أصبحت برامج ترميز الفيديو الحديثة مثل ترميز الفيديو متعدد الاستخدامات (VVC) عرض الحبوب كنوع من خدمة 'العربة الجانبية'.
يضغط VVC الفيديو النظيف الخالي من الضوضاء ويتخلص من الحبيبات. بدلاً من إهدار البيانات في محاولة الحفاظ على أنماط حبيبات عشوائية عالية التردد، فإنه يحلل الحبيبات. على حدة ويقوم بتشفير مجموعة صغيرة من المعلمات (مثل السعة والتردد ووضع المزج) التي تصف كيفية تجديد الحبوب المماثلة أثناء التشغيل.
يتم تخزين هذه المعلمات في FGC-SEI (معلومات إضافية لتحسين خصائص حبيبات الفيلم) الذي يعمل جنبًا إلى جنب مع تيار البتات الرئيسي. بعد فك التشفير، تستخدم وحدة التوليف هذه التعليمات لإعادة تطبيق حبيبات اصطناعية تحاكي الأصل.
يحافظ هذا على "مظهر" المستحلب عالي معدل البت الغني بالحبيبات، مع الحفاظ على معدل البت الفعلي منخفضًا، حيث لا يضطر المبرمج إلى إنفاق الموارد للحفاظ على الضوضاء غير المتوقعة.
بالإضافة إلى ذلك، كما هو الحال مع ملفات الترجمة المنفصلة، فإن محتوى "الحبيبات" المزيف هذا خاص بالفيديو المعني؛ إن تطبيق مرشحات الحبوب العامة بشكل عشوائي في منصات مثل Photoshop أو After Effects، أو في خطوط أنابيب المعالجة الآلية، لن يؤدي إلى حبيبات "ملائمة"، ولكن بدلاً من ذلك طبقة غير ذات صلة من الضوضاء:

اليسار: الصورة الأصلية. الوسط: برنامج Photoshop Camera Raw، حبيبات مُطبّقة بالتساوي على جميع القنوات. اليمين: نفس فلتر الحبيبات مُطبّق بشكل فردي على كل قناة بالتسلسل. صورة المصدر (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (عبر مقالتي السابقة)
يضيف مرشح "الحبيبات" في برنامج Photoshop ضوضاء عشوائية موحدة؛ ولكن حبيبات الفيلم الحقيقية يأتي من بلورات هاليد ذات أحجام مختلفةتطبيق الفلتر على كل قناة على حدة (انظر الصورة أعلاه) يُنتج المزيد من الفوضى، وليس الواقعية. تعكس حبيبات الفيلم الحقيقية كيفية ارتطام الضوء بالمستحلبات الطبقية. في لحظة التعرض. يتطلب محاكاة ذلك تقدير كيفية تنشيط مناطق مختلفة من الصورة لكل طبقة هاليد، وليس فقط تقسيم التأثير عبر طبقات RGB.
FGA-NN
وفي إطار هذا المسعى الخادع تأتي ورقة بحثية جديدة من فرنسا - وهي رحلة قصيرة ولكنها مثيرة للاهتمام تقدم طريقة متفوقة من الناحيتين الكمية والنوعية لتحليل وإعادة إنشاء الحبوب:

مقارنة بين الحبوب الحقيقية ونتائج طرق التحليل والتوليف المختلفة. المصدر: https://arxiv.org/pdf/2506.14350
النظام الجديد بعنوان FGA-NN، لا يخرج عن الاستخدام التقليدي للتقليدي تركيب الحبوب القائم على الغاوسي من خلال طريقة VVC القياسية المتوافقة، تركيب حبيبات الفيلم متعدد الاستخدامات (VFGS). ما يغيره النظام هو تحليل، باستخدام شبكة عصبية لتقدير معلمات التوليف بشكل أكثر دقة
لذلك، لا يزال يتم تصنيع الحبوب النهائية باستخدام نفس النموذج الغاوسي التقليدي - ولكن الشبكة تغذي بيانات وصفية أفضل إلى مولد قياسي قائم على القواعد، للحصول على نموذج متطور.
استخدم ورقة جديدة بعنوان FGA-NN: شبكة عصبية لتحليل حبيبات الفيلم، وهو صادر عن ثلاثة باحثين في مركز إنترديجيتال للبحث والتطوير، سيسون-سيفينييه. مع أن البحث ليس طويلاً، دعونا نلقي نظرة على بعض الجوانب الرئيسية للتطورات التي توفرها هذه الطريقة الجديدة.
الأسلوب
باختصار: يأخذ نظام FGA-NN فيديو مُحبّبًا كمُدخل، ويستخرج وصفًا مُختصرًا للحبيبات، ويُخرِج مُعاملات بتنسيق FGC-SEI المُوحّد المُستخدم في مُختلف برامج الترميز الحديثة. تُرسَل هذه المُعاملات مع الفيديو، مما يُتيح لفكّ التشفير إعادة بناء الحبيبات باستخدام VFGS، بدلًا من ترميزها مُباشرةً.

مخطط لتحليل وإعادة تطبيق حبيبات الفيلم في توزيع الفيديو، باستخدام FGA-NN لاستخراج المعلمات وVFGS للتوليف.
لتدريب الشبكة، احتاج المؤلفون إلى أزواج من مقاطع الفيديو ذات الحبيبات الدقيقة وبيانات FGC-SEI الوصفية المقابلة. ولأن معظم المقاطع ذات الحبيبات الدقيقة تفتقر إلى هذا النوع من البيانات الوصفية، أنشأ الباحثون مجموعة بيانات خاصة بهم عن طريق توليد معلمات FGC-SEI، وتطبيق حبيبات صناعية على مقاطع فيديو نظيفة، واستخدامها كأمثلة تدريبية.
تم إنشاء بيانات التدريب لـ FGA-NN من خلال تطبيق حبيبات اصطناعية على لقطات نظيفة من جزر فيرجن البريطانية - دي في سي و دي اي في 2 كيه تم إنشاء معلمات FGC-SEI العشوائية واستخدامها مع أداة توليف VFGS، مما يسمح بإقران كل مقطع فيديو حبيبي بالبيانات الوصفية المعروفة.
تم استخدام النموذج القائم على التردد المدعوم بمعايير الفيديو الحالية، مع تقييد نطاقات المعلمات للحفاظ على المعقولية البصرية عبر قنوات السطوع واللون.
تم إنشاء بيانات التدريب للمجموعة الجديدة من خلال تطبيق حبيبات اصطناعية على لقطات نظيفة من جزر فيرجن البريطانية - دي في سي و دي اي في 2 كيه تم إنشاء معلمات FGC-SEI العشوائية واستخدامها مع أداة Versatile Film Grain Synthesis (VFGS)، مما يسمح بإقران كل مقطع فيديو حبيبي بالبيانات الوصفية المعروفة.

نظرة عامة على نطاقات معلمات FGC-SEI العشوائية المستخدمة لتوليد حبيبات اصطناعية للتدريب، والمطبقة على لقطات نظيفة من مجموعات بيانات BVI-DVC وDIV2K. حُددت المعلمات لضمان نتائج بصرية معقولة عبر قناتي السطوع واللون.
نموذج ترشيح التردد، هو أسلوب التوليف الوحيد المدعوم حاليًا في تنفيذات الترميز مثل نموذج اختبار VVC (VTM) تم استخدامه في جميع أنحاء العالم. تم تقييد نطاقات المعلمات للحفاظ على المعقولية البصرية في كلا الاتجاهين. السطوع واللون القنوات.
تأثير الشبكة
يتميز FGA-NN بنموذجين منسقين للسطوع واللون على التوالي، وقد تم تصميم كل منهما للتنبؤ بالمعلمات المحددة اللازمة لإعادة إنشاء حبيبات الفيلم الواقعية.
لكل صورة مُدخلة، يُقدّر النظام مجموعة من فترات الشدة، وعوامل القياس المرتبطة بكل فترة، وترددات القطع الأفقية والرأسية، وتعديلًا عامًا للمقياس يُعرف بعامل Log2Scale. ولإدارة هذه العملية، يستخدم النموذج مُستخرج ميزات مشتركًا يُعالج المُدخلات غير الواضحة ويُدخلها إلى أربعة فروع مُخرجة مُنفصلة، كل منها مسؤول عن مهمة تنبؤ مُختلفة:

بنية نسخة Luma من FGA-NN. يستخرج هيكل أساسي مشترك خصائص من إطارات إدخال حبيبية، متبوعة بأربعة فروع إخراج مصممة خصيصًا لمهام تنبؤ محددة بالمعلمات: حدود الفواصل، وعوامل القياس، وترددات القطع، وLog2Scale العالمي. تستخدم شبكة اللون البنية نفسها مع أبعاد إدخال وإخراج معدلة.
يتم التنبؤ بحدود الفاصل الزمني باستخدام تراجع، في حين يتم التعامل مع عوامل القياس وترددات القطع وإعدادات المقياس العالمي على أنها مشاكل التصنيف.
تم تعديل الهندسة المعمارية لتعكس تعقيد كل مهمة، مع استخدام طبقات داخلية أكبر للحصول على تنبؤات أكثر دقة؛ على وجه التحديد، يعكس نموذج اللون بنية الإضاءة، لكنه يتكيف مع الخصائص المختلفة لبيانات اللون.
التدريب والاختبارات
تم تدريب FGA-NN باستخدام أربع دوال موضوعية، كل منها متوافقة مع إحدى مهام التنبؤ الخاصة بها. بالنسبة لمخرجات التصنيف، يتم استخدام تصنيفات خسارة الإنتروبيا تم استخدامه لتقليص الفجوة بين العلامات المتوقعة والحقيقة الأساسية.
تم تطبيع حدود الفاصل الزمني إلى نطاق من 0 إلى 1 وتم تحسينها باستخدام خسارة مجمعة: مقياس أسي L1 خسارة (expL1) الذي يعاقب على الأخطاء الأكبر بشكل أكبر، و عقوبة الرتابة مما ثبط الاتجاهات الهبوطية. تم دمج الخسائر الأربع، مع إعطاء أوزان عالية لعوامل القطع والقياس، بينما تم تحديد حدود الفاصل الزمني و Log2Scale تم ترجيحها عند 1 و 0.1.
تم إجراء التدريب تحت ادم مُحسِّن، في معدل التعليم من 5e-4، عبر 10,000 تكرار، مع حجم الدفعة من 64.
كانت الأداة الوحيدة القابلة للمقارنة والمناسبة للاختبارات المقارنة هي FGA-كونفنت، والذي يُنتج أيضًا قيمًا بتنسيق FGC-SEI، ويُستخدم لمعالجة الحبوب. تم اختبار كلا النظامين على تسلسلات UHD من مجموعة التقييم الذاتي JVET، باستخدام لقطات تحتوي على حبيبات فيلم حقيقية.

تشير الخطوط المتقطعة الرأسية إلى حدود فترة الكثافة، بينما يتم ملاحظة مكسب Log2Scale في تسمية المحور.
في الصورة أعلاه، نرى إطارات مقصوصة متطابقة مُولّدة بواسطة VFGS باستخدام معلمات من كل طريقة، مقارنةً بالإطار الأصلي. كما تُرسم تقديرات الإضاءة الخاصة بكل منها مقابل قيم الواقع الفعلي المُحددة يدويًا باستخدام VFGS، الذي يُظهر هنا كثافة البكسل على المحور X (0-255)، وعوامل القياس على المحور Y الأزرق (0-255)، وترددات القطع على المحور Y الأخضر (2-14).
يذكر المؤلفون:
'يمكن للمرء أن يلاحظ أن FGA-NN يلتقط بدقة الاتجاه العام لنمط حبيبات الفيلم الحقيقية وسعتها، مما يؤدي إلى صور مركبة ذات حبيبات فيلم مماثلة إدراكيًا لتلك الموجودة في الحقيقة الحقيقية.
'من ناحية أخرى، يتوقع FGA-CONVENT عامل مقياس أقل، يتم تعويضه بعامل Log2Scale أقل بشكل مماثل نتيجة لتصميمه، ويميل إلى توليد نمط حبيبات فيلم أكثر خشونة من المرجع، مما يؤدي إلى مظهر مميز ولكنه متسق بصريًا.'
ويشيرون إلى أن المقارنة المباشرة مع معلمات الحبوب الحقيقية على الأرض غير موثوقة، لأن التدرج وLog2Scale يمكن أن يعوضا عن بعضهما البعض، وغالبًا ما يكون للأخطاء البسيطة تأثير بصري ضئيل.
اختبار الإيمان
فيلم الحبوب إخلاص تم معايرة الأداء عبر أربع عمليات سير عمل: FGA-NN مع VFGS؛ وFGA-CONVENT بالإضافة إلى VFGS؛ ستايل-FG، و 3R-INN. الاختبارات المستخدمة في كل من FGC-SEI و فيلم GrainStyle740k مجموعات البيانات، ومقارنة الناتج بالحقائق الأساسية باستخدام مقاييس التشابه الإدراكي المكتسبة (LPIPS)؛ JSD-NSS، و كولباك-ليبلر (KL) التباعد.

نتائج معيارية لمجموعة بيانات FilmGrainStyle740k. يتفوق كلٌّ من Style-FG و3R-INN على غيرهما بفضل تدريبهما على هذه المجموعة، يليهما FGA-NN بفارق كبير. أما FGA-CONVENT، فيعاني من ضعف الأداء، مما يعكس اعتماده على تحليل الإطارات المتعددة والمناطق المتجانسة، وهي شروط لا تفي بها المدخلات الصغيرة الغنية بالنسيج المستخدمة في هذه الحالة.
ومن هذه النتائج يقول المؤلفون:
في مجموعة اختبار FilmGrainStyle740k، حققت طريقتا Style-FG و3R-INN أفضل النتائج، حيث تم تدريبهما خصيصًا على هذه المجموعة، بينما جاءت FGA-NN في المرتبة الثانية بفارق ضئيل. كان أداء FGA-CONVENT مع VFGS دون المستوى الأمثل في كلتا مجموعتي الاختبار.
"يرجع هذا فقط إلى حقيقة أن التحليل يعتمد على مناطق متجانسة ويستغل المعلومات من إطارات متعددة في حالة استخدام تحليل حبيبات الفيلم الحقيقي، بينما في تحليل التقييم الحالي يتم توفير صورة واحدة منخفضة الدقة (256 × 256 إلى الحد الأقصى 768 × 512)، والتي غالبًا ما تحتوي على نسيج مهم.
"يؤدي هذا إلى تعقيد التحدي الذي تواجهه طريقة التحليل التقليدية بشكل أكبر، مما يجعل من المستحيل تطبيق FGA-CONVENT على مثل هذه الصور الصغيرة."
وأخيرًا، لاحظ المؤلفون أنه في حين أن الأساليب القائمة على التعلم مثل 3R-INN وStyle-FG تنتج نتائج بصرية قوية على مجموعات البيانات المنسقة، فإن تكلفتها الحسابية العالية تجعلها غير مناسبة للنشر على أجهزة المستخدم النهائي.

مقارنة الإطارات ذات معدل البت المنخفض المعززة باستخدام تدفقات عمل مختلفة للتحليل والتوليف (الأعمدة من الثالث إلى الأخير).
بالمقارنة، يجمع النهج المقترح في الورقة الجديدة بين وحدة تحليل FGA-NN خفيفة الوزن وطريقة تركيب VFGS الفعالة من حيث الأجهزة، والتي يصفها المؤلفون بأنها حل أكثر قابلية للتطبيق وقابلية للنشر لإعادة إدخال حبيبات الفيلم في الفيديو المضغوط.
ويؤكدون أيضًا أن فوائد FGA-NN كبيرة محتملة، على نطاق واسع:
'[الترميز] تتيح مقاطع فيديو UHD ذات حبيبات الفيلم بمعدلات بت متوسطة إلى منخفضة باستخدام سير عمل تحليل حبيبات الفيلم والتوليف الخاص بنا توفير معدل بت يصل إلى 90% مقارنة بالترميز بمعدل بت عالي.'
خاتمة
إن الهوس بحبيبات الفيلم هو أحد أغرب وأغرب المفاهيم في عصر ما بعد التناظرية، ومن المثير للاهتمام أن نلاحظ أن ما كان يُعتبر في السابق قيداً على الوسيلة أصبح الآن رمزاً للمصداقية والأصالة في حد ذاته، حتى (ربما دون وعي) لجيل جديد من المشاهدين الذين ولدوا بعد الانحدار الفعلي للمستحلب.
تجدر الإشارة إلى أنه لا يوجد أي من الحبوب الحديثةأساليب الترفيه، بما في ذلك هذا الابتكار الأخير، يمكن التقاطها بدقة التأثير الحقيقي للطريقة التي يؤثر بها الضوء على طبقات الهاليدات في عملية كيميائية ضوئية حقيقية، عبر مجموعة من الظروف.
نُشر لأول مرة يوم الأربعاء 18 يونيو 2025












