Connect with us

استخدام الذكاء الاصطناعي لتحسين الصور الحقيقية قبل التقاطها

زاوية Anderson

استخدام الذكاء الاصطناعي لتحسين الصور الحقيقية قبل التقاطها

mm
Sample images from the Arxiv paper 'How to Take a Memorable Picture? Empowering Users with Actionable Feedback'. Source - https://arxiv.org/abs/2602.21877

بدلاً من استخدام GenAI لتصحيح الصور بعد التقاطها، قام الباحثون بتدريب نظام يخبرك كيف تتحرك، وتتخذ وضعية، وتصور اللقطة من قبل، باستخدام المعرفة المدروسة لما يجعل الصور محفزة.

 

لقد أصبح تصحيح الصور بعد التقاطها أسهل بشكل متزايد، حيث تقدم الشركات والمنصات التكنولوجية بشكل متزايد تحريرًا داخل الكاميرا يسمح للمستخدمين بتغيير الصور بمجرد التقاطها. وتشمل الأنظمة الشهيرة من هذا النوع تحرير المحادثة من جوجل، وتحرير التوليف من سامسونج، وغيرها.

然而، قد ي意味ى اتجاه جديد يفضل “الصدق” على نتائج “مُحسنة” بواسطة الذكاء الاصطناعي أن العديد من المستهلكين الذين يهدف إليهم هذه الأنظمة يبدأون في اعتبار الصور “المُعدلة” كـ رواسب الذكاء الاصطناعي.

ربما هذا ما ألهم جوجل لإنشاء مدرب كاميرا مدرب بواسطة الذكاء الاصطناعي، على أساس جيميني، والذي يمكنه إعطاء تعليمات مباشرة لتحسين صورة خلال عملية التقاطها:

يخبر مدرب الكاميرا من جوجل المستخدم كيفية إعادة تحديد الإطار للصورة، بالإضافة إلى نصائح أساسية أخرى.

يخبر مدرب الكاميرا من جوجل المستخدم كيفية إعادة تحديد الإطار للصورة، بالإضافة إلى نصائح أساسية أخرى. المصدر

كونه نظامًا مملوكًا، ومع وجود معلومات قريبة من الصفر متاحة على الإنترنت فيما يتعلق به، يبدو أن مدرب الكاميرا يستفيد من جيميني لمساعدة المستخدمين على تحسين الإطار (انظر الصورة أعلاه) أو إجراء تغييرات طفيفة في الوضع (مثل التقرب من بعضهم البعض أو النظر مباشرة إلى الكاميرا).

إلى حد ما يمكن لأي شخص أن يرى، يدفع المنتج التكوين نحو المتوسط، على افتراض أن بيانات التدريب الملايين من المحتوى المُرفع قد ساهمت في بيانات جيميني. في هذا المعنى، قام المستخدمون الذين قاموا بتحميل الصور بإنشاء عيارة الذكاء الاصطناعي من خلال رفض اللقطات غير المرضية ورفع تلك التي يعجبونها – وهي طريقة فعالة (ومجانية) لتنقية البيانات!

然而، لا تملك الصور التي يتم “ت平均ها” من حيث التكوين بالضرورة نفس القيم الجمالية أو تأثير المشاهد مثل الصور التي تكون مذكورة.

ما وراء “تشيز!” وقاعدة الثلث

بهذا المعنى، و往 نظام أكثر سهولة الوصول عبر المنصات، يقدم بحث جديد من إيطاليا نظامًا على غرار Coach يعتمد على المعرفة السابقة لما يجعل الصور تثبت في الذهن:

أمثلة بعيدة المدى من النصائح المقدمة من نظام المؤلفين الجديد.

أمثلة بعيدة المدى من النصائح المقدمة من نظام المؤلفين الجديد. المصدر

في الأمثلة أعلاه، نرى النصائح المقدمة من نظام المؤلفين الجديد – المسمى MemCoach – والتي يصعب تخيلها لمدرب تكوين مثل Camera Coach. في الحالة الأولى (الأيسر)، النصيحة لإزالة العباءة هي خاصة؛ في الصورة الثانية، من الصعب تخيل ما يمكن أن يأتي من سياق تقليدي لمدرب تكوين (أي صورة “فنية” لشابة تقع على الأرض مع عينيها مغلقتين).

الفهم الأساسي حول القابلية للذكر في التصوير الفوتوغرافي، المستخدم لتطوير النظام الإيطالي ثلاثي الأجزاء، مستمد من أعمال سابقة مختلفة، بما في ذلك الخروج ما يجعل كائنًا محفزًا؟، والورقة ما يجعل صورة فوتوغرافية محفزة؟.

من الورقة ما يجعل صورة فوتوغرافية محفزة، أمثلة ممثلة للصور الجيدة والمتوسطة والسيئة، من حيث القابلية للذكر.

من الورقة ما يجعل صورة فوتوغرافية محفزة، أمثلة ممثلة للصور الجيدة والمتوسطة والسيئة، من حيث القابلية للذكر. المصدر

أي شخص، مثل tôi، مع تاريخ ميلاد يونكس سالب، سوف يعرف على الأرجح قوالب “أقل الصور ذكرًا” (الركن العلوي الأيمن في الصورة أعلاه)، من ليالي الشرائح اللانهائية التي لعنت طفولتنا. كما يقول المؤلفون*:

‘هذه الأعمال حددت عوامل داخلية رئيسية مثل وجود أشخاص، مشاهد داخلية، أو تعابير عاطفية، بدلاً من الأشياء والمناظر البانورامية، بالإضافة إلى العوامل الخارجية، بما في ذلك السياق والمشاهد.

يتمحور المشروع حول “مكافأة الذاكرة” (MemFeed)، والتي يتم التعبير عنها في تطبيق مدرب MemCoach، ومرجع (MemBench) يعتمد على مجموعة بيانات PPR10K.

من الورقة PPR10K: مجموعة بيانات تحرير الصور الفوتوغرافية البورتريه الكبيرة مع قناع المنطقة البشرية وثبات المجموعة، عينات متنوعة من مجموعة البيانات. الصف العلوي يظهر الصور الأصلية، والصف السفلي يظهر إصدارات محررة بواسطة الخبراء مع أقنعة المناطق البشرية المقابلة. تختلف الصور الأصلية بشكل كبير في نقطة العرض، والخلفية، والإضاءة، وضبط الكاميرا، في حين تعرض النتائج المعدلة جودة بصرية محسنة وثباتًا أقوى داخل كل مجموعة.

من الورقة PPR10K: مجموعة بيانات تحرير الصور الفوتوغرافية البورتريه الكبيرة مع قناع المنطقة البشرية وثبات المجموعة، عينات متنوعة من مجموعة البيانات. الصف العلوي يظهر الصور الأصلية، والصف السفلي يظهر إصدارات محررة بواسطة الخبراء مع أقنعة المناطق البشرية المقابلة. تختلف الصور الأصلية بشكل كبير في نقطة العرض، والخلفية، والإضاءة، وضبط الكاميرا، في حين تعرض النتائج المعدلة جودة بصرية محسنة وثباتًا أقوى داخل كل مجموعة. المصدر

يلاحظ الورقة أن الذاكرة قابلة للقياس في الصور، بدلاً من سجل للحكم الذاتي، ويلاحظ المؤلفون أيضًا أن الخاصية تم تحديدها لكل من الصور (في أعمال مختلفة) والفيديوهات (في أعمال مختلفة).

الورقة الجديدة مسمى كيفية التقاط صورة محفزة؟ تمكين المستخدمين من خلال تعليمات قابلة للتنفيذ، ويأتي من أربعة باحثين عبر جامعة ترينتو، وجامعة بيزا، وFondazione Bruno Kessler. يشير صفحة المشروع إلى أن رمز GitHub وبيانات Hugging Face ستكون متاحة الشهر المقبل (مارس 2026).

الطريقة

为了 курировать مجموعة بيانات MemBench من مجموعة بيانات PPR10K الأصلية، قام الباحثون بتركيب الصور من نفس المشهد وتصنيف كل صورة حسب قابلية الذاكرة باستخدام معلم مدرب على أساس CLIP الميزات. ثم قاموا بترتيب الصور داخل كل مشهد من الأقل إلى الأكثر قابلية للذكر وتركيبها بشكل متوافق:

نظرة عامة على بناء MemBench وتقييمه. الصف العلوي يُظهر خط أنابيب البيانات، من تجميع الصور حسب المشهد والتنبؤ بقابلية الذاكرة، إلى تصنيف الصور وتوليد تعليمات العمل الموجهة بقابلية الذاكرة. الصف السفلي يُظهر التقييم، وقياس جودة التعليقات من خلال مكاسب قابلية الذاكرة القائمة على التحرير وتصنيف الارتباك.

نظرة عامة على بناء MemBench وتقييمه. الصف العلوي يُظهر خط أنابيب البيانات، من تجميع الصور حسب المشهد والتنبؤ بقابلية الذاكرة، إلى تصنيف الصور وتوليد تعليمات العمل الموجهة بقابلية الذاكرة. الصف السفلي يُظهر التقييم، وقياس جودة التعليقات من خلال مكاسب قابلية الذاكرة القائمة على التحرير وتصنيف الارتباك.

对于 كل زوج، تم توليد وصفات لغة طبيعية باستخدام نموذج InternVL3.5 لشرح الفرق المرئي بين الإصدار الأقل قابلية للذكر والإصدار الأكثر قابلية للذكر؛ وهذه الوصفات ستشكل إشارة التدريب لنظام تعليقات قابلية الذاكرة.

على عكس المنطق الذي ي лежит في أساس مدرب الكاميرا من جوجل، سعى الباحثون إلى مجموعة أكثر دقة من التفسيرات:

‘على عكس تعديلات التصوير الفوتوغرافي الحاسوبي التي تركز على التصحيحات اللاحقة (مثل “جعل الصورة أكثر إضاءة”)، نركز على الإجراءات السيميائية التي يمكن للمستخدم اتخاذها في الوقت الفعلي من أجل لقطة أفضل، على سبيل المثال “تواجه بعضكما البعض”.’

تتكون مجموعة MemBench النهائية من حوالي 10,000 صورة، متجمعة في 1,570 مشهدًا، بمتوسط 6.5 صورة لكل مشهد. يشير سحابة الكلمات التي أنشأها المؤلفون (انظر الصورة أدناه) إلى مجموعة واسعة من الفئات السيميائية في مجموعة البيانات:

سحابة كلمات لأكثر المصطلحات شيوعًا في MemBench.

سحابة كلمات لأكثر المصطلحات شيوعًا في MemBench.

كان متوسط درجة قابلية الذاكرة للصور المصدر 0.63، في حين تمتد الصور الأكثر قابلية للذكر من نفس المشهد من 0.51 إلى 1.0، مع تداخل ملحوظ بين المجموعتين:

توزيعات درجات قابلية الذاكرة لمقارنة الصور الأقل قابلية للذكر والأكثر قابلية للذكر داخل كل مشهد.

توزيعات درجات قابلية الذاكرة لمقارنة الصور الأقل قابلية للذكر والأكثر قابلية للذكر داخل كل مشهد.

كانت تعليمات التعليقات تتراوح من ملاحظات قصيرة تتكون من سبع كلمات، إلى تعليمات طويلة بشكل ملحوظ (على اليسار في الصورة أدناه). تم تقسيم كل نصيحة إلى أنواع إجراءات صغيرة باستخدام GPT-5 Mini (على اليمين في الصورة أدناه):

توزيع طول التعليقات المقاسة بالكلمات المحتوية، وتصنيف الإجراءات الفرعية الذرية مع عرض الحبال يُظهر تكرار التزامن عبر الفئات.

توزيع طول التعليقات المقاسة بالكلمات المحتوية، وتصنيف الإجراءات الفرعية الذرية مع عرض الحبال يُظهر تكرار التزامن عبر الفئات.

يلاحظ المؤلفون أن معظم الاقتراحات ركزت على كيفية وضع الموضوع، تليها تغييرات في المعنى أو محتوى المشهد، مع ربط التكوين غالبًا بوضعية الموضوع، وتغييرات الإضاءة غالبًا ما ترتبط بتغييرات سيميائية.

مكافحة التغيير

为了 تقييم ما إذا كانت قابلية الذاكرة قد زادت من خلال التعليقات، تم محاكاة امتثال المستخدم من خلال استخدام نموذج FLUX.1 Kontext التوليدي كبديل للمصور:

الصور على اليسار حقيقية، من مجموعة البيانات، والصور على اليمين (في كل حالة) تم إنشاؤها بواسطة Flux، بناءً على النصيحة (باللون الأصفر، أدناه). بهذه الطريقة، يمكن تقييم فعالية النصائح دون الحاجة إلى مشاركة بشرية واسعة النطاق. ستتدفق هذه المعرفة في النهاية إلى إطار MemCoach، ويفضل أن تمثل عملية يمكن أن تحسن نظامًا من هذا القبيل بشكل متكرر (أي في النهاية مع أمثلة من العالم الحقيقي بدلاً من أمثلة Flux).

الصور على اليسار حقيقية، من مجموعة البيانات، والصور على اليمين (في كل حالة) تم إنشاؤها بواسطة Flux، بناءً على النصيحة (باللون الأصفر، أدناه). بهذه الطريقة، يمكن تقييم فعالية النصائح دون الحاجة إلى مشاركة بشرية واسعة النطاق. ستتدفق هذه المعرفة في النهاية إلى إطار MemCoach، ويفضل أن تمثل عملية يمكن أن تحسن نظامًا من هذا القبيل بشكل متكرر (أي في النهاية مع أمثلة من العالم الحقيقي بدلاً من أمثلة Flux).

تم تمرير الصور الأصلية والمنقحة عبر معلم قابلية الذاكرة، مما يسمح بقياس 얼마ما كانت الصورة المعدلة تحقق درجة أعلى – يُسمى نسبة التحسين – وكيف كان حجم الزيادة بالنسبة للصورة الأصلية، يُسمى قابلية الذاكرة النسبية.

كما تم قياس التشابه مع تعليمات مرجعية محددة بقابلية الذاكرة من خلال حساب الارتباك ضد الوصف المرجعي، وتم تطبيق تقسيم 80-20 على مستوى المشهد بحيث تم إجراء الاختبار فقط على المشاهد التي لم تُستخدم خلال التدريب.

حالة الفن

تم اختبار وعي قابلية الذاكرة الحالي لنمذج اللغة الكبيرة المتعددة الوسائط. تم عرض صور من مجموعة بيانات LaMem على نماذج رائدة، وتم سؤالها عما إذا كانت الصورة محفزة. ثم تم مقارنة تقدير ثقة النموذج مع الدرجات المحددة من قبل المشاهدين البشر في الدراسة الأصلية:

اختبارات تشير إلى أن نماذج اللغة المتعددة الوسائط لا تحقق قابلية الذاكرة. اليسار، ارتباط سبيرمان بين تنبؤات النموذج ودرجات مجموعة بيانات LaMem، مع اتفاق بين المراجعين من LaMem معروضًا للمقارنة. اليمين، نسبة التحسين المُحقق بواسطة التعليقات بدون تدريب بالنسبة إلى خط الأساس للتحرير، مع مكاسب هامشية فقط.

اختبارات تشير إلى أن نماذج اللغة المتعددة الوسائط لا تحقق قابلية الذاكرة. اليسار، ارتباط سبيرمان بين تنبؤات النموذج ودرجات مجموعة بيانات LaMem، مع اتفاق بين المراجعين من LaMem معروضًا للمقارنة. اليمين، نسبة التحسين المُحقق بواسطة التعليقات بدون تدريب بالنسبة إلى خط الأساس للتحرير، مع مكاسب هامشية فقط.

لم يكن هناك أي ارتباط معنوي مع الأحكام البشرية، و尽管 كان هناك تدريب كبير النطاق، يصر المؤلفون على أن النماذج لم تتبع ما يتذكره الناس بثبات.

أمثلة من مجموعة بيانات LaMem. في الزاوية العلوية اليسرى، نرى أيضًا خريطة حرارة معروضة لهذه الصورة.

أمثلة من مجموعة بيانات LaMem. في الزاوية العلوية اليسرى، نرى أيضًا خريطة حرارة معروضة لهذه الصورة. المصدر

MemCoach

يركز MemCoach على تعليمات سيميائية فورية يمكن تنفيذها قبل ضغط الزناد – على سبيل المثال، تعديل الوضعية، تغيير التفاعلات بين المواضيع، أو تعديل عناصر المشهد. تتراوح تعليمات MemCoach من 7 إلى 102 كلمة محتوية. يبدو أن قابلية الذاكرة مدفوعة أكثر بتهيئة الموضوع وتنبيهات السرد من التweak البسيط للتكوين:

نظرة عامة على خط أنابيب MemCoach، حيث يتم إقران التوجيه الموجه بقابلية الذاكرة من نموذج اللغة المتعددة الوسائط مع استجابات طالب محايدة لتشكيل بيانات متناقضة؛ يتم تحويل فروق التنشيط عبر الطبقات إلى متوسط لاستخلاص متجه توجيه قابلية الذاكرة؛ ويتم حقن هذا المتجه في الاستدلال لتحويل تنشيطات الطالب نحو إنتاج تعليمات محسنة وموجهة بقابلية الذاكرة، دون تدريب إضافي.

نظرة عامة على خط أنابيب MemCoach، حيث يتم إقران التوجيه الموجه بقابلية الذاكرة من نموذج اللغة المتعددة الوسائط مع استجابات طالب محايدة لتشكيل بيانات متناقضة؛ يتم تحويل فروق التنشيط عبر الطبقات إلى متوسط لاستخلاص متجه توجيه قابلية الذاكرة؛ ويتم حقن هذا المتجه في الاستدلال لتحويل تنشيطات الطالب نحو إنتاج تعليمات محسنة وموجهة بقابلية الذاكرة، دون تدريب إضافي.

اختبارات

تم استخدام سبعة نماذج لغة متعددة الوسائط كبيرة في مرحلة الاختبار لنظام جديد: Qwen2.5V.L؛ InternVL3_5-8B؛ Idefics3-8B؛ وLLaVA-OneVision-1.5. تمت إضافة GPT-5 Mini أيضًا كنموذج تمثيلي للنماذج المملوكة والمغلفة. بالإضافة إلى ذلك، تم تضمين نماذج Q-Instruct وAesExpert المخصصة للجمال.

أداء MemCoach مقارنًا بنماذج اللغة المتعددة الوسائط الرائدة عبر أوراكل المعلم، ونماذج مخصصة للجمال، وخطوط أساس بدون تدريب، مع نسبة تحسين أعلى وذاكرة نسبية منافسة مع أقل ارتباك، مما يشير إلى تعليمات أكثر ثباتًا وتوجيهًا بقابلية الذاكرة.

أداء MemCoach مقارنًا بنماذج اللغة المتعددة الوسائط الرائدة عبر أوراكل المعلم، ونماذج مخصصة للجمال، وخطوط أساس بدون تدريب، مع نسبة تحسين أعلى وذاكرة نسبية منافسة مع أقل ارتباك، مما يشير إلى تعليمات أكثر ثباتًا وتوجيهًا بقابلية الذاكرة.

في الجدول للاختبار الأول (المعروض أعلاه)، نرى أن MemCoach يبدو أنه يوفر تعليمات ذاكرة أكثر فعالية من أي من نماذج المقارنة – ونموذج InternVL3.5 الموجه يرفع قابلية الذاكرة أكثر، وبرفع 5% في نسبة التحسين مقارنةً ب GPT-5 Mini، وقفزة 31.81% في الذاكرة النسبية مقارنةً بإصدارته غير الموجهة.

كما يتفوق على أنظمة مخصصة للجمال، دون الحاجة إلى تدريب إضافي. يُشير ارتباك أقل، كما يُدعي في الورقة، إلى أن تعليماته تتبع نفس الأنماط اللغوية التي تميل الأحكام البشرية للتذكير بها:

نتائج التعميم التي تُظهر أن MemCoach يحسن تعليمات توجيه الذاكرة عبر عدة نماذج متعددة الوسائط، مع رفع نسبة التحسين وذاكرة نسبية مع تقليل الارتباك لمعظم النماذج.

نتائج التعميم التي تُظهر أن MemCoach يحسن تعليمات توجيه الذاكرة عبر عدة نماذج متعددة الوسائط، مع رفع نسبة التحسين وذاكرة نسبية مع تقليل الارتباك لمعظم النماذج.

تم إجراء تقييم نوعي، حيث تم تحليل أمثلة من تعليمات MemCoach حيث تم فحص الصورة الأصلية، والنصيحة اللغوية، والنتيجة المحسنة المُفترَضة جنبًا إلى جنب:

أمثلة نوعية من تعليمات توجيه الذاكرة التي تم توليدها بواسطة MemCoach. كل مجموعة ثلاثية تُظهر الصورة الأصلية، والنصيحة اللغوية، والصورة المعدلة الناتجة، مع ذاكرة نسبية (RM) تشير إلى التغيير المقاس. تتراوح الإرشادات من تعديلات الوضعية والانتباه إلى تدخلات سيميائية مثل إزالة الكائنات، مما يُظهر مكاسب ناجحة وحالات حيث يقلل إزالة العناصر غير العادية من قابلية الذاكرة.

أمثلة نوعية من تعليمات توجيه الذاكرة التي تم توليدها بواسطة MemCoach. كل مجموعة ثلاثية تُظهر الصورة الأصلية، والنصيحة اللغوية، والصورة المعدلة الناتجة، مع ذاكرة نسبية (RM) تشير إلى التغيير المقاس. تتراوح الإرشادات من تعديلات الوضعية والانتباه إلى تدخلات سيميائية مثل إزالة الكائنات، مما يُظهر مكاسب ناجحة وحالات حيث يقلل إزالة العناصر غير العادية من قابلية الذاكرة.

من بين هذه النتائج، يقول المؤلفون:

‘تُظهر الأمثلة تنوعًا في الاقتراحات التي يقدمها النموذج، تتراوح من تعديلات تكوين دقيق إلى تدخلات سيميائية مثل تغيير تعبير الوجه.’

‘التعليمات قابلة للتفسير والتنفيذ، معبرة عنها في تعليمات نصية موجزة (غالبًا ما تتضمن أفعال “أحضر”، “قف”، “أزل”) يمكن تنفيذها مباشرة، مما يُفسر كيفية التقاط صورة محفزة.’

الاستنتاج

سيكون من المثير للاهتمام مقارنة منهجية نهج جوجل المغلق مع مشروع MemBench – ليس أقلها لمعرفة المعايير المركزية والمراجع وقواعد البيانات التي استخدمتها جوجل لتحديد معايير الجمال للنظام.

الجانب السلبي لأنظمة من هذا القبيل، مفتوحة أو مغلقة المصدر، هو أنهم يخاطرون بفرض معايير موحدة في النهاية، والتي من المحتمل أن تنتهي كأفكار وموضة – نوع من المكافئ البصري لمناقشات الشرطة في ChatGPT، حيث أصبحت الإجراء “الصحيح” ملعونًا إلى حد ما في الاستخدام العادي.

 

* تحويلي لمراجع المؤلفين المضمنة إلى روابط، إذا لم تكن الرابط معروضة في مكان آخر في المقالة.

يشير الورقة هنا، كما في العديد من الأماكن الأخرى، إلى “مادة إضافية” لا أستطيع العثور عليها، سواء من الورقة أو القائمة الأساسية في Arxiv أو موقع المشروع.

نُشر لأول مرة يوم الخميس، 26 فبراير 2026

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai