الذكاء الاصطناعي

توجيه تعليمات قائم على الصورة عن طريق نماذج اللغة الكبيرة متعددة الوسائط

Published February 23, 2024

Updated April 4, 2026

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

أدوات التصميم البصري ونماذج اللغة والرؤية لها تطبيقات واسعة في صناعة الوسائط المتعددة. على الرغم من التقدم الكبير في السنوات الأخيرة، لا تزال هناك حاجة إلى فهم صلب لهذه الأدوات لتشغيلها. لتحسين سهولة الوصول والتحكم، تعتمد صناعة الوسائط المتعددة بشكل متزايد تقنيات تعديل الصور الموجهة بالنص أو القائمة على التعليمات. تستخدم هذه التقنيات أوامر اللغة الطبيعية بدلاً من أقنعة المناطق التقليدية أو الوصف المفصل، مما يسمح بمعالجة الصور أكثر مرونة وسيطرة. ومع ذلك، غالبًا ما توفر الأساليب القائمة على التعليمات توجيهات موجزة قد يكون من الصعب على النماذج الحالية التقاطها وتحقيقها. بالإضافة إلى ذلك، نماذج الانتشار، المعروفة بقدرتها على إنشاء صور واقعية، هي في الطلب العالي في قطاع تعديل الصور.

علاوة على ذلك، أظهرت نماذج اللغة الكبيرة متعددة الوسائط أداءً مثيرًا للإعجاب في المهام التي تتضمن توليد استجابات متوفرة بصريًا وفهم跨ي. يُعد تعديل الصورة الموجه بواسطة MLLM (MGIE) دراسة مستوحاة من MLLM لتقييم قدراتها وتحليل كيفية دعمها للتحرير باستخدام النص أو التوجيهات الموجهة. يتضمن هذا النهج تعلم توفير توجيه صريح واشتقاق تعليمات تعبيرية. ي理解 نموذج التحرير MGIE المعلومات البصرية وينفذ التحرير من خلال التدريب من النهاية إلى النهاية. في هذه المقالة، سنغوص深ًا في MGIE، وتقييم تأثيرها على تحسين الصورة العالمي، وتعديلات الطراز الفوتوشوب، والتحرير المحلي. سنناقش أيضًا أهمية MGIE في مهام تعديل الصورة القائمة على التعليمات التي تعتمد على تعليمات تعبيرية. هيا نبدأ استكشافنا.

تعديل الصورة الموجه بواسطة MLLM أو MGIE: مقدمة

نماذج اللغة الكبيرة متعددة الوسائط ونماذج الانتشار هما إطارين من إطارات الذكاء الاصطناعي والتعلم الآلي الأكثر استخدامًا حاليًا بفضل قدراتهما التوليدية الرائعة. من ناحية، لديك نماذج الانتشار، التي تُعرف بأفضل ما يمكنها إنتاج صور واقعية وملفتة للنظر، بينما من ناحية أخرى، لديك نماذج اللغة الكبيرة متعددة الوسائط، المعروفة بقدرتها الاستثنائية على توليد مجموعة واسعة من المحتوى بما في ذلك النص واللغة والكلام والصور / الفيديوهات.

تستبدل نماذج الانتشار خرائط الوسائط المتعددة الكامنة لتنفيذ المعالجة البصرية التي تعكس تغيير وصف الهدف الإدخال، ويمكنها أيضًا استخدام قناع موجه لتعديل منطقة معينة من الصورة. لكن السبب الرئيسي لاستخدام نماذج الانتشار على نطاق واسع في التطبيقات المتعددة الوسائط هو أن نماذج الانتشار لا تعتمد على وصف مفصل أو أقنعة المناطق، بل تستخدم بدلاً من ذلك نهج تعديل قائم على التعليمات يسمح للمستخدمين بالتعبير عن كيفية تعديل الصورة مباشرةً باستخدام أوامر النص أو الأوامر.

نماذج اللغة الكبيرة لا تحتاج إلى مقدمة منذ أن أظهرت تقدمًا كبيرًا عبر مجموعة متنوعة من المهام اللغوية المختلفة بما في ذلك تلخيص النص والترجمة الآلية وتوليد النص والإجابة على الأسئلة. عادةً ما يتم تدريب نماذج اللغة الكبيرة على كمية كبيرة ومتنوعة من بيانات التدريب، مما يمنحها الإبداع البصري والمعرفة، وتمكنها من أداء العديد من مهام اللغة والرؤية.

بناءً على نماذج اللغة الكبيرة، يمكن لنماذج اللغة الكبيرة متعددة الوسائط استخدام الصور كمدخلات طبيعية وتقديم استجابات متوفرة بصريًا. ومع ذلك، على الرغم من أن نماذج الانتشار وإطارات MLLM يتم استخدامها على نطاق واسع في مهام تعديل الصور، هناك بعض قضايا التوجيه مع التعليمات القائمة على النص التي تعيق الأداء العام، مما يؤدي إلى تطوير MGIE أو تعديل الصورة الموجه بواسطة MLLM، وهو إطار مدعوم بالذكاء الاصطناعي يتكون من نموذج انتشار ونموذج MLLM كما هو موضح في الصورة التالية.

داخل هيكل MGIE، يتم تدريب نموذج الانتشار من النهاية إلى النهاية لتنفيذ تعديل الصورة مع تخيل الهدف الكامن، بينما يتعلم إطار MLLM توقع تعليمات تعبيرية دقيقة. معًا، يستفيد نموذج الانتشار وإطار MLLM من الاستخراج البصري الداخلي، ويتعامل مع الأوامر البشرية الغامضة، مما يؤدي إلى تحرير صور واقعي كما هو موضح في الصورة التالية.

يستمد إطار MGIE الإلهام من نهجين موجودين: تعديل الصورة القائم على التعليمات و نماذج اللغة الكبيرة للرؤية.

يمكن لتعديل الصورة القائم على التعليمات تحسين سهولة الوصول والتحكم في المعالجة البصرية بشكل كبير من خلال الالتزام بأوامر الإنسان. هناك إطاران رئيسيان مستخدمان لتعديل الصورة القائم على التعليمات: إطارات GAN ونماذج الانتشار. يمكن لGAN أو الشبكات التوليدية المعادية تغيير الصور، لكنها محدودة إما في مجالات محددة أو تنتج نتائج غير واقعية. من ناحية أخرى، يمكن لنماذج الانتشار مع التدريب على نطاق كبير التحكم في خرائط الانتباه عبر الوسائط لتحقيق تعديل الصورة والتحويل.

يعمل تعديل الصورة القائم على التعليمات عن طريق استلام أوامر مباشرة كمدخلات، غالبًا ما لا يتم تحديدها أقنعة المناطق أو الوصف المفصل. ومع ذلك، هناك احتمال أن تكون التعليمات المحددة إما غامضة أو غير دقيقة بما فيه الكفاية لمتابعة تعليمات مهام التحرير.

نماذج اللغة الكبيرة للرؤية مشهورة بقدراتها التوليدية والتعميم عبر مهام متنوعة، وغالبًا ما يكون لديها فهم نصي قوي، ويمكنها إنتاج برامج قابلة للتنفيذ أو شبه رمز. تمكن هذه القدرة من نماذج اللغة الكبيرة من MLLM استلام الصور وتقديم استجابات كافية باستخدام محاذاة الميزات البصرية مع تعديل التعليمات، مع اعتماد نماذج حديثة على MLLM لإنشاء صور متعلقة بالمحادثة أو النص الإدخالي.

MGIE: الهيكل والمنهجية

تрадиitionally، تم استخدام نماذج اللغة الكبيرة في مهام التوليد اللغوي. لكن منذ أن أصبحت نماذج اللغة الكبيرة متعددة الوسائط شائعة، تم تمكين نماذج اللغة الكبيرة بتقديم استجابات معقولة من خلال استلام المدخلات البصرية.

يهدف إطار MGIE المقترح إلى حل هذه القضية، وتسهيل نموذج MLLM لتعديل صورة الإدخال إلى صورة الإخراج بناءً على التعليمات النصية المحددة. لتحقيق ذلك، يحتوي إطار MGIE على نموذج MLLM ويتدرب على اشتقاق تعليمات نصية تعبيرية موجزة واضحة.

تعليمات التعبير الموجز

تрадиционياً، يمكن لنماذج اللغة الكبيرة متعددة الوسائط تقديم استجابات متعلقة بالرؤية مع استلامها البصري بسبب تعديل التعليمات ومحاذاة الميزات.

تعديل الصورة بالتخيل الكامن

في الخطوة التالية، يعتمد إطار MGIE على رأس التحرير لتحويل توجيه الصورة إلى توجيه بصرية حقيقية.

تعلم MGIE

يُظهر الشكل التالي خلاصة خوارزمية عملية التعلم لإطار MGIE المقترح.

MGIE: النتائج والتقييم

يستخدم إطار MGIE مجموعة بيانات IPr2Pr كبياناته الأساسية للتدريب، ويتضمن أكثر من مليون بيانات مرشحة بواسطة CLIP مع تعليمات مستخرجة من نموذج GPT-3 ونموذج Prompt-to-Prompt لإنشاء الصور.

التحليل الكمي

يُظهر الشكل التالي نتائج التحرير في إعداد بدون شوكة مع نماذج مدربة فقط على مجموعة بيانات IPr2Pr.

النتائج النوعية

يُظهر الصورة التالية تلخيصًا للتحليل النوعي لإطار MGIE.

أفكار ختامية

في هذه المقالة، ناقشنا MGIE أو تعديل الصورة الموجه بواسطة MLLM، وهو دراسة مستوحاة من MLLM لتقييم قدراتها وتحليل كيفية دعمها للتحرير باستخدام النص أو التوجيهات الموجهة مع تعلم توفير توجيه صريح واشتقاق تعليمات تعبيرية.

Kunal Kejriwal

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.