الذكاء الاصطناعي

الاستقرار AI يطلق نموذج تحويل النص إلى صورة DeepFloyd IF

تم النشر

منذ 1 العام

5 مايو 2023

الاستقرار AI ومختبر أبحاث الذكاء الاصطناعي متعدد الوسائط التابع لها ، DeepFloyd ، قد أعلنوا عن إصدار بحثي لـ DeepFloyd IF ، وهو نموذج متطور لنشر وحدات البكسل المتتالية من نص إلى صورة. تم إصدار النموذج مبدئيًا بموجب ترخيص غير تجاري ومسموح به للبحث ، ولكن تم التخطيط لإصدار مفتوح المصدر في المستقبل.

يتميز DeepFloyd IF بالعديد من الميزات الرائعة ، بما في ذلك:

الفهم الفوري للنص العميق: يستخدم النموذج T5-XXL-1.1 كجهاز تشفير نص ، مع العديد من طبقات الانتباه المتبادل للصور النصية ، مما يضمن محاذاة أفضل بين المطالبات والصور.
نص متماسك وواضح بجانب الصور التي تم إنشاؤها: يمكن لـ DeepFloyd IF إنشاء صور تحتوي على كائنات ذات خصائص مختلفة وعلاقات مكانية.
درجة عالية من الصورة الواقعية: حقق النموذج درجة FID مثيرة للإعجاب تبلغ 6.66 في مجموعة بيانات COCO.
تحول نسبة العرض إلى الارتفاع: يمكن للنموذج إنشاء صور بنسب أبعاد غير قياسية ، بما في ذلك الأبعاد الرأسية والأفقية والمربعة القياسية.
ترجمات بدون لقطة من صورة إلى صورة: يمكن للنموذج تعديل نمط الصورة وأنماطها وتفاصيلها مع الحفاظ على شكلها الأساسي.

فيما يلي بعض الأمثلة على المفاهيم التي أنشأتها DeepFloyd IF:

يتكون تصميم الانتشار المعياري والمتتالي للبكسل لـ DeepFloyd IF من عدة وحدات عصبية تتفاعل بشكل تآزري. يعمل النموذج في مساحة بكسل ، ويعالج البيانات عالية الدقة بطريقة متتالية باستخدام نماذج مدربة بشكل فردي بدقة مختلفة. يتضمن ذلك نموذجًا أساسيًا يولد عينات منخفضة الدقة ونماذج متتالية فائقة الدقة تنتج صورًا عالية الدقة.

تم تدريب النموذج على مجموعة بيانات LAION-A مخصصة عالية الجودة تحتوي على مليار زوج (صورة ، نص) ، وهي مجموعة فرعية من الجزء الإنجليزي من مجموعة بيانات LAION-1B. تم استخدام مرشحات DeepFloyd المخصصة لإزالة المحتوى الذي يحمل علامة مائية و NSFW والمحتويات الأخرى غير الملائمة.

عملية DeepFloyd IF

في البداية ، تم إصدار DeepFloyd IF بموجب ترخيص بحث. يهدف الباحثون إلى تشجيع تطوير تطبيقات جديدة عبر مجالات مثل الفن والتصميم ورواية القصص والواقع الافتراضي وإمكانية الوصول. لإلهام البحث المحتمل ، اقترحوا العديد من الأسئلة البحثية الفنية والأكاديمية والأخلاقية.

تشمل أسئلة البحث الفني ما يلي:

تحسين نموذج IF لتحسين الأداء وقابلية التوسع والكفاءة.
تحسين جودة المخرجات عن طريق تحسين أخذ العينات أو التوجيه أو ضبط النموذج.
تطبيق التقنيات المستخدمة لتعديل إخراج Stable Diffusion على DeepFloyd IF.

تشمل أسئلة البحث الأكاديمي ما يلي:

استكشاف دور التدريب المسبق في نقل التعلم.
تعزيز سيطرة النموذج على توليد الصور.
توسيع قدرات النموذج بما يتجاوز تركيب النص إلى الصورة من خلال دمج أساليب متعددة.
تقييم قابلية تفسير النموذج لتحسين فهم الميزات المرئية للصور التي تم إنشاؤها.

تشمل أسئلة البحث الأخلاقية ما يلي:

تحديد وتخفيف التحيزات في DeepFloyd IF.
تقييم تأثير النموذج على وسائل التواصل الاجتماعي وتوليد المحتوى.
تطوير كاشف صور مزيف فعال يستخدم النموذج.

للوصول إلى أوزان النموذج ، يجب على المستخدمين قبول الترخيص في DeepFloyd's تعانق مساحة الوجه. لمزيد من المعلومات ، يمكنك زيارة موقع النموذج ، مستودع جيثب, عرض Gradio، أو الانضمام إلى المناقشات العامة من خلال DeepFloyd's Linktree.

مواضيع ذات صلة:مولدات الصور بالذكاء الاصطناعي

هل يمكنك بناء نماذج لغة كبيرة مثل ChatGPT بنصف التكلفة؟

لا تفوت

نموذج المقطع أي شيء - رؤية الكمبيوتر تحصل على دفعة هائلة

أليكس مكفارلاند

أليكس ماكفارلاند صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في مجال الذكاء الاصطناعي. لقد تعاون مع العديد من الشركات الناشئة والمنشورات في مجال الذكاء الاصطناعي في جميع أنحاء العالم.