الذكاء الاصطناعي

Stability AI تطلق نموذج الصورة إلى النص DeepFloyd IF

Published May 5, 2023

Updated April 5, 2026

Alex McFarland

Stability AI ومختبر الأبحاث متعدد الوضعيات DeepFloyd، قد أعلنا عن إصدار بحثي ل DeepFloyd IF، وهو نموذج متقدم للصورة إلى النص باستخدام نموذج التبديد الكاسكادي للبكسل. يتم إصدار النموذج في البداية تحت رخصة غير تجارية، مسموح بها للبحث، ولكن من المخطط إطلاقها مفتوح المصدر في المستقبل.

يتميز DeepFloyd IF بعدد من الميزات المذهلة، بما في ذلك:

فهم النص العميق: يستخدم النموذج T5-XXL-1.1 كمُشفر للنص، مع العديد من طبقات الانتباه المتقاطع بين النص والصورة، مما يضمن تحسين الانسجام بين النصوص والصور.
النص المتسق والواضح جنبًا إلى جنب مع الصور المولدة: يمكن لـ DeepFloyd IF توليد صور تحتوي على كائنات ذات خصائص و علاقات مكانية متغيرة.
درجة عالية من الواقعية الفوتوغرافية: حقق النموذج درجة فائقة من واقعية الصورة، حيث达 إلى درجة FID صفرية قيمة 6.66 على مجموعة بيانات COCO.
تحويل نسبة الجانب: يمكن للنموذج توليد صور بنسب جانبية غير стандартية، بما في ذلك العمودي والافقي والمربع.
ترجمة الصورة إلى الصورة بدون صفر: يمكن للنموذج تعديل نمط الصورة ونمطها وتفاصيلها مع الحفاظ على الشكل الأساسي.

فيما يلي بعض المفاهيم المثالية التي تم إنشاؤها بواسطة DeepFloyd IF:

يتكون تصميم DeepFloyd IF الموديولي والكاسكادي للتبديد البكسل من عدة وحدات عصبونية تتفاعل بشكل تآزري. يعمل النموذج في مساحة البكسل، ويعالج البيانات عالية الدقة بطريقة كاسكادية باستخدام نماذج منفصلة تم تدريبها على دقة مختلفة. يتضمن ذلك نموذجًا أساسيًا يولد عينات منخفضة الدقة ونمذجًا超ي للتعريف الذي ينتج صورًا عالية الدقة.

تم تدريب النموذج على مجموعة بيانات LAION-A مخصصة ذات جودة عالية تحتوي على مليار زوج (صورة، نص)، وهو جزء من الجزء الإنجليزي من مجموعة بيانات LAION-5B. تم استخدام مرشحات DeepFloyd المخصصة لإزالة المحتوى المحمي بالعلامة المائية وغير اللائق وغير المناسب.

عملية DeepFloyd IF

في البداية، يتم إصدار DeepFloyd IF تحت رخصة بحثية. يهدف الباحثون إلى تشجيع تطوير تطبيقات جديدة عبر مجالات مثل الفن والتصميم والرواية والواقع الافتراضي والوصول. لتحفيز البحث المحتمل، اقترحوا عدة أسئلة بحثية تقنية وأكاديمية وأخلاقية.

تشمل الأسئلة البحثية التقنية:

تحسين أداء النموذج IF لتحسين الأداء والقابلية للتطوير والكفاءة.
تحسين جودة الإخراج عن طريق تعديل العينة أو توجيه أو تعدين النموذج.
تطبيق التقنيات المستخدمة لتعديل إخراج Stable Diffusion على DeepFloyd IF.

تشمل الأسئلة البحثية الأكاديمية:

استكشاف دور ما قبل التدريب للتعلم التحويلي.
تحسين سيطرة النموذج على توليد الصور.
توسيع قدرات النموذج إلى ما وراء توليد الصور النصية عن طريق دمج عدة وضعيات.
تقييم khảية تفسير النموذج لتحسين فهم الميزات البصرية للصور المولدة.

تشمل الأسئلة البحثية الأخلاقية:

تحديد وتخفيف الانحيازات في DeepFloyd IF.
تقييم تأثير النموذج على وسائل التواصل الاجتماعي وتوليد المحتوى.
تنمية كاشف صور وهمية فعال يعتمد على النموذج.

Để الوصول إلى أوزان النموذج، يجب على المستخدمين قبول الرخصة على مساحة DeepFloyd على Hugging Face. لمزيد من المعلومات، يمكنك زيارة موقع النموذج، مستودع GitHub، تجربة Gradio، أو الانضمام إلى المناقشات العامة من خلال رابط DeepFloyd.

Unite.AI

Stability AI تطلق نموذج الصورة إلى النص DeepFloyd IF

You may like