الذكاء الاصطناعي
يتيح نموذج نشر eDiffi الخاص بـ NVIDIA "الرسم بالكلمات" والمزيد
محاولة عمل تراكيب دقيقة باستخدام نماذج الصور التوليدية للانتشار الكامن مثل انتشار مستقر يمكن أن يكون مثل قطط الرعي ؛ نفس القوى التخيلية والتفسيرية التي تمكن النظام من إنشاء تفاصيل غير عادية واستدعاء صور غير عادية من مطالبات نصية بسيطة نسبيًا هي أيضًا من الصعب إيقاف عندما تبحث عن تحكم على مستوى Photoshop في إنشاء صورة.
الآن ، نهج جديد من أبحاث NVIDIA بعنوان مجموعة نشر للصور (eDiffi) ، يستخدم مزيجًا من طرق التضمين والتفسير المتعددة (بدلاً من نفس الطريقة طوال الطريق عبر خط الأنابيب) للسماح بمستوى أكبر بكثير من التحكم في المحتوى الذي تم إنشاؤه. في المثال أدناه ، نرى مستخدمًا يرسم عناصر حيث يمثل كل لون كلمة واحدة من موجه نص:
على نحو فعال ، هذا هو "الرسم بالأقنعة" ، ويعكس أنانموذج npainting في Stable Diffusion ، والذي يعتمد على إصلاح الصور المكسورة أو غير المرضية ، أو توسيع الصور التي يمكن أن تكون أيضًا بالحجم المطلوب في المقام الأول.
هنا ، بدلاً من ذلك ، تمثل هوامش اللوحة المرسومة الحدود التقريبية المسموح بها لعنصر فريد واحد فقط من مفهوم واحد ، مما يسمح للمستخدم بتعيين حجم قماش الرسم النهائي من البداية ، ثم إضافة العناصر بشكل منفصل.
تعني الطرق المتنوعة المستخدمة في eDiffi أيضًا أن النظام يقوم بعمل أفضل بكثير من تضمين كل عنصر في المطالبات الطويلة والمفصلة ، في حين تميل الأساليب المتنوعة المستخدمة في eDiffi إلى إعطاء الأولوية لأجزاء معينة من الموجه ، اعتمادًا على مدى وقت مبكر تظهر الكلمات المستهدفة في الموجه ، أو في عوامل أخرى ، مثل الصعوبة المحتملة في فصل العناصر المختلفة الضرورية لتكوين كامل ولكن شامل (فيما يتعلق بتوجيه النص):
بالإضافة إلى ذلك ، فإن استخدام ملف T5 يعني مشفر نص إلى نص أن eDiffi قادر على تقديم نص إنجليزي مفهومة ، سواء كان مطلوبًا بشكل تجريدي من موجه (أي الصورة تحتوي على بعض نص [x]) أو مطلوب صراحة (على سبيل المثال التي شيرت مكتوب عليها "نفيديا روكس"):
هناك تعبئة أخرى لإطار العمل الجديد وهي أنه من الممكن أيضًا توفير صورة واحدة كموجه نمط ، بدلاً من الحاجة إلى تدريب نموذج DreamBooth أو تضمين نصي على أمثلة متعددة من النوع أو نمط.
• ورقة جديدة بعنوان eDiffi: نماذج انتشار تحويل النص إلى صورة مع مجموعة من خبراء Denoisersو
التشفير النصي T5
استخدام جوجل تيتحويل تحويل النص إلى نص (T5) هو العنصر المحوري في النتائج المحسنة الموضحة في eDiffi. يركز خط أنابيب الانتشار الكامن المتوسط على الارتباط بين الصور المدربة والتعليقات التوضيحية التي رافقتها عندما تم كشطها من الإنترنت (أو تم تعديلها يدويًا لاحقًا ، على الرغم من أن هذا تدخل مكلف وبالتالي نادر).
من خلال إعادة صياغة النص المصدر وتشغيل وحدة T5 ، يمكن الحصول على ارتباطات وتمثيلات أكثر دقة مما تم تدريبه في النموذج في الأصل ، تقريبًا أقرب إلى بأثر رجعي وضع العلامات اليدوية ، مع قدر أكبر من التحديد والقابلية للتطبيق على شروط موجه النص المطلوب.
يشرح المؤلفون:
في معظم الأعمال الحالية على نماذج الانتشار ، تتم مشاركة نموذج تقليل الضوضاء عبر جميع مستويات الضوضاء ، ويتم تمثيل الديناميكية الزمنية باستخدام تضمين زمني بسيط يتم تغذيته بنموذج تقليل الضوضاء عبر شبكة MLP. نجادل بأن الديناميكيات الزمنية المعقدة لانتشار تقليل الضوضاء قد لا يتم تعلمها من البيانات بشكل فعال باستخدام نموذج مشترك بقدرة محدودة.
بدلاً من ذلك ، نقترح زيادة قدرة نموذج تقليل الضوضاء من خلال تقديم مجموعة من أجهزة إزالة الضوضاء الخبيرة ؛ كل مزيل صوت خبير هو نموذج تقليل الضوضاء متخصص لمجموعة معينة من [مستويات] الضوضاء. بهذه الطريقة ، يمكننا زيادة سعة النموذج دون إبطاء أخذ العينات نظرًا لأن التعقيد الحسابي لتقييم [العنصر المعالج] عند كل مستوى ضوضاء يظل كما هو.
القائمة CLIP وحدات الترميز المضمنة في DALL-E 2 و Stable Diffusion قادرة أيضًا على إيجاد تفسيرات بديلة للصور للنص المتعلق بإدخال المستخدم. ومع ذلك ، يتم تدريبهم على معلومات مماثلة للنموذج الأصلي ، ولا يتم استخدامهم كطبقة تفسيرية منفصلة بالطريقة التي يكون بها T5 في eDiffi.
يذكر المؤلفون أن eDiffi هي المرة الأولى التي يتم فيها دمج مشفر T5 و CLIP في خط أنابيب واحد:
نظرًا لأنه يتم تدريب هذين المشفرين بأهداف مختلفة ، فإن الزخارف الخاصة بهما تفضل تشكيلات صور مختلفة بنفس نص الإدخال. بينما تساعد عمليات تضمين نص CLIP في تحديد المظهر العام للصور المُنشأة ، تميل المخرجات إلى إغفال التفاصيل الدقيقة في النص.
على النقيض من ذلك ، تعكس الصور التي تم إنشاؤها باستخدام عمليات دمج نصوص T5 وحدها الكائنات الفردية الموصوفة في النص بشكل أفضل ، لكن مظهرها العام أقل دقة. يؤدي استخدامها معًا إلى الحصول على أفضل نتائج توليد الصور في نموذجنا.
مقاطعة وزيادة عملية الانتشار
تشير الورقة البحثية إلى أن نموذج الانتشار الكامن النموذجي سيبدأ الرحلة من الضوضاء النقية إلى الصورة بالاعتماد فقط على النص في المراحل الأولى من الجيل.
عندما يتحول التشويش إلى نوع من التخطيط التقريبي الذي يمثل الوصف في موجه النص ، فإن الجانب الموجه بالنص من العملية يتلاشى بشكل أساسي ، ويتحول باقي العملية نحو زيادة الميزات المرئية.
هذا يعني أنه من الصعب إدخال أي عنصر لم يتم حله في المرحلة الوليدة من تفسير الضوضاء الموجهة بالنص في الصورة لاحقًا ، لأن العمليتين (نص إلى تخطيط ، وتخطيط إلى صورة) تتداخلان قليلاً نسبيًا ، والتخطيط الأساسي متشابك تمامًا بحلول الوقت الذي يصل فيه إلى عملية تكبير الصورة.
الإمكانات المهنية
الأمثلة الموجودة في صفحة المشروع ومركز فيديو YouTube حول توليد العلاقات العامة المألوف لصور meme-tastic اللطيفة. كالعادة ، تقلل أبحاث NVIDIA من إمكانات أحدث ابتكاراتها لتحسين سير عمل الصور الواقعية أو المؤثرات البصرية ، بالإضافة إلى قدرتها على تحسين الصور ومقاطع الفيديو المزيفة.
في الأمثلة ، يقوم مستخدم مبتدئ أو هاو بخربشات تقريبية لوضع العنصر المحدد ، بينما في سير عمل VFX الأكثر انتظامًا ، قد يكون من الممكن استخدام eDiffi لتفسير إطارات متعددة لعنصر فيديو باستخدام نص إلى صورة ، حيث الخطوط العريضة دقيقة للغاية ، وتعتمد على ، على سبيل المثال ، الأرقام التي تم فيها إسقاط الخلفية عبر الشاشة الخضراء أو الطرق الحسابية.
باستخدام مدرب دريم بوث شخصية وخط أنابيب من صورة إلى صورة باستخدام eDiffi ، فمن المحتمل أن تبدأ في حل مشكلة أي وقت نموذج الانتشار الكامن: الاستقرار الزمني. في مثل هذه الحالة ، سيكون كل من هوامش الصورة المفروضة ومحتوى الصورة "معومًا مسبقًا" مقابل لوحة المستخدم ، مع الاستمرارية الزمنية للمحتوى المعروض (أي تحويل ممارس تاي تشي في العالم الحقيقي إلى روبوت ) يتم توفيره من خلال استخدام نموذج DreamBooth المقفل الذي "حفظ" بيانات التدريب الخاصة به - وهو أمر سيئ للتفسير ومثالي للتكرار والإخلاص والاستمرارية.
الطريقة والبيانات والاختبارات
تنص الورقة على أن نموذج eDiffi قد تم تدريبه على "مجموعة من مجموعات البيانات العامة والخاصة" ، والتي تمت تصفيتها بشكل كبير بواسطة نموذج CLIP مدرب مسبقًا ، من أجل إزالة الصور التي من المحتمل أن تخفض الدرجة الجمالية العامة للمخرجات. تتألف مجموعة الصور النهائية التي تمت تصفيتها من "حوالي مليار" من أزواج الصور النصية. يتم وصف حجم الصور المدربة على أنه "أقصر جانب أكبر من 64 بكسل".
تم تدريب عدد من النماذج لهذه العملية ، مع تدريب كل من النماذج الأساسية والدقة الفائقة آدم دبليو مُحسِّن بمعدل تعلم 0.0001 ، مع تناقص وزن قدره 0.01 ، وحجم دفعة هائل يبلغ 2048.
تم تدريب النموذج الأساسي على 256 وحدة معالجة رسومات NVIDIA A100 ، ونموذجين فائق الدقة على 128 NVIDIA A100 وحدات معالجة الرسومات لكل طراز.
كان النظام يعتمد على NVIDIA تخيل مكتبة PyTorch. COCO ومجموعات بيانات الجينوم المرئي للتقييم ، على الرغم من عدم تضمينها في النماذج النهائية ، مع مس-كوكو المتغير المحدد المستخدم للاختبار. تم اختبار الأنظمة المتنافسة انسل من, صنع مشهد, DALL-E2, انتشار مستقرونظامي تركيب الصور من Google ، صورة و أجزاء.
وفقا لما شابه قبل العمل , صفر طلقة FID-30K تم استخدامه كمقياس للتقييم. تحت FID-30K ، يتم استخراج 30,000 تعليق بشكل عشوائي من مجموعة التحقق من COCO (أي ليس الصور أو النص المستخدم في التدريب) ، والتي تم استخدامها بعد ذلك كمطالبات نصية لتركيب الصور.
مسافة بداية فريتشيت (ااا) بين صور الحقيقة التي تم إنشاؤها وصورة الأرض ، بالإضافة إلى تسجيل درجة CLIP للصور التي تم إنشاؤها.
في النتائج ، تمكن eDiffi من الحصول على أدنى درجة (أفضل) على FID بدون طلقة حتى مع الأنظمة التي تحتوي على عدد أكبر بكثير من المعلمات ، مثل 20 مليار معلمة من Parti ، مقارنة بـ 9.1 مليار معلمة في أعلى- نموذج eDiffi محدد تم تدريبه على الاختبارات.
وفي الختام
يمثل eDiffi من NVIDIA بديلاً مرحبًا به لإضافة كميات أكبر وأكبر من البيانات والتعقيد للأنظمة الحالية ، بدلاً من استخدام نهج أكثر ذكاءً ومتعدد الطبقات لبعض العقبات الشائكة المتعلقة بالتشابك وعدم القدرة على التحرير في أنظمة الصور التوليدية للانتشار الكامن.
هناك بالفعل نقاش في المنتديات الفرعية و Discords للانتشار المستقر حول إما دمج أي كود يمكن إتاحته لـ eDiffi بشكل مباشر ، أو إعادة تنظيم المبادئ الكامنة وراءه في تطبيق منفصل. ومع ذلك ، فإن خط الأنابيب الجديد مختلف تمامًا ، بحيث أنه سيشكل رقم إصدار كامل للتغيير من أجل SD ، مع التخلص من بعض التوافق مع الإصدارات السابقة ، على الرغم من أنه يوفر إمكانية تحسين مستويات التحكم بشكل كبير في الصور المركبة النهائية ، دون التضحية بالأسر. القوى الخيالية للانتشار الكامن.
نُشر لأول مرة في 3 نوفمبر 2022.