رطم يسمح نموذج نشر eDiffi الخاص بـ NVIDIA بالرسم بالكلمات والمزيد - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

يتيح نموذج نشر eDiffi الخاص بـ NVIDIA "الرسم بالكلمات" والمزيد

mm
تحديث on

محاولة عمل تراكيب دقيقة باستخدام نماذج الصور التوليدية للانتشار الكامن مثل انتشار مستقر يمكن أن يكون مثل قطط الرعي ؛ نفس القوى التخيلية والتفسيرية التي تمكن النظام من إنشاء تفاصيل غير عادية واستدعاء صور غير عادية من مطالبات نصية بسيطة نسبيًا هي أيضًا من الصعب إيقاف عندما تبحث عن تحكم على مستوى Photoshop في إنشاء صورة.

الآن ، نهج جديد من أبحاث NVIDIA بعنوان مجموعة نشر للصور (eDiffi) ، يستخدم مزيجًا من طرق التضمين والتفسير المتعددة (بدلاً من نفس الطريقة طوال الطريق عبر خط الأنابيب) للسماح بمستوى أكبر بكثير من التحكم في المحتوى الذي تم إنشاؤه. في المثال أدناه ، نرى مستخدمًا يرسم عناصر حيث يمثل كل لون كلمة واحدة من موجه نص:

يعد "الرسم بالكلمات" أحد الإمكانيات الجديدة في نموذج نشر eDiffi الخاص بـ NVIDIA. يمثل كل لون مصبوغ كلمة من الموجه (شاهدها تظهر على اليسار أثناء التوليد) ، وسوف يتكون لون المنطقة المطبق من هذا العنصر فقط. انظر نهاية المقال للفيديو الرسمي المضمن ، مع مزيد من الأمثلة ودقة أفضل. المصدر: https://www.youtube.com/watch؟

يعد "الرسم بالكلمات" أحد الإمكانيات الجديدة في نموذج نشر eDiffi الخاص بـ NVIDIA. يمثل كل لون مصبوغ كلمة من الموجه (شاهدها تظهر على اليسار أثناء التوليد) ، وسوف يتكون لون المنطقة المطبق من هذا العنصر فقط. شاهد مصدر الفيديو (الرسمي) لمزيد من الأمثلة ودقة أفضل في https://www.youtube.com/watch?v=k6cOx9YjHJc

على نحو فعال ، هذا هو "الرسم بالأقنعة" ، ويعكس أنانموذج npainting في Stable Diffusion ، والذي يعتمد على إصلاح الصور المكسورة أو غير المرضية ، أو توسيع الصور التي يمكن أن تكون أيضًا بالحجم المطلوب في المقام الأول.

هنا ، بدلاً من ذلك ، تمثل هوامش اللوحة المرسومة الحدود التقريبية المسموح بها لعنصر فريد واحد فقط من مفهوم واحد ، مما يسمح للمستخدم بتعيين حجم قماش الرسم النهائي من البداية ، ثم إضافة العناصر بشكل منفصل.

أمثلة من الورقة الجديدة. المصدر: https://arxiv.org/pdf/2211.01324.pdf

أمثلة من الورقة الجديدة. المصدر: https://arxiv.org/pdf/2211.01324.pdf

تعني الطرق المتنوعة المستخدمة في eDiffi أيضًا أن النظام يقوم بعمل أفضل بكثير من تضمين كل عنصر في المطالبات الطويلة والمفصلة ، في حين تميل الأساليب المتنوعة المستخدمة في eDiffi إلى إعطاء الأولوية لأجزاء معينة من الموجه ، اعتمادًا على مدى وقت مبكر تظهر الكلمات المستهدفة في الموجه ، أو في عوامل أخرى ، مثل الصعوبة المحتملة في فصل العناصر المختلفة الضرورية لتكوين كامل ولكن شامل (فيما يتعلق بتوجيه النص):

من الورقة: eDiffi قادر على التكرار بشكل أكثر شمولاً من خلال الموجه حتى يتم تقديم أكبر عدد ممكن من العناصر. على الرغم من أن النتائج المحسّنة لـ eDiffi (العمود الموجود في أقصى اليمين) يتم انتقاؤها بالكرز ، فإن صور المقارنة من Stable Diffusion و DALL-E 2.

من الورقة: eDiffi قادر على التكرار بشكل أكثر شمولاً من خلال الموجه حتى يتم تقديم أكبر عدد ممكن من العناصر. على الرغم من أن النتائج المحسّنة لـ eDiffi (العمود الموجود في أقصى اليمين) يتم انتقاؤها بالكرز ، فإن صور المقارنة من Stable Diffusion و DALL-E 2.

بالإضافة إلى ذلك ، فإن استخدام ملف T5 يعني مشفر نص إلى نص أن eDiffi قادر على تقديم نص إنجليزي مفهومة ، سواء كان مطلوبًا بشكل تجريدي من موجه (أي الصورة تحتوي على بعض نص [x]) أو مطلوب صراحة (على سبيل المثال التي شيرت مكتوب عليها "نفيديا روكس"):

تعني المعالجة المخصصة للنص إلى النص في eDiffi أنه يمكن عرض النص حرفيًا في الصور ، بدلاً من تشغيله فقط من خلال طبقة تفسيرية من نص إلى صورة بدلاً من تشويه المخرجات.

تعني المعالجة المخصصة للنص إلى النص في eDiffi أنه يمكن عرض النص حرفيًا في الصور ، بدلاً من تشغيله فقط من خلال طبقة تفسيرية من نص إلى صورة بدلاً من تشويه المخرجات.

هناك تعبئة أخرى لإطار العمل الجديد وهي أنه من الممكن أيضًا توفير صورة واحدة كموجه نمط ، بدلاً من الحاجة إلى تدريب نموذج DreamBooth أو تضمين نصي على أمثلة متعددة من النوع أو نمط.

يمكن تطبيق نقل النمط من صورة مرجعية إلى موجه نص إلى صورة ، أو حتى موجه صورة إلى صورة.

يمكن تطبيق نقل النمط من صورة مرجعية إلى موجه نص إلى صورة ، أو حتى موجه صورة إلى صورة.

ورقة جديدة بعنوان eDiffi: نماذج انتشار تحويل النص إلى صورة مع مجموعة من خبراء Denoisersو

التشفير النصي T5

استخدام جوجل تيتحويل تحويل النص إلى نص (T5) هو العنصر المحوري في النتائج المحسنة الموضحة في eDiffi. يركز خط أنابيب الانتشار الكامن المتوسط ​​على الارتباط بين الصور المدربة والتعليقات التوضيحية التي رافقتها عندما تم كشطها من الإنترنت (أو تم تعديلها يدويًا لاحقًا ، على الرغم من أن هذا تدخل مكلف وبالتالي نادر).

من ورقة يوليو 2020 لـ T5 - التحولات المستندة إلى النص ، والتي يمكن أن تساعد سير عمل الصورة التوليدية في eDiffi (وربما نماذج الانتشار الكامنة الأخرى). المصدر: https://arxiv.org/pdf/1910.10683.pdf

من ورقة يوليو 2020 لـ T5 - التحولات المستندة إلى النص ، والتي يمكن أن تساعد سير عمل الصورة التوليدية في eDiffi (وربما نماذج الانتشار الكامنة الأخرى). المصدر: https://arxiv.org/pdf/1910.10683.pdf

من خلال إعادة صياغة النص المصدر وتشغيل وحدة T5 ، يمكن الحصول على ارتباطات وتمثيلات أكثر دقة مما تم تدريبه في النموذج في الأصل ، تقريبًا أقرب إلى بأثر رجعي وضع العلامات اليدوية ، مع قدر أكبر من التحديد والقابلية للتطبيق على شروط موجه النص المطلوب.

يشرح المؤلفون:

في معظم الأعمال الحالية على نماذج الانتشار ، تتم مشاركة نموذج تقليل الضوضاء عبر جميع مستويات الضوضاء ، ويتم تمثيل الديناميكية الزمنية باستخدام تضمين زمني بسيط يتم تغذيته بنموذج تقليل الضوضاء عبر شبكة MLP. نجادل بأن الديناميكيات الزمنية المعقدة لانتشار تقليل الضوضاء قد لا يتم تعلمها من البيانات بشكل فعال باستخدام نموذج مشترك بقدرة محدودة.

بدلاً من ذلك ، نقترح زيادة قدرة نموذج تقليل الضوضاء من خلال تقديم مجموعة من أجهزة إزالة الضوضاء الخبيرة ؛ كل مزيل صوت خبير هو نموذج تقليل الضوضاء متخصص لمجموعة معينة من [مستويات] الضوضاء. بهذه الطريقة ، يمكننا زيادة سعة النموذج دون إبطاء أخذ العينات نظرًا لأن التعقيد الحسابي لتقييم [العنصر المعالج] عند كل مستوى ضوضاء يظل كما هو.

سير العمل المفاهيمي لـ eDiffi.

سير العمل المفاهيمي لـ eDiffi.

القائمة CLIP وحدات الترميز المضمنة في DALL-E 2 و Stable Diffusion قادرة أيضًا على إيجاد تفسيرات بديلة للصور للنص المتعلق بإدخال المستخدم. ومع ذلك ، يتم تدريبهم على معلومات مماثلة للنموذج الأصلي ، ولا يتم استخدامهم كطبقة تفسيرية منفصلة بالطريقة التي يكون بها T5 في eDiffi.

يذكر المؤلفون أن eDiffi هي المرة الأولى التي يتم فيها دمج مشفر T5 و CLIP في خط أنابيب واحد:

نظرًا لأنه يتم تدريب هذين المشفرين بأهداف مختلفة ، فإن الزخارف الخاصة بهما تفضل تشكيلات صور مختلفة بنفس نص الإدخال. بينما تساعد عمليات تضمين نص CLIP في تحديد المظهر العام للصور المُنشأة ، تميل المخرجات إلى إغفال التفاصيل الدقيقة في النص.

على النقيض من ذلك ، تعكس الصور التي تم إنشاؤها باستخدام عمليات دمج نصوص T5 وحدها الكائنات الفردية الموصوفة في النص بشكل أفضل ، لكن مظهرها العام أقل دقة. يؤدي استخدامها معًا إلى الحصول على أفضل نتائج توليد الصور في نموذجنا.

مقاطعة وزيادة عملية الانتشار

تشير الورقة البحثية إلى أن نموذج الانتشار الكامن النموذجي سيبدأ الرحلة من الضوضاء النقية إلى الصورة بالاعتماد فقط على النص في المراحل الأولى من الجيل.

عندما يتحول التشويش إلى نوع من التخطيط التقريبي الذي يمثل الوصف في موجه النص ، فإن الجانب الموجه بالنص من العملية يتلاشى بشكل أساسي ، ويتحول باقي العملية نحو زيادة الميزات المرئية.

هذا يعني أنه من الصعب إدخال أي عنصر لم يتم حله في المرحلة الوليدة من تفسير الضوضاء الموجهة بالنص في الصورة لاحقًا ، لأن العمليتين (نص إلى تخطيط ، وتخطيط إلى صورة) تتداخلان قليلاً نسبيًا ، والتخطيط الأساسي متشابك تمامًا بحلول الوقت الذي يصل فيه إلى عملية تكبير الصورة.

من الورقة: خرائط الانتباه لأجزاء مختلفة من خط الأنابيب مع نضوج عملية الضجيج> الصورة. يمكننا أن نرى الانخفاض الحاد في تأثير CLIP للصورة في الصف السفلي ، بينما يستمر T5 في التأثير على الصورة بشكل أكبر في عملية العرض.

من الورقة: خرائط الانتباه لأجزاء مختلفة من خط الأنابيب مع نضوج عملية الضجيج> الصورة. يمكننا أن نرى الانخفاض الحاد في تأثير CLIP للصورة في الصف السفلي ، بينما يستمر T5 في التأثير على الصورة بشكل أكبر في عملية العرض.

الإمكانات المهنية

الأمثلة الموجودة في صفحة المشروع ومركز فيديو YouTube حول توليد العلاقات العامة المألوف لصور meme-tastic اللطيفة. كالعادة ، تقلل أبحاث NVIDIA من إمكانات أحدث ابتكاراتها لتحسين سير عمل الصور الواقعية أو المؤثرات البصرية ، بالإضافة إلى قدرتها على تحسين الصور ومقاطع الفيديو المزيفة.

في الأمثلة ، يقوم مستخدم مبتدئ أو هاو بخربشات تقريبية لوضع العنصر المحدد ، بينما في سير عمل VFX الأكثر انتظامًا ، قد يكون من الممكن استخدام eDiffi لتفسير إطارات متعددة لعنصر فيديو باستخدام نص إلى صورة ، حيث الخطوط العريضة دقيقة للغاية ، وتعتمد على ، على سبيل المثال ، الأرقام التي تم فيها إسقاط الخلفية عبر الشاشة الخضراء أو الطرق الحسابية.

يوفر Runway ML بالفعل rotoscoping القائم على الذكاء الاصطناعي. في هذا المثال ، تمثل "الشاشة الخضراء" حول الموضوع طبقة ألفا ، بينما تم الاستخراج عبر التعلم الآلي بدلاً من الإزالة الحسابية لخلفية الشاشة الخضراء الواقعية. المصدر: https://twitter.com/runwayml/status/1330978385028374529

يوفر Runway ML بالفعل تقنية rotoscoping المستندة إلى الذكاء الاصطناعي. في هذا المثال، تمثل "الشاشة الخضراء" حول الموضوع طبقة ألفا، في حين تم إنجاز الاستخراج عبر التعلم الآلي بدلاً من الإزالة الخوارزمية لخلفية الشاشة الخضراء في العالم الحقيقي. المصدر: https://twitter.com/runwayml/status/1330978385028374529

باستخدام مدرب دريم بوث شخصية وخط أنابيب من صورة إلى صورة باستخدام eDiffi ، فمن المحتمل أن تبدأ في حل مشكلة أي وقت نموذج الانتشار الكامن: الاستقرار الزمني. في مثل هذه الحالة ، سيكون كل من هوامش الصورة المفروضة ومحتوى الصورة "معومًا مسبقًا" مقابل لوحة المستخدم ، مع الاستمرارية الزمنية للمحتوى المعروض (أي تحويل ممارس تاي تشي في العالم الحقيقي إلى روبوت ) يتم توفيره من خلال استخدام نموذج DreamBooth المقفل الذي "حفظ" بيانات التدريب الخاصة به - وهو أمر سيئ للتفسير ومثالي للتكرار والإخلاص والاستمرارية.

الطريقة والبيانات والاختبارات

تنص الورقة على أن نموذج eDiffi قد تم تدريبه على "مجموعة من مجموعات البيانات العامة والخاصة" ، والتي تمت تصفيتها بشكل كبير بواسطة نموذج CLIP مدرب مسبقًا ، من أجل إزالة الصور التي من المحتمل أن تخفض الدرجة الجمالية العامة للمخرجات. تتألف مجموعة الصور النهائية التي تمت تصفيتها من "حوالي مليار" من أزواج الصور النصية. يتم وصف حجم الصور المدربة على أنه "أقصر جانب أكبر من 64 بكسل".

تم تدريب عدد من النماذج لهذه العملية ، مع تدريب كل من النماذج الأساسية والدقة الفائقة آدم دبليو مُحسِّن بمعدل تعلم 0.0001 ، مع تناقص وزن قدره 0.01 ، وحجم دفعة هائل يبلغ 2048.

تم تدريب النموذج الأساسي على 256 وحدة معالجة رسومات NVIDIA A100 ، ونموذجين فائق الدقة على 128 NVIDIA A100 وحدات معالجة الرسومات لكل طراز.

كان النظام يعتمد على NVIDIA تخيل مكتبة PyTorch. COCO ومجموعات بيانات الجينوم المرئي للتقييم ، على الرغم من عدم تضمينها في النماذج النهائية ، مع مس-كوكو المتغير المحدد المستخدم للاختبار. تم اختبار الأنظمة المتنافسة انسل من, صنع مشهد, DALL-E2, انتشار مستقرونظامي تركيب الصور من Google ، صورة و أجزاء.

وفقا لما شابه قبل العمل , صفر طلقة FID-30K تم استخدامه كمقياس للتقييم. تحت FID-30K ، يتم استخراج 30,000 تعليق بشكل عشوائي من مجموعة التحقق من COCO (أي ليس الصور أو النص المستخدم في التدريب) ، والتي تم استخدامها بعد ذلك كمطالبات نصية لتركيب الصور.

مسافة بداية فريتشيت (ااا) بين صور الحقيقة التي تم إنشاؤها وصورة الأرض ، بالإضافة إلى تسجيل درجة CLIP للصور التي تم إنشاؤها.

النتائج من اختبارات FID بدون طلقة مقابل أحدث الأساليب الحالية في مجموعة بيانات التحقق من صحة COCO 2014 ، مع نتائج أقل أفضل.

النتائج من اختبارات FID بدون طلقة مقابل أحدث الأساليب الحالية في مجموعة بيانات التحقق من صحة COCO 2014 ، مع نتائج أقل أفضل.

في النتائج ، تمكن eDiffi من الحصول على أدنى درجة (أفضل) على FID بدون طلقة حتى مع الأنظمة التي تحتوي على عدد أكبر بكثير من المعلمات ، مثل 20 مليار معلمة من Parti ، مقارنة بـ 9.1 مليار معلمة في أعلى- نموذج eDiffi محدد تم تدريبه على الاختبارات.

وفي الختام

يمثل eDiffi من NVIDIA بديلاً مرحبًا به لإضافة كميات أكبر وأكبر من البيانات والتعقيد للأنظمة الحالية ، بدلاً من استخدام نهج أكثر ذكاءً ومتعدد الطبقات لبعض العقبات الشائكة المتعلقة بالتشابك وعدم القدرة على التحرير في أنظمة الصور التوليدية للانتشار الكامن.

هناك بالفعل نقاش في المنتديات الفرعية و Discords للانتشار المستقر حول إما دمج أي كود يمكن إتاحته لـ eDiffi بشكل مباشر ، أو إعادة تنظيم المبادئ الكامنة وراءه في تطبيق منفصل. ومع ذلك ، فإن خط الأنابيب الجديد مختلف تمامًا ، بحيث أنه سيشكل رقم إصدار كامل للتغيير من أجل SD ، مع التخلص من بعض التوافق مع الإصدارات السابقة ، على الرغم من أنه يوفر إمكانية تحسين مستويات التحكم بشكل كبير في الصور المركبة النهائية ، دون التضحية بالأسر. القوى الخيالية للانتشار الكامن.

 

نُشر لأول مرة في 3 نوفمبر 2022.