اتصل بنا للحصول على مزيد من المعلومات

يتيح نموذج نشر eDiffi الخاص بـ NVIDIA "الرسم بالكلمات" والمزيد

الذكاء الاصطناعي

يتيح نموذج نشر eDiffi الخاص بـ NVIDIA "الرسم بالكلمات" والمزيد

mm

محاولة عمل تراكيب دقيقة باستخدام نماذج الصور التوليدية للانتشار الكامن مثل انتشار مستقر يمكن أن يكون مثل قطط الرعي ؛ نفس القوى التخيلية والتفسيرية التي تمكن النظام من إنشاء تفاصيل غير عادية واستدعاء صور غير عادية من مطالبات نصية بسيطة نسبيًا هي أيضًا من الصعب إيقاف عندما تبحث عن التحكم في إنشاء صورة على مستوى الفوتوشوب.

الآن ، نهج جديد من أبحاث NVIDIA بعنوان مجموعة نشر للصور (eDiffi) ، يستخدم مزيجًا من طرق التضمين والتفسير المتعددة (بدلاً من نفس الطريقة طوال الطريق عبر خط الأنابيب) للسماح بمستوى أكبر بكثير من التحكم في المحتوى الذي تم إنشاؤه. في المثال أدناه ، نرى مستخدمًا يرسم عناصر حيث يمثل كل لون كلمة واحدة من موجه نص:

يعد "الرسم بالكلمات" أحد الإمكانيات الجديدة في نموذج نشر eDiffi الخاص بـ NVIDIA. يمثل كل لون مصبوغ كلمة من الموجه (شاهدها تظهر على اليسار أثناء التوليد) ، وسوف يتكون لون المنطقة المطبق من هذا العنصر فقط. انظر نهاية المقال للفيديو الرسمي المضمن ، مع مزيد من الأمثلة ودقة أفضل. المصدر: https://www.youtube.com/watch؟

"الرسم بالكلمات" هي إحدى الميزتين الجديدتين في نموذج انتشار eDiffi من NVIDIA. كل لون مُلطخ يُمثل كلمة من الموجه (انظر ظهورها على اليسار أثناء التوليد)، وسيتكون لون المنطقة المُطبق من هذا العنصر فقط. شاهد الفيديو الرسمي لمزيد من الأمثلة ودقة أفضل على https://www.youtube.com/watch?v=k6cOx9YjHJc

في الواقع، هذا هو "الرسم باستخدام الأقنعة"، ويعكسنموذج npainting في Stable Diffusion ، والذي يعتمد على إصلاح الصور المكسورة أو غير المرضية ، أو توسيع الصور التي يمكن أن تكون أيضًا بالحجم المطلوب في المقام الأول.

هنا ، بدلاً من ذلك ، تمثل هوامش اللوحة المرسومة الحدود التقريبية المسموح بها لعنصر فريد واحد فقط من مفهوم واحد ، مما يسمح للمستخدم بتعيين حجم قماش الرسم النهائي من البداية ، ثم إضافة العناصر بشكل منفصل.

أمثلة من الورقة الجديدة. المصدر: https://arxiv.org/pdf/2211.01324.pdf

أمثلة من الورقة الجديدة. المصدر: https://arxiv.org/pdf/2211.01324.pdf

تعني الأساليب المتنوعة المستخدمة في eDiffi أيضًا أن النظام يقوم بعمل أفضل بكثير في تضمين كل عنصر في المطالبات الطويلة والمفصلة، ​​في حين يميل Stable Diffusion وDALL-E 2 من OpenAI إلى إعطاء الأولوية لأجزاء معينة من المطالبة، اعتمادًا إما على مدى ظهور الكلمات المستهدفة في المطالبة، أو على عوامل أخرى، مثل الصعوبة المحتملة في فك تشابك العناصر المختلفة اللازمة لتكوين كامل ولكن شامل (فيما يتعلق بمطالبة النص):

من الورقة: eDiffi قادر على التكرار بشكل أكثر شمولاً من خلال الموجه حتى يتم تقديم أكبر عدد ممكن من العناصر. على الرغم من أن النتائج المحسّنة لـ eDiffi (العمود الموجود في أقصى اليمين) يتم انتقاؤها بالكرز ، فإن صور المقارنة من Stable Diffusion و DALL-E 2.

من الورقة: eDiffi قادر على التكرار بشكل أكثر شمولاً من خلال الموجه حتى يتم تقديم أكبر عدد ممكن من العناصر. على الرغم من أن النتائج المحسّنة لـ eDiffi (العمود الموجود في أقصى اليمين) يتم انتقاؤها بالكرز ، فإن صور المقارنة من Stable Diffusion و DALL-E 2.

بالإضافة إلى ذلك ، فإن استخدام ملف T5 يعني مشفر نص إلى نص أن eDiffi قادر على تقديم نص إنجليزي مفهومة ، سواء كان مطلوبًا بشكل تجريدي من موجه (أي الصورة تحتوي على بعض نص [x]) أو مطلوب صراحة (على سبيل المثال يقول القميص "Nvidia Rocks"):

تعني المعالجة المخصصة للنص إلى النص في eDiffi أنه يمكن عرض النص حرفيًا في الصور ، بدلاً من تشغيله فقط من خلال طبقة تفسيرية من نص إلى صورة بدلاً من تشويه المخرجات.

تعني المعالجة المخصصة للنص إلى النص في eDiffi أنه يمكن عرض النص حرفيًا في الصور ، بدلاً من تشغيله فقط من خلال طبقة تفسيرية من نص إلى صورة بدلاً من تشويه المخرجات.

تتمثل إحدى الميزات الإضافية للإطار الجديد في أنه من الممكن أيضًا توفير صورة واحدة كموجه للأسلوب، بدلاً من الحاجة إلى تدريب نموذج DreamBooth أو تضمين نص على أمثلة متعددة من نوع أو نمط.

يمكن تطبيق نقل النمط من صورة مرجعية إلى موجه نص إلى صورة ، أو حتى موجه صورة إلى صورة.

يمكن تطبيق نقل النمط من صورة مرجعية إلى موجه نص إلى صورة ، أو حتى موجه صورة إلى صورة.

استخدم ورقة جديدة بعنوان eDiffi: نماذج انتشار تحويل النص إلى صورة مع مجموعة من خبراء Denoisersو

التشفير النصي T5

استخدام جوجل تيتحويل تحويل النص إلى نص (T5) هو العنصر المحوري في النتائج المحسنة الموضحة في eDiffi. يركز خط أنابيب الانتشار الكامن المتوسط ​​على الارتباط بين الصور المدربة والتعليقات التوضيحية التي رافقتها عندما تم كشطها من الإنترنت (أو تم تعديلها يدويًا لاحقًا ، على الرغم من أن هذا تدخل مكلف وبالتالي نادر).

من ورقة يوليو 2020 لـ T5 - التحولات المستندة إلى النص ، والتي يمكن أن تساعد سير عمل الصورة التوليدية في eDiffi (وربما نماذج الانتشار الكامنة الأخرى). المصدر: https://arxiv.org/pdf/1910.10683.pdf

من ورقة يوليو 2020 لـ T5 - التحولات المستندة إلى النص ، والتي يمكن أن تساعد سير عمل الصورة التوليدية في eDiffi (وربما نماذج الانتشار الكامنة الأخرى). المصدر: https://arxiv.org/pdf/1910.10683.pdf

من خلال إعادة صياغة النص المصدر وتشغيل وحدة T5 ، يمكن الحصول على ارتباطات وتمثيلات أكثر دقة مما تم تدريبه في النموذج في الأصل ، تقريبًا أقرب إلى بأثر رجعي وضع العلامات اليدوية ، مع قدر أكبر من التحديد والقابلية للتطبيق على شروط موجه النص المطلوب.

يشرح المؤلفون:

في معظم الأعمال الحالية على نماذج الانتشار ، تتم مشاركة نموذج تقليل الضوضاء عبر جميع مستويات الضوضاء ، ويتم تمثيل الديناميكية الزمنية باستخدام تضمين زمني بسيط يتم تغذيته بنموذج تقليل الضوضاء عبر شبكة MLP. نجادل بأن الديناميكيات الزمنية المعقدة لانتشار تقليل الضوضاء قد لا يتم تعلمها من البيانات بشكل فعال باستخدام نموذج مشترك بقدرة محدودة.

بدلاً من ذلك، نقترح زيادة سعة نموذج إزالة الضوضاء من خلال استخدام مجموعة من أدوات إزالة الضوضاء المتخصصة؛ كل أداة إزالة ضوضاء متخصصة في نطاق معين من مستويات الضوضاء. بهذه الطريقة، يمكننا زيادة سعة النموذج دون إبطاء عملية أخذ العينات، حيث يظل التعقيد الحسابي لتقييم العنصر المُعالَج عند كل مستوى ضوضاء ثابتًا.

سير العمل المفاهيمي لـ eDiffi.

سير العمل المفاهيمي لـ eDiffi.

القائمة CLIP وحدات الترميز المضمنة في DALL-E 2 و Stable Diffusion قادرة أيضًا على إيجاد تفسيرات بديلة للصور للنص المتعلق بإدخال المستخدم. ومع ذلك ، يتم تدريبهم على معلومات مماثلة للنموذج الأصلي ، ولا يتم استخدامهم كطبقة تفسيرية منفصلة بالطريقة التي يكون بها T5 في eDiffi.

يذكر المؤلفون أن eDiffi هي المرة الأولى التي يتم فيها دمج مشفر T5 و CLIP في خط أنابيب واحد:

نظرًا لأنه يتم تدريب هذين المشفرين بأهداف مختلفة ، فإن الزخارف الخاصة بهما تفضل تشكيلات صور مختلفة بنفس نص الإدخال. بينما تساعد عمليات تضمين نص CLIP في تحديد المظهر العام للصور المُنشأة ، تميل المخرجات إلى إغفال التفاصيل الدقيقة في النص.

في المقابل، تعكس الصور المُولَّدة باستخدام تضمينات نص T5 وحدها الكائنات الفردية الموصوفة في النص بشكل أفضل، إلا أن مظهرها العام أقل دقة. يُنتج استخدامهما معًا أفضل نتائج توليد الصور في نموذجنا.

مقاطعة وزيادة عملية الانتشار

تشير الورقة البحثية إلى أن نموذج الانتشار الكامن النموذجي سيبدأ الرحلة من الضوضاء النقية إلى الصورة بالاعتماد فقط على النص في المراحل الأولى من الجيل.

عندما يتحول التشويش إلى نوع من التخطيط التقريبي الذي يمثل الوصف في موجه النص ، فإن الجانب الموجه بالنص من العملية يتلاشى بشكل أساسي ، ويتحول باقي العملية نحو زيادة الميزات المرئية.

هذا يعني أنه من الصعب إدخال أي عنصر لم يتم حله في المرحلة الوليدة من تفسير الضوضاء الموجهة بالنص في الصورة لاحقًا ، لأن العمليتين (نص إلى تخطيط ، وتخطيط إلى صورة) تتداخلان قليلاً نسبيًا ، والتخطيط الأساسي متشابك تمامًا بحلول الوقت الذي يصل فيه إلى عملية تكبير الصورة.

من الورقة: خرائط الانتباه لأجزاء مختلفة من خط الأنابيب مع نضوج عملية الضجيج> الصورة. يمكننا أن نرى الانخفاض الحاد في تأثير CLIP للصورة في الصف السفلي ، بينما يستمر T5 في التأثير على الصورة بشكل أكبر في عملية العرض.

من الورقة: خرائط الانتباه لأجزاء مختلفة من خط الأنابيب مع نضوج عملية الضجيج> الصورة. يمكننا أن نرى الانخفاض الحاد في تأثير CLIP للصورة في الصف السفلي ، بينما يستمر T5 في التأثير على الصورة بشكل أكبر في عملية العرض.

الإمكانات المهنية

الأمثلة الموجودة في صفحة المشروع ومركز فيديو YouTube حول توليد العلاقات العامة المألوف لصور meme-tastic اللطيفة. كالعادة ، تقلل أبحاث NVIDIA من إمكانات أحدث ابتكاراتها لتحسين سير عمل الصور الواقعية أو المؤثرات البصرية ، بالإضافة إلى قدرتها على تحسين الصور ومقاطع الفيديو المزيفة.

في الأمثلة ، يقوم مستخدم مبتدئ أو هاو بخربشات تقريبية لوضع العنصر المحدد ، بينما في سير عمل VFX الأكثر انتظامًا ، قد يكون من الممكن استخدام eDiffi لتفسير إطارات متعددة لعنصر فيديو باستخدام نص إلى صورة ، حيث الخطوط العريضة دقيقة للغاية ، وتعتمد على ، على سبيل المثال ، الأرقام التي تم فيها إسقاط الخلفية عبر الشاشة الخضراء أو الطرق الحسابية.

يوفر Runway ML بالفعل rotoscoping القائم على الذكاء الاصطناعي. في هذا المثال ، تمثل "الشاشة الخضراء" حول الموضوع طبقة ألفا ، بينما تم الاستخراج عبر التعلم الآلي بدلاً من الإزالة الحسابية لخلفية الشاشة الخضراء الواقعية. المصدر: https://twitter.com/runwayml/status/1330978385028374529

يوفر Runway ML بالفعل تقنية روتوسكوبينج قائمة على الذكاء الاصطناعي. في هذا المثال، تُمثل "الشاشة الخضراء" المحيطة بالموضوع طبقة ألفا، بينما تم استخراج الصورة باستخدام التعلم الآلي بدلاً من الإزالة الخوارزمية لخلفية الشاشة الخضراء الحقيقية. المصدر: https://twitter.com/runwayml/status/1330978385028374529

باستخدام مدرب دريم بوث الشخصية وخط أنابيب الصور إلى الصور باستخدام eDiffi، من الممكن أن نبدأ في حل إحدى المشكلات التي تواجهنا أي وقت نموذج الانتشار الكامن: الاستقرار الزمني. في هذه الحالة، تُعرض هوامش الصورة المُفروضة ومحتواها مُسبقًا على لوحة المستخدم، مع ضمان استمرارية زمنية للمحتوى المُقدم (أي تحويل مُمارس تاي تشي حقيقي إلى روبوت) باستخدام نموذج دريم بوث مُغلق، والذي "حفظ" بيانات تدريبه - مما يُضعف قابلية التفسير، ولكنه ممتاز لإمكانية إعادة الإنتاج والدقة والاستمرارية.

الطريقة والبيانات والاختبارات

تشير الورقة البحثية إلى أن نموذج eDiffi دُرِّب على "مجموعة من مجموعات البيانات العامة والخاصة"، مُرَشَّحة بدقة باستخدام نموذج CLIP مُدرَّب مسبقًا، وذلك لإزالة الصور التي يُحتمل أن تُقلِّل من التقييم الجمالي العام للمخرجات. تتألف مجموعة الصور المُرَشَّحة النهائية من "حوالي مليار" زوج من النصوص والصور. ويُوصَف حجم الصور المُدرَّبة بأنه "أقصر جانب أكبر من 64 بكسل".

تم تدريب عدد من النماذج لهذه العملية ، مع تدريب كل من النماذج الأساسية والدقة الفائقة آدم دبليو مُحسِّن بمعدل تعلم 0.0001 ، مع تناقص وزن قدره 0.01 ، وحجم دفعة هائل يبلغ 2048.

تم تدريب النموذج الأساسي على 256 وحدة معالجة رسومات NVIDIA A100 ، ونموذجين فائق الدقة على 128 NVIDIA A100 وحدات معالجة الرسومات لكل طراز.

كان النظام يعتمد على نظام NVIDIA الخاص تخيل مكتبة PyTorch. COCO ومجموعات بيانات الجينوم المرئي للتقييم ، على الرغم من عدم تضمينها في النماذج النهائية ، مع مس-كوكو المتغير المحدد المستخدم للاختبار. تم اختبار الأنظمة المتنافسة انسل من, صنع مشهد, DALL-E2, انتشار مستقر، ونظامي تركيب الصور من جوجل، صورة و أجزاء.

وفقا لما شابه قبل العمل , صفر طلقة FID-30K تم استخدامه كمقياس للتقييم. تحت FID-30K ، يتم استخراج 30,000 تعليق بشكل عشوائي من مجموعة التحقق من COCO (أي ليس الصور أو النص المستخدم في التدريب) ، والتي تم استخدامها بعد ذلك كمطالبات نصية لتركيب الصور.

مسافة بداية فريتشيت (ااا) بين صور الحقيقة التي تم إنشاؤها وصورة الأرض ، بالإضافة إلى تسجيل درجة CLIP للصور التي تم إنشاؤها.

النتائج من اختبارات FID بدون طلقة مقابل أحدث الأساليب الحالية في مجموعة بيانات التحقق من صحة COCO 2014 ، مع نتائج أقل أفضل.

النتائج من اختبارات FID بدون طلقة مقابل أحدث الأساليب الحالية في مجموعة بيانات التحقق من صحة COCO 2014 ، مع نتائج أقل أفضل.

في النتائج ، تمكن eDiffi من الحصول على أدنى درجة (أفضل) على FID بدون طلقة حتى مع الأنظمة التي تحتوي على عدد أكبر بكثير من المعلمات ، مثل 20 مليار معلمة من Parti ، مقارنة بـ 9.1 مليار معلمة في أعلى- نموذج eDiffi محدد تم تدريبه على الاختبارات.

الخاتمة

يمثل eDiffi من NVIDIA بديلاً مرحبًا به لإضافة كميات أكبر وأكبر من البيانات والتعقيد إلى الأنظمة الحالية، بدلاً من ذلك استخدام نهج أكثر ذكاءً ومتعدد الطبقات لبعض العقبات الأكثر صعوبة المتعلقة بالتشابك وعدم القدرة على التحرير في أنظمة الصور التوليدية للانتشار الكامن.

هناك بالفعل نقاش في المنتديات الفرعية و Discords للانتشار المستقر حول إما دمج أي كود يمكن إتاحته لـ eDiffi بشكل مباشر ، أو إعادة تنظيم المبادئ الكامنة وراءه في تطبيق منفصل. ومع ذلك ، فإن خط الأنابيب الجديد مختلف تمامًا ، بحيث أنه سيشكل رقم إصدار كامل للتغيير من أجل SD ، مع التخلص من بعض التوافق مع الإصدارات السابقة ، على الرغم من أنه يوفر إمكانية تحسين مستويات التحكم بشكل كبير في الصور المركبة النهائية ، دون التضحية بالأسر. القوى الخيالية للانتشار الكامن.

 

نُشر لأول مرة في 3 نوفمبر 2022.

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai