هندسة المحفزات
نظرة أقرب إلى DALL-E 3 من OpenAI

في عالم الذكاء الاصطناعي التوليدي، الحفاظ على المواكبة مع أحدث التطورات هو الاسم اللعبة. وعندما يتعلق الأمر بتوليد الصور، كانت Stable Diffusion وMidjourney منصات كل شخص يتحدث عنها – حتى الآن.
أدخلت OpenAI، مدعومة من شركة Microsoft التقنية، DALL·E 3 في 20 سبتمبر 2023.
DALL-E 3 ليس فقط حول إنشاء الصور؛ إنه حول جعل أفكارك على النحو الذي تصورته. وأفضل جزء؟ إنه سريع، مثل، حقا سريع. لديك فكرة، وتغذيها إلى DALL-E 3، وتمام، صورة جاهزة.
لذلك، في هذه المقالة، سنغوص深ا في ما هو DALL-E 3. سنناقش كيف يعمل، ما يميزه عن البقية، ولماذا قد يكون الأداة التي لم تكن تعرف أنك تحتاجها. سواء كنت مصممًا أو فنانًا أو شخصًا لديه الكثير من الأفكار الرائعة، سترغب في البقاء من أجل هذا. هيا نبدأ.
ما هو جديد في DALL·E 3 هو أنه يفهم السياق بشكل أفضل من DALL·E 2. قد تفوت الإصدارات السابقة بعض التفاصيل أو تتجاهل بعض التفاصيل هنا وهناك، ولكن DALL-E 3 على النقطة. إنه يلتقط التفاصيل الدقيقة لما تطلبه، معطيك صورة أقرب إلى ما تصورته.
الجزء المثير؟ DALL·E 3 وChatGPT متكاملان الآن. يعملان معًا لمساعدتك في تعدين أفكارك. ترسل مفهومًا، يساعد ChatGPT في تعديل البرنامج النصي، وDALL-E 3 يجعلها حية. إذا كنت لا تحب الصورة، يمكنك أن تطلب من ChatGPT تعديل البرنامج النصي وDALL-E 3 لمحاولة مرة أخرى. مقابل رسوم شهرية قدرها 20 دولارًا، تحصل على الوصول إلى GPT-4 وDALL-E 3 والميزات الأخرى الرائعة.
حصل Bing Chat من Microsoft على DALL-E 3 حتى قبل أن يحصل ChatGPT من OpenAI عليه، والآن ليس فقط الشركات الكبيرة ولكن الجميع يمكنهم اللعب معه مجانًا. التكامل في Bing Chat وBing Image Creator يجعل من السهل استخدامه لأي شخص.
صعود نماذج الانتشار
في السنوات الثلاث الماضية، شهدت الرؤية الاصطناعية صعود نماذج الانتشار، مما أدى إلى تحسن كبير في توليد الصور. قبل نماذج الانتشار، كانت الشبكات العصبية التوليدية المعادية التكنولوجيا الأساسية لتوليد الصور الواقعية.
然而، كانت لديهم تحدياتهم، بما في ذلك الحاجة إلى كميات كبيرة من البيانات والقوة الحاسوبية، مما جعلهم في بعض الأحيان صعبًا في التعامل معهم.
ادخل نماذج الانتشار. ظهرت كبديل أكثر استقرارًا وفعالية من GANs. على عكس GANs، تعمل نماذج الانتشار عن طريق إضافة الضوضاء إلى البيانات، وطمسها حتى لا يبقى سوى عشوائية. ثم تعمل في الاتجاه العكسي ل逆 هذه العملية، وإعادة بناء البيانات المهمة من الضوضاء. ثبت أن هذه العملية فعالة وأقل استهلاكًا للموارد، مما يجعل نماذج الانتشار موضوعًا ساخنًا في مجتمع الذكاء الاصطناعي.
النقطة الحاسمة جاءت حول عام 2020، مع سلسلة من الأوراق المبتكرة ومدخل تكنولوجيا CLIP من OpenAI، والتي قدمت تحسينات كبيرة في قدرات نماذج الانتشار. هذا جعل نماذج الانتشار استثنائية في توليد الصور من النصوص، مما مكنهم من توليد صور واقعية من الوصف النصي. هذه الاختراقات لم تكن فقط في توليد الصور، ولكن أيضًا في مجالات مثل تأليف الموسيقى والبحث البيولوجي.
اليوم، نماذج الانتشار ليست فقط موضوعًا لل兴趣 الأكاديمي ولكنها تستخدم في سيناريوهات عملية في العالم الحقيقي.
النمذجة التوليدية وطبقات الانتباه الذاتي: DALL-E 3
واحدة من التحسينات الحاسمة في هذا المجال كانت تطور النمذجة التوليدية، مع نهج العينة القائمة على التوليد والانتشار الذي يقود الطريق. لقد حولوا نماذج الصور النصية، مما أدى إلى تحسينات كبيرة في الأداء. من خلال تقسيم توليد الصور إلى خطوات منفصلة، أصبحت هذه النماذج أكثر قابلية للتعامل وأسهل للشبكات العصبية للتعلم.
في نفس الوقت، لعبت طبقات الانتباه الذاتي دورًا حاسمًا. هذه الطبقات، متكدسة معًا، ساعدت في توليد الصور دون الحاجة إلى انحيازات مكانية ضمنية، وهو مشكلة شائعة مع الالتفافات. هذا التحول سمح بنماذج الصور النصية لتوسيع نطاقها وتحسينها بثبات، بسبب خصائص التوسيع المفهومة جيدًا للتحويلات.
التحديات والحلول في توليد الصور
على الرغم من هذه التحسينات، لا يزال التحكم في توليد الصور تحديًا. قضايا مثل اتباع البرنامج النصي، حيث قد لا يلتزم النموذج بشكل وثيق بالنص الإدخالي، كانت سائدة. لمواجهة هذا، تم اقتراح نهج جديد مثل تحسين العنوان، nhằm تحسين جودة النص والصورة في مجموعات البيانات التدريبية.
تحسين العنوان: نهج جديد
يتضمن تحسين العنوان توليد عناوين ذات جودة أفضل للصور، مما يساعد في تدريب نماذج الصور النصية الأكثر دقة. يتم实现 هذا من خلال نظام تعليم الصور القوي الذي ينتج وصفات مفصلة ودقيقة للصور. من خلال التدريب على هذه العناوين المحسنة، تمكنت DALL-E 3 من تحقيق نتائج مذهلة، تشبه الصور والفنون التي أنتجها البشر.
التدريب على البيانات الاصطناعية
concept التدريب على البيانات الاصطناعية ليس جديدًا. ومع ذلك، المساهمة الفريدة هنا هي في إنشاء نظام تعليم الصور الوصفية الجديد. كان تأثير استخدام العناوين الاصطناعية لتدريب النماذج التوليدية كبيرًا، مما أدى إلى تحسين قدرة النموذج على اتباع البرنامج النصي بدقة.
تقييم DALL-E 3
من خلال التقييمات المتعددة والمقارنات مع النماذج السابقة مثل DALL-E 2 وStable Diffusion XL، أظهر DALL-E 3 أداءً متفوقًا، خاصة في المهام المتعلقة باتباع البرنامج النصي.
استخدام التقييمات التلقائية والمعايير قدم دليلًا واضحًا على قدراته، مما عزز من موقعه كنموذج توليد صور نصية من الدرجة الأولى.
برامج DALL-E 3 وقدراته
يقدم DALL-E 3 نهجًا أكثر منطقية ومتطورًا لإنشاء الصور. مع التمرير، ستلاحظ كيف يصنع DALL-E كل صورة، مع مزيج من الدقة والخيال التي تتوافق مع البرنامج النصي المحدد.
على عكس سابقه، يتفوق هذا الإصدار المتقدم في ترتيب الأشياء بشكل طبيعي داخل المشهد وتصوير الميزات البشرية بدقة، حتى العدد الصحيح من الأصابع في اليد. تمتد التحسينات إلى التفاصيل الدقيقة وأصبحت متاحة الآن بدقة أعلى، مما يضمن مخرجات أكثر واقعية ومحترفة.
تم تحسين قدرات تحرير النص أيضًا بشكل كبير. حيث أنتجت إصدارات DALL-E السابقة نصًا غير مفهوم، يمكن لـDALL-E 3 الآن توليد نص مقروء ومصمم بشكل محترف (في بعض الأحيان)، وحتى شارات نظيفة في بعض الأحيان.
تم تحسين فهم النموذج للطلبات الصورة المعقدة والمتعددة بشكل كبير. يمكن لـDALL-E 3 الآن اتباع الوصف المفصل بدقة، حتى في السيناريوهات التي تتضمن عناصر متعددة وتعليمات محددة، مما يظهر قدرته على إنتاج صور متسقة ومدروسة جيدًا. هيا نستكشف بعض البرامج النصية ومخرجاتها:
صمم تغليفًا لخط من الشاي العضوي. شمل مساحة للاسم والوصف.
أنشئ لافتة ويب إعلانية لبيع الأثاث الخارجي في الصيف. يجب أن تظهر الصورة إعدادًا شاطئيًا مع قطع مختلفة من الأثاث الخارجي، ونصًا يعلن "تخفيضات صيفية ضخمة!"
ملصق سفر قديم لباريس مع نص واضح ومصمم يقرأ "زور باريس" في الأسفل.
صورة لمشهد مزدحم لمهرجان ديوالي في الهند، مع أسر تضيء المصباح، والألعاب النارية في السماء، والهدايا التقليدية والزينة.
صورة لمشهد سوق مزدحم في روما القديمة، مع أشخاص يرتدون ملابس من تلك الفترة، وبضائع مختلفة للبيع، وهندسة معمارية من تلك الفترة.
اجعل صورة لشخصية تاريخية مشهورة، مثل كليوباترا أو ليوناردو دا فينشي، في إعداد معاصر، يستخدم تقنيات حديثة مثل الهواتف الذكية أو أجهزة الكمبيوتر المحمولة.
القيود والمخاطر من DALL-E 3
أدخلت OpenAI خطوات كبيرة لتصفية المحتوى الصريح من بيانات تدريب DALL-E 3، بهدف تقليل الانحيازات وتحسين مخرجات النموذج. تشمل هذه الخطوات تطبيق مرشحات محددة لفئات المحتوى الحساسة ومراجعة عتبات المرشحات الأوسع. كما يشمل حزمة التخفيف طبقات متعددة من الحماية، مثل آليات الرفض في ChatGPT لمواضيع حساسة، وتصنيفات مدخلات البرنامج النصي لمنع انتهاكات السياسة، وقوائم سوداء لفئات محتوى محددة، وتحويلات لضمان مطابقة البرنامج النصي للدلائل.
على الرغم من تقدمه، تظل لدى DALL-E 3 قيود في فهم العلاقات المكانية، وتصيير النص الطويل بدقة، وتوليد صور محددة. تعترف OpenAI بهذه التحديات وتعمل على تحسينات للنسخ المستقبلية.
تعمل الشركة أيضًا على طرق لتمييز الصور التي تم توليدها بواسطة الذكاء الاصطناعي عن تلك التي أنتجها البشر، مما يعكس التزامها بالشفافية واستخدام الذكاء الاصطناعي المسؤول.
سيتم إطلاق DALL-E 3 في مراحل، بدءًا بمجموعات العملاء المحددة، ثم التوسع إلى مختبرات البحث وخدمات API. ومع ذلك، لم يتم تأكيد تاريخ الإطلاق المجاني العام بعد.
تضع OpenAI معايير جديدة في مجال الذكاء الاصطناعي مع DALL-E 3، مما يربط بين القدرات التقنية المعقدة وواجهات المستخدم سهلة الاستخدام. التكامل في منصات شائعة مثل Bing يعكس تحولًا من التطبيقات المتخصصة إلى أشكال أكثر شمولاً وتفاعلية.
اللعبة الحاسمة في السنوات القادمة سوف تكون التوازن بين الابتكار وتمكين المستخدم. الشركات التي تنجح سوف تكون تلك التي لا تبتكر فقط حدود ما يمكن للذكاء الاصطناعي تحقيقه، ولكنها توفر للمستخدمين الاستقلالية والسيطرة التي يرغبون فيها. OpenAI، مع التزامها بالذكاء الاصطناعي الأخلاقي، تسير هذه المسار بحذر. الهدف واضح: إنشاء أدوات الذكاء الاصطناعي التي ليست فقط قوية، ولكنها أيضًا موثوقة وشمولية، مما يضمن أن فوائد الذكاء الاصطناعي تكون متاحة للجميع.






















