هندسة المحفزات

نظرة أقرب إلى DALL-E 3 من OpenAI

Published October 31, 2023

Updated April 28, 2026

Aayush Mittal Mittal

في عالم الذكاء الاصطناعي التوليدي، الحفاظ على المواكبة مع أحدث التطورات هو الاسم اللعبة. وعندما يتعلق الأمر بتوليد الصور، كانت Stable Diffusion وMidjourney منصات كل شخص يتحدث عنها – حتى الآن.

أدخلت OpenAI، مدعومة من شركة Microsoft التقنية، DALL·E 3 في 20 سبتمبر 2023.

DALL-E 3 ليس فقط حول إنشاء الصور؛ إنه حول جعل أفكارك على النحو الذي تصورته. وأفضل جزء؟ إنه سريع، مثل، حقا سريع. لديك فكرة، وتغذيها إلى DALL-E 3، وتمام، صورة جاهزة.

لذلك، في هذه المقالة، سنغوص深ا في ما هو DALL-E 3. سنناقش كيف يعمل، ما يميزه عن البقية، ولماذا قد يكون الأداة التي لم تكن تعرف أنك تحتاجها. سواء كنت مصممًا أو فنانًا أو شخصًا لديه الكثير من الأفكار الرائعة، سترغب في البقاء من أجل هذا. هيا نبدأ.

ما هو جديد في DALL·E 3 هو أنه يفهم السياق بشكل أفضل من DALL·E 2. قد تفوت الإصدارات السابقة بعض التفاصيل أو تتجاهل بعض التفاصيل هنا وهناك، ولكن DALL-E 3 على النقطة. إنه يلتقط التفاصيل الدقيقة لما تطلبه، معطيك صورة أقرب إلى ما تصورته.

الجزء المثير؟ DALL·E 3 وChatGPT متكاملان الآن. يعملان معًا لمساعدتك في تعدين أفكارك. ترسل مفهومًا، يساعد ChatGPT في تعديل البرنامج النصي، وDALL-E 3 يجعلها حية. إذا كنت لا تحب الصورة، يمكنك أن تطلب من ChatGPT تعديل البرنامج النصي وDALL-E 3 لمحاولة مرة أخرى. مقابل رسوم شهرية قدرها 20 دولارًا، تحصل على الوصول إلى GPT-4 وDALL-E 3 والميزات الأخرى الرائعة.

حصل Bing Chat من Microsoft على DALL-E 3 حتى قبل أن يحصل ChatGPT من OpenAI عليه، والآن ليس فقط الشركات الكبيرة ولكن الجميع يمكنهم اللعب معه مجانًا. التكامل في Bing Chat وBing Image Creator يجعل من السهل استخدامه لأي شخص.

صعود نماذج الانتشار

في السنوات الثلاث الماضية، شهدت الرؤية الاصطناعية صعود نماذج الانتشار، مما أدى إلى تحسن كبير في توليد الصور. قبل نماذج الانتشار، كانت الشبكات العصبية التوليدية المعادية التكنولوجيا الأساسية لتوليد الصور الواقعية.

GANs

然而، كانت لديهم تحدياتهم، بما في ذلك الحاجة إلى كميات كبيرة من البيانات والقوة الحاسوبية، مما جعلهم في بعض الأحيان صعبًا في التعامل معهم.

ادخل نماذج الانتشار. ظهرت كبديل أكثر استقرارًا وفعالية من GANs. على عكس GANs، تعمل نماذج الانتشار عن طريق إضافة الضوضاء إلى البيانات، وطمسها حتى لا يبقى سوى عشوائية. ثم تعمل في الاتجاه العكسي ل逆 هذه العملية، وإعادة بناء البيانات المهمة من الضوضاء. ثبت أن هذه العملية فعالة وأقل استهلاكًا للموارد، مما يجعل نماذج الانتشار موضوعًا ساخنًا في مجتمع الذكاء الاصطناعي.

النقطة الحاسمة جاءت حول عام 2020، مع سلسلة من الأوراق المبتكرة ومدخل تكنولوجيا CLIP من OpenAI، والتي قدمت تحسينات كبيرة في قدرات نماذج الانتشار. هذا جعل نماذج الانتشار استثنائية في توليد الصور من النصوص، مما مكنهم من توليد صور واقعية من الوصف النصي. هذه الاختراقات لم تكن فقط في توليد الصور، ولكن أيضًا في مجالات مثل تأليف الموسيقى والبحث البيولوجي.

اليوم، نماذج الانتشار ليست فقط موضوعًا لل兴趣 الأكاديمي ولكنها تستخدم في سيناريوهات عملية في العالم الحقيقي.

النمذجة التوليدية وطبقات الانتباه الذاتي: DALL-E 3

المصدر

واحدة من التحسينات الحاسمة في هذا المجال كانت تطور النمذجة التوليدية، مع نهج العينة القائمة على التوليد والانتشار الذي يقود الطريق. لقد حولوا نماذج الصور النصية، مما أدى إلى تحسينات كبيرة في الأداء. من خلال تقسيم توليد الصور إلى خطوات منفصلة، أصبحت هذه النماذج أكثر قابلية للتعامل وأسهل للشبكات العصبية للتعلم.

في نفس الوقت، لعبت طبقات الانتباه الذاتي دورًا حاسمًا. هذه الطبقات، متكدسة معًا، ساعدت في توليد الصور دون الحاجة إلى انحيازات مكانية ضمنية، وهو مشكلة شائعة مع الالتفافات. هذا التحول سمح بنماذج الصور النصية لتوسيع نطاقها وتحسينها بثبات، بسبب خصائص التوسيع المفهومة جيدًا للتحويلات.

التحديات والحلول في توليد الصور

على الرغم من هذه التحسينات، لا يزال التحكم في توليد الصور تحديًا. قضايا مثل اتباع البرنامج النصي، حيث قد لا يلتزم النموذج بشكل وثيق بالنص الإدخالي، كانت سائدة. لمواجهة هذا، تم اقتراح نهج جديد مثل تحسين العنوان، nhằm تحسين جودة النص والصورة في مجموعات البيانات التدريبية.

تحسين العنوان: نهج جديد

يتضمن تحسين العنوان توليد عناوين ذات جودة أفضل للصور، مما يساعد في تدريب نماذج الصور النصية الأكثر دقة. يتم实现 هذا من خلال نظام تعليم الصور القوي الذي ينتج وصفات مفصلة ودقيقة للصور. من خلال التدريب على هذه العناوين المحسنة، تمكنت DALL-E 3 من تحقيق نتائج مذهلة، تشبه الصور والفنون التي أنتجها البشر.

التدريب على البيانات الاصطناعية

concept التدريب على البيانات الاصطناعية ليس جديدًا. ومع ذلك، المساهمة الفريدة هنا هي في إنشاء نظام تعليم الصور الوصفية الجديد. كان تأثير استخدام العناوين الاصطناعية لتدريب النماذج التوليدية كبيرًا، مما أدى إلى تحسين قدرة النموذج على اتباع البرنامج النصي بدقة.

تقييم DALL-E 3

من خلال التقييمات المتعددة والمقارنات مع النماذج السابقة مثل DALL-E 2 وStable Diffusion XL، أظهر DALL-E 3 أداءً متفوقًا، خاصة في المهام المتعلقة باتباع البرنامج النصي.

مقارنة بين نماذج الصور النصية على مختلف التقييمات

استخدام التقييمات التلقائية والمعايير قدم دليلًا واضحًا على قدراته، مما عزز من موقعه كنموذج توليد صور نصية من الدرجة الأولى.

برامج DALL-E 3 وقدراته

يقدم DALL-E 3 نهجًا أكثر منطقية ومتطورًا لإنشاء الصور. مع التمرير، ستلاحظ كيف يصنع DALL-E كل صورة، مع مزيج من الدقة والخيال التي تتوافق مع البرنامج النصي المحدد.

على عكس سابقه، يتفوق هذا الإصدار المتقدم في ترتيب الأشياء بشكل طبيعي داخل المشهد وتصوير الميزات البشرية بدقة، حتى العدد الصحيح من الأصابع في اليد. تمتد التحسينات إلى التفاصيل الدقيقة وأصبحت متاحة الآن بدقة أعلى، مما يضمن مخرجات أكثر واقعية ومحترفة.

تم تحسين قدرات تحرير النص أيضًا بشكل كبير. حيث أنتجت إصدارات DALL-E السابقة نصًا غير مفهوم، يمكن لـDALL-E 3 الآن توليد نص مقروء ومصمم بشكل محترف (في بعض الأحيان)، وحتى شارات نظيفة في بعض الأحيان.

تم تحسين فهم النموذج للطلبات الصورة المعقدة والمتعددة بشكل كبير. يمكن لـDALL-E 3 الآن اتباع الوصف المفصل بدقة، حتى في السيناريوهات التي تتضمن عناصر متعددة وتعليمات محددة، مما يظهر قدرته على إنتاج صور متسقة ومدروسة جيدًا. هيا نستكشف بعض البرامج النصية ومخرجاتها:

صمم تغليفًا لخط من الشاي العضوي. شمل مساحة للاسم والوصف.

صور DALL-E 3 بناءً على البرامج النصية (ملاحظة أن الشعار الأيسر يحتوي على خطأ إملائي)

أنشئ لافتة ويب إعلانية لبيع الأثاث الخارجي في الصيف. يجب أن تظهر الصورة إعدادًا شاطئيًا مع قطع مختلفة من الأثاث الخارجي، ونصًا يعلن "تخفيضات صيفية ضخمة!"

صور DALL-E 3 بناءً على البرامج النصية

ملصق سفر قديم لباريس مع نص واضح ومصمم يقرأ "زور باريس" في الأسفل.

صور DALL-E 3 بناءً على البرامج النصية (ملاحظة أن كلا الشعارين يحتويان على أخطاء إملائية)

صورة لمشهد مزدحم لمهرجان ديوالي في الهند، مع أسر تضيء المصباح، والألعاب النارية في السماء، والهدايا التقليدية والزينة.

صور DALL-E 3 بناءً على البرامج النصية

صورة لمشهد سوق مزدحم في روما القديمة، مع أشخاص يرتدون ملابس من تلك الفترة، وبضائع مختلفة للبيع، وهندسة معمارية من تلك الفترة.

صور DALL-E 3 بناءً على البرامج النصية

اجعل صورة لشخصية تاريخية مشهورة، مثل كليوباترا أو ليوناردو دا فينشي، في إعداد معاصر، يستخدم تقنيات حديثة مثل الهواتف الذكية أو أجهزة الكمبيوتر المحمولة.

صور DALL-E 3 بناءً على البرامج النصية

القيود والمخاطر من DALL-E 3

أدخلت OpenAI خطوات كبيرة لتصفية المحتوى الصريح من بيانات تدريب DALL-E 3، بهدف تقليل الانحيازات وتحسين مخرجات النموذج. تشمل هذه الخطوات تطبيق مرشحات محددة لفئات المحتوى الحساسة ومراجعة عتبات المرشحات الأوسع. كما يشمل حزمة التخفيف طبقات متعددة من الحماية، مثل آليات الرفض في ChatGPT لمواضيع حساسة، وتصنيفات مدخلات البرنامج النصي لمنع انتهاكات السياسة، وقوائم سوداء لفئات محتوى محددة، وتحويلات لضمان مطابقة البرنامج النصي للدلائل.

على الرغم من تقدمه، تظل لدى DALL-E 3 قيود في فهم العلاقات المكانية، وتصيير النص الطويل بدقة، وتوليد صور محددة. تعترف OpenAI بهذه التحديات وتعمل على تحسينات للنسخ المستقبلية.

تعمل الشركة أيضًا على طرق لتمييز الصور التي تم توليدها بواسطة الذكاء الاصطناعي عن تلك التي أنتجها البشر، مما يعكس التزامها بالشفافية واستخدام الذكاء الاصطناعي المسؤول.

DALL·E 3

سيتم إطلاق DALL-E 3 في مراحل، بدءًا بمجموعات العملاء المحددة، ثم التوسع إلى مختبرات البحث وخدمات API. ومع ذلك، لم يتم تأكيد تاريخ الإطلاق المجاني العام بعد.

تضع OpenAI معايير جديدة في مجال الذكاء الاصطناعي مع DALL-E 3، مما يربط بين القدرات التقنية المعقدة وواجهات المستخدم سهلة الاستخدام. التكامل في منصات شائعة مثل Bing يعكس تحولًا من التطبيقات المتخصصة إلى أشكال أكثر شمولاً وتفاعلية.

اللعبة الحاسمة في السنوات القادمة سوف تكون التوازن بين الابتكار وتمكين المستخدم. الشركات التي تنجح سوف تكون تلك التي لا تبتكر فقط حدود ما يمكن للذكاء الاصطناعي تحقيقه، ولكنها توفر للمستخدمين الاستقلالية والسيطرة التي يرغبون فيها. OpenAI، مع التزامها بالذكاء الاصطناعي الأخلاقي، تسير هذه المسار بحذر. الهدف واضح: إنشاء أدوات الذكاء الاصطناعي التي ليست فقط قوية، ولكنها أيضًا موثوقة وشمولية، مما يضمن أن فوائد الذكاء الاصطناعي تكون متاحة للجميع.

Aayush Mittal

لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من تعلم الآلة والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا للهندسة البرمجية متنوعًا، مع التركيز بشكل خاص على الذكاء الاصطناعي / تعلم الآلة. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا حريص على استكشافه بشكل أكبر.

Unite.AI

نظرة أقرب إلى DALL-E 3 من OpenAI

صعود نماذج الانتشار

النمذجة التوليدية وطبقات الانتباه الذاتي: DALL-E 3

التحديات والحلول في توليد الصور

تحسين العنوان: نهج جديد

التدريب على البيانات الاصطناعية

تقييم DALL-E 3

برامج DALL-E 3 وقدراته

القيود والمخاطر من DALL-E 3

You may like