Connect with us

الذكاء الاصطناعي التوليدي: الفكرة وراء CHATGPT و Dall-E و Midjourney وغيرها

الذكاء الاصطناعي

الذكاء الاصطناعي التوليدي: الفكرة وراء CHATGPT و Dall-E و Midjourney وغيرها

mm
Generative AI - Midjourney Prompt

العالم الفني والتواصل وكيف ندرك الواقع يتغير بسرعة. إذا نظرنا إلى تاريخ الابتكارات البشرية، قد نعتبر اختراع العجلة أو اكتشاف الكهرباء قفزات هائلة. اليوم، تحدث ثورة جديدة – جسر الفجوة بين الإبداع البشري وحوسبة الآلة. هذا هو الذكاء الاصطناعي التوليدي.

النماذج التوليدية قد أزالت الخط الفاصل بين البشر والآلات. مع ظهور نماذج مثل GPT-4، التي تستخدم وحدات التحويل، قمنا بخطوة إلى الأمام نحو توليد لغة طبيعية وغنية بالسياق. هذه التقدمات أدت إلى تطبيقات في إنشاء الوثائق وأحاديث نظام الحوار والتركيبات الموسيقية الاصطناعية.

القرارات الأخيرة للشركات الكبيرة تؤكد أهميتها..microsoft تعمل على إيقاف تطبيق Cortana هذا الشهر لتحديد الأولوية لابتكارات الذكاء الاصطناعي التوليدي الجديدة، مثل محادثة Bing. كما خصصت Apple جزءًا كبيرًا من ميزانيتها البحثية والتطويرية البالغة 22.6 مليار دولار للذكاء الاصطناعي التوليدي، كما أشارت إلى ذلك الرئيسة التنفيذية تيم كوك.

عصر جديد من النماذج: التوليدي مقابل التمييزي

قصة الذكاء الاصطناعي التوليدي لا تتعلق فقط بتطبيقاته ولكن بشكل أساسي بآليته الداخلية. في نظام الذكاء الاصطناعي، هناك نموذجان موجودان: التمييزي والتوليدي.

النماذج التمييزية هي ما يتعامل معه معظم الناس في الحياة اليومية. هذه الخوارزميات تأخذ بيانات الإدخال، مثل النص أو الصورة، وترتبط بناتج هدف، مثل ترجمة الكلمة أو التشخيص الطبي. إنها حول الخريطة والتنبؤ.

النماذج التوليدية، من ناحية أخرى، هي منشئات. لا تقوم فقط بالتفسير أو التنبؤ، بل تولد مخرجات جديدة ومعقدة من متجهات الأرقام التي غالبًا ما لا تتعلق حتى بقيم العالم الحقيقي.

 

أنواع الذكاء الاصطناعي التوليدي: نص إلى نص، نص إلى صورة (GPT، DALL-E، Midjourney)

التكنولوجيا وراء النماذج التوليدية

النماذج التوليدية تدين بوجودها للشبكات العصبية العميقة، وهي هياكل معقدة مصممة لمحاكاة وظيفة الدماغ البشري. من خلال التقاط ومعالجة التنوع المتعدد في البيانات، تعمل هذه الشبكات كالعصب الرئيسي للعديد من النماذج التوليدية.

كيف تأتي هذه النماذج التوليدية إلى الحياة؟ عادة ما يتم بناؤها باستخدام الشبكات العصبية العميقة، ومثالية لالتقاط التنوع المتعدد في البيانات. مثال رئيسي هو الشبكة التوليدية المنافسة (GAN)، حيث تتنافس شبكتان عصبيتان، المولد والمنفرد، وتتعلم من بعضهما البعض في علاقة معلم-طالب فريدة. من اللوحات إلى نقل الأسلوب، من تكوين الموسيقى إلى لعب الألعاب، هذه النماذج تتطور وتتوسع بطرق لم تكن متخيلة من قبل.

هذا لا يتوقف على GANs. المدمج التبايني (VAE) هو لاعب رئيسي آخر في مجال النماذج التوليدية. يبرز VAEs لقدرته على إنشاء صور فوتوغرافية واقعية من أرقام تبدو عشوائية. كيف؟ بمعالجة هذه الأرقام من خلال متجه كامن، يولد فنًا ي鏡 التعقيدات الجمالية البشرية.

أنواع الذكاء الاصطناعي التوليدي: نص إلى نص، نص إلى صورة

المتحولات واللغة الكبيرة

الورقة “الانتباه هو كل ما تحتاجه” بواسطة Google Brain أشار إلى تحول في كيفية تفكيرنا في نمذجة النص. بدلاً من الهياكل المعقدة والمتسلسلة مثل الشبكات العصبية المتكررة (RNNs) أو الشبكات العصبية التلافوية (CNNs)، أدخلت نموذج المتحول مفهوم الانتباه، الذي يعني بشكل أساسي التركيز على أجزاء مختلفة من النص الإدخالي بناءً على السياق. واحد من الفوائد الرئيسية لهذا كان سهولة التموازي. على عكس RNNs التي تمت معالجتها بشكل متسلسل، مما يجعلها أكثر صعوبة في التوسع، يمكن للمتحولات معالجة أجزاء من النص في نفس الوقت، مما يجعل التدريب أسرع وأكثر كفاءة على مجموعات بيانات كبيرة.

في نص طويل، ليس كل كلمة أو جملة تقرأ لها نفس الأهمية. بعض الأجزاء تطلب انتباهًا أكبر بناءً على السياق. هذه القدرة على تغيير تركيزنا بناءً على الأهمية هي ما يقلده آلية الانتباه.

للفهم هذا، فكر في جملة: “ينشر Unite AI أخبار الذكاء الاصطناعي والروبوتات.” الآن، التنبؤ بالكلمة التالية يتطلب فهم ما يهم أكثر في السياق السابق. مصطلح ‘الروبوتات’ قد يشير إلى أن الكلمة التالية قد تكون متعلقة bằng تقدم أو حدث معين في مجال الروبوتات، بينما قد يشير ‘ينشر’ إلى أن السياق التالي قد يتعمق في نشر مقال أو مقال حديث.

توضيح آلية الانتباه الذاتي على جملة تجريبية
توضيح الانتباه الذاتي

آليات الانتباه في المتحولات مصممة لتحقيق هذا التركيز الانتقائي. تقيس أهمية أجزاء مختلفة من النص الإدخالي وتقرر إلى哪里 “تنظر” عند توليد استجابة. هذا انفصال عن هياكل أقدم مثل RNNs التي حاولت ضغط جوهر كل نص إدخال إلى “حالة” أو “ذاكرة” واحدة.

يمكن مقارنة عمليات الانتباه بنظام استرجاع المفتاح والقيمة. في محاولة للتنبؤ بالكلمة التالية في جملة، تقدم كل كلمة سابقة “مفتاح” يشير إلى أهميتها المحتملة، و根据 مدى تطابق هذه المفاتيح مع السياق الحالي (أو الاستعلام)، تسهم “قيمة” أو وزن في التنبؤ.

تتألف هذه النماذج المتقدمة للذكاء الاصطناعي بشكل متكامل في تطبيقات متنوعة، من تحسين محرك البحث من Google مع BERT إلى GitHub’s Copilot، الذي يستخدم قدرة نماذج اللغة الكبيرة (LLMs) لتحويل مقتطفات التعليمات البرمجية البسيطة إلى شفرة مصدر كاملة الوظيفية.

النماذج الكبيرة للغة (LLMs) مثل GPT-4 و Bard و LLaMA هي هياكل ضخمة مصممة لفهم وتوليد لغة بشرية وبرمجة ومزيد من المعلومات. حجمها الهائل، الذي يتراوح من مليارات إلى تريليونات من المعاملات، هو واحد من السمات المميزة. يتم تغذية هذه LLMs بكميات هائلة من بيانات النص، مما يتيح لها فهم دقائق اللغة البشرية. سمة ملحوظة لهذه النماذج هي قدرتهم على “التعلم من القليل من الأمثلة“. على عكس النماذج التقليدية التي تحتاج إلى كميات كبيرة من بيانات التدريب المحددة، يمكن للنماذج LLMs تعميمها من عدد قليل من الأمثلة (أو “اللقطات”)

حالة النماذج الكبيرة للغة (LLMs) اعتبارًا من منتصف 2023

اسم النموذج المطور المعاملات التوافر والوصول الميزات والتعليقات البارزة
GPT-4 OpenAI 1.5 تريليون لا يوجد مصدر مفتوح، الوصول إلى واجهة برمجة التطبيقات فقط أداء مثير للإعجاب في مجموعة متنوعة من المهام يمكنه معالجة الصور والنص، طول الإدخال الأقصى 32,768 رمز
GPT-3 OpenAI 175 مليار لا يوجد مصدر مفتوح، الوصول إلى واجهة برمجة التطبيقات فقط أظهر القدرة على التعلم من القليل من الأمثلة والتعلم بدون أمثلة. يؤدي استكمال النص في اللغة الطبيعية.
BLOOM BigScience 176 مليار نموذج قابل للتحميل، واجهة برمجة تطبيقات مضيفة متاحة نموذج لغة كبير متعدد اللغات تم تطويره من خلال تعاون عالمي. يدعم 13 لغة برمجة.
LaMDA Google 173 مليار لا يوجد مصدر مفتوح، لا واجهة برمجة تطبيقات أو تحميل تم تدريبه على الحوار يمكنه التعلم للتحدث عن كل شيء تقريبًا
MT-NLG Nvidia/Microsoft 530 مليار وصول واجهة برمجة التطبيقات من خلال الطلب يستخدم هيكل Megatron القائم على المتحولات لمجموعة متنوعة من مهام معالجة اللغة الطبيعية.
LLaMA Meta AI 7B إلى 65B) نموذج قابل للتحميل من خلال الطلب مصمم لتجديد الديمقراطية في الذكاء الاصطناعي من خلال تقديم الوصول إلى أولئك في البحث والحكومة والاكاديمية.

كيف يتم استخدام LLMs؟

يمكن استخدام LLMs بطرق متعددة، بما في ذلك:

  1. الاستخدام المباشر: استخدام LLM مسبق التدريب للتحليل النصي أو توليده. على سبيل المثال، استخدام GPT-4 لكتابة مقال مدونة بدون أي تعديل إضافي.
  2. التحسين الدقيق: تعديل LLM مسبق التدريب لمهمة محددة، وهو أسلوب يعرف باسم التعلم التحويلي. مثال على ذلك تخصيص T5 لإنشاء ملخصات للوثائق في صناعة معينة.
  3. استرجاع المعلومات: استخدام LLMs، مثل BERT أو GPT، كجزء من هياكل أكبر لتطوير أنظمة يمكنها استرجاع وتصنيف المعلومات.
هندسة محادثة ChatGPT
هندسة محادثة ChatGPT

انتباه متعدد الرؤوس: لماذا واحد عندما يمكنك الحصول على العديد؟

ومع ذلك، الاعتماد على آلية انتباه واحدة يمكن أن يكون محدودًا. يمكن للأجزاء المختلفة من النص أو التسلسلات أن يكون لها أنواع مختلفة من العلاقات أو الارتباطات. यह هو حيث يأتي الانتباه المتعدد الرؤوس. بدلاً من مجموعة واحدة من أوزان الانتباه، يستخدم الانتباه المتعدد الرؤوس عدة مجموعات، مما يسمح للنموذج بتقاط مجموعة أوسع من العلاقات في النص الإدخالي. يمكن لكل “رأس” انتباه التركيز على أجزاء أو جوانب مختلفة من الإدخال، ويتم استخدام المعرفة المشتركة لجميعها للاستجابة النهائية.

ChatGPT: أداة الذكاء الاصطناعي التوليدي الأكثر شعبية

بدءًا من بداية GPT في عام 2018، تم بناء النموذج بشكل أساسي على أساس 12 طبقة و 12 رأس انتباه و 120 مليون معامل، تم تدريبه بشكل رئيسي على مجموعة بيانات تسمى BookCorpus. كان هذا بداية مثيرة للإعجاب، مما قدم نظرة على مستقبل نماذج اللغة.

GPT-2، الذي تم الكشف عنه في عام 2019، أظهر زيادة أربعة أضعاف في الطبقات وأرؤوس الانتباه. بشكل ملحوظ، ارتفع عدد المعاملات إلى 1.5 مليار. تم استخلاص الإصدار المحسن هذا من تدريبه على مجموعة بيانات WebText، وهي مجموعة بيانات غنية ب 40 جيجابايت من النص من روابط Reddit المختلفة.

GPT-3، الذي تم إطلاقه في مايو 2020، كان لديه 96 طبقة و 96 رأس انتباه وعدد معاملات ضخم يبلغ 175 مليار. ما ميز GPT-3 كان بياناته التدريبية المتنوعة، التي شملت CommonCrawl و WebText و ويكيبيديا الإنجليزية ومجموعات كتب أخرى، لتحقيق إجمالي 570 جيجابايت.

تظل تفاصيل كيفية عمل ChatGPT سرًا محروسًا. ومع ذلك، فإن عملية تدعى “التعلم التعزيزي من التغذية الراجعة البشرية” (RLHF) معروفة بأنها حاسمة. المنشأ من مشروع ChatGPT السابق، كانت هذه التقنية حاسمة في تعديل نموذج GPT-3.5 ليكون أكثر انسجامًا مع الإرشادات المكتوبة.

يتكون تدريب ChatGPT من نهج ثلاثي الطبقات:

  1. التحسين الدقيق الخاضع للإشراف: يتضمن تحضير مدخلات حوارية مكتوبة بخط اليد ومخرجات لتعديل نموذج GPT-3.5 الأساسي.
  2. نمذجة المكافأة: يصنف البشر مخرجات النموذج المختلفة بناءً على الجودة، مما يساعد في تدريب نموذج مكافأة يقييم كل مخرج بناءً على سياق المحادثة.
  3. التعلم التعزيزي: يخدم السياق المحادثي كخلفية حيث يقترح النموذج الأساسي استجابة. يتم تقييم هذه الاستجابة بواسطة نموذج المكافأة، ويتم تحسين العملية باستخدام خوارزمية تدعى تحسين السياسة القريبة (PPO).

لأولئك الذين يغمرون أقدامهم في ChatGPT، يمكن العثور على دليل بدء شامل هنا. إذا كنت ترغب في الغوص بشكل أعمق في هندسة التغذية الراجعة مع ChatGPT، لدينا أيضًا دليل متقدم يسلط الضوء على أحدث وأفضل تقنيات التغذية الراجعة، متاح في ‘ChatGPT & هندسة التغذية الراجعة المتقدمة: دفع تطور الذكاء الاصطناعي‘.

الانتشار والنماذج متعددة الوسائط

في حين تولد نماذج مثل VAEs و GANs مخرجاتها من خلال ممر واحد، وبالتالي قفلها في ما تنتجه، أدخلت نماذج الانتشار مفهوم “التحسين التكراري”. من خلال هذه الطريقة، تعود إلى الخلف، وتحسن الأخطاء من الخطوات السابقة، وتنتج تدريجيًا نتيجة أكثر تميزًا.

مركزي لنماذج الانتشار هو فن “التخريب” و “التحسين”. في مرحلة التدريب، يتم تدمير صورة نمطية بشكل تدريجي بإضافة مستويات مختلفة من الضوضاء. ثم يتم إطعام هذه النسخة الحساسة إلى النموذج، الذي يحاول “تنقية” أو “إزالة التخريب” منها. من خلال جولات متعددة من هذا، يصبح النموذج ماهرًا في الاستعادة، ويفهم التغييرات الدقيقة والكبيرة.

صورة تم إنشاؤها بواسطة Midjourney
صورة تم إنشاؤها بواسطة Midjourney

عملية توليد صور جديدة بعد التدريب مثيرة. بدءًا من إدخال عشوائي完全، يتم تحسينه باستمرار باستخدام تنبؤات النموذج. الهدف هو تحقيق صورة مثالية مع عدد أقل من الخطوات. يتم التحكم في مستوى التخريب من خلال “جدول الضوضاء”، وهو آلي يحدد طبيعة هذه النسخ الحساسة بناءً على الخوارزميات المثبتة.

هيكل معماري أساسي لنماذج الانتشار هو U-Net – شبكة عصبية تلافوية مصممة لمهام تتطلب مخرجات تعكس بعدًا مكانيًا للإدخالات. إنه مزيج من طبقات التقليل والزيادة، متصلة بطرق معقدة للاحتفاظ بالبيانات عالية الدقة، حاسمة لمخرجات الصور.
تجاوزًا إلى عالم النماذج التوليدية، يبرز DALL-E 2 من OpenAI كأمثلة على اندماج القدرات النصية والبصرية للذكاء الاصطناعي. يستخدم هيكلًا ثلاثي الطبقات:

DALL-E 2 يظهر هيكلًا ثلاثي الطبقات:

  1. مُشفر النص: يحول الإشارة النصية إلى تضمين مفهومي في فضاء كامن. لا يبدأ هذا النموذج من الصفر. إنه يعتمد على مجموعة بيانات OpenAI للتدريب المسبق للغة والصورة (CLIP) كأساس له. يخدم CLIP كجسر بين البيانات البصرية والنصية من خلال تعلم المفاهيم البصرية باستخدام اللغة الطبيعية. من خلال آلية تدعى التعلم التبايني، يحدد ويتوافق مع الصور ووصفها النصي.
  2. المُسبق: يتم تحويل تضمين النص المشتق من المُشفر إلى تضمين صورة. قام DALL-E 2 باختبار كلاً من الطرق التوليدية والانتشارية لهذه المهمة، مع ظهور نتائج أفضل للطريقة الثانية. النماذج التوليدية، كما هو موضح في المتحولات و PixelCNN، تولد مخرجات تسلسليًا. من ناحية أخرى، نماذج الانتشار، مثل تلك المستخدمة في DALL-E 2، تحول الضوضاء العشوائية إلى تضمين صورة متوقع مع مساعدة تضمين النص.
  3. المُفسر:这是 نهاية العملية، وهي توليد الإخراج البصري النهائي بناءً على الإشارة النصية وتضمين الصورة من مرحلة المُسبق. يدين هيكل مُفسر DALL-E 2 بعمارة إلى نموذج آخر، GLIDE، الذي يمكنه أيضًا إنتاج صور واقعية من الإشارات النصية.
هيكل نموذج DALL-E (نموذج متعدد الانتشار)
هيكل مبسط لنموذج DALL-E

يجب على مستخدمي Python المهتمين بـ Langchain التحقق من دروسنا التفصيلية التي تغطي كل شيء من الأساسيات إلى التقنيات المتقدمة.

تطبيقات الذكاء الاصطناعي التوليدي

المجالات النصية

ابتداءً من النص، تم تغيير الذكاء الاصطناعي التوليدي بشكل أساسي بواسطة محادثات مثل ChatGPT. يعتمد بشكل كبير على معالجة اللغة الطبيعية (NLP) ونماذج اللغة الكبيرة (LLMs)، هذه الكيانات قادرة على أداء مهام تتراوح من توليد الشفرة وترجمة اللغة إلى تلخيص وتحليل المشاعر. لقد شهد ChatGPT انتشارًا على نطاق واسع، ليصبح جزءًا لا يتجزأ من ملايين الأشخاص. يتم تعزيز هذا من خلال منصات الذكاء الاصطناعي المحادثي، التي تستند إلى LLMs مثل GPT-4 و PaLM و BLOOM، التي تنتج بسهولة النص وتساعد في البرمجة وتقدم حتى التفكير الرياضي.

من منظور تجاري، هذه النماذج تصبح لا تقدر بثمن. تستخدم الشركات هذه النماذج لمجموعة من العمليات، بما في ذلك إدارة المخاطر وتنظيم المخزون وتوقعات الطلب. بعض الأمثلة البارزة تشمل Bing AI و Google’s BARD و ChatGPT API.

الفن

عالم الصور شهد تحولات دراماتيكية بالذكاء الاصطناعي التوليدي، خاصة منذ إدخال DALL-E 2 في عام 2022. هذه التكنولوجيا، التي يمكنها توليد صور من الإشارات النصية، لها آثار فنية ومهنية. على سبيل المثال، استفاد Midjourney من هذه التقنية لإنشاء صور واقعية بشكل مثير للإعجاب. هذا المنشور الأخير يفسр Midjourney في دليل مفصل، يوضح منصة Prompt Engineering وأسرارها. بالإضافة إلى ذلك، تستخدم منصات مثل Alpaca AI و Photoroom AI الذكاء الاصطناعي التوليدي لمهام تحرير الصور المتقدمة مثل إزالة الخلفية وازالة الكائنات و حتى استعادة الوجه.

إنتاج الفيديو

إنتاج الفيديو، على الرغم من أنه لا يزال في مرحلته الأولى في مجال الذكاء الاصطناعي التوليدي، يظهر تقدمًا واعدًا. منصات مثل Imagen Video و Meta Make A Video و Runway Gen-2 تدفع حدود ما هو ممكن، حتى لو كانت المخرجات الواقعية لا تزال على الأفق. تقدم هذه النماذج فائدة كبيرة لإنشاء فيديوهات رقمية بشرية، مع تطبيقات مثل Synthesia و SuperCreator في الطليعة. يُلاحظ أن Tavus AI يقدم قيمة مضافة فريدة من خلال تخصيص الفيديوهات لأفراد الجمهور الفرديين، وهو ما يفيد الشركات.

إنشاء الشفرة

البرمجة، جانب لا غنى عنه من عالمنا الرقمي، لم يبق مصونًا من الذكاء الاصطناعي التوليدي. على الرغم من أن ChatGPT هو أداة مفضلة، تم تطوير تطبيقات الذكاء الاصطناعي الأخرى لأغراض البرمجة. هذه المنصات، مثل GitHub Copilot و Alphacode و CodeComplete، تعمل كمساعدين للبرمجة ويمكن حتى توليد الشفرة من الإشارات النصية. ما يثير الاهتمام هو قابلية تخصيص هذه الأدوات. يمكن تخصيص Codex، الذي يُشكل قوة دفع ل GitHub Copilot، لنمط برمجة الفرد، مما يؤكد إمكانية تخصيص الذكاء الاصطناعي التوليدي.

الختام

بدمج الإبداع البشري وحوسبة الآلة، تطور إلى أداة لا تقدر بثمن، مع منصات مثل ChatGPT و DALL-E 2 التي تدفع حدود ما هو ممكن. من إنشاء المحتوى النصي إلى تشكيل تحف بصرية، تطبيقاتها واسعة ومتنوعة.

كما هو الحال مع أي تكنولوجيا، فإن الآثار الأخلاقية لها أهمية قصوى. في حين يعد الذكاء الاصطناعي التوليدي وعدًا بالابداع غير المحدود، من المهم استخدامه بشكل مسؤول، مع الوعي بالتحيزات المحتملة وقوة التلاعب بالبيانات.

مع توفر أدوات مثل ChatGPT، أصبح الآن الوقت المثالي لاختبار المياه وتجربة الذكاء الاصطناعي التوليدي. سواء كنت فنانًا أو مبرمجًا أو متحمسًا للتكنولوجيا، فإن عالم الذكاء الاصطناعي التوليدي يزخر بالفرص التي تنتظر الاستكشاف. الثورة ليست على الأفق؛ إنها هنا الآن. لذا، انغمس!

لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من تعلم الآلة والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا للهندسة البرمجية متنوعًا، مع التركيز بشكل خاص على الذكاء الاصطناعي / تعلم الآلة. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا حريص على استكشافه بشكل أكبر.