الذكاء الاصطناعي

الذكاء الاصطناعي التوليدي: الفكرة وراء CHATGPT و Dall-E و Midjourney وغيرها

mm
Generative AI - Midjourney Prompt

عالم الفن والتواصل وكيف ندرك الواقع يتغير بسرعة. إذا نظرنا إلى تاريخ الابتكارات البشرية، قد نعتبر اختراع العجلة أو اكتشاف الكهرباء قفزات هائلة. اليوم، ثورة جديدة تحدث – تقارب الفجوة بين الإبداع البشري والحوسبة الآلية. هذا هو الذكاء الاصطناعي التوليدي.

أصبح النموذج التوليدي قد حدا بالخط الفاصل بين البشر والآلات. مع ظهور نماذج مثل GPT-4، التي تستخدم وحدات التランスفورمر، قمنا بخطوة إلى الأمام في توليد اللغة الطبيعية والغنية بالسياق. هذه التقدمات أدت إلى تطبيقات في إنشاء الوثائق وأنظمة الحوار في الدردشة و thậmن في تكوين الموسيقى الاصطناعية.

تؤكد قرارات الشركات الكبيرة على أهميتها. قامت مايكروسوفت بإيقاف تطبيق Cortana هذا الشهر لتوجيه تركيزها إلى ابتكارات الذكاء الاصطناعي التوليدي الجديدة، مثل Bing Chat. كما خصصت أبل جزءًا كبيرًا من ميزانيتها البحثية والتطويرية البالغة 22.6 مليار دولار للذكاء الاصطناعي التوليدي، كما أشار الرئيس التنفيذي تيم كوك.

عصر جديد من النماذج: التوليدي مقابل التمييزي

قصة الذكاء الاصطناعي التوليدي ليست فقط عن تطبيقاته، ولكن بشكل أساسي عن آليته الداخلية. في نظام الذكاء الاصطناعي، هناك نموذجان: التمييزي والتوليدي.

النماذج التمييزية هي ما يلاقي معظم الناس في الحياة اليومية. هذه الخوارزميات تأخذ بيانات الإدخال، مثل النص أو الصورة، وتقترنها بناتج هدف، مثل ترجمة الكلمة أو التشخيص الطبي. إنها حول الخريطة والتنبؤ.

أما النماذج التوليدية، فهي منشئات. لا تقوم فقط بالتفسير أو التنبؤ، بل تولد مخرجات جديدة ومعقدة من متجهات الأرقام التي غالبًا ما لا تتعلق حتى بالقيم الحقيقية في العالم.

 

أنواع الذكاء الاصطناعي التوليدي: النص إلى النص، النص إلى الصورة (GPT، DALL-E، Midjourney)

التكنولوجيا وراء النماذج التوليدية

تستمد النماذج التوليدية وجودها من الشبكات العصبية العميقة، وهي هياكل معقدة مصممة لمحاكاة وظيفة الدماغ البشري. من خلال التقاط ومعالجة التباين المتعدد في البيانات، تعمل هذه الشبكات كالعصب الأساسي للعديد من النماذج التوليدية.

كيف تأتي هذه النماذج التوليدية إلى الحياة؟ عادة ما يتم بناؤها باستخدام الشبكات العصبية العميقة، ومحسنة لالتقاط التباين المتعدد في البيانات. مثال رئيسي هو الشبكة التوليدية المعادية (GAN)، حيث تتنافس شبكتان عصبيتان، الشبكة التوليدية والشبكة التمييزية، وتتعلم من بعضهما البعض في علاقة معلم-طالب فريدة. من اللوحات إلى نقل الأسلوب، من تكوين الموسيقى إلى لعب الألعاب، هذه النماذج تتطور وتتوسع بطرق كانت غير متخيلة من قبل.

لا يتوقف الأمر عند الشبكات التوليدية المعادية. الشبكات التوليدية المتغيرة (VAEs) هي لاعب رئيسي آخر في مجال النماذج التوليدية. تتميز الشبكات التوليدية المتغيرة بقدرتها على إنشاء صور فوتوغرافية واقعية من أرقام تبدو عشوائية. كيف؟ من خلال معالجة هذه الأرقام من خلال متجه كامن، تُولد الفن الذي يعكس تعقيدات الجمال البشري.

أنواع الذكاء الاصطناعي التوليدي: النص إلى النص، النص إلى الصورة

التランスفورمر والنموذج اللغوي الكبير

أدت ورقة “الانتباه هو كل ما تحتاجه” من قبل فريق جوجل برين إلى تحول في كيفية تفكيرنا في نمذجة النص. بدلاً من الهياكل المعقدة والمتسلسلة مثل الشبكات العصبية المتكررة (RNNs) أو الشبكات العصبية التلافية (CNNs)، أدخل نموذج التランスفورمر مفهوم الانتباه، الذي يعني أساسًا التركيز على أجزاء مختلفة من النص الإدخالي اعتمادًا على السياق. واحدة من الفوائد الرئيسية لهذا كان سهولة التموازي. على عكس الشبكات العصبية المتكررة التي تعالج النص بشكل متسلسل، مما يجعلها أكثر صعوبة في التوسع، يمكن للترانسفورمرات معالجة أجزاء من النص في نفس الوقت، مما يجعل التدريب أسرع وأكثر كفاءة على مجموعات بيانات كبيرة.

هيكل نموذج التランスفورمر

في نص طويل، ليس كل كلمة أو جملة تقرأها لها نفس الأهمية. بعض الأجزاء تتطلب انتباهًا أكبر بناءً على السياق. هذا ما يقلده آلية الانتباه.

للفهم، فكر في جملة: “Unite AI ينشر أخبار الذكاء الاصطناعي والروبوتات.” التنبؤ بالكلمة التالية يتطلب فهمًا لما يهم أكثر في السياق السابق. مصطلح ‘الروبوتات’ قد يُشير إلى أن الكلمة التالية قد تكون متعلقة بتطور أو حدث معين في مجال الروبوتات، بينما قد يشير ‘ينشر’ إلى أن السياق التالي قد يغوص في نشر مقال أو موضوع معين.

توضيح آلية الانتباه الذاتي على جملة تجريبية
توضيح الانتباه الذاتي

آليات الانتباه في التランスفورمر مصممة لتحقيق هذا التركيز الانتقائي. تقيس أهمية أجزاء مختلفة من النص الإدخالي وتقرر إلى哪里 “تنظر” عند توليد استجابة. هذا انحراف عن الهياكل القديمة مثل الشبكات العصبية المتكررة التي حاولت ضغط جوهر النص الإدخالي في “حالة” أو “ذاكرة” واحدة.

يمكن مقارنة آلية الانتباه بنظام استرجاع المفتاح والقيمة. عند محاولة التنبؤ بالكلمة التالية في الجملة، كل كلمة سابقة تقدم “مفتاحًا” يُشير إلى أهميتها المحتملة، واعتمادًا على كيفية مطابقة هذه المفاتيح للسياق الحالي (أو الاستعلام)، تسهم في “قيمة” أو وزن للتنبؤ.

تتضمن هذه النماذج المتقدمة للتعلم العميق دمجًا سلسًا في تطبيقات متعددة، من تحسين محرك البحث جوجل مع BERT إلى Copilot من GitHub، الذي يستفيد من قدرة النماذج اللغوية الكبيرة (LLMs) لتحويل شفرة بسيطة إلى شفرة مصدر كاملة.

النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 وBard وLLaMA هي هياكل هائلة مصممة لفهم وتوليد اللغة البشرية والشفرة والمزيد. حجمها الهائل، الذي يتراوح بين مليارات وتريليونات المعاملات، هو واحدة من الميزات المميزة. هذه النماذج اللغوية الكبيرة يتم تغذيتها بمقدار هائل من بيانات النص، مما يُمكنها من فهم دقائق اللغة البشرية. سمة بارزة لهذه النماذج هي قدرتها على “التعلم القليل“. على عكس النماذج التقليدية التي تحتاج إلى كميات كبيرة من بيانات التدريب المحددة، يمكن للنماذج اللغوية الكبيرة تعميمها من عدد قليل من الأمثلة (أو “إطلاق النار”).

حالة النماذج اللغوية الكبيرة (LLMs) اعتبارًا من منتصف 2023

اسم النموذج المطور المعاملات التوافر والوصول الميزات والتعليقات البارزة
GPT-4 OpenAI 1.5 تريليون لا يوجد مصدر مفتوح، الوصول عبر واجهة برمجة التطبيقات فقط أداء مثير في مجموعة متنوعة من المهام، يمكنه معالجة الصور والنص، طول المدخلات الأقصى 32,768 رمز
GPT-3 OpenAI 175 مليار لا يوجد مصدر مفتوح، الوصول عبر واجهة برمجة التطبيقات فقط أظهر القدرة على التعلم القليل والتعلم بدون إطلاق نار. يؤدي استكمال النص في اللغة الطبيعية.
BLOOM BigScience 176 مليار نموذج قابل للتحميل، واجهة برمجة تطبيقات مضيفة متاحة نموذج لغوي متعدد اللغات تم تطويره من خلال تعاون عالمي. يدعم 13 لغة برمجة.
LaMDA جوجل 173 مليار لا يوجد مصدر مفتوح، لا واجهة برمجة تطبيقات أو تحميل تم تدريبه على الحوار، يمكنه تعلم التحدث عن كل شيء تقريبًا.
MT-NLG Nvidia/Microsoft 530 مليار الوصول عبر واجهة برمجة التطبيقات عبر الطلب يستخدم هيكل Megatron القائم على التランスفورمر لمجموعة متنوعة من مهام معالجة اللغة الطبيعية.
LLaMA Meta AI 7B إلى 65B) النموذج قابل للتحميل عبر الطلب مصمم لتدمج الديمقراطية في الذكاء الاصطناعي من خلال تقديم الوصول إلى الأبحاث والحكومات والجامعات.

كيف يتم استخدام النماذج اللغوية الكبيرة؟

يمكن استخدام النماذج اللغوية الكبيرة بطرق متعددة، بما في ذلك:

  1. الاستخدام المباشر: استخدام نموذج لغوي كبير مدرب مسبقًا لأغراض توليد النص أو معالجته. على سبيل المثال، استخدام GPT-4 لكتابة مقال دون أي تعديل إضافي.
  2. التحسين الدقيق: تعديل نموذج لغوي كبير مدرب مسبقًا ل任务 معين، وهي طريقة تعرف باسم التعلم النقل. مثال على ذلك هو تخصيص T5 لتوليد ملخصات للوثائق في صناعة معينة.
  3. استرجاع المعلومات: استخدام النماذج اللغوية الكبيرة، مثل BERT أو GPT، كجزء من هياكل أكبر لتطوير أنظمة يمكنها استرجاع وتصنيف المعلومات.
هندسة الدفع في ChatGPT
هندسة الدفع في ChatGPT

انتباه متعدد الرؤوس: لماذا واحد عندما يمكنك иметь العديد؟

ومع ذلك، الاعتماد على آلية انتباه واحدة يمكن أن يكون محدودًا. يمكن للأجزاء المختلفة أو التسلسلات في النص أن يكون لها أنواع مختلفة من الأهمية أو الارتباطات. यह هو حيث يأتي الانتباه متعدد الرؤوس. بدلاً من مجموعة واحدة من أوزان الانتباه، يستخدم الانتباه متعدد الرؤوس مجموعات متعددة، مما يسمح للنموذج بتقدير مجموعة أوسع من العلاقات في النص الإدخالي. يمكن لكل “رأس” من الانتباه التركيز على أجزاء أو جوانب مختلفة من الإدخال، ويتم استخدام المعرفة المشتركة لجميع الرؤوس لتحديد النتائج النهائية.

ChatGPT: أداة الذكاء الاصطناعي التوليدي الأكثر شعبية

بدءًا من إنشاء GPT في عام 2018، تم بناء النموذج أساسًا على أساس 12 طبقة و12 رأس انتباه و120 مليون معامل، تم تدريبه في الغالب على مجموعة بيانات BookCorpus. كان هذا بداية مثيرة، حيث قدم نظرة على مستقبل نماذج اللغة.

GPT-2، الذي تم الكشف عنه في عام 2019، تميز بزيادة أربعة أضعاف في الطبقات ورؤوس الانتباه. بشكل ملحوظ، ارتفع عدد المعاملات إلى 1.5 مليار. تم استخلاص الإصدار المعزز هذا من مجموعة بيانات WebText، التي تحتوي على 40 جيجابايت من النص من روابط Reddit مختلفة.

تم إطلاق GPT-3 في مايو 2020، وكان يحتوي على 96 طبقة و96 رأس انتباه وعدد معاملات ضخم يبلغ 175 مليار. ما ميز GPT-3 كان تنوع بيانات التدريب، التي شملت CommonCrawl وWebText وويكيبيديا الإنجليزية ومجموعات كتب أخرى، لتحقيق إجمالي 570 جيجابايت.

تظل تفاصيل عمل ChatGPT سرية. ومع ذلك، يُعرف أن عملية “التعلم بالتعزيز من التغذية الراجعة البشرية” (RLHF) تلعب دورًا حيويًا. المنشأ من مشروع ChatGPT السابق، كانت هذه التقنية حاسمة في تحسين نموذج GPT-3.5 ليكون أكثر مطابقة للإرشادات المكتوبة.

يتكون تدريب ChatGPT من نهج ثلاثي المراحل:

  1. التحسين الدقيق الخاضع للإشراف: يتضمن تحضير مدخلات ومخرجات محادثة مكتوبة من قبل البشر لتحسين نموذج GPT-3.5 الأساسي.
  2. نمذجة المكافأة: يقوم البشر بترتيب مخرجات مختلفة للنموذج بناءً على الجودة، مما يساعد في تدريب نموذج مكافأة يُقيم كل مخرج بناءً على سياق المحادثة.
  3. التعلم بالتعزيز: يُستخدم سياق المحادثة كخلفية حيث يقترح النموذج الأساسي استجابة. يتم تقييم هذه الاستجابة بواسطة نموذج المكافأة، ويتم تحسين العملية باستخدام خوارزمية تعرف باسم تحسين السياسة القريبة (PPO).

للمستخدمين الجدد في ChatGPT، يمكن العثور على دليل بدء شامل هنا. إذا كنت ترغب في الغوص أعمق في هندسة الدفع مع ChatGPT، لدينا دليل متقدم يسلط الضوء على أحدث وأفضل تقنيات الدفع، متاح في ‘ChatGPT & هندسة الدفع المتقدمة: دفع ثورة الذكاء الاصطناعي‘.

الانمازج والنمذج المتعددة الوسائط

في حين أن نماذج مثل VAEs وGANs تولد مخرجاتها من خلال ممر واحد، وبالتالي مقيدة بما تنتجه، أدخلت نماذج الانمازج مفهوم “التحسين التكراري”. من خلال هذه الطريقة، تعود إلى الخلف، وتحسن الأخطاء من الخطوات السابقة، وتنتج تدريجيًا نتيجة أكثر تطورًا.

الأساسي في نماذج الانمازج هو فن “التخريب” و”التحسين”. في مرحلة التدريب، يتم تدهور صورة نموذجية بشكل تدريجي بإضافة مستويات مختلفة من الضوضاء. ثم يتم تغذية هذه الصورة الملطخة بالضوضاء إلى النموذج، الذي يحاول “تنظيفها” أو “إصلاحها”. من خلال دورات متعددة من هذا، يصبح النموذج ماهرًا في الاستعادة، ويفهم التباين الدقيق والكبير في البيانات.

صورة تم إنشاؤها من Midjourney
صورة تم إنشاؤها من Midjourney

عملية توليد صور جديدة بعد التدريب مثيرة. تبدأ بمدخلات عشوائية تمامًا، وتتم المعالجة المستمرة باستخدام توقعات النموذج. الهدف هو تحقيق صورة مثالية بأقل عدد من الخطوات. يتم التحكم في مستوى التخريب بواسطة “جدول الضوضاء”، وهو آلية تحدد طبيعة هذه الصور الملطخة بالضوضاء بناءً على خوارزميات محددة. يمكن لمكتبات مثل “Diffusers” أن تدير طبيعة هذه الصور الملطخة بالضوضاء بناءً على خوارزميات محددة.

الهيكل المعماري الرئيسي للعديد من نماذج الانمازج هو UNet — شبكة عصبية تلافية مصممة لمهام تتطلب مخرجات ت镜ر بعد الأبعاد المكانية للمدخلات. وهي مزيج من طبقات التنزيل والتحميل، متصلة بطرق معقدة للاحتفاظ بالبيانات عالية الدقة، مما هو حاسم لمخرجات الصور.

بالغوص أعمق في عالم النماذج التوليدية، يبرز DALL-E 2 من OpenAI كنموذج رائع لدمج القدرات اللغوية والبصرية للذكاء الاصطناعي. يعتمد على هيكل ثلاثي المراحل:

يتميز DALL-E 2 بهيكل ثلاثي المراحل:

  1. مُشفر النص: يحول الدفع النصي إلى تضمين مفهومي في فضاء كامن. لا يبدأ هذا النموذج من الصفر. إنه يعتمد على مجموعة بيانات جوجل للتدريب المسبق على اللغة والصورة (CLIP) كأساس. تعمل CLIP كجسر بين البيانات البصرية والنصية من خلال تعلم المفاهيم البصرية باستخدام اللغة الطبيعية. من خلال آلية تعرف باسم التعلم التبايني، تحدد وتطابق الصور مع وصفها النصي.
  2. النموذج الأولي: يتم تحويل التضمين النصي المشتق من المشفر إلى تضمين صورة. قام DALL-E 2 باختبار الطرق التوليدية والانمازجية لهذه المهمة، مع ظهور نتائج أفضل للطريقة الانمازجية. النماذج التوليدية، كما هو الحال في التランスفورمرات وPixelCNN، تولد مخرجات بشكل تسلسلي. من ناحية أخرى، النماذج الانمازجية، مثل تلك المستخدمة في DALL-E 2، تحول الضوضاء العشوائية إلى تضمينات صورة متوقعة بمساعدة تضمينات النص.
  3. المشفر:这是 المرحلة النهائية، حيث يتم توليد الإخراج البصري النهائي بناءً على الدفع النصي وتضمين الصورة من مرحلة النموذج الأولي. يعتمد فكاك DALL-E 2 على هيكل نموذج آخر، GLIDE، الذي يمكنه أيضًا إنتاج صور واقعية من إشارات نصية.
هيكل نموذج DALL-E (نموذج انمازج متعدد)
هيكل مبسط لنموذج DALL-E

يجب على مستخدمي Python المهتمين ب Langchain التحقق من دروسنا المفصلة التي تغطي كل شيء من الأساسيات إلى التقنيات المتقدمة.

تطبيقات الذكاء الاصطناعي التوليدي

النطاقات النصية

ابتداءً من النص، قام الذكاء الاصطناعي التوليدي بتحويله بشكل جذري، خاصة مع ظهور الدردشات مثل ChatGPT. يعتمد هذه الكيانات بشكل كبير على معالجة اللغة الطبيعية والنماذج اللغوية الكبيرة، مما يُمكنها من أداء مهام تتراوح من توليد الشفرة وترجمة اللغة إلى تلخيص النص وتحليل المشاعر. لقد أصبح ChatGPT مستخدمًا على نطاق واسع، وأصبح معلمًا لملايين الأشخاص. يتم تعزيز ذلك من خلال منصات الذكاء الاصطناعي الدردشي، التي تعتمد على النماذج اللغوية الكبيرة مثل GPT-4 وPaLM وBLOOM، التي تنتج بسهولة النص والشفرة وتقدم استدلالات رياضية.

من منظور تجاري، أصبحت هذه النماذج قيّمة. تستخدم الشركات هذه النماذج لمجموعة متنوعة من العمليات، بما في ذلك إدارة المخاطر وتنسيق المخزون وتوقعات الطلب. بعض الأمثلة البارزة تشمل Bing AI وGoogle’s BARD وChatGPT API.

الفن

شهد عالم الصور تحولات دراماتيكية مع الذكاء الاصطناعي التوليدي، خاصة منذ إدخال DALL-E 2 في عام 2022. هذه التكنولوجيا، التي يمكنها توليد صور من دفعات نصية، لها آثار فنية ومهنية. على سبيل المثال، استفاد Midjourney من هذه التكنولوجيا لإنشاء صور واقعية بشكل مثير. هذا المنشور يشرح Midjourney في دليل مفصل، يوضح平台 وتنقيحات هندسة الدفع. بالإضافة إلى ذلك، تستخدم منصات مثل Alpaca AI وPhotoroom AI الذكاء الاصطناعي التوليدي لمهام تحرير الصور المتقدمة مثل إزالة الخلفية وإزالة الكائنات و حتى استعادة الوجه.

إنتاج الفيديو

إنتاج الفيديو، على الرغم من كونه في مرحلة مبكرة في مجال الذكاء الاصطناعي التوليدي، يُظهر تقدمًا واعدًا. منصات مثل Imagen Video وMeta Make A Video وRunway Gen-2 ت拓ع حدود ما هو ممكن، حتى لو كانت المخرجات الواقعية لا تزال على الأفق. تقدم هذه النماذج فائدة كبيرة لإنشاء فيديوهات رقمية، مع تطبيقات مثل Synthesia وSuperCreator تقود الطريق. بشكل ملحوظ، يقدم Tavus AI ميزة فريدة من خلال تخصيص الفيديوهات لأفراد الجمهور، مما يُعدّ نعمة للشركات.

إنشاء الشفرة

البرمجة، جانب لا غنى عنه في عالمنا الرقمي، لم يبق مصونًا من تأثير الذكاء الاصطناعي التوليدي. على الرغم من أن ChatGPT هو أداة مفضلة، تم تطوير تطبيقات الذكاء الاصطناعي الأخرى لأغراض البرمجة. تعمل هذه المنصات، مثل GitHub Copilot وAlphacode وCodeComplete، كمساعدين في البرمجة ويمكن حتى توليد شفرة من دفعات نصية. ما يثير الاهتمام هو قابلية هذه الأدوات للتكيف. يمكن تعديل Codex، الذي يقود GitHub Copilot، ليناسب أسلوب برمجة الفرد، مما يُظهر إمكانات التخصيص في الذكاء الاصطناعي التوليدي.

الخلاصة

بدمج الإبداع البشري والحوسبة الآلية، تطورت إلى أداة قيمة، مع منصات مثل ChatGPT وDALL-E 2 تدفع حدود ما هو ممكن. من صياغة المحتوى النصي إلى نحت أعمال فنية بصرية، تطبيقاتها واسعة ومتنوعة.

كما هو الحال مع أي تكنولوجيا، فإن الآثار الأخلاقية لها أهمية كبيرة. في حين يعد الذكاء الاصطناعي التوليدي واعدًا بالإبداع غير المحدود، من المهم استخدامه بشكل مسؤول، مع الوعي بالتحيزات المحتملة وطاقة تحرير البيانات.

مع توفر أدوات مثل ChatGPT، أصبح الوقت المثالي لاختبار المياه وتجربة الذكاء الاصطناعي التوليدي. سواء كنت فنانًا أو مبرمجًا أو متحمسًا للتكنولوجيا، فإن عالم الذكاء الاصطناعي التوليدي يزخر بالفرص التي تنتظر الاستكشاف. الثورة ليست على الأفق؛ إنها هنا الآن. لذا، انغمر!

لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من التعلم الآلي والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا في هندسة البرمجيات، مع التركيز بشكل خاص على الذكاء الاصطناعي والتعلم الآلي. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا متحمس لاستكشافه بشكل أكبر.