رطم الذكاء الاصطناعي التوليدي: الفكرة وراء CHATGPT و Dall-E و Midjourney والمزيد - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

الذكاء الاصطناعي التوليدي: الفكرة وراء CHATGPT و Dall-E و Midjourney والمزيد

mm
تحديث on
الذكاء الاصطناعي التوليدي - موجه Midjourney

يتغير عالم الفن والتواصل وكيف ندرك الواقع بسرعة. إذا نظرنا إلى تاريخ الابتكار البشري ، فقد نعتبر اختراع العجلة أو اكتشاف الكهرباء قفزات هائلة. اليوم ، تحدث ثورة جديدة - لسد الفجوة بين الإبداع البشري وحساب الآلة. هذا هو الذكاء الاصطناعي التوليدي.

لقد طمست النماذج التوليدية الخط الفاصل بين البشر والآلات. مع ظهور نماذج مثل GPT-4 ، التي تستخدم وحدات المحولات ، اقتربنا من توليد اللغة الطبيعية والغنية بالسياق. عززت هذه التطورات التطبيقات في إنشاء المستندات ، وأنظمة حوار روبوتات الدردشة ، وحتى تكوين الموسيقى الاصطناعية.

تؤكد قرارات Big-Tech الأخيرة على أهميتها. مايكروسوفت بالفعل إيقاف تطبيق Cortana هذا الشهر لإعطاء الأولوية لابتكارات الذكاء الاصطناعي الأحدث ، مثل Bing Chat. كما خصصت Apple جزءًا كبيرًا من 22.6 مليار دولار ميزانية البحث والتطوير لتوليد الذكاء الاصطناعي ، كما أشار الرئيس التنفيذي تيم كوك.

حقبة جديدة من النماذج: Generative Vs. تمييزي

لا تتعلق قصة الذكاء الاصطناعي التوليفي بتطبيقاته فحسب ، بل تدور في الأساس حول طريقة عمله الداخلية. في النظام البيئي للذكاء الاصطناعي ، يوجد نموذجان: تمييزي وتوليدي.

النماذج التمييزية هي ما يواجهه معظم الناس في حياتهم اليومية. تأخذ هذه الخوارزميات بيانات الإدخال ، مثل نص أو صورة ، وتقوم بإقرانها بإخراج مستهدف ، مثل ترجمة الكلمات أو التشخيص الطبي. يتعلق الأمر برسم الخرائط والتنبؤ.

من ناحية أخرى ، فإن النماذج التوليدية هي منشئو المحتوى. إنهم لا يفسرون أو يتوقعون فقط ؛ إنهم يولدون مخرجات جديدة ومعقدة من نواقل الأرقام التي لا ترتبط في كثير من الأحيان بقيم العالم الحقيقي.

 

أنواع الذكاء الاصطناعي التوليدية: نص إلى نص ، نص إلى صورة (GPT ، DALL-E ، Midjourney)

التقنيات وراء النماذج التوليدية

تدين النماذج التوليدية بوجودها إلى الشبكات العصبية العميقة ، والبنى المتطورة المصممة لتقليد وظائف الدماغ البشري. من خلال التقاط ومعالجة الاختلافات متعددة الأوجه في البيانات ، تعمل هذه الشبكات بمثابة العمود الفقري للعديد من النماذج التوليدية.

كيف تظهر هذه النماذج التوليدية في الحياة؟ عادةً ما يتم بناؤها باستخدام شبكات عصبية عميقة ، مُحسَّنة لالتقاط الاختلافات متعددة الأوجه في البيانات. مثال رئيسي هو شبكة الخصومة التوليدية (GAN) ، حيث تتنافس شبكتان عصبيتان ، المولد والمميز ، وتتعلم من بعضهما البعض في علاقة فريدة بين المعلم والطالب. من اللوحات إلى نقل الأسلوب ، من التأليف الموسيقي إلى اللعب ، تتطور هذه النماذج وتتوسع بطرق لم يكن من الممكن تصورها من قبل.

هذا لا يتوقف مع شبكات GAN. المُشفرات التلقائية المتغيرة (VAEs) ، هي لاعب محوري آخر في مجال النموذج التوليدي. تبرز VAEs لقدرتها على إنشاء صور واقعية من أرقام تبدو عشوائية. كيف؟ تؤدي معالجة هذه الأرقام من خلال ناقل كامن إلى ولادة فن يعكس تعقيدات جماليات الإنسان.

أنواع الذكاء الاصطناعي التوليدية: نص إلى نص ، ومن نص إلى صورة

المحولات و LLM

الورقة "الاهتمام هو كل ما تحتاجه"من Google Brain يمثل تحولًا في طريقة تفكيرنا في نمذجة النص. بدلاً من البنى المعقدة والمتسلسلة مثل الشبكات العصبية المتكررة (RNNs) أو الشبكات العصبية التلافيفية (CNNs)، قدم نموذج المحولات مفهوم الاهتمام، والذي يعني في الأساس التركيز على أجزاء مختلفة من نص الإدخال اعتمادًا على السياق. وكانت إحدى الفوائد الرئيسية لذلك هي سهولة الموازاة. على عكس شبكات RNN التي تعالج النص بشكل تسلسلي، مما يزيد من صعوبة قياسه، يمكن للمحولات معالجة أجزاء من النص في وقت واحد، مما يجعل التدريب أسرع وأكثر كفاءة على مجموعات البيانات الكبيرة.

نموذج المحولات هندسة معمارية

في النص الطويل ، ليست كل كلمة أو جملة تقرأها لها نفس الأهمية. تتطلب بعض الأجزاء مزيدًا من الاهتمام بناءً على السياق. هذه القدرة على تحويل تركيزنا بناءً على الملاءمة هو ما تحاكي آلية الانتباه.

لفهم هذا ، فكر في جملة: "توحيد الذكاء الاصطناعي لنشر أخبار الذكاء الاصطناعي والروبوتات." الآن ، يتطلب التنبؤ بالكلمة التالية فهمًا لما هو أكثر أهمية في السياق السابق. قد يشير مصطلح "الروبوتات" إلى أن الكلمة التالية قد تكون مرتبطة بتقدم أو حدث معين في مجال الروبوتات ، بينما قد يشير مصطلح "النشر" إلى السياق التالي قد يتعمق في منشور أو مقالة حديثة.

تفسير آلية الاهتمام الذاتي على جملة demmo
توضيح الاهتمام الذاتي

تم تصميم آليات الانتباه في المحولات لتحقيق هذا التركيز الانتقائي. يقيسون أهمية الأجزاء المختلفة من نص الإدخال ويقررون أين "ننظر" عند توليد استجابة. هذا خروج عن البنى القديمة مثل RNNs التي حاولت حشر جوهر كل نص الإدخال في "حالة" أو "ذاكرة" واحدة.

يمكن تشبيه أعمال الانتباه بنظام استرجاع مفتاح القيمة. في محاولة للتنبؤ بالكلمة التالية في الجملة ، تقدم كل كلمة سابقة "مفتاحًا" يشير إلى مدى ملاءمتها المحتملة ، وبناءً على مدى مطابقة هذه المفاتيح للسياق الحالي (أو الاستعلام) ، فإنها تساهم "بقيمة" أو وزن في تنبؤ.

تم دمج نماذج التعلم العميق المتقدمة هذه بسلاسة في العديد من التطبيقات ، بدءًا من تحسينات محرك بحث Google مع BERT وحتى Copilot الخاص بـ GitHub ، والذي يستفيد من قدرة نماذج اللغات الكبيرة (LLMs) لتحويل مقتطفات التعليمات البرمجية البسيطة إلى أكواد مصدر تعمل بكامل طاقتها.

نماذج اللغات الكبيرة (LLMs) مثل GPT-4 و Bard و LLaMA ، هي هياكل ضخمة مصممة لفك وتوليد لغة بشرية وكود وغير ذلك. حجمها الهائل ، الذي يتراوح من مليارات إلى تريليونات من المعلمات ، هو أحد السمات المميزة. يتم تغذية هذه LLM بكميات وفيرة من البيانات النصية ، مما يمكنهم من فهم تعقيدات اللغة البشرية. السمة اللافتة للنظر لهذه النماذج هي استعدادها لـ "قليلة الطلقات" تعلُّم. على عكس النماذج التقليدية التي تحتاج إلى كميات هائلة من بيانات التدريب المحددة ، يمكن أن تعمم LLM من عدد محدود جدًا من الأمثلة (أو "اللقطات")

حالة نماذج اللغات الكبيرة (LLMs) اعتبارًا من منتصف عام 2023

نموذج الاسمالمطورالمعلماتالتوافر والوصولالملامح والملاحظات البارزة
GPT-4OpenAI1.5 Trillionليس مفتوح المصدر ، الوصول إلى API فقطيمكن للأداء المذهل في مجموعة متنوعة من المهام معالجة الصور والنصوص ، وطول الإدخال الأقصى 32,768 رمزًا مميزًا
GPT-3OpenAI175 مليارليس مفتوح المصدر ، الوصول إلى API فقطأظهر قدرات تعلم قليلة اللقطات وصفرية. يقوم بإكمال النص بلغة طبيعية.
إزهاربيجساينس176 مليارنموذج قابل للتنزيل ، تتوفر واجهة برمجة تطبيقات مستضافةمتعدد اللغات LLM تم تطويره من خلال التعاون العالمي. يدعم 13 لغة برمجة.
لامداشراء مراجعات جوجل173 مليارليست مفتوحة المصدر ، لا API أو تحميليمكن أن يتعلم المتدربون على الحوار التحدث عن أي شيء تقريبًا
MT-NLGنفيديا / مايكروسوفت530 مليارالوصول إلى API عن طريق التطبيقيستخدم بنية Megatron القائمة على المحولات لمختلف مهام البرمجة اللغوية العصبية.
المكالماتميتا AI7B إلى 65B)يمكن تنزيله عن طريق التطبيقتهدف إلى إضفاء الطابع الديمقراطي على الذكاء الاصطناعي من خلال إتاحة الوصول إلى العاملين في مجال البحث والحكومة والأوساط الأكاديمية.

كيف يتم استخدام ماجستير في القانون؟

يمكن استخدام LLM بعدة طرق ، بما في ذلك:

  1. الاستخدام المباشر: ببساطة استخدام LLM مدرب مسبقًا لإنشاء النص أو معالجته. على سبيل المثال ، استخدام GPT-4 لكتابة منشور مدونة دون أي ضبط إضافي.
  2. الضبط الدقيق: تكييف ماجستير إدارة الأعمال المدرب مسبقًا لمهمة محددة، وهي طريقة تعرف باسم نقل التعلم. ومن الأمثلة على ذلك تخصيص T5 لإنشاء ملخصات للمستندات في صناعة معينة.
  3. استرجاع المعلومات: استخدام LLMs ، مثل BERT أو GPT ، كجزء من بنى أكبر لتطوير الأنظمة التي يمكنها جلب المعلومات وتصنيفها.
Generative AI ChatGPT الضبط الدقيق
هندسة ChatGPT ضبط دقيق

الانتباه متعدد الرؤوس: لماذا واحد بينما يمكنك الحصول على الكثير؟

ومع ذلك ، فإن الاعتماد على آلية انتباه واحدة يمكن أن يكون مقيدًا. يمكن أن تحتوي الكلمات أو التسلسلات المختلفة في النص على أنواع مختلفة من الصلة أو الارتباطات. هذا هو المكان الذي يأتي فيه الانتباه متعدد الرؤوس. بدلاً من مجموعة واحدة من أوزان الانتباه ، يوظف الانتباه متعدد الرؤوس مجموعات متعددة ، مما يسمح للنموذج بالتقاط مجموعة متنوعة أكثر ثراءً من العلاقات في نص الإدخال. يمكن أن يركز كل "رأس" اهتمام على أجزاء أو جوانب مختلفة من المدخلات ، ويتم استخدام معرفتهم المشتركة للتنبؤ النهائي.

ChatGPT: أداة الذكاء الاصطناعي الأكثر شيوعًا

بدءًا من بداية GPT في عام 2018 ، تم بناء النموذج أساسًا على أساس 12 طبقة و 12 رأس اهتمام و 120 مليون معلمة ، تم تدريبها بشكل أساسي على مجموعة بيانات تسمى BookCorpus. كانت هذه بداية رائعة ، حيث قدمت لمحة عن مستقبل نماذج اللغة.

تتباهى GPT-2 ، التي تم الكشف عنها في عام 2019 ، بزيادة قدرها أربعة أضعاف في الطبقات ورؤوس الانتباه. بشكل ملحوظ ، ارتفع عدد معلماته إلى 1.5 مليار. استمدت هذه النسخة المحسّنة تدريبها من WebText ، وهي مجموعة بيانات غنية بـ 40 جيجابايت من النص من روابط Reddit المختلفة.

يحتوي GPT-3 ، الذي تم إطلاقه في مايو 2020 ، على 96 طبقة ، و 96 رأس انتباه ، وعدد كبير من المعلمات يبلغ 175 مليار. ما يميز GPT-3 هو بيانات التدريب المتنوعة الخاصة به ، والتي تشمل CommonCrawl و WebText و Wikipedia الإنجليزية و Book corpora ومصادر أخرى ، مجتمعة لإجمالي 570 جيجابايت.

تظل تعقيدات أعمال ChatGPT سرًا خاضعًا لحراسة مشددة. ومع ذلك ، من المعروف أن عملية تسمى "التعلم المعزز من ردود الفعل البشرية" (RLHF) محورية. نشأت هذه التقنية من مشروع ChatGPT سابق ، وكانت مفيدة في شحذ نموذج GPT-3.5 ليكون أكثر توافقًا مع التعليمات المكتوبة.

يتكون تدريب ChatGPT من نهج ثلاثي المستويات:

  1. ضبط دقيق خاضع للإشراف: يتضمن تنسيق مدخلات ومخرجات المحادثة المكتوبة من قبل الإنسان لتحسين نموذج GPT-3.5 الأساسي.
  2. نمذجة المكافأة: يصنف البشر مخرجات النماذج المختلفة بناءً على الجودة ، مما يساعد على تدريب نموذج المكافأة الذي يحرز كل نتيجة مع مراعاة سياق المحادثة.
  3. التعلم المعزز: يعمل سياق المحادثة كخلفية حيث يقترح النموذج الأساسي استجابة. يتم تقييم هذه الاستجابة من خلال نموذج المكافأة ، ويتم تحسين العملية باستخدام خوارزمية تسمى تحسين السياسة القريبة (PPO).

بالنسبة لأولئك الذين يغمسون أصابعهم في ChatGPT ، يمكن العثور على دليل بدء شامل هنا. إذا كنت تتطلع إلى التعمق أكثر في الهندسة السريعة باستخدام ChatGPT ، فلدينا أيضًا دليل متقدم يسلط الضوء على أحدث التقنيات الفورية وأحدث التقنيات المتاحة على 'ChatGPT والهندسة السريعة المتقدمة: قيادة تطور الذكاء الاصطناعي".

نماذج الانتشار والوسائط المتعددة

في حين أن النماذج مثل VAEs و GANs تولد مخرجاتها من خلال ممر واحد ، وبالتالي فهي مقفلة في كل ما تنتجه ، قدمت نماذج الانتشار مفهوم 'صقل تكراري". من خلال هذه الطريقة ، يتراجعون ، وينقحون الأخطاء من الخطوات السابقة ، وينتجون تدريجياً نتيجة مصقولة أكثر.

يعتبر فن "فساد"و" الصقل ". في مرحلة التدريب ، يتم إتلاف الصورة النموذجية تدريجياً عن طريق إضافة مستويات مختلفة من الضوضاء. يتم بعد ذلك إدخال هذه النسخة المزعجة إلى النموذج ، الذي يحاول "إزالة التشويش" أو "إزالة الفساد". من خلال جولات متعددة من هذا ، يصبح النموذج بارعًا في الاستعادة ، ويفهم الانحرافات الدقيقة والهامة.

الذكاء الاصطناعي التوليدي - موجه Midjourney
تم إنشاء الصورة من Midjourney

عملية توليد صور جديدة بعد التدريب مثيرة للاهتمام. بدءًا بإدخال عشوائي تمامًا ، يتم تنقيحه باستمرار باستخدام تنبؤات النموذج. الهدف هو الحصول على صورة أصلية بأقل عدد من الخطوات. يتم التحكم في مستوى الفساد من خلال "جدول الضوضاء" ، وهي آلية تتحكم في مقدار الضوضاء المطبقة في المراحل المختلفة. جدولة ، كما يظهر في مكتبات مثل "الناشرون"، تملي طبيعة هذه عمليات الترحيل السري المزعجة بناءً على الخوارزميات المعمول بها.

العمود الفقري المعماري الأساسي للعديد من نماذج الانتشار هو أونيت- شبكة عصبية تلافيفية مصممة خصيصًا للمهام التي تتطلب مخرجات تعكس البعد المكاني للمدخلات. إنه مزيج من طبقات الاختزال والاختزال، المرتبطة بشكل معقد للاحتفاظ بالبيانات عالية الدقة، والتي تعتبر محورية للمخرجات المتعلقة بالصور.

الغوص أعمق في عالم النماذج التوليدية ، أوبن إيه آي DALL-E2 يظهر كمثال ساطع على اندماج قدرات الذكاء الاصطناعي النصية والمرئية. تستخدم بنية ثلاثية المستويات:

يعرض DALL-E 2 بنية ثلاثية:

  1. تشفير النص: يحول موجه النص إلى تضمين مفاهيمي داخل مساحة كامنة. هذا النموذج لا يبدأ من نقطة الصفر. يعتمد على اللغة المتباينة - التدريب المسبق على الصورة (CLIP) مجموعة البيانات كأساس لها. يعمل CLIP كجسر بين البيانات المرئية والنصية من خلال تعلم المفاهيم المرئية باستخدام اللغة الطبيعية. من خلال آلية تُعرف باسم التعلم التباين ، يتعرف على الصور ويطابقها مع الأوصاف النصية المقابلة لها.
  2. السابق: يتم تحويل النص المضمن المشتق من المشفر إلى دمج صورة. اختبر DALL-E 2 طرق الانحدار الذاتي والانتشار لهذه المهمة ، مع عرض الأخير نتائج متفوقة. نماذج الانحدار الذاتي ، كما هو موضح في المحولات و PixelCNN ، تولد مخرجات في تسلسلات. من ناحية أخرى ، تقوم نماذج الانتشار ، مثل تلك المستخدمة في DALL-E 2 ، بتحويل الضوضاء العشوائية إلى صور متوقعة للزفاف بمساعدة حفلات الزفاف النصية.
  3. وحدة فك التشفير: ذروة العملية ، يولد هذا الجزء الإخراج المرئي النهائي بناءً على موجه النص ودمج الصورة من المرحلة السابقة. تدين وحدة فك ترميز DALL.E 2 بهندستها المعمارية إلى نموذج آخر ، انسل من، والتي يمكنها أيضًا إنتاج صور واقعية من الإشارات النصية.
هندسة نموذج DALL-E (نموذج متعدد الانتشار)
الهندسة المعمارية المبسطة لنموذج DALL-E

يهتم مستخدمو Python بـ لانغتشين يجب عليك الاطلاع على برنامجنا التعليمي المفصل الذي يغطي كل شيء من الأساسيات إلى التقنيات المتقدمة.

تطبيقات الذكاء الاصطناعي التوليدي

المجالات النصية

بدءًا من النص ، تم تغيير الذكاء الاصطناعي العام بشكل أساسي بواسطة روبوتات المحادثة مثل شات جي بي تي. بالاعتماد بشكل كبير على معالجة اللغات الطبيعية (NLP) ونماذج اللغات الكبيرة (LLMs)، يتم تمكين هذه الكيانات من أداء مهام تتراوح من إنشاء التعليمات البرمجية وترجمة اللغة إلى التلخيص وتحليل المشاعر. على سبيل المثال، شهد تطبيق ChatGPT اعتماداً واسع النطاق، وأصبح عنصرًا أساسيًا للملايين. يتم تعزيز ذلك بشكل أكبر من خلال منصات الذكاء الاصطناعي للمحادثة، والتي ترتكز على ماجستير إدارة الأعمال مثل GPT-4، كف، نخلةو إزهار، التي تنتج نصًا بسهولة ، وتساعد في البرمجة ، بل وتقدم أيضًا تفكيرًا رياضيًا.

من منظور تجاري ، أصبحت هذه النماذج لا تقدر بثمن. توظفهم الشركات في عدد لا يحصى من العمليات ، بما في ذلك إدارة المخاطر وتحسين المخزون والتنبؤ بالمطالب. تتضمن بعض الأمثلة البارزة Bing AI و Google's BARD و ChatGPT API.

فنـون

شهد عالم الصور تحولات جذرية مع الذكاء الاصطناعي التوليفي ، لا سيما منذ تقديم DALL-E 2 في عام 2022. هذه التكنولوجيا ، التي يمكن أن تولد صورًا من المطالبات النصية ، لها آثار فنية ومهنية على حد سواء. على سبيل المثال ، استفادت midjourney من هذه التقنية لإنتاج صور واقعية مثيرة للإعجاب. هذا المنشور الأخير يزيل الغموض عن Midjourney في دليل مفصل ، يوضح كلاً من النظام الأساسي وتعقيداته الهندسية السريعة. علاوة على ذلك ، تستخدم منصات مثل Alpaca AI و Photoroom AI Generative AI لوظائف تحرير الصور المتقدمة مثل إزالة الخلفية وحذف الكائن وحتى استعادة الوجه.

إنتاج الفيديو

يعرض إنتاج الفيديو ، بينما لا يزال في مرحلته الأولى في عالم الذكاء الاصطناعي التوليدي ، تطورات واعدة. تعمل منصات مثل Imagen Video و Meta Make A Video و Runway Gen-2 على دفع حدود ما هو ممكن ، حتى لو كانت المخرجات الواقعية لا تزال في الأفق. توفر هذه النماذج فائدة كبيرة لإنشاء مقاطع فيديو رقمية بشرية ، مع تطبيقات مثل Synthesia و SuperCreator تتصدر المهمة. والجدير بالذكر أن Tavus AI يقدم عرض بيع فريدًا من خلال تخصيص مقاطع الفيديو لأفراد الجمهور ، وهو نعمة للشركات.

إنشاء الكود

الترميز ، وهو جانب لا غنى عنه في عالمنا الرقمي ، لم يمسه الذكاء الاصطناعي التوليدي. على الرغم من أن ChatGPT أداة مفضلة ، فقد تم تطوير العديد من تطبيقات الذكاء الاصطناعي الأخرى لأغراض الترميز. تعمل هذه الأنظمة الأساسية ، مثل GitHub Copilot و Alphacode و CodeComplete ، كمساعدين للترميز ويمكنها حتى إنتاج تعليمات برمجية من المطالبات النصية. الأمر المثير للاهتمام هو قابلية هذه الأدوات للتكيف. يمكن تصميم Codex ، القوة الدافعة وراء GitHub Copilot ، وفقًا لأسلوب الترميز الفردي ، مما يؤكد إمكانات التخصيص للذكاء الاصطناعي التوليدي.

وفي الختام

المزج بين الإبداع البشري والحساب الآلي ، تطورت إلى أداة لا تقدر بثمن ، مع منصات مثل ChatGPT و DALL-E 2 تدفع حدود ما يمكن تصوره. من صياغة المحتوى النصي إلى نحت الروائع المرئية ، فإن تطبيقاتها واسعة ومتنوعة.

كما هو الحال مع أي تقنية ، فإن الآثار الأخلاقية لها أهمية قصوى. في حين أن الذكاء الاصطناعي التوليدي يعد بإبداع لا حدود له ، فمن الأهمية بمكان توظيفه بمسؤولية ، وإدراك التحيزات المحتملة وقوة التلاعب بالبيانات.

مع زيادة سهولة الوصول إلى أدوات مثل ChatGPT ، حان الوقت الآن لاختبار الوضع والتجربة. سواء كنت فنانًا أو مبرمجًا أو متحمسًا للتكنولوجيا ، فإن عالم الذكاء الاصطناعي التوليفي مليء بالإمكانيات التي تنتظر من يكتشفها. الثورة ليست في الأفق. إنه هنا والآن. لذا ، الغوص في!

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.