الذكاء الاصطناعي 101

ما هي الشبكات العصبية المتكررة و LSTM في التعلم العميق؟

mm

العديد من التقدمات الأكثر إثارة للإعجاب في معالجة اللغة الطبيعية و聊bots الذكية مدفوعة بواسطة الشبكات العصبية المتكررة (RNNs) وشبكات الذاكرة القصيرة الأجل (LSTM). الشبكات العصبية المتكررة و LSTM هي هيكليات شبكية عصبية خاصة قادرة على معالجة البيانات التسلسلية، البيانات التي يهم فيها الترتيب الزمني. LSTM هي في الأساس نسخ محسنة من RNNs، قادرة على تفسير تسلسلات بيانات أطول. دعونا نلقي نظرة على كيفية بناء RNNs و LSTMs وكيف تمكننا من إنشاء أنظمة معالجة اللغة الطبيعية المتقدمة.

ما هي الشبكات العصبية المتقدمة؟

قبل أن نتحدث عن كيفية عمل LSTM و CNN، يجب أن نناقش شكل الشبكة العصبية بشكل عام.

الشبكة العصبية مصممة لتحليل البيانات واكتشاف الأنماط ذات الصلة، بحيث يمكن تطبيق هذه الأنماط على بيانات أخرى وتصنيفها. يتم تقسيم الشبكات العصبية إلى ثلاثة أقسام: طبقة الإدخال، طبقة الخفاء (أو طبقات خفية متعددة)، وطبقة الإخراج.

طبقة الإدخال هي ما يأخذ البيانات إلى الشبكة العصبية، بينما تعلم الطبقات الخفية الأنماط في البيانات. يتم ربط الطبقات الخفية بطبقات الإدخال والإخراج بواسطة “أوزان” و “تحيزات”، وهي مجرد افتراضات حول كيفية ارتباط النقاط البيانية ببعضها البعض. يتم تعديل هذه الأوزان أثناء التدريب. مع تقدم الشبكة في التدريب، يتم مقارنة تخمينات الشبكة حول بيانات التدريب (قيم الإخراج) مع العلامات الفعلية للتدريب. خلال عملية التدريب، يجب أن تصبح الشبكة أكثر دقة في التنبؤ بالعلاقات بين النقاط البيانية، بحيث يمكنها تصنيف نقاط البيانات الجديدة بدقة. الشبكات العصبية العميقة هي شبكات لها طبقات أكثر في الوسط/أكثر طبقات خفية. كلما زادت الطبقات الخفية والخلايا/العقد في النموذج، زادت قدرة النموذج على التعرف على الأنماط في البيانات.

الشبكات العصبية المتقدمة العادية، مثل تلك التي وصفها أعلاه، غالبًا ما يطلق عليها “الشبكات العصبية الكثيفة”. يتم دمج هذه الشبكات الكثيفة مع هيكليات شبكية عصبية مختلفة تختص في تفسير أنواع مختلفة من البيانات.

ما هي الشبكات العصبية المتكررة (RNNs)?

الشبكات العصبية المتكررة تأخذ المبدأ العام للشبكات العصبية المتقدمة وتجعلها قادرة على معالجة البيانات التسلسلية من خلال منح النموذج “ذاكرة داخلية”. الجزء “التكراري” من اسم RNN يأتي من حقيقة أن الإدخال والإخراج يتكرران. بمجرد إنتاج الإخراج، يتم نسخ الإخراج وإعادته إلى الشبكة كإدخال. عند اتخاذ القرار، لا يتم تحليل الإدخال والإخراج الحاليين فقط، بل يتم考虑 الإدخال السابق أيضًا. بطريقة أخرى، إذا كان الإدخال الأولي للشبكة هو X والإخراج هو H، يتم إدخال كل من H و X1 (الإدخال التالي في تسلسل البيانات) إلى الشبكة في الجولة التالية من التعلم. بهذه الطريقة، يتم الحفاظ على سياق البيانات (الإدخالات السابقة) أثناء تدريب الشبكة.

نتيجة لهذه الهيكلية، تكون RNNs قادرة على معالجة البيانات التسلسلية. ومع ذلك، تعاني RNNs من بعض المشاكل. تعاني RNNs من مشاكل الانحدار المتضائل والانفجار.

طول التسلسلات التي يمكن للشبكة العصبية المتكررة تفسيرها محدود نسبيًا، خاصة بالمقارنة مع LSTMs.

ما هي شبكات الذاكرة القصيرة الأجل (LSTMs)?

يمكن اعتبار شبكات الذاكرة القصيرة الأجل امتدادًا للشبكات العصبية المتكررة، مع تطبيق مفهوم الحفاظ على سياق الإدخالات. ومع ذلك، تم تعديل LSTMs بطرق مهمة تتيح لها تفسير البيانات السابقة بطرق أفضل. التعديلات التي تم إجراؤها على LSTMs تتعامل مع مشكلة الانحدار المتضائل وتتيح لـ LSTMs النظر في تسلسلات إدخال أطول.

تتكون نماذج LSTMs من مكونات أو بوابات ثلاثة. هناك بوابة إدخال وبوابة إخراج وبوابة نسيان. مثل RNNs، تأخذ LSTMs الإدخالات من التimestep السابق في الاعتبار عند تعديل ذاكرة النموذج وأوزان الإدخال. تقرر بوابة الإدخال ما هي القيم المهمة وينبغي السماح لها بالمرور عبر النموذج. يتم استخدام دالة السجما في بوابة الإدخال، والتي ت决定 ما هي القيم التي يجب تمريرها عبر الشبكة المتكررة. السجما 0 يضيع القيمة، بينما 1 يحافظ عليها. يتم استخدام دالة TanH هنا أيضًا، والتي ت决定 مدى أهمية قيم الإدخال للنموذج، تتراوح من -1 إلى 1.

بعد معالجة الإدخالات الحالية وذاكرة الحالة، تقرر بوابة الإخراج ما هي القيم التي يجب دفعها إلى التimestep التالي. في بوابة الإخراج، يتم تحليل القيم وتعيين أهمية لها تتراوح من -1 إلى 1. هذا ينظم البيانات قبل أن يتم نقلها إلى حساب التimestep التالي. أخيرًا، يتمثل دور بوابة النسيان في إسقاط المعلومات التي يعتبرها النموذج غير ضرورية لاتخاذ قرار بشأن طبيعة قيم الإدخال. تستخدم بوابة النسيان دالة السجما على القيم، معطية أرقامًا بين 0 ( 忘اء هذا) و 1 (احتفظ بهذا).

تتكون شبكة عصبية LSTM من طبقات LSTM الخاصة التي يمكنها تفسير بيانات الكلمات التسلسلية والطبقات الكثيفة مثل تلك الموضحة أعلاه. بمجرد مرور البيانات عبر طبقات LSTM، تتحرك إلى الطبقات الكثيفة.

مدون وبرمجي متخصص في مواضيع Machine Learning و Deep Learning. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الخير الاجتماعي.