Connect with us

ما هي شبكات Transformer العصبية؟

الذكاء الاصطناعي 101

ما هي شبكات Transformer العصبية؟

mm

وصف شبكات Transformer العصبية

Transformers هي نوع من نماذج التعلم الآلي التي تختص في معالجة وتفسير البيانات المتسلسلة، مما يجعلها مثالية للمهام المتعلقة بمعالجة اللغة الطبيعية. لكي نفهم بشكل أفضل ما هي شبكة Transformer العصبية وكيف تعمل، دعونا نلقي نظرة أقرب على نماذج Transformer والآليات التي تدفعها.

سيغطي هذا المقال:

  • نماذج التسلسل إلى التسلسل
  • هيكل شبكة Transformer العصبية
  • آلية الانتباه
  • الفرق بين Transformers و RNNs/LSTMs

نماذج التسلسل إلى التسلسل

نماذج التسلسل إلى التسلسل هي نوع من نماذج معالجة اللغة الطبيعية التي تستخدم لتحويل تسلسلات من نوع إلى تسلسل من نوع آخر. هناك أنواع مختلفة من نماذج التسلسل إلى التسلسل، مثل نماذج الشبكات العصبية المتكررة و نماذج الذاكرة القصيرة الأمد الطويلة الأمد (LSTM).

النماذج التقليدية للتسلسل إلى التسلسل مثل RNNs و LSTMs ليست محور هذا المقال، ولكن فهمها ضروري لكي ندرك كيف تعمل نماذج Transformer ولماذا هي تفوق النماذج التقليدية للتسلسل إلى التسلسل.

باختصار، تتكون نماذج RNN و LSTM من شبكات مشفرة وشبكات فك التشفير تحليل البيانات المدخلة في خطوات زمنية مختلفة. تكون الشبكة المشفرة مسؤولة عن تشكيل تمثيل مشفر للكلمات في البيانات المدخلة. في كل خطوة زمنية، تأخذ الشبكة المشفرة تسلسل مدخل و状態 مخفي من الخطوة الزمنية السابقة في السلسلة. يتم تحديث قيم الحالة المخفية مع تقدم البيانات عبر الشبكة، حتى الخطوة الزمنية الأخيرة، حيث يتم إنشاء “متجه سياق”. ثم يتم تمرير متجه السياق إلى شبكة فك التشفير، التي تستخدم لإنشاء تسلسل هدف عن طريق التنبؤ بالكلمة الأكثر احتمالا التي تتوافق مع الكلمة المدخلة لكل خطوة زمنية.

يمكن تعزيز هذه النماذج من خلال استخدام “آلية الانتباه”. تعرف آلية الانتباه الأجزاء من متجه المدخل التي يجب على الشبكة التركيز عليها لإنشاء الإخراج الصحيح. بعبارة أخرى، تسمح آلية الانتباه لنموذج Transformer بمعالجة كلمة مدخلة واحدة مع الانتباه إلى المعلومات ذات الصلة المحتواة في الكلمات المدخلة الأخرى. كما أن آليات الانتباه تُخفي الكلمات التي لا تحتوي على معلومات ذات صلة.

هيكل شبكة Transformer العصبية

سنناقش آلية الانتباه بالتفصيل لاحقًا، ولكن الآن دعونا نلقي نظرة على هيكل شبكة Transformer العصبية على مستوى أعلى.

بشكل عام، شبكة Transformer العصبية تبدو كما يلي:

في حين أن هذا الهيكل العام قد يتغير بين الشبكات، سيبقى الجزء الأساسي نفسه: التشفيرات الموضعية، متجهات الكلمات، آلية الانتباه، والشبكة العصبية المتقدمة.

التشفيرات الموضعية ومتجهات الكلمات

تعمل شبكة Transformer العصبية عن طريق أخذ تسلسل من المدخلات وتحويله إلى تسلسلين آخرين. تنتج Transformer تسلسلًا من متجهات الكلمات ومتجهات التشفيرات الموضعية.

متجهات الكلمات هي مجرد تمثيل نصي في شكل رقمي يمكن للشبكة العصبية معالجته. في حين أن التشفيرات الموضعية هي تمثيلات متجهة تحتوي على معلومات حول موقع الكلمة الحالية في الجملة المدخلة، بالنسبة إلى الكلمات الأخرى.

تستخدم نماذج الشبكات العصبية النصية الأخرى مثل RNNs و LSTMs متجهات لتمثيل الكلمات في البيانات المدخلة. هذه المتجهات ت ánhة الكلمات إلى قيم ثابتة، ولكن هذا محدود لأن الكلمات يمكن استخدامها في سياقات مختلفة. تحل شبكة Transformer هذه المشكلة عن طريق جعل قيم الكلمات أكثر مرونة، باستخدام دوال جيبية لتمكين متجهات الكلمات من أخذ قيم مختلفة اعتمادًا على موقع الكلمة في الجملة.

هذا يسمح للنموذج بالحفاظ على المعلومات المتعلقة بموقع الكلمات المدخلة النسبية، حتى بعد مرور المتجهات عبر طبقات شبكة Transformer.

تتم إضافة التشفيرات الموضعية ومتجهات الكلمات معًا ثم تمريرها إلى شبكات المشفر والفك التشفير. في حين أن شبكات Transformer تستخدم مخططات مشفرة/فك التشفير مثل RNNs و LSTMs، فإن الفرق الرئيسي بينها هو أن جميع البيانات المدخلة يتم إدخالها إلى الشبكة في نفس الوقت، في حين أن البيانات يتم إدخالها بشكل متسلسل في RNNs/LSTMs.

تكون شبكات المشفر مسؤولة عن تحويل المدخلات إلى تمثيلات يمكن للشبكة التعلم منها، في حين أن شبكات فك التشفير تعمل العكس، وتحول التمثيلات إلى توزيع احتمالي يستخدم لإنشاء الكلمات الأكثر احتمالا في الجملة الإخراج.

من المهم أن كلا شبكات المشفر والفك التشفير تحتويان على آلية انتباه.

بسبب khảية معالجة GPU المتوازية، يتم استخدام آليات انتباه متعددة بشكل متوازي، وحساب المعلومات ذات الصلة لجميع الكلمات المدخلة. هذه القدرة على الانتباه إلى كلمات متعددة في نفس الوقت، تسمى “انتباه متعدد الرؤوس”، تساعد الشبكة العصبية على التعلم من السياق للكلمة في الجملة، وهي واحدة من المزايا الرئيسية التي تمتلكها شبكات Transformer على RNNs و LSTMs.

آلية الانتباه

آلية الانتباه هي الجزء الأكثر أهمية في شبكة Transformer. آلية الانتباه هي ما يمكّن نماذج Transformer من تجاوز حد الانتباه لنماذج RNN أو LSTM التقليدية. النماذج التقليدية للتسلسل إلى التسلسل تلغي جميع الحالات الوسيطة وتستخدم فقط الحالة/متجه السياق النهائي عند 초기 شبكة فك التشفير لإنشاء تنبؤات حول تسلسل مدخل.

تؤدي إلغاء كل شيء ما عدا متجه السياق النهائي جيدًا عندما تكون تسلسلات المدخلات صغيرة نسبيًا. ومع ذلك، مع زيادة طول تسلسل المدخل، يتراجع أداء النموذج باستخدام هذه الطريقة. هذا لأن من الصعب بشكل كبير تلخيص تسلسل مدخل طويل في متجه واحد. الحل هو زيادة “انتباه” النموذج واستخدام الحالات الوسيطة للمشفر لإنشاء متجهات سياق للفك التشفير.

تعرف آلية الانتباه بأهمية الرموز المدخلة الأخرى بالنسبة للنموذج عند إنشاء التمثيلات لرمز معين. على سبيل المثال، “هو” هو ضمير عام، غالبًا ما يستخدم للاشارة إلى الحيوانات عندما لا يكون جنسها معروفًا. آلية الانتباه تسمح لنموذج Transformer بتحديد أن “هو” يشير إلى السنجاب في السياق الحالي، لأنها يمكن أن تتحقق من جميع الكلمات ذات الصلة في الجملة المدخلة.

يمكن استخدام آلية الانتباه بثلاث طرق مختلفة: من المشفر إلى فك التشفير، فقط المشفر، فقط فك التشفير.

الانتباه من المشفر إلى فك التشفير يسمح للفك التشفير بالنظر في تسلسلات المدخلات عند إنشاء الإخراج، في حين أن آليات الانتباه فقط للمشفر أو فقط لفك التشفير تسمح للشبكات بالنظر في جميع أجزاء التسلسلات السابقة والحالية على التوالي.

يمكن تقسيم بناء آلية الانتباه إلى خمس خطوات:

  1. حساب درجة لجميع حالات المشفر.
  2. حساب أوزان الانتباه
  3. حساب متجهات السياق
  4. تحديث متجه السياق مع إخراج الخطوة الزمنية السابقة
  5. إنشاء الإخراج مع فك التشفير

الخطوة الأولى هي جعل الفك التشفير يحسب درجة لجميع حالات المشفر. يتم هذا من خلال تدريب شبكة الفك التشفير، والتي هي شبكة عصبية متقدمة أساسية. عندما يتم تدريب الفك التشفير على الكلمة الأولى في تسلسل المدخل، لم يتم إنشاء حالة داخلية/مخفية بعد، لذلك يتم استخدام حالة المشفر الأخيرة بشكل عام كحالة سابقة للفك التشفير.

من أجل حساب أوزان الانتباه، يتم استخدام دالة softmax لإنشاء توزيع احتمالي لأوزان الانتباه.

بعد حساب أوزان الانتباه، يتعين حساب متجه السياق. يتم هذا bằng ضرب أوزان الانتباه و الحالة المخفية معًا لكل خطوة زمنية.

بعد حساب متجه السياق، يتم استخدامه جنبًا إلى جنب مع الكلمة التي تم إنشاؤها في الخطوة الزمنية السابقة لإنشاء الكلمة التالية في تسلسل الإخراج. لأن الفك التشفير لا يمتلك أي إخراج سابق للاستشهاد به في الخطوة الزمنية الأولى، غالبًا ما يتم استخدام رمز “بداية” خاص بدلاً من ذلك.

الفرق بين Transformers و RNNs/LSTMs

دعونا نغطي بسرعة بعض الفرق بين RNNs و LSTMs.

RNNs تمت معالجة المدخلات بشكل متسلسل، في حين يتم الحفاظ على متجه حالة مخفي ويتم تعديله بواسطة الكلمات المدخلة أثناء تحركها عبر الشبكة. غالبًا ما تحتوي حالات RNN على معلومات قليلة ذات صلة حول المدخلات السابقة. المدخلات الجديدة غالبًا ما تكتب فوق الحالة الحالية، مما يؤدي إلى فقدان المعلومات وتدهور الأداء مع مرور الوقت.

في المقابل، تعالج نماذج Transformer تسلسل المدخل بأكمله في نفس الوقت. آلية الانتباه تسمح لكل كلمة إخراج أن تكون مطلعًا على كل كلمة مدخلة وكل حالة مخفية، مما يجعل الشبكة أكثر موثوقية للنصوص الطويلة.

LSTMs هي نسخ معدلة من RNNs، تم تعديلها لمعالجة تسلسلات مدخلة أطول. تستخدم هيكلًا يسمى “بوابات”، مع “بوابات مدخلة” و “بوابات مخرجة” و “بوابات نسيان”. يتعامل التصميم المبني على البوابات مع فقدان المعلومات الشائع في نماذج RNN. يتم معالجة البيانات بشكل متسلسل، ويجعل تصميم الشبكة المتكرر من الصعب تدريب نماذج LSTM باستخدام الحوسبة المتوازية، مما يطيل وقت التدريب بشكل عام.

كان مهندسو LSTMs يضيفون غالبًا آليات انتباه إلى الشبكة، والتي كانت معروفة بتحسين أداء النموذج. ومع ذلك، تم اكتشاف في النهاية أن آلية الانتباه وحدها تحسّن الدقة. أدى هذا الاكتشاف إلى إنشاء شبكات Transformer التي تستخدم آليات الانتباه والمعالجة المتوازية بفضل وحدات معالجة الرسومات.

مدون وبرمجي متخصص في مواضيع Machine Learning و Deep Learning. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الخير الاجتماعي.