منظمة العفو الدولية 101

ما هي الشبكات العصبية المحولات؟

تحديث on ٣ فبراير ٢٠٢٤

وصف الشبكات العصبية المحولات

ترانسفورمرس هي نوع من نماذج التعلم الآلي المتخصصة في معالجة وتفسير البيانات المتسلسلة، مما يجعلها مثالية لمهام معالجة اللغة الطبيعية. لفهم ماهية محولات التعلم الآلي وكيفية عملها بشكل أفضل، دعونا نلقي نظرة فاحصة على نماذج المحولات والآليات التي تحركها.

هذه المادة سوف تغطي:

نماذج التسلسل إلى التسلسل
هندسة الشبكة العصبية للمحولات
آلية الانتباه
الاختلافات بين المحولات و RNNs / LSTMs

نماذج التسلسل إلى التسلسل

نماذج التسلسل إلى التسلسل هي نوع من نماذج البرمجة اللغوية العصبية المستخدمة لتحويل تسلسلات من نوع إلى تسلسل من نوع آخر. هناك أنواع مختلفة من نماذج التسلسل إلى التسلسل ، مثل الشبكة العصبية المتكررة نماذج و الذاكرة طويلة المدى (LSTM) .

نماذج التسلسل إلى التسلسل التقليدية مثل RNNs و LSTMS ليست محور هذه المقالة ، ولكن فهمها ضروري لتقدير كيفية عمل نماذج المحولات ولماذا تتفوق على نماذج التسلسل إلى التسلسل التقليدية.

باختصار، تتكون نماذج RNN ونماذج LSTM من شبكات التشفير وفك التشفير التي تحلل بيانات الإدخال في خطوات زمنية مختلفة. نموذج التشفير مسؤول عن تكوين تمثيل مشفر للكلمات الموجودة في بيانات الإدخال. في كل خطوة، تأخذ شبكة التشفير تسلسل إدخال وحالة مخفية من الخطوة الزمنية السابقة في السلسلة. يتم تحديث قيم الحالة المخفية مع استمرار البيانات عبر الشبكة، حتى الخطوة الزمنية الأخيرة، حيث يتم إنشاء "متجه السياق". يتم بعد ذلك تمرير ناقل السياق إلى شبكة وحدة فك التشفير، والتي تُستخدم لإنشاء تسلسل مستهدف من خلال التنبؤ بالكلمة الأكثر احتمالية التي تقترن بكلمة الإدخال للخطوات الزمنية المعنية.

يمكن زيادة هذه النماذج من خلال استخدام "آلية الانتباه". تحدد آلية الانتباه أجزاء متجه الإدخال التي يجب أن تركز عليها الشبكة لتوليد المخرجات المناسبة. لوضع ذلك بطريقة أخرى ، تسمح آلية الانتباه لنموذج المحول بمعالجة كلمة إدخال واحدة مع الاهتمام أيضًا بالمعلومات ذات الصلة التي تحتوي عليها كلمات الإدخال الأخرى. تحجب آليات الانتباه أيضًا الكلمات التي لا تحتوي على معلومات ذات صلة.

هندسة الشبكة العصبية للمحولات

سوف ندخل في آلية الانتباه بمزيد من التفصيل لاحقًا ، ولكن الآن دعونا نلقي نظرة عليها بنية الشبكة العصبية للمحول على مستوى أعلى.

بشكل عام ، تبدو الشبكة العصبية للمحول شيئًا مما يلي:

في حين أن هذا الهيكل العام قد يتغير بين الشبكات ، فإن الأجزاء الأساسية ستبقى كما هي: الترميزات الموضعية ، ونواقل الكلمات ، وآلية الانتباه ، والشبكة العصبية للتغذية الأمامية.

الترميزات الموضعية ونواقل الكلمات

تعمل الشبكات العصبية المحولات بأخذ تسلسل من المدخلات وتحويل هذه المدخلات إلى تسلسلين آخرين. ينتج المحول سلسلة من الزخارف المتجهية للكلمات والتشفير الموضعي.

كلمة ناقلات التطريز هي مجرد نص يتم تمثيله بتنسيق رقمي يمكن للشبكة العصبية معالجته. وفي الوقت نفسه ، فإن الترميزات الموضعية عبارة عن تمثيلات موجهة تحتوي على معلومات حول موضع الكلمة الحالية في جملة الإدخال ، فيما يتعلق بالكلمات الأخرى.

تستخدم نماذج الشبكات العصبية الأخرى المستندة إلى النصوص مثل RNNs و LSTMs المتجهات لتمثيل الكلمات في بيانات الإدخال. هذه التضمينات المتجهية ترسم الكلمات إلى قيم ثابتة ، ولكن هذا مقيد لأنه يمكن استخدام الكلمات في سياقات مختلفة. تحل شبكة المحولات هذه المشكلة عن طريق جعل قيم الكلمات أكثر مرونة ، وذلك باستخدام الدوال الجيبية للسماح لمتجهات الكلمة بأخذ قيم مختلفة اعتمادًا على موضع الكلمة في الجملة.

يسمح هذا لنموذج الشبكة العصبية بالحفاظ على المعلومات المتعلقة بالموضع النسبي لكلمات الإدخال ، حتى بعد أن تتحرك المتجهات عبر طبقات شبكة المحولات.

يتم جمع الترميزات الموضعية وكلمة الزخارف المتجهية معًا ثم يتم تمريرها إلى كل من شبكات التشفير وفك التشفير. بينما تستخدم الشبكات العصبية للمحول مخططات التشفير / فك التشفير تمامًا مثل RNNs و LSTMs ، فإن أحد الاختلافات الرئيسية بينهما هو أن جميع بيانات الإدخال يتم إدخالها في الشبكة في نفس الوقت ، بينما في RNNs / LSTMs ، يتم تمرير البيانات بالتتابع.

شبكات التشفير مسؤولة عن تحويل المدخلات إلى تمثيلات يمكن للشبكة أن تتعلم منها ، بينما تقوم شبكات فك التشفير بالعكس وتحويل الترميزات إلى توزيع احتمالي يستخدم لتوليد الكلمات الأكثر احتمالية في الجملة الناتجة. بشكل حاسم ، تتمتع كل من شبكات التشفير وفك التشفير بآلية انتباه.

نظرًا لأن وحدات معالجة الرسومات قادرة على المعالجة المتوازية ، يتم استخدام آليات انتباه متعددة بشكل متوازٍ ، وحساب المعلومات ذات الصلة لجميع كلمات الإدخال. تساعد هذه القدرة على الانتباه إلى كلمات متعددة ، يطلق عليها الانتباه "متعدد الرؤوس" ، في وقت واحد ، الشبكة العصبية على تعلم سياق كلمة داخل جملة ، وهي إحدى المزايا الأساسية التي تتمتع بها شبكات المحولات على شبكات RNN و LSTM.

آلية الانتباه

آلية الانتباه هي أهم جزء في شبكة المحولات. آلية الانتباه هي التي تمكن نماذج المحولات من تجاوز حد الانتباه لنموذج RNN أو LSTM النموذجي. تتجاهل نماذج التسلسل إلى التسلسل التقليدية جميع الحالات الوسيطة وتستخدم فقط متجه الحالة / السياق النهائي عند تهيئة شبكة وحدة فك التشفير لإنشاء تنبؤات حول تسلسل الإدخال.

إن تجاهل كل شيء ما عدا متجه السياق النهائي يعمل بشكل جيد عندما تكون تسلسلات الإدخال صغيرة إلى حد ما. ومع ذلك ، مع زيادة طول تسلسل الإدخال ، سينخفض أداء النموذج أثناء استخدام هذه الطريقة. هذا لأنه يصبح من الصعب جدًا تلخيص تسلسل إدخال طويل كمتجه واحد. الحل هو زيادة "انتباه" النموذج واستخدام حالات التشفير الوسيطة لبناء متجهات سياق لوحدة فك التشفير.

تحدد آلية الانتباه مدى أهمية رموز الإدخال الأخرى للنموذج عند إنشاء الترميزات لأي رمز معين. على سبيل المثال ، "هو" هو ضمير عام ، غالبًا ما يستخدم للإشارة إلى الحيوانات عندما يكون جنسها غير معروف. تسمح آلية الانتباه لنموذج المحول بتحديد أنه في السياق الحالي يشير "هو" إلى سنجاب ، لأنه يمكنه فحص جميع الكلمات ذات الصلة في جملة الإدخال.

يمكن استخدام آلية الانتباه بثلاث طرق مختلفة: التشفير إلى جهاز فك التشفير ، جهاز التشفير فقط ، جهاز فك التشفير فقط.

يتيح اهتمام وحدة فك التشفير وفك التشفير مراعاة تسلسل المدخلات عند إنشاء مخرجات ، بينما تتيح آليات الانتباه الخاصة بالمشفّر وفك التشفير فقط للشبكات النظر في جميع أجزاء التسلسل السابق والحالي على التوالي.

يمكن تقسيم بناء آلية الانتباه إلى خمس خطوات:

حساب النتيجة لجميع حالات التشفير.
حساب أوزان الانتباه
نواقل سياق الحوسبة
تحديث متجه السياق بإخراج الخطوة الزمنية السابقة
توليد الإخراج مع جهاز فك التشفير

تتمثل الخطوة الأولى في جعل مفكك الشفرة يحسب درجة لجميع حالات التشفير. يتم ذلك عن طريق تدريب شبكة مفكك التشفير ، وهي شبكة عصبية أساسية للتغذية الأمامية. عندما يتم تدريب وحدة فك التشفير على الكلمة الأولى في تسلسل الإدخال ، لم يتم إنشاء أي حالة داخلية / مخفية حتى الآن ، لذلك يتم استخدام الحالة الأخيرة لجهاز التشفير عادةً كحالة سابقة لجهاز فك التشفير.

من أجل حساب أوزان الانتباه ، يتم استخدام دالة softmax لتوليد توزيع احتمالي لأوزان الانتباه.

بمجرد حساب أوزان الانتباه ، يجب حساب متجه السياق. يتم ذلك بضرب أوزان الانتباه والحالة المخفية معًا في كل خطوة زمنية.

بعد حساب متجه السياق ، يتم استخدامه جنبًا إلى جنب مع الكلمة التي تم إنشاؤها في الخطوة الزمنية السابقة لإنشاء الكلمة التالية في تسلسل الإخراج. نظرًا لعدم وجود مخرجات سابقة لوحدة فك التشفير للإشارة إليها في الخطوة الأولى ، غالبًا ما يتم استخدام رمز مميز خاص بـ "البداية" بدلاً من ذلك.

الاختلافات بين المحولات و RNNs / LSTMs

دعنا نغطي بسرعة بعض الاختلافات بين RNNs و LSTMs.

تقوم RNNs بمعالجة المدخلات بالتتابع ، بينما يتم الاحتفاظ بمتجه الحالة المخفية وتعديله بواسطة كلمات الإدخال أثناء انتقالها عبر الشبكة. عادةً ما تحتوي الحالات المخفية لـ RNN على القليل جدًا من المعلومات ذات الصلة فيما يتعلق بالمدخلات السابقة. غالبًا ما تحل المدخلات الجديدة محل الحالة الحالية ، مما يؤدي إلى فقدان المعلومات وتقليل الأداء بمرور الوقت.

في المقابل ، تعالج نماذج المحولات تسلسل الإدخال بالكامل مرة واحدة. تسمح آلية الانتباه لكل كلمة مخرجة بأن يتم إخطارها من خلال كل إدخال وحالة مخفية ، مما يجعل الشبكة أكثر موثوقية للأجزاء الطويلة من النص.

LSTMs هي نسخة معدلة من RNNs ، تم تعديلها للتعامل مع تسلسلات الإدخال الأطول. تستخدم بنية LSTM بنية تسمى "بوابات" ، مع "بوابات الإدخال" و "بوابات الإخراج" و "بوابات النسيان". يتعامل التصميم المسور مع فقدان المعلومات المشترك في نماذج RNN. لا تزال معالجة البيانات بالتسلسل ، والتصميم المتكرر للهندسة المعمارية يجعل من الصعب تدريب نماذج LSTM باستخدام الحوسبة المتوازية ، مما يجعل وقت التدريب أطول بشكل عام.

يضيف مهندسو LSTM بشكل متكرر آليات الانتباه إلى الشبكة ، والتي كانت معروفة لتحسين أداء النموذج. ومع ذلك ، تم اكتشاف أن آلية الانتباه وحدها حسنت الدقة. أدى هذا الاكتشاف إلى إنشاء شبكات محولات تستخدم آليات الانتباه والحوسبة المتوازية بفضل وحدات معالجة الرسومات.