الذكاء الاصطناعي 101
ما هي الشبكات العصبونية للتحويلات؟

وصف شبكات التحويلات العصبونية
التحويلات هي نوع من نماذج التعلم الآلي التي تختص في معالجة وتفسير البيانات المتسلسلة، مما يجعلها مثالية للمهام المتعلقة بمعالجة اللغة الطبيعية. لتحسين فهم ما هي شبكة تحويل عصبونية، وكيف تعمل، دعونا نلقي نظرة أقرب على نماذج التحويلات والآليات التي تدفعها.
سيغطي هذا المقال:
- نماذج التسلسل إلى التسلسل
- هيكل شبكة التحويلات العصبونية
- آلية الانتباه
- الفرق بين التحويلات و RNNs/LSTMs
نماذج التسلسل إلى التسلسل
نماذج التسلسل إلى التسلسل هي نوع من نماذج معالجة اللغة الطبيعية التي تستخدم لتحويل تسلسلات من نوع إلى تسلسل من نوع آخر. هناك أنواع مختلفة من نماذج التسلسل إلى التسلسل، مثل نماذج الشبكات العصبونية المتكررة و نماذج الذاكرة القصيرة الأجل الطويلة الأمد (LSTM).
النماذج التقليدية للتسلسل إلى التسلسل مثل RNNs و LSTMs ليست محور هذا المقال، ولكن فهمها ضروري لتقدير كيف تعمل نماذج التحويلات ولماذا هي أفضل من النماذج التقليدية للتسلسل إلى التسلسل.
باختصار، تتكون نماذج RNN و LSTM من شبكات مشفرة وشبكات فك التشفير تحلل البيانات المدخلة في خطوات زمنية مختلفة. تكون الشبكة المشفرة مسؤولة عن تشكيل تمثيل مشفر للكلمات في البيانات المدخلة. في كل خطوة زمنية، تأخذ الشبكة المشفرة تسلسلًا مدخلًا وحالة مخفية من الخطوة الزمنية السابقة في السلسلة. يتم تحديث قيم الحالة المخفية مع تقدم البيانات عبر الشبكة، حتى الخطوة الزمنية الأخيرة، حيث يتم إنشاء “متجه سياق”. ثم يتم تمرير متجه السياق إلى شبكة فك التشفير، التي تستخدم لإنشاء تسلسل هدف عن طريق التنبؤ بالكلمة الأكثر احتمالاً التي تتوافق مع الكلمة المدخلة لكل خطوة زمنية.
يمكن تعزيز هذه النماذج من خلال استخدام “آلية انتباه”. تعرف آلية الانتباه الأجزاء من متجه المدخل التي يجب على الشبكة التركيز عليها لإنشاء الإخراج الصحيح. بعبارة أخرى، تسمح آلية الانتباه لنموذج التحويل بمعالجة كلمة مدخلة واحدة مع الانتباه إلى المعلومات ذات الصلة المحتواة في الكلمات المدخلة الأخرى. كما تقوم آليات الانتباه بتمكين الكلمات التي لا تحتوي على معلومات ذات صلة.
هيكل شبكة التحويلات العصبونية
سنناقش آلية الانتباه بالتفصيل لاحقًا، ولكن الآن دعونا نلقي نظرة على هيكل شبكة تحويل عصبونية على مستوى أعلى.
بشكل عام، تظهر شبكة تحويل عصبونية هيكلًا مثل التالي:

في حين قد يتغير هذا الهيكل العام بين الشبكات، ستبقى القطع الأساسية هي نفسها: التشفيرات الموقعية، متجهات الكلمات، آلية الانتباه، والشبكة العصبونية المتقدمة.
التشفيرات الموقعية ومتجهات الكلمات
تعمل شبكة التحويلات العصبونية عن طريق أخذ تسلسل من المدخلات وتحويله إلى تسلسلين آخرين. تنتج الشبكة تحويل تسلسل من متجهات الكلمات ومتجهات التشفيرات الموقعية.
تعتبر متجهات الكلمات مجرد تمثيل نصي في شكل رقمي يمكن للشبكة العصبونية معالجته. في حين أن التشفيرات الموقعية هي تمثيلات متجهية تحتوي على معلومات حول موقع الكلمة الحالية في الجملة المدخلة، بالنسبة إلى الكلمات الأخرى.
تستخدم نماذج الشبكات العصبونية الأخرى القائمة على النص مثل RNNs و LSTMs متجهات لتمثيل الكلمات في البيانات المدخلة. تخطط هذه التمثيلات المتجهية الكلمات إلى قيم ثابتة، ولكن هذا محدود لأن الكلمات يمكن استخدامها في سياقات مختلفة. تحل شبكة التحويل هذه المشكلة عن طريق جعل قيم الكلمات أكثر مرونة، باستخدام دوال جيبية لتمكين متجهات الكلمات من أخذ قيم مختلفة اعتمادًا على موقع الكلمة في الجملة.
هذا يسمح للنموذج العصبي بالحفاظ على المعلومات المتعلقة بموقع الكلمات المدخلة相对于 بعضها البعض، حتى بعد прохول المتجهات عبر طبقات شبكة التحويل.
تتم إضافة التشفيرات الموقعية ومتجهات الكلمات معًا ثم تمريرها إلى شبكات المشفر والفك التشفير. في حين أن شبكات التحويلات العصبونية تستخدم مخططات مشفرة/فك تشفير مثل RNNs و LSTMs، فإن الفرق الرئيسي بينها هو أن جميع البيانات المدخلة يتم إدخالها إلى الشبكة في نفس الوقت، في حين يتم إدخال البيانات بشكل متسلسل في RNNs/LSTMs.
تكون شبكات المشفر مسؤولة عن تحويل المدخلات إلى تمثيلات يمكن للشبكة学习 منها، في حين تقوم شبكات فك التشفير بتحويل التمثيلات إلى توزيع احتمالي يستخدم لإنشاء الكلمات الأكثر احتمالاً في الجملة الهدف. ومن المهم أن كلا شبكات المشفر وفك التشفير تحتويان على آلية انتباه.
نظرًا لأن بطاقات الرسومات يمكنها المعالجة المتوازية، يتم استخدام آليات انتباه متعددة بشكل متوازي، لحساب المعلومات ذات الصلة لجميع الكلمات المدخلة. هذه القدرة على الانتباه إلى كلمات متعددة في نفس الوقت، تسمى “انتباه متعدد الرؤوس”، تساعد الشبكة العصبونية على تعلم سياق الكلمة في الجملة، وهي واحدة من المزايا الرئيسية التي تمتلكها شبكات التحويل على RNNs و LSTMs.
آلية الانتباه
تعتبر آلية الانتباه الجزء الأكثر أهمية في شبكة التحويل. آلية الانتباه هي ما يمكّن نماذج التحويل من تجاوز حدود الانتباه لنماذج RNN أو LSTM التقليدية. النماذج التقليدية للتسلسل إلى التسلسل تلغي جميع الحالات الوسيطة وتستخدم فقط الحالة/متجه السياق النهائي عند 초기 شبكة فك التشفير لإنشاء تنبؤات حول تسلسل مدخل.
الغاء كل شيء ما عدا متجه السياق النهائي يعمل بشكل جيد عندما تكون تسلسلات المدخلات قصيرة نسبيًا. ومع ذلك، مع زيادة طول تسلسل المدخل، يتراجع أداء النموذج باستخدام هذه الطريقة. هذا لأن من الصعب تلخيص تسلسل مدخل طويل في متجه واحد. الحل هو زيادة “انتباه” النموذج واستخدام الحالات الوسيطة للمشفر لإنشاء متجهات سياق للشبكة فك التشفير.
تعرف آلية الانتباه كيفية أهمية الرموز المدخلة الأخرى للنموذج عند إنشاء التمثيلات لرمز معين. على سبيل المثال، “هو” ضمير عام، غالبًا ما يستخدم للإشارة إلى الحيوانات عندما لا يكون جنسها معروفًا. آلية الانتباه تسمح لنموذج التحويل بتحديد أن “هو” يشير إلى سنجاب في السياق الحالي، لأنها يمكن أن تتحقق من جميع الكلمات ذات الصلة في الجملة المدخلة.
يمكن استخدام آلية الانتباه بثلاث طرق مختلفة: من المشفر إلى فك التشفير، فقط المشفر، فقط فك التشفير.
الانتباه من المشفر إلى فك التشفير يسمح للشبكة فك التشفير بالنظر إلى تسلسلات المدخلة عند إنشاء الإخراج، في حين أن آليات الانتباه فقط المشفر و فقط فك التشفير تسمح للشبكات بالنظر إلى جميع أجزاء التسلسلات السابقة والحالية على التوالي.
يمكن تقسيم بناء آلية الانتباه إلى خمس خطوات:
- حساب درجة لجميع حالات المشفر.
- حساب أوزان الانتباه
- حساب متجهات السياق
- تحديث متجه السياق مع إخراج الخطوة الزمنية السابقة
- إنشاء الإخراج مع شبكة فك التشفير
الخطوة الأولى هي جعل شبكة فك التشفير تحسب درجة لجميع حالات المشفر. يتم هذا من خلال تدريب شبكة فك التشفير، والتي هي شبكة عصبونية متقدمة أساسية. عندما يتم تدريب شبكة فك التشفير على أول كلمة في تسلسل المدخل، لم يتم إنشاء حالة داخلية/مخفية بعد، لذلك يتم استخدام حالة المشفر الأخيرة عادةً كحالة سابقة لشبكة فك التشفير.
للحصول على أوزان الانتباه، يتم استخدام دالة softmax لإنشاء توزيع احتمالي لأوزان الانتباه.
بعد حساب أوزان الانتباه، يتعين حساب متجه السياق. يتم هذا بضرب أوزان الانتباه و الحالة المخفية معًا لكل خطوة زمنية.
بعد حساب متجه السياق، يتم استخدامه جنبًا إلى جنب مع الكلمة التي تم إنشاؤها في الخطوة الزمنية السابقة لإنشاء الكلمة التالية في تسلسل الإخراج. نظرًا لأن شبكة فك التشفير لا تمتلك إخراجًا سابقًا للاستشهاد به في الخطوة الزمنية الأولى، يتم استخدام رمز “بداية” خاص في كثير من الأحيان.
الفرق بين التحويلات و RNNs/LSTMs
دعونا نغطي بسرعة بعض الفرق بين RNNs و LSTMs.
RNNs تمت معالجة المدخلات بشكل تسلسلي، في حين يتم الحفاظ على متجه حالة مخفية ويتم تغييره بواسطة الكلمات المدخلة أثناء تحركها عبر الشبكة. تحتوي حالات RNN عادةً على معلومات قليلة ذات صلة حول المدخلات السابقة. غالبًا ما تُكتب الكلمات الجديدة الحالة الحالية، مما يؤدي إلى فقدان المعلومات وتدهور الأداء مع مرور الوقت.
في المقابل، تعالج نماذج التحويل تسلسل المدخل بالكامل في نفس الوقت. تسمح آلية الانتباه لكل كلمة إخراج بالاستفادة من كل كلمة مدخلة وحالة مخفية، مما يجعل الشبكة أكثر موثوقية للنصوص الطويلة.
LSTMs هي نسخ معدلة من RNNs، معدة لمعالجة تسلسلات مدخلة أطول. تستخدم هيكلًا يسمى “بوابات”، مع “بوابات مدخلة” و “بوابات مخرجة” و “بوابات نسيان”. يتعامل التصميم المبني على البوابات مع فقدان المعلومات الشائع في نماذج RNN. يتم معالجة البيانات بشكل تسلسلي، ويجعل تصميم الشبكة المتكرر من الصعب تدريب نماذج LSTM باستخدام الحوسبة المتوازية، مما يطيل وقت التدريب بشكل عام.
كان مهندسو LSTMs يضيفون غالبًا آليات انتباه إلى الشبكة، والتي كانت معروفة بتحسين أداء النموذج. ومع ذلك، تم اكتشاف في النهاية أن آلية الانتباه وحدها تحسنت من الدقة. أدى هذا الاكتشاف إلى إنشاء شبكات تحويل تستخدم آليات انتباه ومعالجة متوازية بفضل بطاقات الرسومات.












