ืืื ื ืืืืืืชืืช 101
ืืื ืจืฉืชืืช ื ืืืจืื ืื ืืกืื Transformer?

רשתות נוירונים מסוג Transformer – תיאור
Transformers הן סוג של מודל למידת מכונה שמתמחה בעיבוד ופירוש נתונים רציפים, מה שהופך אותם לאופטימליים למשימות עיבוד שפה טבעית. כדי להבין טוב יותר מהו מודל מסוג Transformer ואיך הם פועלים, נביט מקרוב על מודלים מסוג Transformer ועל המנגנונים שמניעים אותם.
מאמר זה יכסה:
- מודלים מסוג Sequence-to-Sequence
- ארכיטקטורת רשתות נוירונים מסוג Transformer
- מנגנון הקשב
- הבדלים בין Transformers ל-RNNs/LSTMs
מודלים מסוג Sequence-to-Sequence
מודלים מסוג Sequence-to-Sequence הם סוג של מודל NLP שמשמשים להמיר רצפים של סוג אחד לרצף של סוג אחר. ישנם סוגים שונים של מודלים מסוג Sequence-to-Sequence, כגון Recurrent Neural Network מודלים ו-Long Short-Term Memory (LSTM) מודלים.
מודלים מסוג Sequence-to-Sequence מסורתיים כגון RNNs ו-LSTMs אינם המוקד של מאמר זה, אך הבנתם היא הכרחית כדי להעריך כיצד מודלים מסוג Transformer פועלים ולמה הם עדיפים על מודלים מסוג Sequence-to-Sequence מסורתיים.
בקיצור, RNN מודלים ו-LSTM מודלים כוללים רשתות מקודדות ורשתות מפענחות שמנתחות נתוני קלט בשלבים זמניים שונים. הרשת המקודדת אחראית ליצירת ייצוג מקודד של המילים בנתוני הקלט. בכל שלב זמני, הרשת המקודדת מקבלת רצף קלט ומצב נסתר מהשלב הקודם בסדרה. ערכי המצב הנסתר מעודכנים כאשר הנתונים עוברים דרך הרשת, עד לשלב האחרון, שם נוצר “וקטור הקשב”. וקטור הקשב מועבר לרשת המפענחת, שמשמשת ליצירת רצף יעד על ידי ניבוי המילה הכי משכנעת שמקבילה למילת הקלט לשלבים הזמניים הרלוונטיים.
מודלים אלה יכולים להת








