בינה מלאכותית 101

מהם רשתות נוירונים מסוג Transformer?

Published January 25, 2021

Updated April 5, 2026

Daniel Nelson

רשתות נוירונים מסוג Transformer – תיאור

Transformers הן סוג של מודל למידת מכונה שמתמחה בעיבוד ופירוש נתונים רציפים, מה שהופך אותם לאופטימליים למשימות עיבוד שפה טבעית. כדי להבין טוב יותר מהו מודל מסוג Transformer ואיך הם פועלים, נביט מקרוב על מודלים מסוג Transformer ועל המנגנונים שמניעים אותם.

מאמר זה יכסה:

מודלים מסוג Sequence-to-Sequence
ארכיטקטורת רשתות נוירונים מסוג Transformer
מנגנון הקשב
הבדלים בין Transformers ל-RNNs/LSTMs

מודלים מסוג Sequence-to-Sequence

מודלים מסוג Sequence-to-Sequence הם סוג של מודל NLP שמשמשים להמיר רצפים של סוג אחד לרצף של סוג אחר. ישנם סוגים שונים של מודלים מסוג Sequence-to-Sequence, כגון Recurrent Neural Network מודלים ו-Long Short-Term Memory (LSTM) מודלים.

מודלים מסוג Sequence-to-Sequence מסורתיים כגון RNNs ו-LSTMs אינם המוקד של מאמר זה, אך הבנתם היא הכרחית כדי להעריך כיצד מודלים מסוג Transformer פועלים ולמה הם עדיפים על מודלים מסוג Sequence-to-Sequence מסורתיים.

בקיצור, RNN מודלים ו-LSTM מודלים כוללים רשתות מקודדות ורשתות מפענחות שמנתחות נתוני קלט בשלבים זמניים שונים. הרשת המקודדת אחראית ליצירת ייצוג מקודד של המילים בנתוני הקלט. בכל שלב זמני, הרשת המקודדת מקבלת רצף קלט ומצב נסתר מהשלב הקודם בסדרה. ערכי המצב הנסתר מעודכנים כאשר הנתונים עוברים דרך הרשת, עד לשלב האחרון, שם נוצר “וקטור הקשב”. וקטור הקשב מועבר לרשת המפענחת, שמשמשת ליצירת רצף יעד על ידי ניבוי המילה הכי משכנעת שמקבילה למילת הקלט לשלבים הזמניים הרלוונטיים.

מודלים אלה יכולים להת