מנהיגי דעה

השפעת ה-Transformer: האם תורגמה בעיה של תרגום מכונה?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google הודיעה לאחרונה על שחרור 110 שפות חדשות ב-Google Translate כחלק מיוזמת 1000 השפות שהושקה ב-2022. ב-2022, בתחילה הוסיפו 24 שפות. עם 110 הנוספות, זה 243 שפות. ההרחבה המהירה הזו הייתה אפשרית הודות ל- Zero-Shot Machine Translation, טכנולוגיה שבה מודלים של למידת מכונה לומדים לתרגם לשפה אחרת ללא דוגמאות קודמות. אבל בעתיד נראה ביחד אם התקדמות זו יכולה להיות הפתרון הסופי לאתגר של תרגום מכונה, ובינתיים אנחנו יכולים לחקור את הדרכים שזה יכול לקרות. אבל קודם, הסיפור שלו.

איך זה היה לפני?

תרגום מכונה סטטיסטי (SMT)

זו הייתה השיטה המקורית ש-Google Translate השתמשה בה. היא הסתמכה על מודלים סטטיסטיים. הם ניתחו קורפוסים מקבילים גדולים, אוספים של תרגומי משפטים מקבילים, כדי לקבוע את התרגומים הסבירים ביותר. קודם, המערכת תרגמה טקסט לאנגלית כשלב ביניים לפני המרתו לשפה היעד, והיא הייתה זקוקה להשוואה בין ביטויים עם מאגרי נתונים נרחבים מתעתיקים של האומות המאוחדות והפרלמנט האירופי. זה שונה מגישות מסורתיות שדרשו הרכבה של כללים דקדוקיים מפורטים. וגישתה הסטטיסטית איפשרה לה להסתגל וללמוד מנתונים ללא תלות במסגרות לשוניות סטטיות שיכולות להפוך למיושנות במהירות.
אבל ישנם חסרונות לגישה הזו, גם. קודם, Google Translate השתמשה בתרגום מבוסס פרזים, שבו המערכת פירקה משפטים לפרזים ותרגמה אותם בנפרד. זו הייתה שיפור לעומת תרגום מילה-אחר-מילה, אבל עדיין היו לה מגבלות כמו ניסוח מגושם ושגיאות הקשר. היא פשוט לא הבינה את הרגישויות כפי שאנו עושים. גם, SMT מסתמכת מאוד על קיומם של קורפוסים מקבילים, וכל שפה נדירה יחסית תהיה קשה לתרגום, מכיוון שאין לה מספיק נתונים מקבילים.

תרגום מכונה עצבי (NMT)

ב-2016, Google עברה לתרגום מכונה עצבי. היא משתמשת במודלים של למידה עמוקה כדי לתרגם משפטים שלמים כיחידה אחת, מה שנותן תרגומים זורמים ומדויקים יותר. NMT פועלת באופן דומה לעוזר מלינגוויסטי מתוחכם במחשב שלך. באמצעות ארכיטקטורה של רצף-לרצף (seq2seq), NMT מעבדת משפט בשפה אחת כדי להבין את משמעותו. אז – יוצרת משפט מקביל בשפה אחרת. שיטה זו משתמשת במאגרי נתונים ענקיים ללימוד, בניגוד ל-Statistical Machine Translation, שמסתמכת על מודלים סטטיסטיים המנתחים קורפוסים מקבילים גדולים כדי לקבוע את התרגומים הסבירים ביותר. לא כמו SMT, שהתמקדה בתרגום מבוסס פרזים ודרשה מאמץ ידני רב לפיתוח ותחזוקה של כללים לשוניים ומילונים, NMT מסוגלת לעבד רצפים שלמים של מילים, מה שמאפשר לה ללכוד את ההקשר הרגיש של השפה בצורה יותר יעילה. כך, היא שיפרה את איכות התרגום בזוגות שפות שונים, תוך הגעה לרמות זרימה ודיוק המשוות למתרגמים אנושיים.
בעצם, מודלים מסורתיים של NMT השתמשו ברשתות נוירונים מקבילות – RNNs – כארכיטקטורה המרכזית, מכיוון שהן עוצבו לעבד נתונים רציפים על ידי שמירה על מצב נסתר שמתפתח כאשר כל קלט חדש (מילה או טוקן) מעובד. מצב נסתר זה משמש כמו סוג של זיכרון שלוכד את ההקשר של הקלטים הקודמים, מה שמאפשר למודל ללמוד תלויות בזמן. אבל, RNNs היו יקרות מבחינה חישובית וקשות למקביל ביעילות, מה שהגביל את יכולת הקנה שלהן.

מבוא ל-Transformers

ב-2017, Google Research פרסמה את המאמר ” “Attention is All You Need,” שהציגה את ה-Transformers לעולם וסימנה מפנה משמעותי מ-RNNs בארכיטקטורת רשתות נוירונים.
Transformers מסתמכות רק על מנגנון התשומת לב, – תשומת לב עצמית, שמאפשרת למודלים של תרגום מכונה עצבי להתמקד באופן סלקטיבי בחלקים הקריטיים ביותר של רצפים קלט. לא כמו RNNs, שעיבדו מילים ברצף בתוך משפטים, תשומת לב עצמית מעריכה כל טוקן לאורך כל הטקסט, וקובעת אילו אחרים חיוניים להבנת ההקשר שלו. חישוב סימולטני זה של כל המילים מאפשר ל-Transformers ללכוד ביעילות הן תלויות קצרות-טווח והן תלויות ארוכות-טווח, ללא תלות בחיבורים רציפים או מסננים קונבולוציוניים.
כך, על ידי ביטול הרציפות, Transformers מציעות מספר יתרונות מרכזיים:

מקביליות: מנגנוני תשומת לב יכולים לחשב במקביל לאורך חלקים שונים של הרצף, מה שמאיץ את האימון על חומרה מודרנית כמו כרטיסים גרפיים.
יעילות אימון: הן גם דורשות זמן אימון משמעותית פחות בהשוואה למודלים מסורתיים המבוססים על RNNs או CNNs, ומספקות ביצועים טובים יותר במשימות כמו תרגום מכונה.

תרגום מכונה Zero-Shot ו-PaLM 2

ב-2022, Google הוציאה תמיכה ב-24 שפות חדשות באמצעות תרגום מכונה Zero-Shot, מה שסימן אבן דרך משמעותית בטכנולוגיית תרגום מכונה. הם גם הכריזו על יוזמת 1,000 השפות, שמטרתה לתמוך ב-1,000 השפות המדוברות ביותר בעולם. הם כבר הוציאו 110 שפות נוספות. תרגום מכונה Zero-Shot מאפשר תרגום ללא נתונים מקבילים בין שפת המקור לשפת היעד, ומבטלת את הצורך ליצור נתוני אימון לכל זוג שפות – תהליך שהיה בעבר יקר וצרוך זמן, ולחלק מזוגות שפות, אפילו בלתי אפשרי.
התקדמות זו הייתה אפשרית הודות לארכיטקטורה ומנגנוני תשומת הלב של ה-Transformers. יכולת ה-Transformer ללמוד מערכות יחסים הקשריות בין שפות, בשילוב עם יכולתה לטפל במספר רב של שפות בו-זמנית, איפשרה את פיתוחן של מערכות תרגום רב-לשוניות יותר יעילות ומוצלחות. עם זאת, מודלים Zero-Shot בדרך כלל מראים איכות נמוכה יותר מאשר אלו שאומנו על נתונים מקבילים.
אז, על בסיס ההתקדמות של ה-Transformers, Google הציגה את PaLM 2 ב-2023, שפתחה את הדרך לשחרור 110 שפות חדשות ב-2024. PaLM 2 שיפרה באופן משמעותי את יכולתה של Google Translate ללמוד שפות קרובות כמו Awadhi ו-Marwadi (הקשורות להינדי) וצרפתית קריאולית כמו Seychellois ו-Mauritian Creole. השיפורים ב-PaLM 2, כמו הסקלה האופטימלית, מאגרי נתונים משופרים, ועיצוב מוטב, איפשרו למידת שפות יעילה יותר ותמכו במאמצים המתמשכים של Google לשפר ולהרחיב את תמיכה בשפות ולתמוך ברגישויות לשוניות מגוונות.

האם ניתן לטעון שאתגר התרגום המכונה נפתר באופן מלא עם Transformers?

האבולוציה שאנו מדברים עליה לקחה 18 שנים מאימוץ Google של SMT ועד ל-110 השפות החדשות האחרונות באמצעות תרגום מכונה Zero-Shot. זו היא קפיצה ענקית שיכולה להפחית את הצורך באיסוף מאגרי נתונים מקבילים – משימה היסטורית ועמלנית שהתעשייה רדפה אחריה במשך יותר מעשור. אבל, לטעון שתרגום מכונה הוא בעיה שכבר נפתרה, זה מוקדם, בהתחשב בשיקולים טכניים ואתיים.
מודלים נוכחיים עדיין מתקשים עם הקשר והתאמה, ועושים שגיאות עדינות שיכולות לשנות את המשמעות של טקסט. בעיות אלו קיימות במיוחד במשפטים ארוכים ומורכבים, שם יש צורך בשמירה על זרימה לוגית והבנת רגישויות עבור תוצאות. גם, רגישויות תרבותיות וביטויים אידיומטיים לעיתים קרובות מאבדים את משמעותם, גורמים לתרגומים שעשויים להיות תקינים מבחינה דקדוקית אך לא בעלי ההשפעה הרצויה או נשמעים לא טבעיים.
נתונים לפני-אימון: PaLM 2 ומודלים דומים מאומנים על מאגר טקסטים רב-לשוני מגוון, שעוק

Irina Barskaya, PhD, Head Data Scientist at Yandex

אירינה ברסקאיה, PhD, היא מדענית נתונים מובילה עם יותר מעשור של ניסיון, הכוללת הן אנליטיקה של מוצרים והן אנליטיקה לטכנולוגיות חדשניות. היא עמדה בראש יצירת ואנליטיקה של Yasmina, העוזרת הקולית המבוססת AI הראשונה והמלאה לסעודיה, וטיפלה במידע מורכב של מיקום ותיוג עבור ערבית תקנית מודרנית וניבים סעודיים. כיום, אירינה עומדת בראש אנליטיקה של איכות ב Yandex, ומובילה התקדמות בטכנולוגיות AI.