בינה מלאכותית

חוקרים מפתחים מודל JL2P להמרת תסריטי סרטים לאנימציות

Published September 11, 2019

Updated April 5, 2026

Alex McFarland

חוקרים באוניברסיטת קרנגי מלון פיתחו מודל מחשב שמסוגל לתרגם טקסט המתאר תנועות פיזיות לאנימציות ממוחשבות פשוטות. פיתוחים אלה חדשים יכולים לאפשר לסרטים ואנימציות אחרות להיות מופקות ישירות ממודל מחשב הקורא את התסריטים.

מדענים היו מקדמים בקבלת מחשבים להבין שפה טבעית ולייצר תנוחות פיזיות מתסריט. מודל מחשב חדש זה יכול להיות הקישור ביניהם.

לואי-פיליפ מורנסי, פרופסור חבר בהמכון לטכנולוגיות שפה (LTI), וצ’ייטניה אחוג’ה, סטודנט לדוקטורט ב-LTI, היו משתמשים בארכיטקטורה עצבית הנקראת Joint Language-to-Pose (JL2P). מודל JL2P מסוגל לשתף פעולה בין משפטים ותנועות פיזיות. זה מאפשר לו ללמוד כיצד שפה מחוברת לפעולה, מחוות ותנועות.

“אני חושב שאנחנו בשלב הראשוני של מחקר זה, אבל מנקודת מבט של מודל, בינה מלאכותית ותיאוריה, זה רגע מרגש מאוד,” אמר מורנסי. “כרגע, אנחנו מדברים על אנימציה של דמויות וירטואליות. בסופו של דבר, קישור זה בין שפה למחוות יכול להיות מוחל על רובוטים; אולי נוכל פשוט לומר לרובוט עוזר אישי מה אנחנו רוצים שהוא יעשה.

“אנחנו גם יכולים ללכת לכיוון ההפוך — באמצעות קישור זה בין שפה לאנימציה, מחשב יכול לתאר מה קורה בווידאו,” הוא הוסיף.

מודל Joint Language-to-Pose יוצג על ידי אחוג’ה ב-19 בספטמבר בוועידה הבינלאומית על ראייה תלת-ממדית. ועידה זו תתקיים בקוויבק סיטי, קנדה.

מודל JL2P נוצר על ידי גישת למידת תוכנית. הצעד החשוב הראשון היה למודל ללמוד רצפים קצרים וקלים. זה היה משהו כמו “אדם הולך קדימה.” אז הוא עבר לרצפים ארוכים וקשים יותר כמו “אדם עושה צעד קדימה, אז הוא פונה ועושה צעד קדימה שוב,” או “אדם קופץ מעל מכשול בזמן ריצה.”

כאשר המודל משתמש ברצפים, הוא מסתכל על פעלים ותוארי פועל. אלו מתארים את הפעולה ואת מהירות/תאוצת הפעולה. אז, הוא מסתכל על שמות עצם ותוארים המתארים מיקומים וכיוונים. על פי אחוג’ה, המטרה הסופית של המודל היא ליצור רצפים מורכבים עם פעולות מרובות המתרחשות בו-זמנית או ברצף.

כפי שהמודל נמצא כרגע, האנימציות מוגבלות לדמויות מופשטות, אבל המדענים הולכים להמשיך לפתח את המודל. אחד הקשיים שעולה הוא שעל פי מורנסי, הרבה דברים קורים בו-זמנית. חלקם אפילו קורים ברצפים פשוטים.

“סינכרון בין חלקי הגוף חשוב מאוד,” אמר מורנסי. “כל פעם שאתה מזיז את רגלייך, אתה גם מזיז את ידייך, גופך ואולי את ראשך. האנימציות של הגוף צריכות לתאם את הרכיבים השונים, בו-זמנית עם השגת פעולות מורכבות. הבאת סיפור שפה בתוך סביבת אנימציה מורכבת זו היא גם אתגרית וגם מרגשת. זהו המסלול לעבר הבנה טובה יותר של דיבור ומחוות.”

אם מודל Joint Language-to-Pose יוכל להתפתח לנקודה בה הוא יוכל ליצור אנימציות מורכבות ופעולות על בסיס שפה, האפשרויות הן עצומות. לא רק שהוא יכול להיעשות בתחומים כמו קולנוע ואנימציה, אלא שהוא גם יעזור להוביל לפיתוחים בהבנת דיבור ומחוות.

בפנייה לבינה מלאכותית, מודל JL2P זה יכול להיעשות ברובוטים. לדוגמה, רובוטים יכולים להיות מופעלים ונאמר להם מה לעשות, והם יוכלו להבין את השפה ולהגיב בהתאם.

פיתוחים אלה חדשים ישפיעו על תחומים רבים, והמודל ימשיך להיות יותר מסוגל להבין שפה מורכבת.