בינה מלאכותית

איחוד דיבור וסינתזה של מחוות

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

כאשר חזרתי לבריטניה מכמה שנים בדרום איטליה, לקח לי זמן מה להפסיק להשתמש במחוות ידיים תוך כדי דיבור. בבריטניה, תמיכה בדיבור שלך בתנועות יד נמרצות רק הופך אותך להיראות מעט יותר ממוקפץ; באיטליה, כמי שלומד את השפה, זה באמת עזר לי להיות מובן. אפילו עכשיו, באירועים הנדירים יותר שאני מדבר איטלקית, “הידיים הפרועות” חוזרות לשירות. כמעט בלתי אפשרי לדבר איטלקית בלי לזוז.

בשנים האחרונות, תקשורת המסתמכת על מחוות בתרבות האיטלקית והיהודית הגיעה לתשומת לב הציבור כיותר מאשר רק טרופ מעבודתו של מרטין סקורסזה וסרטיו המוקדמים של וודי אלן. ב-2013 הניו יורק טיימס הרכיב היסטוריה קצרה של מחוות יד איטלקיות; האקדמיה מתחילה לחקור נטיות גזעיות למחוות יד, במקום לדחות את הנושא כסטריאוטיפ; ואמוג’ים חדשים מ-Unicode Consortium מגיעים לסגור את הפער במחוות שבא עם תקשורת דיגיטלית, טקסטואלית בלבד.

גישה מאוחדת לדיבור ולמחוות

עכשיו, מחקר חדש ממחלקת דיבור, מוזיקה ושמיעה במכון הטכנולוגי המלכותי של שוודיה, KTH, מבקש לאחד את הדיבור ואת זיהוי המחוות למערכת רב-מודאלית מאוחדת, שיכולה להגביר את הבנתנו את התקשורת המבוססת דיבור, באמצעות שימוש בשפת גוף כשותף משלים לדיבור, ולא כתחום לימוד מקביל.

תמונות מדף הבדיקה של פרויקט הדיבור/מחווה השוודי. מקור: https://swatsw.github.io/isg_icmi21/

המחקר מציע מודל חדש הנקרא סינתזה משולבת של דיבור ומחוות (ISG), ומאחד מספר מודלים עצמאיים מתקדמים ממחקר הדיבור והמחוות.

הגישה החדשה נטשה את המודל הליניארי של צינור (שבו מידע על מחוות מופק ברצף מהדיבור כשלב עיבוד משני) לגישה משולבת יותר, שמדורגת באותו מעמד עם מערכות קיימות על ידי משתמשים, והיא משיגה זמן סינתזה מהיר יותר ומספר פרמטרים מופחת.

גישות ליניאריות מול משולבות. מקור: https://arxiv.org/pdf/2108.11436.pdf

המערכת הרב-מודאלית החדשה כוללת סינתזה ספונטנית של טקסט-לדיבור וגנרטור מחוות הנעה על ידי אודיו-דיבור, שניהם מאומנים על מאגר הנתונים הקיים של Trinity Speech Gesture dataset. מאגר הנתונים מכיל 244 דקות של אודיו ותיעוד גוף של גבר המדבר על נושאים שונים ומחוות בחופשיות.

העבודה היא מקבילה חדשנית וטנגנציאלית ל- DurIAN פרויקט, שיוצר הבעות פנים ודיבור, ולא מחוות ודיבור, ושנופל יותר לתחום של זיהוי וסינתזה של הבעות.

ארכיטקטורות

הרכיבים של דיבור וויזואלי (מחוות) של הפרויקט אינם מאוזנים במונחי נתונים; טקסט הוא דליל ומחוות הן עשירות ורווחות – אתגר במונחי הגדרת יעדים ומדדים. לכן, החוקרים העריכו את המערכת בעיקר על ידי תגובה אנושית לפלט, ולא בגישות מכניסטיות יותר כגון שגיאה ריבועית ממוצעת (MSE).

שני המודלים העיקריים של ISG פותחו סביב הגרסה השנייה של פרויקט הסינתזה של דיבור של Google מ-2017, Tacotron, ויוזמת Glow-TTS הדרום קוריאנית שפורסמה ב-2020. Tacotron משתמש בארכיטקטורה אוטורגרסיבית LSTM, בעוד ש-Glow-TTS פועלת במקביל דרך אופרטורים של קונבולוציה, עם ביצועי GPU מהירים יותר וללא בעיות יציבות שיכולות להתרחש במודלים אוטורגרסיביים.

החוקרים בדקו שלושה מערכות דיבור/מחווה אפקטיביות במהלך הפרויקט: גרסה מותאמת של ייצור רב-מודאלי של דיבור ומחוות שפורסם ב-2021 על ידי מספר מחברים מאותו פרויקט; גרסת ISG המוקדשת והמותאמת של Tacotron 2; וגרסת ISG משופרת מאוד של Glow-TTS.

כדי להעריך את המערכות, החוקרים יצרו סביבת משוב מבוססת רשת, המציגה אנשים מעוצבים ב-3D המדברים וזזים לפי קטעי טקסט מוגדרים (המראה הכללי של הסביבה ניתן לראות ב- דף הפרויקט הציבורי).

סביבת הבדיקה.

נבדקים נשאלו להעריך את ביצועי המערכת על סמך דיבור ומחוות, דיבור בלבד, ומחוות בלבד. התוצאות הראו שיפור קל בגרסת ISG החדשה לעומת הגרסה הישנה, אם כי המערכת החדשה פועלת מהר יותר ועם פחות משאבים.

כאשר נשאלו ‘כמה אנושית המחווה?’, המודל ISG המלא הסתיים במעט לפני המודל הישן, עם המודלים המבוססים על Tacotron ו-Glow במרחק.

שרוך מובנה

המודל Tacotron2-ISG, המוצלח ביותר מבין הגישות, מדגים רמה מסוימת של ‘למידה תת-מודעת’ הקשורה למספר מחוות נפוצות במאגר הנתונים, כגון ‘אני לא יודע’ – למרות היעדר נתונים מפורשים שיגרמו לו ליצור שרוך כדי ללוות את המשפט, החוקרים מצאו שהגנרטור אכן משריט.

החוקרים מציינים כי טבעו הספציפי של פרויקט חדשני זה בהכרח משמעו מחסור במשאבים כלליים, כגון מאגרי נתונים מוקדשים הכוללים נתוני דיבור ומחוות באופן המתאים לאימון כזו מערכת. עם זאת, ובעל היותו חלוצי, הם רואים בו נתיב מבטיח ומעט מחוקר בדיבור, בלשנות ובזיהוי מחוות.

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai

Unite.AI

איחוד דיבור וסינתזה של מחוות

גישה מאוחדת לדיבור ולמחוות

ארכיטקטורות

שרוך מובנה

You may like