בינה מלאכותית

קריאת שפתיים עם Visemes ולמידת מכונה

Published April 13, 2021

Updated April 5, 2026

Martin Anderson

HAL reads lips in 2001: A Space Odyssey (1968)

מחקר חדש מבית הספר להנדסת מחשבים בטהראן מציע שיטה משופרת לאתגר של יצירת מערכות למידת מכונה המסוגלות לקרוא שפתיים.

המאמרא>, בשם קריאת שפתיים באמצעות פענוח Visemeא>א>, דווח כי המערכת החדשה משיגה שיפור של 4% בשגיאת מילים על פני הטוב ביותר ממודלים דומים קודמים. המערכת פותרת את המחסור הכללי בנתוני אימון שימושיים בתחום זה על ידי מיפוי visemesא> לתוכן טקסט המופשט משישה מיליון דגימות במאגר OpenSubtitles של כותרות סרטים מתורגמות.

Viseme הוא המקביל החזותי של פונמה, בעצם מיפוי אודיו>תמונה מיפויא> שיכול להוות ‘תכונה’ במודל למידת מכונה.

[כותרת id=”attachment_175012″ align=”alignnone” width=”200″] Visemes gif א> Visemes בפעולה.א> מקור: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/[/כותרת]

החוקרים התחילו בקביעת שיעור השגיאה הנמוך ביותר במאגרי נתונים הזמינים, ופיתוח רצפי visemes מהליכי מיפוי מוכרים. בהדרגה, תהליך זה מפתח לקסיקון חזותי של מילים – אם כי יש צורך להגדיר הסתברויות של דיוק למילים שונות שחולקות viseme (כגון ‘heart’ ו-‘art’).

[כותרת id=”attachment_175014″ align=”alignnone” width=”893″] Decoded visemes א> Visemes שהופשטו מטקסט.א> מקור: https://arxiv.org/pdf/2104.04784.pdf[/כותרת]

במקרה שבו שתי מילים זהות תוצאות באותו viseme, נבחרת המילה הנפוצה ביותר.

המודל בנוי על למידת רצף-ל-רצףא> מסורתית על ידי הוספת שלב עיבוד משני שבו visemes ניבאים מטקסט ומודלים בצינור מוקדש:

[כותרת id=”attachment_175017″ align=”alignnone” width=”821″] Viseme architecture lip-reading א> למעלה, שיטות רצף-ל-רצף מסורתיות במודל אותיות; למטה, הוספת מודל viseme אותיות במודל המחקר של טהראן.א> מקור: https://arxiv.org/pdf/2104.04784.pdf[/כותרת]

המודל הוחל על מנת ללא הקשר חזותי נגד מאגר LRS3-TEDא>, שוחררא> מאוניברסיטת אוקספורד ב-2018, עם השגיאת מילים הגרועה ביותר (WER) הושגה 24.29% כבוד.

המחקר של טהראן כולל גם את השימוש ב- ממיר grapheme-to-phonemeא>.

בבדיקה נגד מחקר 2017 של אוקספורדא> קריאת שפתיים של משפטים בטבעא>א>, שיטת Video-To-Viseme השיגה שגיאת מילים של 62.3%, לעומת 69.5% עבור שיטת אוקספורד.

החוקרים מסיקים כי השימוש בנפח גבוה יותר של מידע טקסט, בשילוב עם ממיר grapheme-to-phoneme ומיפוי viseme, מבטיח שיפורים על המצב הנוכחי במערכות אוטומטיות לקריאת שפתיים, בעודם מודים כי השיטות שהתקבלו עשויות להניב תוצאות טובות יותר כאשר הן משולבות במסגרות נוכחיות מתוחכמות יותר.

קריאת שפתיים מונעת מכונה הייתה תחום מחקר פעיל ומתמשך בראייה ממוחשבת ו-NLP במשך שני העשורים האחרונים. בין הרבה דוגמאות ופרויקטים אחרים, ב-2006 השימוש בתוכנה אוטומטית לקריאת שפתיים תפס כותרותא> כאשר שימש לפירוש מה אדולף היטלר אמר בחלק מהסרטים האילמים המפורסמים שצולמו בנסיגתו הבווארית, אם כי היישום נעלם לתוך אפלה מאז (שנים עשר שנים לאחר מכן, פנהא> סר פיטר ג’קסון לקוראי שפתיים אנושיים כדי לשחזר את השיחות של צילומי מלחמת העולם הראשונה בפרויקט הם לא יזדקנוא>א>).

ב-2017, קריאת שפתיים של משפטים בטבעא>א>, שיתוף פעולה בין אוניברסיטת אוקספורד וחטיבת המחקר AI של גוגל יצרא> AI לקריאת שפתיים המסוגל להסיק נכונה 48% מדיבור בווידאו ללא קול, שם קורא שפתיים אנושי יכול היה להגיע לדיוק של 12.4% מאותו החומר. המודל אומן על אלפי שעות של צילומי BBC.

עבודה זו המשיכה יוזמה נפרדתא> של אוקספורד/גוגל מהשנה הקודמת, LipNetא>, ארכיטקטורת רשת נוירונים שמיפתה רצפי וידאו באורך משתנה לרצפי טקסט באמצעות רשת נוירונים רקורנטית (RNN), שמוסיפה תכונות לארכיטקטורה הבסיסית של רשת נוירונים רקורנטית (RNN). המודל השיג ביצועים 4.1 פעמים טובים יותר מקוראי שפתיים אנושיים.

מלבד בעיית הקבלת תעתיק מדויק בזמן אמת, האתגר של פירוש דיבור מווידאו מעמיק ככל שאתה מסיר הקשר עזר, כגון אודיו, צילום ‘פנים-אל-פנים’ היטב מואר, ושפה/תרבות שבה הפונמות/visemes יחסית מובחנות.

אף על פי שאין כרגע הבנה אמפירית לגבי איזה שפות הן הקשות ביותר לקריאת שפתיים בהיעדר מוחלט של אודיו, יפןא> היא מועמדת מובילהא>. הדרכים השונות שבהן ילידים יפנים (וכן ילידים מסוימים ממזרח ומערב אסיה) מנצלים ביטויים פנימיים נגד תוכן דיבורם כבר הופכים אותם ל- אתגר גדול יותרא> עבור מערכות זיהוי רגש.

אולם, שווה לציין כי רוב הספרות המדעית בנושא היא מוקפדתא>, לא רק בגלל שאפילו מחקר אובייקטיבי היטב בתחום זה עלול לחצות לתוך פרופיל גזעי והפצת סטריאוטיפים קיימים.

שפות עם חלק גבוה של רכיבים גרוניים, כגון צ’צ’ניתא> ו-הולנדיתא>, הן בעייתיות במיוחד עבור טכניקות קיצוב דיבור אוטומטי, בעוד תרבויות שבהן הדובר עשוי לבטא רגש או כניעה על ידי הסתכלות הצידה (שוב, בדרך כלל בתרבויות אסיאתיותא>) מוסיפות מימד נוסף שבו חוקרי קריאת שפתיים AI יצטרכו לפתח שיטות נוספות של ‘מילוי’ מרמזים חיצוניים.

Related Topics:Machine Learning research speech recognition

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai

Unite.AI

קריאת שפתיים עם Visemes ולמידת מכונה

You may like