בדל קריאת שפתיים עם Visemes ולמידת מכונה - Unite.AI
צור קשר

בינה מלאכותית

קריאת שפתיים עם סיבים ולמידת מכונה

mm
מְעוּדכָּן on
HAL קורא שפתיים בשנת 2001: אודיסיאה בחלל (1968)

מחקר חדש מבית הספר להנדסת מחשבים בטהרן מציע גישה משופרת לאתגר של יצירת מערכות למידת מכונה המסוגלות לקרוא שפתיים.

אל האני מאמר, זכאי קריאת שפתיים באמצעות פענוח Viseme, מדווח כי המערכת החדשה משיגה שיפור של 4% בשיעור שגיאות מילים בהשוואה למיטב הדגמים הקודמים הדומים. המערכת מטפלת במחסור הכללי בנתוני הכשרה שימושיים במגזר זה על ידי מיפוי כנפיים לתוכן טקסט הנגזר מששת מיליון הדגימות במערך הנתונים של OpenSubtitles של כותרות סרטים מתורגמות.

ויסמה היא המקבילה החזותית של פונמה, למעשה אודיו>תמונה מיפוי שיכולה להוות 'תכונה' במודל למידת מכונה.

Visemes gif

Viseses בפעולה. מקור: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

החוקרים החלו בקביעת שיעור השגיאות הנמוך ביותר במערכי נתונים זמינים, ופיתוח רצפי ויזמים מהליכי מיפוי מבוססים. בהדרגה, תהליך זה מפתח לקסיקון חזותי של מילים - אם כי יש צורך להגדיר הסתברויות של דיוק עבור מילים שונות המשותפות לוויזה (כגון 'לב' ו'אומנות').

צדדים מפוענחים

Visemes שחולצו מטקסט. מקור: https://arxiv.org/pdf/2104.04784.pdf

כאשר שתי מילים זהות מובילות לאותה נגיעה, המילה המתרחשת בתדירות הגבוהה ביותר נבחרת.

המודל מתבסס על מסורתי רצף לרצף למידה על ידי הוספת שלב עיבוד משנה שבו חזותיים נחזות מטקסט ומעצבות בצינור ייעודי:

קריאת שפתיים בארכיטקטורת Viseme

לעיל, שיטות מסורתיות של רצף לרצף במודל דמויות; להלן, הוספה של דוגמנות אופי ויסמה במודל המחקר של טהראן. מקור: https://arxiv.org/pdf/2104.04784.pdf

המודל יושם ללא הקשר חזותי כנגד מערך נתונים של LRS3-TED, שוחרר מאוניברסיטת אוקספורד ב-2018, עם שיעור שגיאות המילים הגרוע ביותר (WER) השיג 24.29% מכובדים.

המחקר בטהרן משלב גם שימוש בא גרפמה לפונמה ממיר.

במבחן נגד מחקר אוקספורד 2017 משפטי קריאת שפתיים בטבע (ראה להלן), שיטת Video-To-Viseme השיגה שיעור שגיאות מילים של 62.3%, בהשוואה ל-69.5% בשיטת אוקספורד.

החוקרים מסכמים כי השימוש בנפח גבוה יותר של מידע טקסט, בשילוב עם מיפוי גרפמה-לפונמה ומיפוי ויזמה, מבטיח שיפורים ביחס לרמת האמנות במערכות מכונות אוטומטיות לקריאת שפתיים, תוך הכרה בכך שהשיטות בהן נעשה שימוש עשויות לייצר אפילו תוצאות טובות יותר כאשר משולבים במסגרות נוכחיות מתוחכמות יותר.

קריאת שפתיים מונעת על ידי מכונה הייתה תחום פעיל ומתמשך של ראיית מחשב ומחקר NLP במהלך שני העשורים האחרונים. בין דוגמאות ופרויקטים רבים אחרים, בשנת 2006 השימוש בתוכנה אוטומטית לקריאת שפתיים כבשו כותרות כאשר נהגו לפרש את מה שאדולף היטלר אמר בכמה מהסרטים האילמים המפורסמים שצולמו בנסיגה שלו בבוואריה, אם כי נראה שהאפליקציה נעלמה לאפלולית מאז (שתים עשרה שנים מאוחר יותר, סר פיטר ג'קסון נקט לקוראי שפתיים אנושיים כדי לשחזר את השיחות של צילומי מלחמת העולם הראשונה בפרויקט השיקום הם לא יזדקנו).

ב2017, משפטים לקריאת שפתיים בטבע, שיתוף פעולה בין אוניברסיטת אוקספורד וחטיבת המחקר בינה מלאכותית של גוגל יצר א AI לקריאת שפתיים מסוגל להסיק נכון 48% מהדיבור בוידאו ללא קול, כאשר קורא שפתיים אנושי יכול להגיע לרמת דיוק של 12.4% רק מאותו חומר. הדוגמנית הוכשרה על סמך אלפי שעות של צילומי טלוויזיה של ה-BBC.

עבודה זו באה בעקבות א נפרד יוזמת אוקספורד/גוגל מהשנה הקודמת, זכאי LipNet, ארכיטקטורת רשת עצבית שמיפתה רצפי וידאו באורך משתנה לרצפי טקסט באמצעות Gated Recurrent Network (GRN), אשר מוסיפה פונקציונליות לארכיטקטורת הבסיס של רשת עצבית חוזרת (RNN). הדגם השיג ביצועים משופרים של פי 4.1 לעומת קוראי שפתיים אנושיים.

מלבד הבעיה של השגת תמלול מדויק בזמן אמת, האתגר של פירוש דיבור מווידאו מעמיק ככל שמסירים הקשר מועיל, כגון אודיו, קטעי "פנים-על" מוארים היטב ושפה/תרבות שבה הפונמות/ דגמים נבדלים יחסית.

למרות שכרגע אין הבנה אמפירית אילו שפות הן הקשות ביותר לקריאת שפתיים בהיעדר מוחלט של אודיו, יפנית היא מתמודד ראשי. הדרכים השונות בהן ילידים יפנים (כמו גם ילידים מסוימים אחרים ממערב ומזרח אסיה) ממנפים הבעות פנים כנגד תוכן הדיבור שלהם כבר הופכות אותם ל אתגר גדול יותר עבור מערכות ניתוח סנטימנטים.

עם זאת, ראוי לציין שחלק ניכר מהספרות המדעית בנושא היא באופן כללי זהיר, לא מעט משום שאפילו מחקר אובייקטיבי בעל כוונות טובות בתחום זה מסתכן לעבור לפרופיל גזעי ולהפצת סטריאוטיפים קיימים.

שפות עם שיעור גבוה של רכיבים גרוניים, כגון צ'צ'ניה ו הולנדי, הם בעייתיים במיוחד עבור טכניקות חילוץ דיבור אוטומטיות, בעוד שתרבויות שבהן הדובר עשוי להביע רגש או הוקרה על ידי הפניית מבט (שוב, בדרך כלל בתרבויות אסיה) הוסף מימד נוסף שבו חוקרי קריאת שפתיים בינה מלאכותית יצטרכו לפתח שיטות נוספות של 'מילוי' מרמזים הקשריים אחרים.