ืืื ื ืืืืืืชืืช
ืืืงืจื ื ืืืืจ, CTO ืืืืืกื ืฉื Fluent.ai – ืกืืจืช ืจืืืื ืืช

ויקרנט טומר, הוא ה-CTO ומייסד של Fluent.ai, תוכנה להבנת דיבור וממשק משתמש קולי עבור יצרני מכשירים וספקי שירותים.
מה היה הדבר שמשך אותך בתחילה ללמוד דגמים אקוסטיים להכרת דיבור?
באמת, היכולת לדבר עם המכשירים באותו אופן שאנו מדברים עם בן אדם אחר. חזון זה היה מרתק עבורי. התחלתי ללמוד הכרת דיבור במהלך השנה האחרונה של התואר הראשון שלי. זו גם הייתה העת שהתחלתי להתעניין במחקר, כך שלקחתי קורס הכרת דיבור ופרויקט מחקר קשור. הצלחתי לפרסם נייר מחקר בוועידת InterSpeech, אחת הוועידות הגדולות והמוכרות ביותר בתחום הכרת דיבור, מעבודה זו. כל זה עודד אותי לבחור במחקר בהכרת דיבור כמוקד לטווח הארוך, ולכן עשיתי דוקטורט.
ב-2015 השיקת את Fluent.ai, יכולת לשתף את סיפור המקור מאחורי הסטארט-אפ הזה?
יש לי שאיפה יזמית בתוכי במשך זמן רב. אני, יחד עם שני חברים אחרים, ניסינו להקים חברה אחרי התואר הראשון שלנו, אולם, מסיבות אחדות, הניסיון הזה לא צלח. במהלך הדוקטורט שלי ב-McGill, שמרתי עין על סצנת הסטארט-אפ במונטריאול. בתקופה זו, גם יצרתי קשר עם אנשים מ-TandemLaunch – המוסד ליזמות שבו יצרתי את Fluent.ai. בשלב זה, הייתי קרוב לסוף הדוקטורט שלי, והייתי נותן מחשבה רצינית לניסיון היזמות שוב. דרך ניסיון העבודה, מחקר והתארגנות עם קבוצות מחקר אחרות בתחום הדיבור, הבנתי שרוב החוויות הללו התמקדו בביצוע הכרת דיבור בדרך מסוימת: המרת דיבור לתעתיק טקסט ואז עיבוד שפה טבעית. אולם, זה הותיר פער ביכולת השימוש. חלק גדול של האוכלוסייה לא יכול ליהנות מפתרונות דיבור שפותחו בדרך זו. כמות הנתונים הדרושה לשיטות כאלה היא כה גדולה שלא היה משתלם לפתח מודלים נפרדים עבור שפות עם מספר דוברים פחות. כמו כן, הרבה ניבים ושפות אין להם צורה כתובה ברורה. אפילו משפחתי שלי לא יכלה להשתמש בכלים שפיתחתי (הם מדברים ניב של הינדית). לאור כל זאת, התחלתי לחשוב על דרכים שונות ליצירת מודלים של דיבור, שבהם כמות הנתונים הדרושה היא פחות, ו/או שהמשתמשים יכולים לאמן או לעדכן את המודלים בעצמם. הייתי מודע לעבודה שנעשתה באוניברסיטת KU Leuven (KUL) שיכולה להתאים לחלק מהדרישות האלה. עם חלק מהטכנולוגיה הבאה מ-KUL, הצלחנו לעשות את הצעדים הראשונים למה ש-Fluent.ai היא היום.
יכולת להרחיב על פתרונות הבנת הדיבור האינטואיטיביים של Fluent.ai?
פתרונות ההכרת דיבור של Fluent.ai מושפעים מהדרך שבני אדם רוכשים ומכירים שפות. מערכות הכרת דיבור מסורתיות ראשונות מתעתיקות את הדיבור הקלט לטקסט, ואז מוציאות משמעות מטקסט זה. זה לא הדרך שבני אדם מכירים דיבור. לקחו דוגמה של ילדים לפני שהם לומדים לקרוא ולכתוב: על אף שהם לא יודעים דבר על הייצוג הכתוב של שפות, הם מסוגלים לקיים שיחה מדוברת בקלות. בדרך דומה, מודלים מבוססי רשתות נוירונים עמוקות של Fluent.ai מסוגלים להוציא משמעות ישירות מצלילי הדיבור ללא צורך לתעתיק אותם קודם לכן לטקסט. מבחינה טכנית, זוהי הבנת שפה מדוברת אמיתית. ישנם יתרונות רבים לגישה זו. הכרת דיבור מסורתית היא גישה מסורבלת, שבה מספר מודולים שאומנו בנפרד מחוברים יחד כדי לספק תגובה סופית. זה גורם לפתרון לא אופטימלי שסובל משינויים בתוצאות עבור מבטאים, רעש, תנאי רקע וכו’. מערכת הזיהוי כוונה אוטומטית (AIR) של Fluent.ai היא מותאמת מקצה לקצה; זוהי ארכיטקטורה המבוססת רשתות נוירונים, שבה כל המודולים מאומנים יחד כדי לספק את הפתרון האופטימלי ביותר. בנוסף, אנו מסוגלים להסיר מספר מודולים כבדים מבחינה חישובית שנמצאים בדרך כלל במערכות הכרת דיבור מסורתיות. זה מאפשר לנו ליצור מערכות הכרת דיבור בעלות השפעה נמוכה שיכולות לרוץ בכ-40KB של RAM על מיקרו-בקר נמוך-עוצמה הפועל ב-50 MHz. לבסוף, מערכות הבנת השפה המדוברת שלנו מסוגלות לנצל דמיון בין שפות שונות בדרך ייחודית כדי לספק תכונות בלעדיות כגון יכולת לזהות מספר שפות באותו המודל.
מהם חלק מהאתגרים של בינה מלאכותית בכיבוש בעיה של רעש סביבתי?
רעש הוא אחד האתגרים הגדולים ביותר עבור הכרת דיבור. מה שהופך אותו לבעיה מאוד מאתגרת הוא שישנם סוגים רבים של רעש והם משפיעים על הספקטרום של הדיבור בדרכים שונות. לפעמים רעש יכול גם להשפיע על תגובת המיקרופון. במקרים רבים, אין אפשרות להפריד את מקורות הדיבור ממקורות הרעש. במקרים מסוימים, רעש יכול לגרום למסיכת המידע הזמין בספקטרום של הדיבור, בעוד שבאחרים, הוא יכול להסיר לחלוטין את המידע השימושי. שניהם גורמים לדיוק נמוך.
האם תוכל להגדיר מהו Edge AI וכיצד Fluent.ai משתמשת בסוג AI זה?
Edge AI הוא מונח מקיף המשמש לכיסוי מספר דרכים שונות שבהן יישומי AI יכולים להיות מועברים למכשירים בעלי הספקה נמוכה. יותר ויותר, המונח הזה משמש עבור מקרים שבהם מכשירי ה-Edge ביצ












