צור קשר

בינה מלאכותית קולית פורחת - אבל האם היא ריאליסטית מספיק כדי להשפיע?

מנהיגי מחשבה

בינה מלאכותית קולית פורחת - אבל האם היא ריאליסטית מספיק כדי להשפיע?

mm

השוק העולמי של סוכני קול מבוססי בינה מלאכותית פורח, מוקרן לגדול מ-3.14 מיליארד דולר בשנת 2024 ל-47.5 מיליארד דולר עד 2034. טכנולוגיה זו כבר אינה נישה, לרוב חברות הטכנולוגיה הגדולות (כולל גוגל, אמזון, אפל, מטה ומיקרוסופט) יש כיום מוצרי קול, סטארט-אפים מציעים חידושים לשוק, והטכנולוגיה עצמה הופכת לנגישה יותר ויותר עם מודלים של קוד פתוח. מעוזרים וירטואליים יומיומיים כמו סירי ואלכסה ועד דיבוב אזורי בסרטים ובטלוויזיה, מעולם לא הייתה הזדמנות פורייה יותר לאימוץ בינה מלאכותית קולית.

אבל ככל שהגישה לבינה מלאכותית קולית הופכת נפוצה יותר ויותר, החוויות נותרות לא אחידות לחלוטין. הסיבה לכך היא שהחלק הקשה ביותר בבינה מלאכותית קולית אינו יצירת צליל של קול, אלא יצירת קול שמרגיש אמין באינטראקציות יומיומיות. זמינות נרחבת אינה אומרת שקולות בינה מלאכותית אלה מספיקים לצרכים ארגוניים או לאימוץ ארוך טווח על ידי משתמשים. הנוף התחרותי האמיתי ייכבש על ידי אלו המספקים קולות שמרגישים אנושיים, דינמיים ובעלי מודעות רגשית במצבים בעולם האמיתי.

עמק המוזר: "מספיק טוב" לא מספיק

הנחה גוברת בתעשייה היא שהשגת קול בינה מלאכותית דמוי אדם באופן סביר תהיה "מספיק טובה" לאימוץ נרחב, ובכך תסיים למעשה את המירוץ. משתמשים יסבלו חוסר טבעיות קל מכיוון שהתועלת עולה על החסרונות.

במציאות, הנחה זו אינה מבינה נכון כיצד אנשים תופסים דיבור, רגש ואותנטיות. קולות כמעט אנושיים נוטים ליצור "עמק מוזר" השפעה שגורמת למשתמשים לאי נוחות, במיוחד במהלך תמיכת לקוחות, אינטראקציות עם שירותי בריאות או תכנון נסיעות, שבהן רגשות יכולים לעלות ותחושת הבנה היא קריטית. ככל שהחשיפה לקולות של בינה מלאכותית גוברת, הסובלנות לבינוניות יורדת.

למעשה, מחקר על אינטראקציה בין אדם למכונה מראה באופן עקבי שכאשר קול מושמע כמעט אנושי אך חסר יישור רגשי או קצבי, משתמשים חשים באופן אינסטינקטיבי שמשהו לא בסדר. לדוגמה, חברות מסוימות עם פקידי קבלה מבוססי בינה מלאכותית מציינות שמשתמשים מתארים אינטראקציות כמפחידות או מטרידות משום שלקול יש פערים עדינים בתזמון קצבי או רגשי שפשוט לא מרגישים נכונים. בסביבות הפונה ללקוחות, אפילו רגעים קטנים של חיכוך או אי נוחות יכולים להוביל במהירות לחוסר שביעות רצון אמיתי ולנטישה בסופו של דבר.

שחרור ממצב "מספיק טוב" הזה הופך חשוב יותר ויותר למטרות עסקיות. בינה מלאכותית צפויה להתמודד עם כ- 50% של מקרי שירות לקוחות עד 2027, אך אינטראקציות אוטומטיות שליליות יכול לפגוע ישירות בתפיסת המותג. אינטראקציה גרועה עם צ'אטבוט ואחריה חוויית קול גרועה או לא טבעית באותה מידה, סביר להניח שתיצר תחושת תסכול עמוקה ויכולה לאותת על כך שאין דרך אמינה לעזרה אמיתית.

ככל שצרכנים מקיימים אינטראקציה גוברת עם קולות של בינה מלאכותית, הסובלנות לאינטראקציות רובוטיות או מביכות פוחתת, והמשתמשים יתנתקו במהירות, מה שיגרום להשלכות עסקיות חמורות עבור חברות המסתמכות על כלים כאלה.

ריאליזם אמיתי

בבינה מלאכותית קולית, ריאליזם ברמה אנושית הוא יותר מדיוק בהגייה בלבד או הסרת צלילים רובוטיים. זה דורש גם שילוב רב-ממדי של רגש, הקשר, ניואנסים תרבותיים, תזמון וגורמים עדינים יותר. האתגר האמיתי, אם כן, טמון בפירוק, הבנה ובסופו של דבר שכפול של השכבות המעצבות את התקשורת האנושית, כגון:

טווח רגשי ואותנטיות

יופיו של קול אנושי טמון ביכולתו להעביר חמימות, דחיפות, הומור, אכזבה, התרגשות ואינספור רגשות אחרים, בשילוב עם המילים עצמן. ניואנס רגשי זה משפיע ישירות על האם המשתמש מרגיש מובן או מוזנח, רגוע או מגורה.

דמיינו, למשל, נציג תמיכה של בינה מלאכותית שמתמודד עם לקוח מתוסכל. הבוט עשוי לומר, "אני מבין לחלוטין כמה זה בטח מתסכל. בואו נראה איך נוכל לתקן את זה." כאשר הקול שאומר את המילים האלה נשמע אמפתי, זה יכול להפחית את הלחץ של המתקשר ולאותת על פתרון סכסוך אמיתי. אותן מילים שנאמרות בקול שטוח או לא טבעי יכולות לעורר את התגובה ההפוכה.

אינטליגנציה הקשר

בני אדם מתאימים באופן אינסטינקטיבי את דיבורם בהתאם לדחיפות המצבית, למצב הרגשי הנתפס של המאזין, למורכבות המידע ולהקשר החברתי. קולות הבינה המלאכותית של ימינו נוטים להעביר שורות בצורה אחידה, תוך החמצת הרמזים ההקשריים שגורמים לדיבור להרגיש רספונסיבי ונוכח. דיבור ריאליסטי דורש הבנה לא רק של המילים, אלא גם של הסיבה לכך שהן נאמרות ושל החשיבה של אלו המבטאים אותן.

מיקרו-ביטויים באודיו

דיבור טבעי כולל פגמים עדינים כמו נשימות, הפסקות, סימני היסוס וקצב לא סדיר. זוהי אחת הסיבות העיקריות לכך שדיבור בינה מלאכותית ללא רבב וללא הפרעות מרגיש מטבעו פחות אנושי. לרוע המזל, שכפול רמזים אלה בצורה אמינה נותר מאתגר מבחינה טכנית.

ניואנסים תרבותיים ולשוניים

לצד שכפול מבטא, תקשורת אזורית אותנטית תלויה במודעות לקצב, לאינטונציה, לניבים, לרמות הפורמליות ולסגנונות התקשורת של תרבויות שונות. לדוגמה, דפוס אינטונציה עולה שמאותת על ידידותיות והתרגשות בתרבות אחת עשוי להתפרש כחוסר ודאות או כספק באחרת, דבר שעלול לשנות את תפיסת המשתמש לגבי כוונה או רגש.

ללא ניואנסים קוליים אלה המשולבים במודלים של בינה מלאכותית, אפילו קולות מדויקים מבחינה טכנית עלולים להרגיש לא הולמים או מבלבלים עבור משתמשים מרקעים תרבותיים שונים. ריאליזם אמיתי דורש את היכולת להתאים את הטון והסגנון בהתאם לציפיות של כל משתמש נתון.

כאשר לוקחים בחשבון את כל הגורמים העדינים אך החשובים הללו, מתברר שקולות של בינה מלאכותית חייבים לא רק נשמע כמו בן אדם אבל גם להגיב בזמן אמת כמו שאדם היה עושה. זו הסיבה שהשהייה היא מרכיב מכריע בהערכת עד כמה קול בינה מלאכותית מרגיש אנושי. בשיחה טבעית, בני אדם מדברים בתורם במרווחים ממוצעים של 250 אלפיות השנייהכל זמן ארוך יותר והאינטראקציה תרגיש איטית, חסרת תשומת לב או מבולבלת. ההבדל הקטן בין הפסקה מהורהרת לעיכוב טכני יכול להיות כל מה שצריך כדי לשבש את האשליה של שיחה טבעית ולגרום לקול להרגיש פחות קשוב.

למה זה חשוב

בהמשך, השוק יעדיף באופן בלתי נמנע חברות שיכולות לספק גם ריאליזם וגם תגובתיות בזמן אמת.

עבור סוכני ועוזרים של בינה מלאכותית, אימוץ המשתמשים ומעורבות מתמשכת תלויים בשאלה האם אנשים רוצים לתקשר עם הטכנולוגיה מלכתחילה. ההבדל בין כלי שאנשים מנסים פעם אחת לבין כלי שהם מסתמכים עליו כל יום הוא איכות חוויית השיחה.

בתעשיית הבידור, טבילה ושימור הקהל תלויים באמינות של פיסת תוכן, ושורה אחת לא טבעית יכולה לשבש את מעורבות הצופים. קולות של בינה מלאכותית המשמשים בדיבוב או בביצוע דמויות חייבים להשתלב באופן מלא בנרטיב כדי לשמור על השפעה רגשית.

עבור תמיכת לקוחות, אמון ואמפתיה הם בעלי חשיבות עליונה, במיוחד כאשר אינטראקציות רבות עם לקוחות מתרחשות ברגעים של תסכול או בלבול. קול שנשמע נוקשה או מנותק רגשית יכול להסלים מצב במקום לפתור אותו. משתמשים מצפים לקולות שיכולים לשקף דאגה, סבלנות או ביטחון, ולא רק לספק תשובות מתוסרטות.

מה הלאה

החברות שינצחו במרוץ הבינה המלאכותית הקולית יהיו אלו שישלטו בניואנסים רגשיים, יבינו שונות תרבותית והקשרית, יגיבו באופן מיידי וזורם, ויספקו חוויות שלא ניתן להבחין בהן משיחה עם אדם.

בשוק שבו כל אחד יכול לייצר קול מבוסס בינה מלאכותית וציפיות המשתמשים מתפתחות בתורן, "מספיק טוב" יפסיק להיות טוב בכלל. הדרך היחידה להישאר תחרותיים תהיה לייצר קולות מבוססי בינה מלאכותית שאנשים יכולים בקלות לשכוח שהם בינה מלאכותית.

עוז קרקובסקי, מנהל פיתוח עסקי ראשי, מוביל דיפדאב'ס פיתוח עסקי ומכירות אסטרטגיות, ופיקח על הלוקליזציה של מאות שעות של תוכן מתוסרט ולא מתוסרט לשפות מרובות באמצעות פלטפורמת הלוקליזציה פורצת הדרך של Deepdub המופעלת על ידי בינה מלאכותית. מדיבוב של סרטים קולנועיים, סרטי אינדי עטורי פרסים, הדרמה המתוסרטת המדובבת הראשונה אי פעם ב-Hulu ("Vanda") ועד תוכן לא מתוסרט כמו תוכנית הריאליטי "Hardcore Pawn" וסדרת הדוקו-פשע "Forensic Files", אוז טיפח שיתופי פעולה ושיתופי פעולה עם אולפנים ובעלי תוכן ברחבי העולם, הוא גם חבר בוועדת התכנון של פרסי DEG. אוז הוא יזם סדרתי, ולפני שהצטרף ל-Deepdub היה מייסד שותף של סטארט-אפ בשוק הבריאות.