ראיונות

מאט הוקינג, מייסד שותף של WellSaid Labs - סדרת ראיונות

מְעוּדכָּן on אפריל 10, 2024

מאט הוקינג הוא המייסד השותף של WellSaid Labs, מחולל קול AI מוביל ברמה ארגונית. יש לו יותר מ-15 שנות ניסיון בהובלת צוותים ובמתן פתרונות טכנולוגיים בקנה מידה.

הרקע שלך יזמי למדי, איך התערבת בהתחלה בבינה מלאכותית?

אני מניח שתמיד החשבתי את עצמי די יזמית. פתחתי את העסק הראשון שלי מחוץ לקולג' ועם רקע בעיצוב מוצר, מצאתי את עצמי נוטה לעזור לאנשים עם רעיונות בשלב מוקדם. לאורך הקריירה שלי, התמזל מזלי לעבוד עם מספר סטארט-אפים שהמשיכו לכמה ריצות די מדהימות. במהלך החוויות הללו, חוויתי חשיפה להרבה מייסדים גדולים ממקור ראשון, בתורו נתן לי השראה להמשיך את הרעיונות שלי כמייסד. AI היה חדש יחסית עבורי כשהצטרפתי ל-AI2; עם זאת, הניסיון הזה סיפק לי הזדמנות ליישם את המוצר ואת עדשת הסטארט-אפ שלי במחקר מדהים באמת ולדמיין איך ההתקדמות החדשות האלה יצליחו לעזור להרבה אנשים בשנים הקרובות. המטרה שלי מאז ההתחלה הייתה לפתח עסקים אמיתיים עבור אנשים אמיתיים, ואני מאמין שבינה מלאכותית יש את הפוטנציאל ליצור הרבה הזדמנויות מלהיבות ויעילות בעתיד שלנו אם ייושם מתוך מחשבה.

האם תוכל לשתף את הסיפור של איך הרעיון של WellSaid Labs נוצר כשהיית יזם ב-Residence ב- מכון אלן לבינה מלאכותית?

הצטרפתי למכון אלן לבינה מלאכותית (AI2) כיזם במגורים בשנת 2018. ללא ספק החממה החדשנית ביותר בעולם, AI2 מכילה את המוחות הבהירים ביותר ב-AI המיישמים פתרונות מהקצה של מה שאפשר היום ועד למוצרים מוחשיים שפותרים בעיות ברחבי העולם. הרקע שלי בעיצוב וטכנולוגיה טיפח עניין רב שנים בתחומי היצירה, ועם בום הבינה המלאכותית שכולנו עדים לה היום, רציתי לבחון דרך לחבר בין השניים. הכרתי את מייקל פטרוצ'וק (מייסד משותף של WellSaid Labs ו-CTO) תוך כדי פיתוח אפליקציית בריאות אינטראקטיבית שהדריכה את המטופל בתרחישים רגישים שונים. במהלך תהליך פיתוח התוכן לחוויה, הצוות שלי עבד עם כישרון קול כדי להקליט מראש אלפי שורות קריינות עבור האווטאר. כשנחשפתי לכמה מפריצות הדרך שמייקל השיג במהלך המחקר שלו, שנינו ראינו במהירות את הערך של האופן שבו התאמה בין טקסט לדיבור (TTS) יכולה לשנות לא רק את המוצר שעבדתי עליו אלא גם להשפיע על מספר של יישומים ותעשיות אחרות. הטכנולוגיה והכלים התקשו לעמוד בקצב הצרכים של מפיקים יוצרים עם קול כמדיום. ראינו דרך להעביר את הטכנולוגיה הזו בידי כל היוצרים, ולאפשר לקול להיות חלק בלתי נפרד מכל הסיפורים.

WellSaid Labs היא אחת החברות הבודדות שמספקות לשחקני קול כניסה למרחב הקריינות של AI. למה האמנת שחשוב לשלב קולות אמיתיים במוצר?

התשובה שלנו לכך היא דו-כיוונית: ראשית, רצינו ליצור פתרונות המחמיאים ליכולות של שחקני קול מקצועיים, ולהרחיב את ההזדמנויות לקול. ושנית, אנו שואפים לקבל את הרמה הגבוהה ביותר של איכות אנושית במוצרים שלנו. שחקני הקול שלנו הם שותפי שיתוף פעולה ארוכי טווח ומקבלים פיצוי וחלוקת הכנסות הן עבור נתוני הקול שלהם והן עבור התוכן שהופק איתם לאחר מכן. כל שחקן קול שאנו שוכרים כדי ליצור אווטאר קולי של AI המבוסס על דמות הקול שלו מקבל תשלום על סמך כמות השימוש בקולו בפלטפורמה שלנו. אנו מעודדים כישרונות לשתף פעולה איתנו; פיצוי הוגן עבור תרומותיהם חשוב לנו להפליא.

כדי להציע את הרמה הגבוהה ביותר של מוצרים באיכות אנושית בשוק, עלינו להיות קפדניים לגבי המקום שבו אנו משיגים את הנתונים שלנו. תהליך זה נותן לנו שליטה רבה יותר על האיכות, ככל שאנו מאמנים את שלנו למידה עמוקה מודלים שידברו הן על השוויון האנושי והן על סגנונות ספציפיים הרלוונטיים מבחינה הקשרית. אנחנו לא רק יוצרים קול שמדקלם את הקלט שסופק. הדגמים שלנו מציעים מגוון סגנונות קול המבצעים את מה שיש בדף. בין אם משתמשים יוצרים קריינות על ידי שימוש באווטאר מהספרייה שלנו או יוצרים קריינות עם קול מותאם אישית עבור המותג שלהם, אנו משתמשים בנתוני קול אמיתיים כדי להבטיח תהליך חלק ופלטפורמה קלה לשימוש. אם הלקוחות שלנו היו צריכים לתמרן ולערוך את הקולות שלנו בפוסט-פרודקשן, תהליך קבלת התפוקה הרצויה יהיה מסורבל וארוך. הקולות שלנו לוקחים את ההקשר של התוכן הכתוב ומספקים קריאה מדויקת מבחינה הקשרית. אנו מציעים קולות לכל סוגי מקרי השימוש - בין אם זה קריאת חדשות, יצירת מודעת אודיו או תמיכה אוטומטית במוקד טלפוני - כך ששיתוף פעולה עם כישרון קול מקצועי ספציפי לכל מקרה שימוש מספק לנו הן את ההקשר והן את הנתונים הקוליים באיכות גבוהה .

אנו מעדכנים באופן קבוע ומוסיפים סגנונות והדגשים חדשים לספריית האווטרים שלנו כדי להבטיח שאנו מייצגים את הקולות של הלקוחות שלנו. בסטודיו של WellSaid Labs, לקוחות ומותגים יכולים לעבור אודישן לקולות שונים על בסיס אזור, סגנון ושימוש, מה שמאפשר הפקה חלקה יותר ומאוחדת של תוכן אודיו המותאם אישית לצרכי היצרן. לאחר דגימת הקלטה ראשונית, משתמשים יכולים לרמז על מילים, איות והגיות ספציפיים כדי להבטיח שה-AI ידבר באופן עקבי לצרכים שלהם.

WellSaid Labs טוענת את טענתה כפלטפורמת הקול האתית הראשונה של AI. מדוע אתיקה של AI חשובה לך?

ככל שהאימוץ של בינה מלאכותית מתגבר והופך למיינסטרים יותר, הפחדים ממקרי שימוש מזיקים ושחקנים רעים עומדים במרכז כל שיחה - ולמרבה הצער, חששות אלה מאומתים על ידי התרחשויות בעולם האמיתי. קול AI אינו יוצא מן הכלל; כמעט כל יום, דיווח חדש של ידוען, אישיות ציבורית או פוליטיקאי שמזייפים למטרות פרסומות או למטרות פוליטיות מגיע לכותרות החדשות. למרות הרגולציה הפדרלית הרשמית לגבי טכנולוגיה זו עדיין מתפתחת, איתור ומאבק בשחקנים זדוניים ושימושים בקול סינתטי יהפכו לקשים יותר ככל שהטכנולוגיה תמשיך להתקדם.

בעקבות AI2, שבה אתיקה של AI היא עיקרון ליבה, מייקל ואני קיימנו את השיחות האלה ביום הראשון. פיתוח טכנולוגיית דיבור בינה מלאכותית מלווה באחריות משמעותית לגבי הסכמה, פרטיות ובטיחות כללית. אנחנו יודעים שאנחנו, כמפתחים, חייבים לבנות את הטכנולוגיה שלנו בצורה בטוחה, לטפל בחששות אתיים ולהניח את הבסיס לפיתוח עתידי של קולות סינתטיים. אנו מכירים בפוטנציאל של טכנולוגיית דיבור בינה מלאכותית לשימוש לרעה ומאמצים את האחריות שלנו לצמצם את השימוש לרעה הפוטנציאלי במוצר שלנו. אנחנו צריכים להניח את הבסיס הזה מהיום הראשון במקום לרוץ מהר ולעשות טעויות בדרך. זה לא יעשה כמו שצריך על ידי הלקוחות הארגוניים והשחקנים הקוליים שלנו, שסומכים עלינו לבנות מוצר איכותי ואמין.

אנו תומכים באופן מלא בקריאה לחקיקה בתחום זה; עם זאת, לא נחכה לחקיקה של תקנות פדרליות. תמיד נתנו עדיפות ונמשיך לתעדף נהלים התומכים בפרטיות, אבטחה, שקיפות ואחריות.

אנו מצייתים בקפדנות לקוד הכוונות האתי של החברה שלנו, המבוסס על בנייה עם חדשנות אחראית בכל החלטה שאנו מקבלים. זה לטובת הלקוחות העולמיים שלנו - מותגים ארגוניים.

איך מפתחים פלטפורמת קול בינה מלאכותית?

WellSaid Labs מחויבת לחדשנות אתית מההתחלה. אנו מרכזים אמון ושקיפות באמצעות שימוש במודלים פנימיים של נתונים, דרישות הסכמה מפורשת, תוכנית ניהול התוכן שלנו והמחויבות שלנו להגנת המותג. ב-WellSaid, אנו נשענים על העקרונות של AI אחראי לעצב את ההחלטות והעיצובים שלנו, ועקרונות אלה משתרעים על השימוש בקולותינו. הקוד האתי שלנו מייצג את העקרונות הללו כאחריות, שקיפות, פרטיות ואבטחה והגינות.

דין וחשבון: אנו שומרים על סטנדרטים מחמירים לתוכן מתאים, אוסרים על שימוש בקולותינו עבור תוכן מזיק, מעורר שנאה, הונאה או שנועד להסית לאלימות. צוות האמון והבטיחות שלנו מקיים את הסטנדרטים הללו עם תוכנית ניהול תוכן קפדנית, חוסמת ומסירה משתמשים שמנסים להפר את תנאי השירות שלנו.

שקיפות: אנו דורשים הסכמה מפורשת לפני בניית קול סינתטי עם נתוני קול של מישהו. משתמשים אינם יכולים להעלות נתונים קוליים מפוליטיקאים, מפורסמים או כל אחד אחר כדי ליצור שיבוט של הקול שלהם אלא אם כן יש לנו הסכמה מפורשת ובכתב של אותו אדם.

פרטיות ואבטחה: אנו מגנים על הזהויות של שחקני הקול שלנו על ידי שימוש בתמונות מלאי וכינויים כדי לייצג את הקולות הסינתטיים. אנו גם מעודדים אותם לנקוט משנה זהירות לגבי האופן שבו ועם מי הם חולקים את הקשר שלהם עם WellSaid Labs או חברות קול סינתטי אחרות כדי לצמצם את ההזדמנות לשימוש לרעה בקול שלהם.

הגינות: אנו מפצים את כל שחקני הקול המספקים נתונים קוליים עבור הפלטפורמה שלנו, ואנו מספקים להם נתח הכנסות מתמשך עבור השימוש בקול הסינטטי שאנו בונים עם הנתונים שלהם.

יחד עם עקרונות אלה, אנו גם מכבדים בקפדנות את הקניין הרוחני. אנחנו לא טוענים לבעלות על התוכן שסופק על ידי המשתמשים או השחקנים הקוליים שלנו. אנו נותנים עדיפות יושרה, הגינות ושקיפות בכל מה שאנו עושים, ומבטיחים שטכנולוגיית הדיבור הסינתטי שלנו תעשה שימוש אחראי ואתי. אנו מחפשים באופן פעיל שותפויות עם קולות מרקעים וחוויות מגוונות כדי להבטיח שאנו מספקים קול לכולם.

המחויבות שלנו לחדשנות אחראית ולפיתוח טכנולוגיית קול בינה מלאכותית עם אתיקה בראש מבדלת אותנו מאחרים במרחב המבקשים לנצל תעשייה חדשה ובלתי מפוקחת בכל דרך שהיא. ההשקעות המוקדמות שלנו באתיקה, בטיחות ופרטיות מבססות אמון ונאמנות בקרב שחקני הקול והלקוחות שלנו, שמחפשים יותר ויותר מוצרים ושירותים העשויים אתית מהחברות בחזית החדשנות.

WellSaid Labs יצרה מודל AI פנימי משלה שאיפשר לקולות ה-AI שלה להשיג שוויון אנושי, והיא השיגה זאת על ידי הבאת הפגמים שיש לבני אדם לשיחות. מה יש בחוסר השלמות האלה שהופך את הבינה המלאכותית לטוב יותר, ואיך הפגמים האלה מיושמים?

WellSaid Labs היא לא סתם עוד מחולל TTS. במקום שבו טכנולוגיית ה-TTS המוקדמת לא הצליחה לזהות איכויות דיבור אנושיות כמו גובה הצליל, הטון והדיאלקט המעבירים את ההקשר והרגש שמאחורי המילים, קולות WellSaid השיגו שוויון אנושי, והביאו פגמים אנושיים ייחודיים לדיבור שנוצר בינה מלאכותית.

המדד העיקרי שלנו לאיכות הקול הוא ותמיד היה הטבעיות האנושית. אמונה מנחה זו עיצבה את הטכנולוגיה שלנו בכל שלב, החל מספריות התסריטים שבנינו ועד להוראות שאנו נותנים לכישרון, ולאחרונה, כיצד אנו חוזרים על אלגוריתמי הליבה של ה-TTS שלנו.

אנו מתאמנים על קולות אנושיים אותנטיים. כישרון הקול שלנו קורא את התסריטים שלהם בצורה אותנטית ומושכת כשהם מקליטים עבורנו. שלמות דיבור, לעומת זאת, היא מושג מכני שמוביל לתפוקה רובוטית ללא רבב, לא טבעית. כאשר כישרון קול מקצועי מופיע, קצב הדיבור שלהם משתנה. העוצמה שלהם נעה בשילוב עם התוכן שהם קוראים. גובה הקול שלהם עשוי לעלות בקטע הדורש קריאה נרגשת וליפול שוב בשורה קודרת יותר. וריאציות דינמיות אלו מהוות הופעה ווקאלית אנושית מרתקת.

על ידי בניית תהליכי AI הפועלים בתיאום עם הביצועים הדינמיים של הכישרון המקצועי שלנו, בנינו פלטפורמת TTS טבעית באמת. פיתחנו את מערכת ה-TTS הארוכה הראשונה עם בקרות חזויות לאורך כל תהליך היצירה. הספרייה הפונטית שלנו מחזיקה אוסף מגוון של נתוני אודיו, המאפשרת למשתמשים לשלב רמזים ווקאליים ספציפיים, כמו הנחיית הגייה או יכולת שליטה, במודל במהלך שלב הייצור. בפלטפורמה אחת, משתמשי WellSaid יכולים להקליט, לערוך ולעצב את הקריינות שלהם ללא צורך לייבא נתונים חיצוניים.

האם תוכל לדון בכמה מהאתגרים מאחורי בניית חברת בינה מלאכותית של טקסט לדיבור (TTS)?

הפיתוח של טכנולוגיית קול בינה מלאכותית יצרה מערך חדש לחלוטין של מכשולים הן עבור היצרנים והן עבור הצרכנים שלה. אחד האתגרים העיקריים הוא לא להיתפס לרעש ולהייפ שמציפים את מגזר הבינה המלאכותית. כטכנולוגיה חדשה ושוקקת, ארגונים רבים מנסים להרוויח כסף על פיתוחי קריינות בינה מלאכותית לטווח קצר. אנחנו רוצים לתת קול לכולם, מונחה על ידי עקרונות אתיים מרכזיים ואותנטיות. הקפדה על אותנטיות יכולה לעכב את הפיתוח והפריסה של הטכנולוגיות שלנו, אך מחזקת את הבטיחות והאבטחה של קולות WellSaid והנתונים שלהם.

אתגר נוסף בפיתוח פלטפורמת ה-TTS שלנו היה פיתוח הנחיות ספציפיות להסכמה כדי להבטיח שארגונים או שחקנים בודדים לא יעשו שימוש לרעה בטכנולוגיה שלנו. כדי להילחם באתגר זה, אנו מחפשים שותפויות ארוכות טווח בשיתוף פעולה ומעורבים באופן מלא בפיתוח קריינות כדי להגביר את האחריות, השקיפות ואבטחת המשתמשים. אנו מחפשים באופן פעיל שותפויות עם כישרון קול מרקעים, ארגונים וחוויות שונים כדי להבטיח שספריית הקולות של WellSaid Labs משקפת את יוצריה וקהליה. תהליכים אלה מתוכננים להיות מכוונים ומוכווני פרטים כדי להבטיח שימוש בטכנולוגיה שלנו בצורה בטוחה ואתית ככל האפשר, מה שיכול להאט את ציר הזמן של הפיתוח וההשקה.

מה החזון שלך לעתיד של קולות בינה מלאכותית?

במשך הזמן הארוך ביותר, טכנולוגיית הדיבור בינה מלאכותית לא הגיעה לאיכות גבוהה מספיק כדי לאפשר לחברות ליצור תוכן משמעותי בקנה מידה. כעת, כשטכנולוגיית השמע כבר לא דורשת ציוד וחומרה יקרים, ניתן להפיק ולפרסם את כל התוכן הכתוב בפורמט אודיו כדי ליצור חוויות מרתקות ורב-מודאליות.

כיום, קולות בינה מלאכותית יכולים להפיק אודיו דמוי אדם ולתפוס את הניואנסים הנדרשים כדי להפוך את הסיפור הדיגיטלי לנגיש וטבעי יותר. העתיד של קול AI מחולל יהיה חוויות קוליות מקיפות שנוגעות בכל היבט של חיינו. ככל שהטכנולוגיה תמשיך להתקדם, נראה קולות סינתטיים טבעיים ואקספרסיביים מטשטשים את הגבול בין דיבור אנושי לדיבור שנוצר על ידי מכונה - פותחים דלתות חדשות לעסקים, לתקשורת, לנגישות ולאופן שבו אנו מתקשרים עם העולם שסביבנו.

עסקים ימצאו התאמה אישית משופרת בממשקי קול בינה מלאכותית וישתמשו בהם כדי להפוך את האינטראקציות עם עוזרים וירטואליים לסוחפים וידידותיים יותר למשתמש. השיפורים האלה כבר מתרחשים, מסוכנים טלפוניים חכמים ועד ל-drive-thrus של מזון מהיר. יצירת תוכן, כולל פרסום, שיווק מוצרים, קריינות חדשות, פודקאסטים, ספרי אודיו ומולטימדיה אחרת, תראה יעילות מוגברת על ידי שימוש בכלים לפיתוח תוכן מרתק - בסופו של דבר יגדיל את העלייה וההכנסה לארגונים, במיוחד כעת כשמודלים רב לשוניים יכולים להרחיב את טווח ההגעה של חברה מנקודת מוצא אחת לנוכחות גלובלית. צוותי הפקה ימצאו תועלת רבה בקולות סינתטיים ליצירת קולות המותאמים לצרכי המותג או מותאמים אישית למאזין.

לפני הצגת הבינה המלאכותית, טכנולוגיית ה-TTS חסרה את יכולות הרגש, האינטונציה וההגייה החיוניים האנושיים הנדרשים כדי לספר סיפור שלם בקנה מידה ובקלות. כעת, TTS המופעל על ידי AI מציע חוויות סוחפות ונגישות יותר, כולל יכולות דיבור בזמן אמת וסוכני שיחה אינטראקטיביים.

השגת יכולות דיבור דמויות אנוש הייתה מסע, אך כעת, כאשר ניתן להשיג זאת, אנו עדים להיקף המלא של קול בינה מלאכותית ליצירת ערך עסקי אמיתי עבור ארגונים.

תודה על הראיון הנהדר, קוראים שרוצים ללמוד עוד צריכים לבקר מעבדות WellSaid.