Інтерв’ю
Метт Хокінг, співзасновник WellSaid Labs – Серія інтерв’ю

Метт Хокінг є співзасновником WellSaid Labs, провідного підприємства з генерації голосу штучного інтелекту. Він має понад 15 років досвіду керівництва командами та реалізації технологічних рішень у великому масштабі.
Ваш背景 досить підприємницький, як ви спочатку стали залучені до штучного інтелекту?
Я вважаю себе досить підприємницьким. Я заснував свій перший бізнес після університету, а з тлом у дизайні продукту, я знайшов себе, приваблюючи до допомоги людям з ранньою ідеєю. Протягом своєї кар’єри, я був досить удачливим, щоб працювати з великою кількістю стартапів, які мали досить неймовірні результати. Під час цих досвідів, я мав можливість познайомитися з великою кількістю чудових засновників, що надихнуло мене на створення власних ідей як засновника. Штучний інтелект був досить новим для мене, коли я приєднався до AI2; однак, цей досвід надав мені можливість застосувати свій продукт і стартап-огляд до деяких真正их досліджень і уявити, як ці нові досягнення будуть能够 допомогти великої кількості людей у майбутніх роках. Моя мета з початку була розробити справжні бізнеси для справжніх людей, і я вважаю, що штучний інтелект має потенціал створити велику кількість цікавих можливостей і ефективності в нашому майбутньому, якщо застосовується вдумливо.
Чи можете ви поділитися історією про те, як ідея WellSaid Labs була задумана, коли ви були підприємцем у The Allen Institute for AI?
Я приєднався до The Allen Institute for Artificial Intelligence (AI2) як Підприємець у резиденції в 2018 році. Безсумнівно, найбільш інноваційний інкубатор у світі, AI2 містить найяскравіші розуми у штучному інтелекті, які застосовують рішення з межі того, що можливе сьогодні, до осяжних продуктів, які розв’язують проблеми по всьому світу. Мій тло у дизайні та технологіях виношувало довгочасний інтерес до творчих галузей, а з бумом штучного інтелекту, який ми зараз спостерігаємо, я хотів знайти спосіб зв’язати ці дві галузі. Я був представлений Майклу Петрочуку (співзасновнику та технічному директору WellSaid Labs) під час розробки інтерактивного додатка для охорони здоров’я, який спрямовував пацієнта через різні деликатні сценарії. Під час розробки контенту для цього досвіду, моя команда працювала з талантами голосу, щоб попередньо записати тисячі рядків голосового супроводу для аватара. Коли я був представлений деяким проривам, яких досягнув Майкл під час його досліджень, ми обоє швидко побачили цінність того, як людський голос тексту в мову (TTS) міг перетворити не тільки продукт, над яким я працював, але й вплинути на велику кількість інших застосунків і галузей. Технологія та інструменти боролися за те, щоб відповідати потребам продюсерів, які створювали з голосом як засобом. Ми побачили шлях до того, щоб поставити цю технологію в руки всіх творців, дозволяючи голосу бути невід’ємною частиною всіх історій.
WellSaid Labs є однією з небагатьох компаній, які надають голосовим акторам можливість увійти в простір штучного голосового супроводу. Чому ви вважали, що інтеграція справжніх голосів у продукт була важливою?
Наша відповідь на це двояка: по-перше, ми хотіли створити рішення, які доповнюють можливості професійних голосових акторів, розширюючи можливості для голосу. І по-друге, ми прагнемо мати найвищий рівень людської якості в наших продуктах. Наші голосові актори є довгостроковими партнерами та отримують компенсацію та частку доходу за їх голосові дані та подальший контент, створений з його допомогою. Кожен голосовий актор, якого ми наймаємо для створення аватара штучного голосу на основі їх голосу, отримує оплату на основі того, як часто їхній голос використовується на нашій платформі. Ми заохочуємо таланти до партнерства з нами; чесна компенсація за їх внесок є надзвичайно важливою для нас.
Щоб пропонувати найвищий рівень людської якості продуктів на ринку, нам потрібно бути суворими щодо джерел наших даних. Цей процес дає нам більше контролю над якістю, оскільки ми тренуємо наші глибокі навчальні моделі для того, щоб говорити як людська мова та конкретно контекстно-відповідні стилі. Ми не просто створюємо голос, який повторює введений текст. Наші моделі пропонують різноманітність голосових стилів, які виконують те, що написано на сторінці. Чи то користувачі створюють голосовий супровід за допомогою аватара з нашої бібліотеки, чи створюють голосовий супровід з власним голосом для їх бренду, ми використовуємо справжні голосові дані, щоб забезпечити безперебійний процес та легку у використанні платформу. Якщо наші клієнти мали б маніпулювати та редагувати наші голоси в пост-продакшені, процес отримання бажаного результату був би незграбним та довгим. Наші голоси беруть контекст написаного контенту та забезпечують контекстно-відповіднє читання. Ми пропонуємо голоси для всіх видів випадків використання – чи то читання новин, створення аудіороликів або автоматизованої підтримки центрів зв’язку – тому партнерство з професійними голосовими талантами для кожного випадку використання забезпечує нам як контекст, так і високоякісні голосові дані.
Ми регулярно оновлюємо та додаємо нові стилі та акценти до нашої бібліотеки аватарів, щоб забезпечити, що ми представляємо голоси наших клієнтів. У студії WellSaid Labs клієнти та бренди можуть прослуховувати різні голоси на основі регіону, стилю та випадку використання, дозволяючи більш безперебійній та уніфікованій продукції аудіоконтенту, персоналізованого до потреб творця.
WellSaid Labs заявляє про себе як першу етичну платформу штучного голосу. Чому етика штучного інтелекту важлива для вас?
Зважаючи на зростання прийняття штучного інтелекту та його все більшої популярності, страхи перед шкідливими випадками використання та поганими акторами знаходяться в центрі кожної розмови – і ці побоювання підтверджуються реальними випадками. Штучний голос не є винятком; майже щодня з’являється новий звіт про те, як знаменитість, публічна особа або політик були глибоко фейковані для рекламних чи політичних цілей. Хоча офіційне федеральне регулювання щодо цієї технології ще перебуває в стадії розвитку, виявлення та боротьба з шкідливими акторами та випадками використання синтетичних голосів стануть все більш складними, оскільки технологія продовжує розвиватися.
Відповідно до принципів AI2, де етика штучного інтелекту є основним принципом, Майкл і я мали ці розмови з першого дня. Розробка технології штучної мови супроводжується значними відповідальностями щодо згоди, конфіденційності та загальної безпеки. Ми знаємо, що нам, як розробникам, потрібно будувати нашу технологію безпечно, звертатися до етичних проблем та закладати основу для майбутнього розвитку синтетичних голосів. Ми визнаємо потенціал технології штучної мови для зловживання та приймаємо свою відповідальність за зменшення потенційного зловживання нашого продукту. Ми повинні закладати цю основу з першого дня, а не спішити та допускати помилки по дорозі. Це не буде правильним щодо наших клієнтів та голосових акторів, які покладаються на нас, щоб створити високоякісний та надійний продукт.
Ми повністю підтримуємо заклик до законодавства в цій сфері; однак, ми не будемо чекати федеральних регуляцій. Ми завжди ставили на першому місці та продовжимо ставити на першому місці практики, які підтримують конфіденційність, безпеку, прозорість та підзвітність.
Ми суворо дотримуємося нашого кодексу етичних намірів, який базується на будівництві з відповідальною інновацією у кожному рішенні, яке ми приймаємо. Це відповідає інтересам наших глобальних клієнтів – підприємств.
Як ви розробляєте етичну платформу штучного голосу?
WellSaid Labs зобов’язалися до етичної інновації з самого початку. Ми централізуємо довіру та прозорість за допомогою використання внутрішніх моделей даних, явних вимог до згоди, нашої програми модерації контенту та нашої зобов’язання щодо захисту бренду. У WellSaid, ми спираємося на принципи Відповідального штучного інтелекту для формування наших рішень та дизайну, і ці принципи поширюються на використання наших голосів. Наш кодекс етики представляє ці принципи як Відповідальність, Прозорість, Конфіденційність та Безпека, та Справедливість.
Відповідальність: Ми підтримуємо суворі стандарти для відповідного контенту, забороняючи використання наших голосів для контенту, який є шкідливим, ненависним, шахрайським або призначеним для підбурювання до насильства. Наша команда довіри та безпеки підтримує ці стандарти за допомогою суворої програми модерації контенту, блокуючи та видаляючи користувачів, які намагаються порушити наші Умови обслуговування.
Прозорість: Ми вимагаємо явної згоди перед тим, як створити синтетичний голос з кимось голосовими даними. Користувачі не можуть завантажувати голосові дані з політиків, знаменитостей або будь-кого іншого для створення клону їх голосу, якщо ми не маємо явної, письмової згоди цієї особи.
Конфіденційність та Безпека: Ми захищаємо ідентичність наших голосових акторів за допомогою використання запасних зображень та псевдонімів для представлення синтетичних голосів. Ми також заохочуємо їх бути обережними щодо того, як і з ким вони діляться своєю асоціацією з WellSaid Labs або іншими компаніями синтетичних голосів, щоб зменшити можливість зловживання їх голосом.
Справедливість: Ми компенсуємо всіх голосових акторів, які надають голосові дані для нашої платформи, та надаємо їм подальшу частку доходу за використання синтетичних голосів, створених з їх даними.
Разом з цими принципами, ми також суворо поважаємо інтелектуальну власність. Ми не претендуємо на володіння контентом, наданим нашими користувачами або голосовими акторами. Ми ставимо на першому місці цілісність, справедливість та прозорість у всьому, що ми робимо, забезпечуючи, що наша технологія синтетичної мови використовується відповідально та етично. Ми активно шукаємо партнерства з голосами з різноманітних тлів, організацій та досвіду, щоб забезпечити, що бібліотека голосів WellSaid Labs відображає її творців та аудиторію.
Наша зобов’язання щодо відповідальної інновації та розробки технології штучної мови з етикою на увазі відрізняє нас від інших у цій сфері, які намагаються скористатися новою, необмеженою галуззю будь-якими засобами. Наші ранні інвестиції в етику, безпеку та конфіденційність встановлюють довіру та лояльність серед наших голосових акторів та клієнтів, які все частіше шукають етично створені продукти та послуги від компаній, які стоять на чолі інновацій.
WellSaid Labs створила власну внутрішню модель штучного інтелекту, яка дозволила досягти людської паритету штучних голосів, і це було досягнуто завдяки внесенню людських недоліків у розмови. Що саме робить ці недоліки кращими, і як ці недоліки реалізовані?
WellSaid Labs не просто ще один генератор TTS. Там, де рання технологія TTS не могла розпізнавати людські якості мови, такі як висота, тон та діалект, які передають контекст та емоції за словами, голоси WellSaid досягли людської паритету, привносячи унікальні людські недоліки до штучної мови.
Наш основний критерій якості голосу є людська природність. Це керівне переконання сформувало нашу технологію на кожному етапі, від бібліотек сценаріїв, які ми створили, до інструкцій, які ми даємо талантам, та, останнім часом, того, як ми ітеруємо наші основні алгоритми TTS.
Ми тренуємося на автентичних людських вокалізаціях. Наші голосові таланти читають свої сценарії автентично та привабливо, коли вони записують для нас. Ідеальна мова, з іншого боку, є механічною концепцією, яка приводить до роботизованого, недосконалого виходу. Коли професійні голосові таланти виконують, їхня швидкість мови коливається. Їх гучність рухається в поєднанні з контентом, який вони читають. Їх вокальний тон може підвищуватися в пасажі, який вимагає захопленого читання, та падати знову в більш сумному рядку. Ці динамічні варіації складають привабливу людську вокальну продукцію.
Розбудовуючи штучні процеси, які працюють у координації з динамічними виконаннями наших професійних талантів, ми створили真正ну платформу TTS. Ми розробили першу систему TTS з довгими формами, яка має передбачувальні контроли протягом усього творчого процесу. Наша фонетична бібліотека містить різноманітну колекцію аудіоданих, яка дозволяє користувачам включати конкретні вокальні підказки, такі як керівництво з вимови або керування, до моделі під час фази виробництва. На одній платформі користувачі WellSaid можуть записувати, редагувати та стилізувати свій голосовий супровід без необхідності імпортувати зовнішні дані.
Чи можете ви обговорити деякі з викликів, пов’язаних з побудовою компанії тексту в мову (TTS) штучного інтелекту?
Розробка технології штучної мови створила цілком новий набір перешкод для її виробників та споживачів. Одним з основних викликів є те, що не варто захоплюватися шумом та гіпом, який заповнює сектор штучного інтелекту. Як нова, модна технологія, багато організацій намагаються скористатися короткостроковими розробками штучної мови. Ми хочемо надати голос кожному, керуючись центральними етичними принципами та автентичністю. Це дотримання автентичності може затримати розробку та розгортання наших технологій, але зміцнює безпеку та безпеку голосів WellSaid та їх даних.
Іншим викликом розробки нашої платформи TTS було розроблення конкретних керівних принципів згоди, щоб забезпечити, що організації або окремі актори не зловживають нашою технологією. Для боротьби з цим викликом, ми шукаємо співпрацю, довгострокові партнерства та повністю залучені до розробки голосового супроводу, щоб збільшити відповідальність, прозорість та безпеку користувачів. Ми активно шукаємо партнерства з голосовими талантами з різних тлів, організацій та досвіду, щоб забезпечити, що бібліотека голосів WellSaid Labs відображає її творців та аудиторію. Ці процеси розроблені для того, щоб бути намереними та деталізованими, щоб забезпечити, що наша технологія використовується якомога безпечніше та етично, що може сповільнити розвиток та запуск термінової лінії.
Яка ваша візія майбутнього генеративних штучних голосів?
Тривалий час технологія штучної мови не досягала достатньої якості, щоб дозволити компаніям створювати значимий контент у великому масштабі. Тепер, коли аудіотехнологія вже не вимагає дорогого обладнання та апаратного забезпечення, весь написаний контент можна створити та опублікувати в аудіоформаті, щоб створити привабливі, багатомодальні досвіди.
Сьогодні штучні голоси можуть створювати людські аудіо та захоплювати нюанси, необхідні для того, щоб зробити цифрове оповідання більш доступним та природнім. Майбутнє генеративних штучних голосів буде охоплювати всі чутливі досвіди, які торкнуться кожного аспекту нашого життя. Коли технологія продовжує розвиватися, ми побачимо все більш природні та виразні синтетичні голоси, які знівечать межу між людською та машинною мовою – відкриваючи нові двері для бізнесу, комунікацій, доступності та того, як ми взаємодіємо з світом навколо нас.
Бізнеси знайдуть покращену персоналізацію в інтерфейсах штучної мови та використовуватимуть їх, щоб зробити взаємодію з віртуальними асистентами більш іммерсивними та зручними для користувача. Ці вдосконалення вже відбуваються, від інтелектуальних агентів центрів зв’язку до швидкого харчового сервісу на виїзді. Створення контенту, включаючи рекламу, маркетинг продукту, читання новин, подкасти, аудіокниги та інші мультимедійні матеріали, побачить підвищення ефективності завдяки використанню інструментів для розробки привабливого контенту – в кінцевому підсумку збільшуючи підйом та доходи для організацій, особливо тепер, коли багатомовні моделі можуть розширити присутність компанії з однієї точки походження до глобальної присутності. Виробничі команди знайдуть велику користь у синтетичних голосах для створення голосів, створених на замовлення для потреб бренду або персоналізованих для слухача.
До появи штучного інтелекту технологія TTS не мала людської емоції, інтонації та вимови, необхідних для розповіді повної історії у великому масштабі та з легкістю. Тепер технологія TTS, підкріплена штучним інтелектом, пропонує більш іммерсивні та доступні досвіди, включаючи можливості реального часу та інтерактивних розмовних агентів.
Досягнення людських можливостей мови було подорожжю, але тепер, коли це досягнуто, ми свідчимо повний масштаб штучної мови для створення справжньої бізнес-цінності для організацій.
Дякуємо за велике інтерв’ю, читачам, які бажають дізнатися більше, слід відвідати WellSaid Labs.












