заглушки Метт Хокінг, співзасновник WellSaid Labs - Серія інтерв'ю - Unite.AI
Зв'язатися з нами

інтерв'ю

Метт Хокінг, співзасновник WellSaid Labs – Серія інтерв’ю

mm
оновлений on

Метт Хокінг є співзасновником WellSaid Labs, провідний AI Voice Generator корпоративного рівня. Він має понад 15 років досвіду керівництва командами та впровадження технологічних рішень у масштабі.

У вас досить підприємницький досвід, як ви спочатку залучилися до ШІ?

Здається, я завжди вважав себе досить підприємцем. Я розпочав свій перший бізнес після коледжу та, маючи досвід у дизайні продуктів, виявив, що тяжію до того, щоб допомагати людям із ідеями на ранній стадії. Протягом моєї кар’єри мені пощастило працювати з кількома стартапами, які досягли неймовірних результатів. Під час цього досвіду я особисто познайомився з багатьма чудовими засновниками, які, у свою чергу, надихнули мене на реалізацію власних ідей як засновника. ШІ був для мене відносно новим, коли я приєднався до AI2; однак цей досвід дав мені можливість застосувати мій продукт і об’єктив стартапу до справді неймовірних досліджень і уявити, як ці нові досягнення зможуть допомогти багатьом людям у найближчі роки. Моя мета з самого початку полягала в тому, щоб розвивати справжній бізнес для реальних людей, і я вважаю, що штучний інтелект має потенціал для створення багатьох захоплюючих можливостей і ефективності в нашому майбутньому, якщо його продумано застосовувати.

Чи могли б ви поділитися історією про те, як виникла ідея WellSaid Labs, коли ви були підприємцем у Інститут ШІ Аллена?

У 2 році я приєднався до Інституту штучного інтелекту Аллена (AI2018) як постійний підприємець. Можливо, це найінноваційніший інкубатор у світі, AI2 об’єднує найяскравіші уми в області штучного інтелекту, які застосовують рішення від межі можливого сьогодні до матеріальних продуктів, які вирішують проблеми. проблеми по всьому світу. Мій досвід у сфері дизайну та технологій живив давній інтерес до творчих сфер, і в умовах буму штучного інтелекту, свідками якого ми всі сьогодні, я хотів дослідити спосіб поєднати ці два аспекти. Мене познайомили з Майклом Петрочуком (співзасновником і технічним директором WellSaid Labs) під час розробки інтерактивної програми охорони здоров’я, яка направляла пацієнта через різні делікатні сценарії. У процесі розробки вмісту для досвіду моя команда працювала з озвученням, щоб попередньо записати тисячі рядків озвучення для аватара. Коли я познайомився з деякими проривами, досягнутими Майклом під час його дослідження, ми обидва швидко побачили цінність того, як перетворення тексту в мову (TTS) з людським рівнем може змінити не лише продукт, над яким я працював, але й вплинути на багато інших застосувань і галузей. Технологіям і інструментам було важко встигати за потребами продюсерів, які створювали голос як засіб масової інформації. Ми бачили шлях до надання цієї технології в руки всім творцям, дозволяючи голосу бути невід’ємною частиною всіх історій.

WellSaid Labs — одна з небагатьох компаній, яка надає акторам озвучення шлях до закадрового простору ШІ. Чому ви вважаєте важливим інтегрувати справжні голоси в продукт?

Наша відповідь на це питання двостороння: по-перше, ми хотіли створити рішення, які доповнювали б можливості професійних акторів озвучування, розширюючи можливості голосу. А по-друге, ми прагнемо мати найвищий рівень людської якості в наших продуктах. Наші актори голосу є довгостроковими партнерами по співпраці та отримують винагороду та частку доходу як за свої голосові дані, так і за подальший контент, створений з ними. Кожному актору голосу, якого ми наймаємо для створення голосового аватара зі штучним інтелектом на основі схожості з їхнім голосом, платять залежно від того, наскільки їхній голос використовується на нашій платформі. Ми заохочуємо таланти до співпраці з нами; справедлива винагорода за їхні внески є надзвичайно важливою для нас.

Щоб пропонувати на ринку продукти найвищої якості для людини, ми повинні чітко визначити, звідки ми отримуємо наші дані. Цей процес дає нам більше контролю над якістю під час навчання глибоке навчання моделі, щоб говорити як з людським паритетом, так і з конкретними контекстуально релевантними стилями. Ми не просто створюємо голос, який декламує наданий вхід. Наші моделі пропонують різноманітні стилі голосу, які виконують те, що є на сторінці. Незалежно від того, створюють користувачі озвучку за допомогою аватару з нашої бібліотеки чи створюють озвучку за допомогою голосу, спеціально створеного для свого бренду, ми використовуємо реальні голосові дані, щоб забезпечити безперебійний процес і просту у використанні платформу. Якби нашим клієнтам довелося маніпулювати та редагувати наші голоси під час постпродакшну, процес отримання бажаного результату був би незграбним і тривалим. Наші голоси сприймають контекст письмового вмісту та забезпечують контекстно точне читання. Ми пропонуємо голоси для всіх типів випадків використання – чи то читання новин, створення аудіореклами чи автоматизована підтримка кол-центру – тож партнерство з професійним озвучувачем, що спеціалізується на кожному випадку використання, надає нам як контекст, так і високоякісні голосові дані .

Ми регулярно оновлюємо та додаємо нові стилі та акценти до нашої бібліотеки аватарів, щоб гарантувати, що ми представляємо голоси наших клієнтів. У WellSaid Labs Studio клієнти та бренди можуть прослуховувати різні голоси залежно від регіону, стилю та сценарію використання, що забезпечує більш плавне, уніфіковане виробництво аудіоконтенту, персоналізованого відповідно до потреб виробника. Після того, як початковий запис буде відібрано, користувачі можуть вказувати конкретні слова, варіанти написання та вимови, щоб переконатися, що штучний інтелект постійно відповідає їхнім потребам.

WellSaid Labs претендує на статус першої етичної голосової платформи ШІ. Чому етика ШІ важлива для вас?

Оскільки застосування штучного інтелекту зростає та стає все більш масовим, побоювання щодо шкідливих випадків використання та зловмисників стають центром кожної розмови – і, на жаль, ці занепокоєння підтверджуються подіями в реальному світі. ШІ голос не є винятком; Майже щодня в заголовках новин потрапляє нове повідомлення про те, що знаменитість, громадський діяч чи політик піддаються дипфейку для реклами чи політичних цілей. Хоча офіційне федеральне регулювання щодо цієї технології все ще розвивається, виявлення та боротьба з зловмисниками та використанням синтетичного голосу ставатиме дедалі складнішим у міру розвитку технології.

Виходячи з AI2, де етика AI є основним принципом, Майкл і я мали ці розмови в перший день. Розробка мовної технології штучного інтелекту передбачає значну відповідальність щодо згоди, конфіденційності та загальної безпеки. Ми знаємо, що ми, як розробники, повинні створювати нашу технологію безпечно, вирішувати етичні проблеми та закладати основу для майбутнього розвитку синтетичних голосів. Ми усвідомлюємо потенціал технології штучного інтелекту для зловживання мовленням і беремо на себе відповідальність зменшити потенційне зловживання нашим продуктом. Нам потрібно закласти цю основу з першого дня, а не бігти швидко і робити помилки на цьому шляху. Це було б неправильно з боку наших корпоративних клієнтів і акторів голосу, які розраховують на те, що ми створимо високоякісний, надійний продукт.

Ми повністю підтримуємо заклик до законодавства в цій сфері; однак ми не будемо чекати на прийняття федеральних постанов. Ми завжди надавали пріоритет і будемо надавати пріоритет практикам, які підтримують конфіденційність, безпеку, прозорість і підзвітність.

Ми суворо дотримуємося етичного кодексу намірів нашої компанії, який базується на будівництві з відповідальними інноваціями в кожному прийнятому нами рішенні. Це в інтересах наших глобальних клієнтів – корпоративних брендів.

Як розробити етичну голосову платформу ШІ?

WellSaid Labs з самого початку прагне до етичних інновацій. Ми централізуємо довіру та прозорість завдяки використанню власних моделей даних, чітким вимогам щодо згоди, нашій програмі модерації вмісту та нашому зобов’язанню щодо захисту бренду. У WellSaid ми спираємося на принципи Відповідальний ШІ формувати наші рішення та плани, і ці принципи поширюються на використання нашого голосу. Наш кодекс етики представляє такі принципи, як підзвітність, прозорість, конфіденційність і безпека, а також справедливість.

Підзвітність: ми дотримуємося суворих стандартів щодо відповідного вмісту, забороняючи використовувати наш голос для вмісту, який є шкідливим, пропагує ненависть, шахрайство або призначений для підбурювання до насильства. Наша команда довіри та безпеки дотримується цих стандартів за допомогою суворої програми модерації вмісту, блокуючи та видаляючи користувачів, які намагаються порушити наші Умови використання.

прозорість: нам потрібна чітка згода, перш ніж створювати синтетичний голос із чиїхось голосових даних. Користувачі не можуть завантажувати голосові дані політиків, знаменитостей чи будь-кого іншого для створення клону свого голосу, якщо у нас немає прямої письмової згоди цієї особи.

Конфіденційність та безпека: Ми захищаємо особистість наших акторів голосу, використовуючи стокові зображення та псевдоніми для представлення синтетичних голосів. Ми також заохочуємо їх проявляти обережність щодо того, як і з ким вони діляться своїми зв’язками з WellSaid Labs чи іншими компаніями, що займаються синтезованим голосом, щоб зменшити можливість неправомірного використання свого голосу.

справедливість: Ми компенсуємо всім акторам голосу, які надають голосові дані для нашої платформи, і надаємо їм постійну частку доходу за використання синтетичного голосу, який ми створюємо з їхніми даними.

Окрім цих принципів, ми також суворо поважаємо інтелектуальну власність. Ми не претендуємо на право власності на вміст, наданий нашими користувачами або акторами голосу. Ми віддаємо пріоритет чесності, чесності та прозорості в усьому, що ми робимо, гарантуючи, що наша технологія синтетичного мовлення використовується відповідально та етично. Ми активно прагнемо співпрацювати з представниками різних професій і досвіду, щоб гарантувати, що ми надаємо голос кожному.

Наша відданість відповідальним інноваціям і розробці голосових технологій штучного інтелекту з урахуванням етики відрізняє нас від інших у світі, які прагнуть заробити на новій, нерегульованій галузі будь-якими засобами. Наші перші інвестиції в етику, безпеку та конфіденційність створюють довіру та лояльність серед наших акторів голосу та клієнтів, які все частіше шукають етичні продукти та послуги від компаній, які є передовими інноваціями.

Лабораторія WellSaid Labs створила власну модель штучного інтелекту, яка дозволила її голосам штучного інтелекту досягти рівності між людьми, і вона досягла цього, привносячи недосконалості людей у ​​розмови. Що в цих недоліках робить ШІ кращим і як ці недоліки реалізуються?

WellSaid Labs — це не просто ще один генератор TTS. У той час як рання технологія TTS не могла розпізнавати якості людського мовлення, як-от висоту, тон і діалект, які передають контекст і емоції за словами, голоси WellSaid досягли людської паритетності, привносячи унікальні людські недоліки в мову, згенеровану ШІ.

Нашим головним критерієм якості голосу завжди була природність людини. Це керівне переконання сформувало нашу технологію на кожному етапі, від бібліотек сценаріїв, які ми створили, до інструкцій, які ми надаємо талантам, і, нещодавно, як ми повторюємо наші основні алгоритми TTS.

Ми тренуємося на автентичній людській вокалізації. Наш голосовий талант читає їхні сценарії автентично та захоплююче, коли вони записують для нас. З іншого боку, досконалість мовлення — це механічна концепція, яка призводить до роботизовано бездоганного, неприродного результату. Коли професійний талант виступає з голосом, їх темп мовлення коливається. Їхня гучність змінюється відповідно до вмісту, який вони читають. Висота їхнього голосу може підвищуватися в уривку, який вимагає захопленого читання, і знову знижуватися в більш похмурому рядку. Ці динамічні варіації створюють привабливий людський голос.

Створюючи процеси штучного інтелекту, які працюють у координації з динамічними характеристиками наших професійних талантів, ми створили справді природну платформу TTS. Ми розробили першу довгострокову систему TTS із прогнозованим керуванням протягом усього творчого процесу. Наша фонетична бібліотека містить різноманітну колекцію аудіоданих, що дозволяє користувачам включати в модель певні голосові підказки, як-от інструкції щодо вимови або контрольованість, на етапі виробництва. На одній платформі користувачі WellSaid можуть записувати, редагувати та стилізувати свій голос без необхідності імпортувати зовнішні дані.

Чи могли б ви обговорити деякі проблеми, пов’язані зі створенням компанії штучного інтелекту з перетворення тексту в мову (TTS)?

Розвиток голосової технології ШІ створив абсолютно нові перешкоди як для її виробників, так і для споживачів. Одне з головних завдань — не потрапити в шум і ажіотаж, які заповнюють сектор ШІ. Будучи новою, гучною технологією, багато організацій намагаються заробити на короткострокових закадрових розробках ШІ. Ми хочемо надати голос кожному, керуючись основними етичними принципами та автентичністю. Таке дотримання автентичності може затримати розробку та впровадження наших технологій, але зміцнить безпеку голосів WellSaid і їхніх даних.

Ще одним завданням у розробці нашої платформи TTS була розробка конкретних інструкцій щодо отримання згоди, щоб гарантувати, що організації чи окремі учасники не зловживатимуть нашою технологією. Щоб подолати цю проблему, ми шукаємо спільних довгострокових партнерських відносин і повністю беремо участь у розробці озвучення для підвищення підзвітності, прозорості та безпеки користувачів. Ми активно шукаємо партнерства з голосовими талантами з різних професій, організацій і досвіду, щоб переконатися, що бібліотека голосів WellSaid Labs відображає її творців і аудиторію. Ці процеси розроблено навмисно й орієнтовано на деталі, щоб гарантувати, що наша технологія використовується якомога безпечніше й етичніше, що може сповільнити розробку та терміни запуску.

Яке ваше бачення майбутнього генеративних голосів ШІ?

Довгий час мовленнєва технологія штучного інтелекту не досягла достатньо високої якості, щоб дозволити компаніям створювати значущий контент у великих масштабах. Тепер, коли аудіотехнології більше не потребують дорогого обладнання та обладнання, увесь письмовий вміст можна створювати та публікувати в аудіоформаті для створення привабливих мультимодальних вражень.

Сьогодні голоси штучного інтелекту можуть відтворювати звук, схожий на людський, і вловлювати нюанси, необхідні для того, щоб зробити цифрове оповідання більш доступним і природним. Майбутнє генеративного штучного інтелекту – це всеосяжний звуковий досвід, який торкатиметься кожного аспекту нашого життя. Оскільки технології продовжують розвиватися, ми побачимо, що все більш природні та виразні синтетичні голоси стирають межу між людським і машинним мовленням, відкриваючи нові двері для бізнесу, комунікацій, доступності та того, як ми взаємодіємо з навколишнім світом.

Підприємства знайдуть розширену персоналізацію в голосових інтерфейсах ШІ та використають їх, щоб зробити взаємодію з віртуальними помічниками більш захоплюючою та зручнішою для користувача. Ці вдосконалення вже відбуваються, починаючи від інтелектуальних агентів кол-центру і закінчуючи фаст-фудом. Створення контенту, включно з рекламою, маркетингом продуктів, оповіданням новин, подкастами, аудіокнигами та іншими мультимедійними засобами, підвищить ефективність завдяки використанню інструментів для розробки цікавого контенту, що зрештою збільшить зростання та дохід для організацій, особливо зараз, коли багатомовні моделі можуть розширити охоплення компанії. від єдиної точки походження до глобальної присутності. Виробничі команди знайдуть велику користь у синтетичних голосах, щоб створювати голоси, спеціально створені для потреб бренду або налаштовані під слухача.

До появи штучного інтелекту технології TTS не вистачало важливих людських емоцій, інтонації та здібностей до вимови, необхідних для розповіді повної історії в масштабі та з легкістю. Тепер TTS на основі штучного інтелекту пропонує більш захоплюючий і доступний досвід, включаючи можливості мовлення в реальному часі та інтерактивні розмовні агенти.

Досягнення можливостей мовлення, схожих на людину, було складною подорожжю, але тепер, коли це можливо, ми стали свідками повного використання голосу штучного інтелекту для створення реальної бізнес-цінності для організацій.

Дякую за чудове інтерв’ю, читачі, які хочуть дізнатися більше, повинні відвідати Лабораторії WellSaid.

Партнер-засновник unite.AI і член Технологічна рада Forbes, Антуан - це а футурист який захоплений майбутнім ШІ та робототехніки.

Він також є засновником Securities.io, веб-сайт, який зосереджується на інвестиціях у революційні технології.