Интервью

Мэтт Хокинг, сооснователь WellSaid Labs – серия интервью

обновленный on 10 апреля 2024

Мэтт Хокинг — соучредитель WellSaid Labs, ведущий генератор голоса с искусственным интеллектом корпоративного уровня. Он имеет более чем 15-летний опыт руководства командами и реализации масштабных технологических решений.

У вас довольно предпринимательский опыт. Как вы впервые увлеклись искусственным интеллектом?

Наверное, я всегда считал себя довольно предприимчивым. Я начал свой первый бизнес после колледжа и, имея опыт работы в области дизайна продуктов, обнаружил, что тяготею к тому, чтобы помогать людям с идеями на ранней стадии. На протяжении всей моей карьеры мне посчастливилось работать с рядом стартапов, которые добились невероятных успехов. За время этого опыта я лично познакомился со многими великими основателями, что, в свою очередь, вдохновило меня на реализацию собственных идей в качестве основателя. Когда я присоединился к AI2, ИИ был для меня относительно новым; однако этот опыт дал мне возможность применить свой продукт и стартап-объектив к поистине удивительным исследованиям и представить, как эти новые достижения смогут помочь многим людям в ближайшие годы. Моей целью с самого начала было развитие реального бизнеса для реальных людей, и я верю, что ИИ может создать множество интересных возможностей и повысить эффективность в нашем будущем, если его применять вдумчиво.

Не могли бы вы рассказать историю о том, как возникла идея создания WellSaid Labs, когда вы были предпринимателем и проживали в Институт Аллена по искусственному интеллекту?

Я присоединился к Институту искусственного интеллекта Аллена (AI2) в качестве резидента-предпринимателя в 2018 году. Возможно, это самый инновационный инкубатор в мире. AI2 объединяет самые яркие умы в области искусственного интеллекта, которые применяют решения, начиная с самых передовых возможностей сегодняшнего дня, и заканчивая реальными продуктами, решающими проблемы. проблемы по всему миру. Мой опыт в области дизайна и технологий породил давний интерес к творческим областям, и в связи с бумом искусственного интеллекта, свидетелями которого мы все являемся сегодня, мне захотелось найти способ соединить эти две сферы. Меня познакомили с Майклом Петрочуком (соучредителем и техническим директором WellSaid Labs) во время разработки интерактивного медицинского приложения, которое помогало пациенту в различных деликатных ситуациях. В процессе разработки контента для этого опыта моя команда работала с талантами озвучивания, чтобы предварительно записать тысячи строк закадрового голоса для аватара. Когда я познакомился с некоторыми прорывами, которых Майкл добился во время своих исследований, мы оба быстро поняли ценность того, как преобразование текста в речь (TTS) с человеческим контролем может трансформировать не только продукт, над которым я работал, но и повлиять на ряд других приложений и отраслей. Технологии и инструменты изо всех сил пытались удовлетворить потребности продюсеров, творящих с использованием голоса в качестве средства массовой информации. Мы видели путь к тому, чтобы передать эту технологию в руки всех создателей, что позволит голосу стать неотъемлемой частью всех историй.

WellSaid Labs — одна из немногих компаний, которая предоставляет актерам озвучивания путь в сферу озвучивания с использованием искусственного интеллекта. Почему вы считали важным интегрировать в продукт реальные голоса?

Наш ответ на этот вопрос двоякий: во-первых, мы хотели создать решения, которые дополняли бы возможности профессиональных актеров озвучивания, расширяя возможности голоса. А во-вторых, мы стремимся к тому, чтобы в нашей продукции был высочайший уровень человеческого качества. Наши актеры озвучивания являются долгосрочными партнерами и получают вознаграждение и долю дохода как за свои голосовые данные, так и за последующий контент, созданный с их помощью. Каждому актеру озвучивания, которого мы нанимаем для создания голосового аватара с искусственным интеллектом на основе сходства его голоса, платят в зависимости от того, насколько часто его голос используется на нашей платформе. Мы призываем таланты сотрудничать с нами; справедливое вознаграждение за их вклад невероятно важно для нас.

Чтобы предложить на рынке продукцию высочайшего качества, отвечающую требованиям человека, мы должны строго относиться к тому, откуда мы получаем наши данные. Этот процесс дает нам больше контроля над качеством, поскольку мы обучаем наших глубокое обучение модели, говорящие как о человеческом равенстве, так и о конкретных контекстуально значимых стилях. Мы не просто создаем голос, который повторяет предоставленную информацию. Наши модели предлагают различные голосовые стили, которые воспроизводят то, что находится на странице. Независимо от того, создают ли пользователи закадровый голос, используя аватар из нашей библиотеки, или создают закадровый голос с помощью специально созданного голоса для своего бренда, мы используем реальные голосовые данные, чтобы обеспечить бесперебойный процесс и простую в использовании платформу. Если бы нашим клиентам приходилось манипулировать и редактировать наши голоса на этапе постобработки, процесс получения желаемого результата был бы неуклюжим и долгим. Наши голоса учитывают контекст письменного контента и обеспечивают контекстуально точное чтение. Мы предлагаем голоса для всех типов случаев использования — будь то чтение новостей, создание аудиорекламы или поддержка автоматизированного колл-центра — поэтому партнерство с профессиональными голосовыми специалистами, специфичными для каждого варианта использования, дает нам как контекст, так и высококачественные голосовые данные. .

Мы регулярно обновляем и добавляем новые стили и акценты в нашу библиотеку аватаров, чтобы отражать голоса наших клиентов. В студии WellSaid Labs клиенты и бренды могут прослушивать разные голоса в зависимости от региона, стиля и варианта использования, что обеспечивает более плавное и унифицированное производство аудиоконтента, персонализированного в соответствии с потребностями создателя. После того как первоначальная запись будет выбрана, пользователи могут указать определенные слова, варианты написания и произношения, чтобы ИИ постоянно говорил именно в соответствии с их потребностями.

WellSaid Labs заявляет о себе как о первой этической голосовой платформе искусственного интеллекта. Почему этика ИИ важна для вас?

По мере того, как внедрение ИИ растет и становится все более распространенным, в центре каждого разговора находятся опасения по поводу вредных вариантов использования и злоумышленников – и эти опасения, к сожалению, подтверждаются реальными событиями. Голос AI не является исключением; почти каждый день в заголовках новостей появляется новое сообщение о знаменитости, общественном деятеле или политическом деятеле, подвергшемся дипфейкингу в рекламных или политических целях. Хотя формальное федеральное регулирование этой технологии все еще развивается, обнаружение и борьба с злоумышленниками и использованием синтетического голоса будет становиться все более трудной по мере дальнейшего развития технологии.

Будучи выходцами из AI2, где этика ИИ является основным принципом, мы с Майклом провели эти разговоры в первый же день. Разработка речевой технологии искусственного интеллекта предполагает значительную ответственность в отношении согласия, конфиденциальности и общей безопасности. Мы знаем, что мы, как разработчики, должны создавать безопасные технологии, решать этические проблемы и закладывать основу для будущего развития синтетических голосов. Мы осознаем потенциал неправомерного использования речевой технологии искусственного интеллекта и принимаем на себя ответственность за сокращение потенциального неправомерного использования нашего продукта. Нам нужно заложить этот фундамент с первого дня, а не бежать быстро и совершать ошибки на этом пути. Это было бы неправильно со стороны наших корпоративных клиентов и актеров озвучивания, которые рассчитывают на то, что мы создадим высококачественный и заслуживающий доверия продукт.

Мы полностью поддерживаем призыв к законодательству в этой области; однако мы не будем ждать принятия федеральных постановлений. Мы всегда отдавали приоритет и будем продолжать уделять приоритетное внимание практикам, обеспечивающим конфиденциальность, безопасность, прозрачность и подотчетность.

Мы строго соблюдаем этический кодекс намерений нашей компании, который основан на ответственном подходе к инновациям в каждом принимаемом нами решении. Это отвечает интересам наших глобальных клиентов – корпоративных брендов.

Как разработать этическую голосовую платформу искусственного интеллекта?

WellSaid Labs с самого начала была привержена этическим инновациям. Мы централизуем доверие и прозрачность за счет использования собственных моделей данных, требований явного согласия, нашей программы модерации контента и нашей приверженности защите бренда. В WellSaid мы опираемся на принципы Ответственный AI формировать наши решения и планы, и эти принципы распространяются на использование нашего голоса. Наш этический кодекс представляет эти принципы как подотчетность, прозрачность, конфиденциальность и безопасность, а также справедливость.

Подотчетность: Мы придерживаемся строгих стандартов в отношении соответствующего контента, запрещая использование наших голосов для контента, который является вредным, разжигающим ненависть, мошенническим или предназначенным для подстрекательства к насилию. Наша команда по доверию и безопасности поддерживает эти стандарты с помощью строгой программы модерации контента, блокируя и удаляя пользователей, которые пытаются нарушить наши Условия обслуживания.

Прозрачность: Мы требуем явного согласия, прежде чем создавать синтетический голос с чьими-либо голосовыми данными. Пользователи не могут загружать голосовые данные политиков, знаменитостей или кого-либо еще для создания клона своего голоса, если у нас нет явного письменного согласия этого человека.

Конфиденциальность и безопасность: Мы защищаем личность наших актеров озвучивания, используя стандартные изображения и псевдонимы для представления синтетических голосов. Мы также призываем их проявлять осторожность в отношении того, как и с кем они делятся своими связями с WellSaid Labs или другими компаниями, занимающимися синтезом голоса, чтобы уменьшить возможность злоупотребления своим голосом.

Справедливость: Мы выплачиваем вознаграждение всем актерам озвучивания, которые предоставляют голосовые данные для нашей платформы, и предоставляем им постоянную долю дохода за использование синтетического голоса, который мы создаем на основе их данных.

Наряду с этими принципами мы также строго уважаем интеллектуальную собственность. Мы не претендуем на право собственности на контент, предоставленный нашими пользователями или актерами озвучивания. Мы уделяем приоритетное внимание честности, справедливости и прозрачности во всем, что мы делаем, гарантируя, что наша технология синтетической речи используется ответственно и этично. Мы активно ищем партнерские отношения с представителями различного происхождения и опыта, чтобы обеспечить возможность высказаться каждому.

Наша приверженность ответственным инновациям и разработке голосовых технологий искусственного интеллекта с учетом этических норм отличает нас от других компаний в этой области, которые стремятся извлечь выгоду из новой, нерегулируемой отрасли любыми способами. Наши ранние инвестиции в этику, безопасность и конфиденциальность укрепляют доверие и лояльность среди наших актеров озвучивания и клиентов, которые все чаще ищут этически произведенные продукты и услуги от компаний, находящихся на переднем крае инноваций.

WellSaid Labs создала собственную модель ИИ, которая позволила ее голосам ИИ достичь человеческого паритета, и она добилась этого, привнося в разговоры несовершенства людей. Что такого в этих несовершенствах, которые делают ИИ лучше, и как эти несовершенства реализуются?

WellSaid Labs — это не просто еще один генератор TTS. Если ранние технологии TTS не могли распознавать такие качества человеческой речи, как высота, тон и диалект, которые передают контекст и эмоции, стоящие за словами, то голоса WellSaid достигли человеческого равенства, привнося уникальные человеческие несовершенства в речь, генерируемую ИИ.

Нашей основной мерой качества голоса всегда была и остается естественность человека. Это руководящее убеждение формировало нашу технологию на каждом этапе: от созданных нами библиотек сценариев до инструкций, которые мы даем талантам, и, в последнее время, того, как мы выполняем итерации наших основных алгоритмов TTS.

Мы тренируемся на аутентичных человеческих вокалах. Наши озвучщики достоверно и увлекательно читают их сценарии, когда они записывают для нас. С другой стороны, совершенство речи — это механическая концепция, которая приводит к роботизированному безупречному, неестественному результату. Когда выступают профессиональные озвучщики, скорость их речи колеблется. Их громкость меняется в зависимости от содержания, которое они читают. Их голосовой тон может повышаться в отрывке, требующем взволнованного чтения, и снова падать в более мрачной строке. Эти динамические вариации составляют захватывающее человеческое вокальное исполнение.

Создавая процессы искусственного интеллекта, которые работают в координации с динамичной деятельностью наших профессиональных талантов, мы создали по-настоящему естественную платформу TTS. Мы разработали первую полноценную систему TTS с прогнозирующим контролем на протяжении всего творческого процесса. Наша фонетическая библиотека содержит разнообразную коллекцию аудиоданных, что позволяет пользователям включать в модель определенные голосовые сигналы, такие как рекомендации по произношению или управление, на этапе производства. На одной платформе пользователи WellSaid могут записывать, редактировать и стилизовать свою закадровую речь без необходимости импортировать внешние данные.

Не могли бы вы обсудить некоторые проблемы, стоящие за созданием компании по производству искусственного интеллекта (TTS)?

Развитие голосовой технологии искусственного интеллекта создало совершенно новый набор препятствий как для ее производителей, так и для потребителей. Одна из главных проблем — не поддаваться шуму и шумихе, которые наводняют сектор искусственного интеллекта. Поскольку это новая, модная технология, многие организации пытаются заработать на краткосрочных разработках искусственного озвучивания. Мы хотим предоставить право голоса каждому, руководствуясь основными этическими принципами и подлинностью. Такое соблюдение аутентичности может задержать разработку и внедрение наших технологий, но укрепит безопасность голосов WellSaid и их данных.

Еще одной проблемой при разработке нашей платформы TTS была разработка конкретных правил предоставления согласия, гарантирующих, что организации или отдельные участники не будут злоупотреблять нашей технологией. Чтобы справиться с этой проблемой, мы ищем совместное долгосрочное партнерство и полностью участвуем в разработке голосового управления для повышения подотчетности, прозрачности и безопасности пользователей. Мы активно ищем партнерские отношения с озвучками из разных слоев общества, организаций и опыта, чтобы гарантировать, что библиотека голосов WellSaid Labs отражает ее создателей и аудиторию. Эти процессы разработаны намеренно и детально ориентированы, чтобы обеспечить максимально безопасное и этичное использование нашей технологии, что может замедлить сроки разработки и запуска.

Каким вы видите будущее генеративных голосов ИИ?

В течение долгого времени речевые технологии искусственного интеллекта не достигли достаточно высокого качества, чтобы позволить компаниям создавать значимый контент в больших масштабах. Теперь, когда аудиотехнологии больше не требуют дорогостоящего оборудования и аппаратных средств, весь письменный контент можно создавать и публиковать в аудиоформате, создавая привлекательные мультимодальные впечатления.

Сегодня голоса искусственного интеллекта могут воспроизводить звук, похожий на человеческий, и улавливать нюансы, необходимые для того, чтобы сделать цифровое повествование более доступным и естественным. Будущее генеративного голоса ИИ станет всеобъемлющим звуковым опытом, который затронет каждый аспект нашей жизни. По мере развития технологий мы будем видеть, как все более естественные и выразительные синтетические голоса стирают грань между человеческой и машинной речью, открывая новые двери для бизнеса, коммуникаций, доступности и того, как мы взаимодействуем с окружающим миром.

Предприятия найдут расширенную персонализацию в голосовых интерфейсах искусственного интеллекта и будут использовать их, чтобы сделать взаимодействие с виртуальными помощниками более захватывающим и удобным для пользователя. Эти усовершенствования уже происходят: от интеллектуальных агентов колл-центра до услуг быстрого питания. Создание контента, включая рекламу, маркетинг продуктов, репортажи новостей, подкасты, аудиокниги и другие мультимедиа, повысит эффективность за счет использования инструментов для разработки привлекательного контента, что в конечном итоге увеличит подъем и доходы организаций, особенно теперь, когда многоязычные модели могут расширить охват компании. от единой точки происхождения до глобального присутствия. Производственные группы найдут большую выгоду в использовании синтетических голосов для создания голосов, адаптированных к потребностям бренда или настроенных под слушателя.

До появления искусственного интеллекта технологии TTS не хватало важнейших человеческих эмоций, интонации и произношения, необходимых для того, чтобы рассказать полную историю в масштабе и с легкостью. Теперь TTS на базе искусственного интеллекта предлагает более захватывающий и доступный опыт, включая возможности речи в реальном времени и интерактивных диалоговых агентов.

Достижение речевых способностей, подобных человеческим, было долгим путешествием, но теперь, когда оно стало достижимым, мы являемся свидетелями полного использования голосового ИИ для создания реальной бизнес-ценности для организаций.

Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Хорошо Саид Лаборатории.

Джей Давани — соучредитель и генеральный директор Lemurian Labs — серия интервью

Не пропустите

Кавиккал Балакришнан, сооснователь и генеральный директор Autonom8 – серия интервью

Антуан Тардиф

Партнер-основатель unite.AI и член Технологический совет Форбс, Антуан - это футурист который увлечен будущим искусственного интеллекта и робототехники.

Он также является основателем Ценные бумаги.io, веб-сайт, посвященный инвестициям в прорывные технологии.

Unite.ИИ

Мэтт Хокинг, сооснователь WellSaid Labs – серия интервью

Интервью

Мэтт Хокинг, сооснователь WellSaid Labs – серия интервью

Оглавление

Последние посты

Unite.ИИ

Мэтт Хокинг, сооснователь WellSaid Labs – серия интервью

Оглавление

Вам может понравиться

Последние посты