Свяжитесь с нами:

Искусственный интеллект для голосового управления стремительно развивается, но достаточно ли он реалистичен, чтобы оказать существенное влияние?

Лидеры мысли

Искусственный интеллект для голосового управления стремительно развивается, но достаточно ли он реалистичен, чтобы оказать существенное влияние?

mm

Мировой рынок голосовых агентов на основе искусственного интеллекта переживает бум. , по прогнозам,  Ожидается, что объем рынка голосового ИИ вырастет с 3.14 млрд долларов в 2024 году до 47.5 млрд долларов к 2034 году. Технология перестала быть нишевой: большинство крупных технологических компаний (включая Google, Amazon, Apple, Meta и Microsoft) теперь предлагают голосовые продукты, стартапы выводят на рынок инновации, а сама технология становится все более доступной благодаря моделям с открытым исходным кодом. От повседневных виртуальных помощников, таких как Siri и Alexa, до регионального дубляжа в фильмах и телепередачах — сейчас как никогда благоприятные условия для внедрения голосового ИИ.

Однако по мере того, как доступ к голосовому ИИ становится все более распространенным, опыт использования остается крайне неоднородным. Это связано с тем, что самая сложная часть голосового ИИ — это не генерация звучания голоса, а генерация голоса, который звучит убедительно в повседневном общении. Широкая доступность не означает, что эти голоса ИИ достаточны для нужд предприятий или для долгосрочного использования пользователями. Истинную конкуренцию займут те, кто создаст голоса, которые будут звучать по-человечески, динамично и эмоционально в реальных ситуациях.

«Зловещая долина»: «Достаточно хорошо» недостаточно

В отрасли всё чаще бытует мнение, что достижение достаточно человекоподобного голоса у ИИ будет «достаточно хорошим» для широкого распространения, фактически завершив гонку за первенство. Пользователи будут мириться с незначительной неестественностью, поскольку польза перевешивает недостатки.

В действительности, это предположение неверно истолковывает то, как люди воспринимают речь, эмоции и подлинность. Голоса, близкие к человеческим, склонны создавать искажения. «зловещая долина» Эффект, вызывающий дискомфорт у пользователей, особенно во время общения со службой поддержки клиентов, в сфере здравоохранения или при планировании поездок, где эмоции могут зашкаливать, а чувство понимания имеет первостепенное значение. По мере увеличения воздействия голосов ИИ терпимость к посредственности снижается.

По факту, исследованиями Исследования взаимодействия человека и машины последовательно показывают, что когда голос почти Если голос ИИ звучит неестественно, но при этом не соответствует эмоциональному или ритмическому ритму, пользователи инстинктивно чувствуют, что что-то не так. Например, некоторые компании, использующие ИИ-администраторов, отмечают, что пользователи описывают взаимодействие с ними как жуткое или тревожное, потому что в голосе присутствуют едва заметные ритмические или эмоциональные несоответствия, которые просто кажутся неправильными. В условиях работы с клиентами даже небольшие моменты трения или дискомфорта могут быстро перерасти в реальное недовольство и в конечном итоге привести к отказу от сотрудничества.

Выход из режима «достаточно хорошо» становится все более важным для достижения бизнес-целей. По прогнозам, ИИ будет обрабатывать около 50%. количество обращений в службу поддержки клиентов к 2027 году, однако негативные автоматизированные взаимодействия Это может напрямую навредить восприятию бренда. Неудачное взаимодействие с чат-ботом, за которым следует столь же плохое или неестественное звучание голоса, скорее всего, вызовет глубокое чувство разочарования и может сигнализировать об отсутствии надежного пути к реальной помощи.

По мере того как потребители все чаще взаимодействуют с голосами искусственного интеллекта, терпимость к роботизированному или неуклюжему общению снижается, и пользователи быстро теряют интерес, что влечет за собой серьезные последствия для компаний, которые полагаются на подобные инструменты.

Истинный реализм

В голосовом ИИ реализм на уровне человеческого голоса — это нечто большее, чем просто точность произношения или устранение роботизированных оттенков. Он также требует многомерного сочетания эмоций, контекста, культурных нюансов, времени и более тонких факторов. Таким образом, настоящая задача заключается в деконструкции, понимании и, в конечном итоге, воспроизведении слоев, формирующих человеческое общение, таких как:

Эмоциональный диапазон и подлинность

Красота человеческого голоса заключается в его способности передавать теплоту, срочность, юмор, разочарование, волнение и бесчисленное множество других эмоций, в сочетании с самими словами. Этот эмоциональный нюанс напрямую влияет на то, чувствует ли собеседник себя понятым или отвергнутым, успокоенным или раздраженным.

Представьте, например, что ИИ-оператор службы поддержки общается с расстроенным клиентом. Бот может сказать: «Я прекрасно понимаю, насколько это должно быть неприятно. Давайте посмотрим, как мы можем это исправить». Когда голос, произносящий эти слова, звучит сочувственно, это может снизить уровень стресса у звонящего и сигнализировать о подлинном разрешении конфликта. Те же слова, произнесенные монотонным или неестественным голосом, могут вызвать противоположную реакцию.

Контекстный интеллект

Люди инстинктивно корректируют свою речь в зависимости от срочности ситуации, воспринимаемого эмоционального состояния слушателя, сложности информации и социального контекста. Современные голоса, созданные искусственным интеллектом, как правило, произносят реплики единообразно, упуская контекстные подсказки, которые делают речь отзывчивой и живой. Реалистичная речь требует понимания не только слов, но и того, почему они произносятся, а также образа мышления тех, кто их произносит.

Микровыражения в аудио

Естественная речь включает в себя тонкие несовершенства, такие как дыхание, паузы, признаки запинок и неровный темп. Это одна из главных причин, почему безупречная, непрерывная речь, сгенерированная искусственным интеллектом, по своей сути кажется менее человеческой. К сожалению, воспроизведение этих нюансов с достаточной достоверностью остается технически сложной задачей.

Культурные и языковые нюансы

Помимо воспроизведения акцента, аутентичная региональная коммуникация зависит от понимания темпа речи, интонации, идиом, уровня формальности и стилей общения в разных культурах. Например, восходящая интонация, сигнализирующая о дружелюбии и возбуждении в одной культуре, может быть истолкована как неуверенность или вопрос в другой, что потенциально может изменить восприятие человеком намерений или эмоций.

Без учета этих голосовых нюансов в моделях ИИ, даже технически точные голоса могут показаться неуместными или непонятными пользователям из разных культурных слоев. Настоящий реализм требует способности адаптировать тон и стиль в зависимости от ожиданий конкретного пользователя.

Учитывая все эти тонкие, но важные факторы, становится ясно, что голоса, создаваемые искусственным интеллектом, должны не только... звук как человек, но также реагировать В режиме реального времени, как это делал бы человек. Именно поэтому задержка является важнейшим элементом оценки того, насколько человекоподобным кажется голос ИИ. В естественной беседе люди говорят по очереди со средним интервалом в несколько секунд. 250 миллисекундЕсли пауза затянется, общение будет казаться затянутым, невнимательным или сумбурным. Небольшая разница между задумчивой паузой и технической задержкой может разрушить иллюзию естественного разговора и создать ощущение невнимательности собеседника.

Почему это важно

В дальнейшем рынок неизбежно будет отдавать предпочтение компаниям, способным обеспечить как реализм, так и оперативность реагирования.

Для ИИ-агентов и помощников внедрение и устойчивое вовлечение пользователей зависят от того, хотят ли люди вообще взаимодействовать с этой технологией. Разница между инструментом, который люди пробуют один раз, и инструментом, на который они полагаются каждый день, заключается в качестве диалогового взаимодействия.

В индустрии развлечений погружение и удержание аудитории зависят от того, насколько правдоподобен контент, и одна неестественная реплика может нарушить вовлеченность зрителя. Голоса, озвученные искусственным интеллектом при дубляже или исполнении ролей, должны полностью интегрироваться в повествование, чтобы поддерживать эмоциональное воздействие.

Для службы поддержки клиентов доверие и эмпатия имеют первостепенное значение, особенно учитывая, что многие взаимодействия с клиентами происходят в моменты разочарования или замешательства. Голос, звучащий жестко или эмоционально отстраненно, может усугубить ситуацию, а не разрешить ее. Пользователи ожидают от собеседника голоса, отражающего заботу, терпение или уверенность, а не просто заученных ответов.

Что будет дальше

Победу в гонке голосового ИИ одержат те компании, которые овладеют искусством распознавания эмоциональных нюансов, поймут культурные и контекстуальные различия, будут реагировать мгновенно и плавно, а также обеспечат опыт, неотличимый от общения с человеком.

На рынке, где любой может создать голос искусственного интеллекта, а ожидания пользователей, в свою очередь, меняются, понятие «достаточно хорошо» быстро перестанет быть таковым. Единственный способ оставаться конкурентоспособным — создавать голоса искусственного интеллекта, о существовании которых люди легко забудут.

Оз Краковски, директор по развитию бизнеса, возглавляет Deepdub's развитие бизнеса и стратегические продажи, а также курировал локализацию сотен часов написанного и не написанного на разных языках контента с использованием новаторской платформы локализации Deepdub на базе искусственного интеллекта. От дубляжа театральных постановок, отмеченных наградами инди-фильмов, первой дублированной написанной драмы на Hulu («Vanda») до не написанного контента, такого как реалити-шоу «Hardcore Pawn» и документально-криминальный сериал «Forensic Files», Оз развивает сотрудничество и партнерство со студиями и владельцами контента по всему миру, он также является членом Комитета по планированию премии DEG Awards. Оз — серийный предприниматель и, до прихода в Deepdub, был соучредителем стартапа на рынке здравоохранения.