Лідери думок

Голосовий AI розширюється – Але чи достатньо реалістичний, щоб зробити вплив?

mm

Глобальний ринок агентів голосового AI розширюється, передбачається, що він зросте з 3,14 млрд доларів у 2024 році до 47,5 млрд доларів до 2034 року. Тепер це вже не ніша технологія, більшість великих технологічних компаній (включно з Google, Amazon, Apple, Meta та Microsoft) мають голосові продукти, стартапи пропонують інновації на ринку, а сама технологія стає все більш доступною завдяки відкритим моделям. Від повсякденних віртуальних асистентів, таких як Siri та Alexa, до регіонального дублювання в кіно та на телебаченні, ніколи не було більш сприятливої можливості для прийняття голосового AI.

Але коли доступ до голосового AI стає все більш поширеним, досвід залишається глибоко нерівномірним. Це тому, що найважча частина голосового AI полягає не в генерації звуку голосу, а в генерації голосу, який здається правдоподібним у щоденних взаємодіях. Поширена доступність не означає, що ці голоси AI достатні для потреб підприємства або для довгострокового прийняття користувачами. Справжня конкурентна боротьба буде переможена тими, хто доставляє голоси, які здаються людськими, динамічними та емоційно освідомленими у реальних ситуаціях.

Долина невідповідності: “Достатньо добре” не спрацьовує

Розростається припущення в галузі, що досягнення досить людського голосу AI буде “достатньо добре” для широкого прийняття, фактично закінчуючи гонку. Користувачі будуть терпіти легку нерівномірність, оскільки корисність переважає недоліки.

Насправді це припущення не розуміє, як люди сприймають мову, емоції та автентичність. Незрівнянно людські голоси схильні створювати ефект “долини невідповідності”, який робить користувачів незручними, особливо під час підтримки клієнтів, взаємодій у сфері охорони здоров’я або планування подорожей, де емоції можуть бути високими, а відчуття розуміння є важливим. Коли користувачі збільшують взаємодію з голосами AI, толерантність до посередніх або нерівномірних взаємодій зменшується, а користувачі швидко відмовляються, що становить серйозні бізнес-відповідності для компаній, які залежать від таких інструментів.

Фактично дослідження взаємодії людини та машини постійно показує, що коли голос майже людський, але не має емоційної або ритмічної відповідності, користувачі інстинктивно відчувають, що щось не так. Наприклад, деякі компанії з AI-рецепціоністами відзначають, що користувачі описують взаємодії як лякливі або незручні, оскільки голос має тонкі ритмічні або емоційні розбіжності, які просто не здаються правильними. У середовищі обслуговування клієнтів навіть малі моменти тертя або незручності можуть швидко накопичуватися в реальну незадоволеність та подальше відмовлення.

Вихід з цього режиму “достатньо добре” ставає все більш важливим для бізнес-цілей. AI очікується обробляти близько 50% випадків підтримки клієнтів до 2027 року, проте негативні автоматизовані взаємодії можуть безпосередньо пошкодити сприйняття бренду. Погана взаємодія чат-бота, за якою слідує невідповідний або нерівномірний голосовий досвід, може створити глибоке відчуття розчарування та може сигналізувати про відсутність надійного шляху до реальної допомоги.

Когда користувачі все частіше взаємодіють з голосами AI, толерантність до роботизованих або нерівномірних взаємодій зменшується, а користувачі швидко відмовляються, що становить серйозні бізнес-відповідності для компаній, які залежать від таких інструментів.

Істинна реалістичність

У голосовому AI людський рівень реалістичності полягає не лише у точності вимови або видаленні роботизованих тонів. Це також вимагає багатовимірної комбінації емоцій, контексту, культурних нюансів, часу та більш тонких факторів. Справжня складність полягає у розбиранні, розумінні та відтворенні шарів, які формують людську комунікацію, таких як:

Емоційний діапазон та автентичність

Краса людських голосів полягає у їх здатності передавати тепло, терміновість, гумор, розчарування, піднесення та безліч інших емоцій, у поєднанні зі словами самих. Ця емоційна нюансування безпосередньо впливає на те, чи відчуває користувач себе зрозумілим чи відкинутим, заспокоєним чи розчарованим.

Наприклад, уявіть собі AI-агента підтримки, який взаємодіє з розчарованим клієнтом. Бот може сказати: “Я повністю розумію, як це може бути розчаруюче. Давайте побачимо, як ми можемо це виправити”. Коли голос, який говорить ці слова, звучить співчутливо, він може знизити стрес викликача та сигналізувати про справжнє вирішення конфлікту. Ці самі слова, сказані у плоскому або нерівномірному голосі, можуть спровокувати протилежну реакцію.

Контекстна інтелект

Люди інстинктивно регулюють свою мову залежно від ситуаційної терміновості, сприйманого емоційного стану слухача, інформаційної складності та соціального контексту. Сучасні голоси AI tendенсії доставляти рядки уніформно, пропускаючи контекстні сигнали, які роблять мову відчутною та присутньою. Реалістична мова вимагає розуміння не лише слів, але й того, чому вони говоряться, та розуміння тих, хто їх виражає.

Мікровирази в аудіо

Природна мова включає тонкі недоліки, такі як подихи, паузи, маркери вагання та нерівномірне темпо. Це одна з основних причин, чому бездоганна, безперервна мова AI внутрішньо здається менш людською. Нажаль, відтворення цих сигналів правдоподібно залишається технічною складністю.

Культурна та лінгвістична нюансування

Поряд з відтворенням акценту, автентична регіональна комунікація залежить від усвідомлення різниці культур у темпі, інтонації, ідіомах, рівнях формальності та стилях комунікації. Наприклад, зростаючий інтонаційний патерн, який сигналізує дружність та піднесення в одній культурі, може бути інтерпретований як невпевненість або питання в іншій, потенційно змінюючи сприйняття наміру чи емоції.

Без цих вокальних нюансів, інтегрованих у моделі AI, навіть технічні голоси можуть відчуватися невідповідними або плутаними для користувачів з різних культурних背景ів. Істинна реалістичність вимагає здатності адаптувати тон та стиль залежно від очікувань будь-якого користувача.

Когда вираховується уважаючи всі ці тонкі, але важливі фактори, стає зрозуміло, що голоси AI повинні не лише звучати як людина, але й реагувати в реальному часі як людина. Це чому затримка є важливим елементом оцінки того, наскільки людським здається голос AI. У природній розмові люди беруть участь у розмові з середнім інтервалом у 250 мілісекунд. Будь-який більший інтервал робить взаємодію повільною, невідповідною або плутаною. Незначна різниця між роздумами та технічною затримкою може бути достатньою, щоб порушити ілюзію природньої розмови та зробити голос менш уважним.

Чому це має значення

У майбутньому ринок буде віддавати перевагу компаніям, які можуть доставляти як реалістичність, так і реальну реакцію в реальному часі.

Для агентів та асистентів AI прийняття користувачами та тривале залучення залежать від того, чи хочуть люди взаємодіяти з цією технологією. Різниця між інструментом, який люди пробують один раз, та інструментом, на який вони покладаються щодня, полягає у якості розмовного досвіду.

У сфері розваг іммерсія та утримання аудиторії залежать від того, наскільки правдоподібним є контент, а одна нерівномірна фраза може порушити залучення глядача. Голоси AI, використані у дублюванні чи виконанні персонажів, повинні повністю інтегруватися у нарратив, щоб підтримувати емоційний вплив.

Для підтримки клієнтів довіра та співчуття є важливими, особливо під час взаємодій у моменти розчарування чи плутанини. Голос, який звучить жорстко чи емоційно відключено, може ескалювати ситуацію, а не вирішувати її. Користувачі очікують голосів, які можуть відображати турботу, терпіння чи заспокоєння, а не лише доставляти скриптовані відповіді.

Що далі

Компанії, які виграють гонку голосового AI, будуть тими, які освояють емоційну нюансування, розуміють культурні та контекстні варіації, реагують миттєво та плавно, і доставляють досвід, незрівнянний з розмовою з людиною.

На ринку, де кожен може генерувати голос AI, та очікування користувачів еволюціонують у відповідь, “достатньо добре” швидко не буде достатньо. Єдиний спосіб залишитися конкурентоспроможним буде генерувати голоси AI, які люди можуть легко забути, що це AI.

Oz Krakowski, Головний керівник з розвитку бізнесу, керує розробкою бізнесу та стратегічними продажами Deepdub's та наглядав за локалізацією сотень годин сценарних та не сценарних контентів на декілька мов за допомогою революційної платформи локалізації Deepdub's на основі штучного інтелекту. Від дублювання театральних вистав, премійних незалежних фільмів, першої дубльованої сценарної драми на Hulu ("Vanda") до не сценарного контенту, як реаліті-шоу "Hardcore Pawn" і доку-кримінального "Forensic Files", Oz підтримував співробітництво та партнерство зі студіями та власниками контенту по всьому світу, він також є членом комітету з планування премій DEG. Oz є серійним підприємцем, і до того, як приєднався до Deepdub's, був співзасновником стартапу на ринку охорони здоров'я.