Зв'язатися з нами

Голосовий ШІ переживає бум – але чи достатньо це реалістично, щоб мати вплив?

Лідери думок

Голосовий ШІ переживає бум – але чи достатньо це реалістично, щоб мати вплив?

mm

Глобальний ринок голосових агентів на базі штучного інтелекту переживає бум, прогнозовані зросте з 3.14 мільярда доларів у 2024 році до 47.5 мільярда доларів до 2034 року. Ця технологія більше не є нішевою, більшість великих технологічних компаній (включаючи Google, Amazon, Apple, Meta та Microsoft) тепер мають голосові продукти, стартапи пропонують ринку інновації, а сама технологія стає дедалі доступнішою завдяки моделям з відкритим кодом. Від повсякденних віртуальних помічників, таких як Siri та Alexa, до регіонального дубляжу у фільмах і на телебаченні, ще ніколи не було такої сприятливої ​​можливості для впровадження голосового ШІ.

Але оскільки доступ до голосового ШІ стає дедалі поширенішим, досвід залишається дуже нерівномірним. Це тому, що найскладніша частина голосового ШІ полягає не у створенні звуку голосу, а у створенні голосу, який здається правдоподібним у щоденній взаємодії. Широка доступність не означає, що цих голосів ШІ достатньо для потреб підприємства або для довгострокового впровадження користувачами. Справжнє конкурентне середовище підкорять ті, хто створює голоси, що відчуваються людськими, динамічними та емоційно усвідомленими в реальних ситуаціях.

Зловісну долину: «Досить добре» — це не те

У галузі зростає припущення, що досягнення більш-менш людського голосу за допомогою штучного інтелекту буде «достатньо добрим» для широкого впровадження, що фактично завершить перегони. Користувачі будуть терпіти незначну неприродність, оскільки корисність переважує недоліки.

Насправді, це припущення неправильно розуміє, як люди сприймають мову, емоції та автентичність. Майже людські голоси схильні створювати «Неймовірна долина» ефект, який створює дискомфорт для користувачів, особливо під час підтримки клієнтів, взаємодії з медичними працівниками або планування подорожей, коли емоції можуть бути зашкалюючими, а відчуття розуміння є надзвичайно важливим. Зі зростанням впливу голосів штучного інтелекту толерантність до посередності знижується.

Насправді, дослідження взаємодії людини та машини послідовно показує, що коли голос майже людський, але позбавлений емоційної чи ритмічної узгодженості, користувачі інстинктивно відчувають, що щось не так. Наприклад, деякі компанії з рецепціонерами на базі штучного інтелекту зазначають, що користувачі описують взаємодію як моторошну або тривожну, оскільки голос має ледь помітні ритмічні чи емоційні розбіжності в часі, які просто не сприймаються належним чином. У середовищах, де клієнти взаємодіють, навіть невеликі моменти тертя чи дискомфорту можуть швидко перерости у справжнє невдоволення та, зрештою, у самовільне самотнє спілкування.

Звільнення від цього режиму «достатньо добре» стає дедалі важливішим для досягнення бізнес-цілей. Очікується, що ШІ обробить приблизно 50% випадків обслуговування клієнтів до 2027 року, проте негативні автоматизовані взаємодії може безпосередньо зашкодити сприйняттю бренду. Негативна взаємодія з чат-ботом, а потім такий самий поганий або неприродний голосовий досвід, ймовірно, викличе глибоке почуття розчарування та може сигналізувати про те, що немає надійного шляху до реальної допомоги.

Оскільки споживачі все частіше взаємодіють з голосами штучного інтелекту, толерантність до роботизованих або незручних взаємодій знижується, і користувачі швидко відмовляються, що призводить до серйозних бізнес-наслідків для компаній, які покладаються на такі інструменти.

Справжній реалізм

У голосовому штучному інтелекті реалізм на рівні людини — це більше, ніж просто точність вимови чи видалення роботоподібних підтекстів. Він також вимагає багатовимірного поєднання емоцій, контексту, культурних нюансів, часу та більш тонких факторів. Отже, справжній виклик полягає в деконструкції, розумінні та, зрештою, відтворенні шарів, які формують людське спілкування, таких як:

Емоційний діапазон та автентичність

Краса людських голосів полягає в їхній здатності передавати теплоту, терміновість, гумор, розчарування, захоплення та безліч інших емоцій у поєднанні з самими словами. Цей емоційний нюанс безпосередньо впливає на те, чи почуватиметься користувач зрозумілим чи відкинутим, заспокоєним чи роздратованим.

Уявіть, наприклад, агента служби підтримки зі штучним інтелектом, який має справу з роздратованим клієнтом. Бот може сказати: «Я повністю розумію, наскільки це, мабуть, неприємно. Давайте подивимося, як ми можемо це виправити». Коли голос, який вимовляє ці слова, звучить співчутливо, це може знизити стрес абонента та сигналізувати про справжнє вирішення конфлікту. Ті ж слова, сказані рівним або неприродним голосом, можуть викликати протилежну реакцію.

Контекстний інтелект

Люди інстинктивно коригують свою мову залежно від терміновості ситуації, сприйнятого емоційного стану слухача, інформаційної складності та соціального контексту. Сучасні голоси на основі штучного інтелекту, як правило, вимовляють репліки однорідно, не враховуючи контекстуальних підказок, які роблять мову чутливою та актуальною. Реалістична мова вимагає розуміння не лише слів, але й того, чому вони вимовляються, та способу мислення тих, хто їх вимовляє.

Мікровирази в аудіо

Природне мовлення містить ледь помітні недоліки, такі як дихання, паузи, маркери вагань та нерівномірний темп. Це одна з головних причин, чому бездоганне, безперервне мовлення штучного інтелекту за своєю суттю здається менш людським. На жаль, правдоподібне відтворення цих сигналів залишається технічно складним.

Культурні та лінгвістичні нюанси

Поряд із відтворенням акценту, автентична регіональна комунікація залежить від усвідомлення темпу, інтонації, ідіом, рівнів формальності та стилів спілкування різних культур. Наприклад, зростаюча інтонаційна модель, яка сигналізує про дружелюбність та захоплення в одній культурі, може інтерпретуватися як невпевненість або питання в іншій, що потенційно може змінити сприйняття користувачем намірів чи емоцій.

Без інтеграції цих вокальних нюансів у моделі штучного інтелекту навіть технічно точні голоси можуть здаватися недоречними або заплутаними для користувачів з різним культурним походженням. Справжній реалізм вимагає здатності адаптувати тон і стиль до очікувань будь-якого користувача.

Якщо врахувати всі ці тонкі, але важливі фактори, стає зрозуміло, що голоси ШІ повинні не лише звук як людина, але також реагувати у режимі реального часу, як це робила б людина. Ось чому затримка є вирішальним елементом оцінки того, наскільки людським сприймається голос штучного інтелекту. У природній розмові люди по черзі говорять із середніми інтервалами 250 мілісекундЯкщо це буде довше, взаємодія відчуватиметься затримкою, неуважністю або плутаністю. Невеликої різниці між задумливою паузою та технічною затримкою може бути достатньо, щоб порушити ілюзію природної розмови та зробити голос менш уважним.

Чому це важливо

У майбутньому ринок неминуче сприятиме компаніям, які можуть забезпечити як реалізм, так і оперативну реакцію в режимі реального часу.

Для агентів та асистентів зі штучним інтелектом, прийняття користувачами та стабільна залученість залежать від того, чи хочуть люди взагалі взаємодіяти з технологією. Різниця між інструментом, який люди випробовують один раз, і тим, на який покладаються щодня, полягає в якості розмовного досвіду.

У розважальній індустрії занурення та утримання аудиторії залежать від того, наскільки правдоподібним є контент, і навіть одна неприродна репліка може порушити залученість глядача. Голоси зі штучним інтелектом, що використовуються в дубляжі або виконанні персонажів, повинні повністю інтегруватися в оповідь, щоб зберегти емоційний вплив.

Для служби підтримки клієнтів довіра та емпатія мають першорядне значення, особливо враховуючи, що багато взаємодій з клієнтами відбуваються в моменти розчарування або розгубленості. Голос, який звучить жорстко або емоційно відсторонено, може загострити ситуацію, а не вирішити її. Користувачі очікують голосів, які можуть відображати занепокоєння, терпіння або запевнення, а не просто давати заготовлені відповіді.

Що йде далі

Перемогу в гонці голосового штучного інтелекту переможуть ті компанії, які опановують емоційні нюанси, розуміють культурні та контекстуальні відмінності, реагують миттєво та плавно, а також забезпечують досвід, невідрізний від розмови з людиною.

На ринку, де будь-хто може створити голос ШІ, а очікування користувачів, відповідно, змінюються, «достатньо добре» швидко перестане бути хорошим. Єдиний спосіб залишатися конкурентоспроможним — це створювати голоси ШІ, які люди можуть легко забути, і це сам ШІ.

Оз Краковскі, директор з розвитку бізнесу, очолює Deepdub's розвитку бізнесу та стратегічних продажів, а також контролював локалізацію сотень годин сценарійного та несценарного контенту кількома мовами за допомогою новаторської платформи локалізації Deepdub на базі штучного інтелекту. Від дубляжу театральних постановок, нагороджених незалежних фільмів, першої в історії дубльованої сценарної драми на Hulu ("Vanda") до несценарного контенту, такого як реаліті-шоу "Hardcore Pawn" та документально-кримінальний фільм "Forensic Files", Оз сприяє співпраці та партнерству зі студіями та власниками контенту по всьому світу, він також є членом Планового комітету DEG Awards. Оз є серійним підприємцем, а до приходу в Deepdub був співзасновником стартапу на ринку охорони здоров'я.