Інтерв’ю

Олексій Айларов, співзасновник і генеральний директор Voximplant – Інтерв’ю серії

mm

Олексій Айларов став співзасновником Voximplant після десяти років будівництва засобів зв’язку з нуля. Його ранні роботи включали розвиток IP PBX та керування власною телекомунікаційною компанією програмного забезпечення ще до того, як стала популярною хмарна телефонія. Згодом з’явився Zingaya, який приніс можливість клікувати на дзвінок прямо в браузері. Потім з’явився Voximplant, який розвинувся у серверну платформу, на якій розробники покладаються для реального часу голосу та відео. Олексій пише про практичну сторону Voice AI, особливо там, де великі мовні моделі зіштовхуються з реальністю глобальної телефонії.

Ви розпочали свою кар’єру як інженер VoIP у середині 2000-х років, ще до того, як AI увійшов у реальний час зв’язку. Які були найбільшими прогалинами, які ви бачили тоді, що в кінцевому підсумку спонукали вас до заснування Voximplant?

Я займаюсь системами VoIP з 2005 року. Тоді будівництво надійних засобів зв’язку було повільним і складним. Я помітив, що багато розробників поділяють мою фрустрацію – команди намагалися підключити компоненти телекомунікацій замість того, щоб зосередитися на досвіді продукту, який вони фактично хотіли доставити. Це спонукало мене рухатися до ідеї програмованих засобів зв’язку для розробників. Ми хотіли створити продукт, який дозволить кожному будувати продукти без потреби бути експертами у сфері телекомунікацій.

До Voximplant я став співзасновником послуг VoIP на основі SIP – Flashphone і Zingaya, які пропонували ранні продукти клікування на дзвінок. Попит знову підтвердив, що команди хотіли програмовані засоби зв’язку, але інструментів ще не було. Все це призвело до створення Voximplant у 2013 році.

Сьогодні ми бачимо подібний прогалину, але у більших масштабах. Voice AI вступає у виробничі потоки, великі мовні моделі продовжують розвиватися щомісяця, але глобальна телефонна мережа залишається фрагментованою. Немає жодного постачальника, який міг би вирішити все з кінця в кінець. Тому Voximplant діє як оркестраційний шар, пропонуючи розробникам швидкий і економічно ефективний спосіб експериментувати з останніми та найбільш просунутими інструментами та розгортати агентів голосу на реальних дзвінках, не турбуючись про телекомунікаційну інфраструктуру чи складність потокового передавання.

Voximplant позиціонує себе як оркестраційний шар, а не як окремого постачальника AI або телефонії. Чому ви вважали, що оркестрація була правильним рівнем абстракції для побудови майбутнього голосової AI?

Для нас було важливо з самого початку бути глобальними, і ви не можете забезпечити глобальну телефонну платформу без здійснення деякої оркестрації телефонії. Технічні вимоги та інфраструктура різняться країною, і ми пропонуємо номери телефонів у понад 190 країнах, тому ми здійснюємо багато технічної посередництва.

Крім того, стандарти телефонії, такі як SIP, розвинулися у різні варіанти серед постачальників. Підключення різних телекомунікаційних компаній та різних інфраструктур зв’язку клієнтів вимагає гнучких систем, які можуть швидко адаптуватися. Нові телефонні мережі, такі як WhatsApp, продовжують стимулювати потреби в цьому напрямку – і це ще до того, як додати логіку керування зв’язком на верхньому рівні, яка фактично виконує унікальну логіку застосування клієнтів.

На стороні AI ринок дуже інтенсивний і швидко розвивається. Найкращий постачальник сьогодні, ймовірно, буде на другому чи третьому місці наступного тижня. Наш підхід полягає у підтримці якомога більшого числа провідних постачальників. Ми хочемо, щоб наші клієнти завжди мали повний набір сучасних варіантів на вибір. Вони можуть вибрати правильних постачальників AI для своїх конкретних застосунків – або навіть змішувати та поєднувати. Наша платформа оркестрації також спрямована на те, щоб зробити простішим перемикання між постачальниками, одночасно викриваючи їх повні можливості, щоб розробники не застряли на рівні функцій з найменшим спільним знаменником.

Багато команд недооцінюють, наскільки складно для агента голосової AI розмістити та керувати реальними телефонними дзвінками. З вашої точки зору, що робить реальну телефонію настільки складною порівняно з чисто цифровими взаємодіями AI?

Телефонна мережа все ще високо фрагментована та несумісна у різних регіонах, що робить її ще більш непередбачуваною. У деяких країнах певні протоколи можуть бути обмежені або заблоковані, оператори зв’язку переживають збої під час нормальних операцій, а шаблони маршрутизації дзвінків можуть змінюватися протягом дня. Є регіони, де хмарна телефонія може бути юридично складною.

Ми також бачили випадки, коли сама інфраструктура стає瓶шею. Наприклад, австралійський стартап у сфері охорони здоров’я, який будував агент дзвінка AI для перевірки стану літніх пацієнтів, які говорять на кантонському діалекті, зіткнувся з високою затримкою до постачальників голосової AI (як OpenAI або ElevenLabs), а також обмеженою доступністю високоякісного синтезу мови кантонського діалекту, що робило розмови повільними та нерівномірними.

Крім надійності, існує ще шар відповідності вимогам. Вимоги різняться широко з країною у країну та часто перекриваються з такими рамками, як HIPAA, PCI DSS та GDPR.

Сама продуктивність мови не є універсальною. Жоден двигун розпізнавання мови або синтезу мови не працює найкраще в кожному середовищі. Акценти, фоновий шум, коливання якості дзвінка або навіть погіршення постачальника можуть викликати раптове зниження точності та досвіду користувача.

Деякі системи голосової AI сьогодні покладаються на кількох постачальників для великих мовних моделей, розпізнавання мови, синтезу мови та маршрутизації. Чому ця фрагментація є неминучою, і чому перемикання між постачальниками AI або мови повинно бути швидкою зміною коду, а не великим інженерним проєктом?

На початку розвитку голосової AI не існувало справжньої опції мови у мову, тому доводилося складати окремі компоненти мови у текст та текст у мову. Сьогодні кілька постачальників великих мовних моделей інтегрують мову безпосередньо (часто з деяким рівнем підтримки зрізання), усуваючи потребу у побудові повного конвеєра. Ці системи швидші та більш інтерактивні, але все ще мають обмеження щодо таких аспектів, як функціональні дзвінки, та пропонують менше варіантів для покращення транскрипції та голосів. Ми очікуємо, що мовні великі мовні моделі будуть порівнянними з текстовими моделями скоро. Навіть тоді клієнти можуть все ще хотіти використовувати різних постачальників мови для своїх конкретних вимог. Деяка роздільність конвеєра також додає вибір для резервування.

Перемикання між постачальниками AI та мови на нашій платформі не є великим інженерним зусиллям, але це також не одна лінія коду. Постачальники мови постійно борються проти комодифікації, вводячи унікальні функції. Ми тримаємо наші конектори якомога більш послідовними, одночасно викриваючи можливості кожного постачальника. Отже, використання цих унікальних функцій, перемикання між постачальниками часто означає зміну кількох ліній коду.

Як голосові агенти AI починають змінювати економіку клієнтської підтримки, продажів та інших операцій B2C порівняно з традиційними моделями центрів зв’язку?

Можливо, ще рано говорити про суттєву зміну економіки клієнтської підтримки, але це, безумовно, відбувається. Сьогодні є регіони, де представники клієнтської підтримки коштують менше, ніж послуги, підтримувані великими мовними моделями, хоча така модель супроводжується відомими проблемами щодо масштабованості, вигорання, управління та операцій. Я припускаю, що економіка зміниться суттєво, коли оптимізація великих мовних моделей продовжить покращуватися, хоча це все ще займе деякий час.

Які сигнали свідчать про те, що голосова AI переходить від експериментів до критичної інфраструктури для підприємств?

Найсильнішим сигналом тут є інвестиції в інфраструктуру голосової AI, які зростають швидко. Є способи відстежувати голосові дзвінки або хвилини у глобальному масштабі, якщо не точно, то через оцінки. Хоча я можу відстежувати це безпосередньо лише для Voximplant, ми чітко бачимо сильний рост.

Як ви думаєте, змінилися очікування розробників щодо гнучкості та контролю, коли моделі AI та технології голосу ітеруються швидше?

Це цікаве питання. Коли йдеться про швидкість змін, AI не має рівних у історії. Контроль та гнучкість менш зрозумілі, залежно від того, що ми маємо на увазі під цими термінами. Коли йдеться про контроль, є багато відомих проблем, і подолання їх не є легким. Більшість компаній AI витрачає значні зусилля на обмеження моделей, але робити це добре вимагає глибокої експертизи, і різні компанії мають різні цілі.

Які помилки компанії найчастіше роблять, коли намагаються розгорнути агентів голосової AI безпосередньо на традиційних телефонних системах?

Традиційні телефонні системи не є безпосередньо сумісними з послугами голосової AI, тому вони зазвичай вимагають додаткової інтеграції, зазвичай через протокол SIP або WebSockets. Типовими помилками є недостатнє управління відключеннями, проблеми з затримкою (які можуть бути викликані різними факторами), а також проблеми зі масштабованістю.

Сама телефонія масштабується досить добре, особливо з VoIP. Послуги голосової AI складніше масштабувати через апаратні вимоги, необхідні для виконання великих мовних моделей, і навіть великі гравці інфраструктури, такі як Amazon, можуть зіткнутися з обмеженнями потужності апаратного забезпечення.

Оглядаючи майбутнє, які можливості, на вашу думку, повинні підтримувати платформи голосової AI, щоб залишатися актуальними, коли AI у реальному часі стає більш автономним?

Я вважаю, що платформи голосової AI повинні зосередитися на рівні служби (SLA), оскільки це все ще може бути проблемою іноді, а також на додаткових інструментах для тестування та спостереження.

Зрештою, найпередовіші платформи пропонуватимуть все необхідне, але сьогодні ми все ще вчимося нових уроків щодня, багато з яких повинні стати частиною основного стеку. Якщо ви працюєте з великими підприємствами або в регульованих середовищах, мати версію продукту на місці може бути критично важливим.

Когда ви оглядаєте свою подорож від ранньої інфраструктури VoIP до керівництва платформою голосової AI сьогодні, що вас найбільше здивувало щодо того, як індустрія розвинулася?

Багато речей мене здивували, але одна з них полягає в тому, що зміни в інфраструктурі VoIP займають роки. Добрим прикладом є те, що телефонія все ще покладається на вузькосмугові аудіокодеки (G.711, G.729), тоді як люди вже звикли до широкосмугової аудіо у онлайн-сервісах зв’язку, таких як Zoom, Google Meet, WhatsApp тощо.

Більшість моделей AI тренуються на широкосмуговому аудіодані також. Усі сучасні мобільні телефони мають широкосмугові аудіокодеки, але все ще існують суттєві проблеми з сумісністю на рівні операторів зв’язку, які перешкоджають використанню широкосмугової аудіо у традиційних телефонних дзвінках. Це не означає, що прогресу зовсім немає, але, на мою думку, він був досить скромним.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.