Connect with us

aiOla представляє QUASAR для переосмислення того, як працює розпізнавання мовлення у виробництві

Штучний інтелект

aiOla представляє QUASAR для переосмислення того, як працює розпізнавання мовлення у виробництві

mm

aiOla представила QUASAR, платформу, розроблену для вирішення однієї з найбільш постійних проблем у сфері корпоративного голосового ІІ: неконсистентної продуктивності розпізнавання мовлення в реальних умовах. Замість того, щоб блокувати клієнтів на одному постачальнику автоматичного розпізнавання мовлення (ASR), QUASAR діє як інтелектуальна брама, яка динамічно маршрутизує кожну аудіоінтеракцію до двигуна ASR, який найімовірніше буде працювати найкраще в цей момент.

Цей зсув має значення, оскільки мова стає основним входом для потоків роботи, керованих ІІ, по центрах контактів, дотриманню законодавства, аналітиці, пошуку та все частіше автономним агентам ІІ. Хоча бенчмарк-оцінки часто керують вибором ASR, виробничі середовища домінують акцентами, фоновим шумом, термінологією, специфічною для галузі, та коливанням якості мережі — чинниками, які можуть драматично змінити точність розпізнавання від однієї взаємодії до іншої.

Чому один-розмір-підходить-всім ASR розбивається у масштабі

Більшість підприємств сьогодні розгортають ASR як статичне рішення інфраструктури. Один постачальник вибирається на основі агрегованих бенчмарків, а потім глибоко інтегрується у потоки роботи. На практиці це створює сліпі плями. Двигун, який excels у чистій, прочитаній мові, може мати труднощі з акцентованими мовцями або галузевою лексикою. Інший може добре справлятися з шумовим аудіо, але пропускати власні імена або числові послідовності, критичні для дотримання законодавства та оплати.

Зміна постачальника для вирішення цих пробілів є дорогою та порушує роботу, часто вимагаючи повторної підготовки, повторної перевірки та простою. Тим часом, нові моделі ASR та оновлення випускаються у темпі, який перевищує можливість більшості організацій тестувати та приймати їх. Результатом є нижчі показники утримання, неточні підсумки, слабша аналітика та вищі накладні витрати на забезпечення якості — все це спричинено помилками транскрипції, які можна було б уникнути.

Всередині архітектури QUASAR: Розгляд ASR як динамічної проблеми

QUASAR підходить до розпізнавання мовлення як до реальної оптимізаційної проблеми. Кожен вхідний аудіозапит оцінюється до транскрипції, враховуючи такі чинники, як характеристики мовця, акустічні умови та контекст галузі. На основі цієї оцінки система маршрутизує аудіо до двигуна ASR, який найімовірніше надасть результат найвищої якості для цієї конкретної взаємодії.

Технічно QUASAR діє як шар оркестрування, який може працювати через комерційні хмарні API, самозаховані моделі та налаштовані розгортання ASR. Ця абстракція дозволяє підприємствам експериментувати з новими двигунами, балансувати вартість та якість та уникати довгострокової блокування постачальника — все це без зміни застосунків нижнього рівня.

У центрі знаходиться механізм оцінки та ранжування без нагляду, який оцінює варіанти ASR в реальному часі. Замість того, щоб покладатися лише на історичні середні значення, система безперервно вчиться з живих умов, що дозволяє приймати рішення щодо транскрипції, які адаптуються до змін середовища, мовців та випадків використання.

Продуктивність по реальним аудіоумовам

У внутрішніх оцінках, які охоплюють шість різноманітних наборів бенчмарків — від чистої прочитаної мови та професійних доповідей до акцентованої, шумової та галузевої фінансової аудіо — QUASAR вибрав найкращий варіант ASR з загальною точністю 88,8% або еквівалентним першим вибором, коли результати були фактично пов’язані. Точність сягала 97% на чистій мові та залишалася у діапазоні 79–88% для більш складної аудіо з акцентами, шумом та спеціалізованою лексикою.

Ці результати підкреслюють ключовий висновок: жоден окремий двигун ASR не послідовно виграє у всіх сценаріях, але інтелектуальне маршрутизування може захопити сильні сторони багатьох.

Забезпечення мови як живої інфраструктури

Відділяючи якість розпізнавання мовлення від постачальника, QUASAR перетворює ASR на те, що aiOla описує як “живу інфраструктуру”. Підприємства отримують роздільну видимість продуктивності транскрипції на рівні взаємодії, а також можливість оптимізувати точність, вартість або затримку залежно від випадку використання.

Цей підхід також прискорює розширення на нові регіони та вертикалі. Замість того, щоб чекати, поки один постачальник підтримає мову, акцент або галузеву лексику, організації можуть маршрутизувати трафік до двигуна, який найкраще підходить для цієї ніші сьогодні — і змінювати, коли з’являються кращі варіанти.

Ширша візія aiOla для потоків роботи, керованих мовою

QUASAR будується на ширшій місії aiOla зробити мову природним інтерфейсом для корпоративних систем. Патентовані моделі компанії виходять за рамки стандартного розпізнавання мовлення, поєднуючи розпізнавання мови з інтелектом потоку роботи для перетворення усної мови у структуровані дані в реальному часі. Це дозволяє здійснювати автоматизацію без рук у критичних галузях, де ручний ввод даних залишається瓶нем.

Підтримувана 58 мільйонами доларів фінансування та дослідницькою командою, aiOla позиціонує мову не лише як модальність вводу, а й як фундаментальну інфраструктуру для операцій, керованих ІІ. З QUASAR компанія розширює цю візію на сам шар ASR — викликуючи довгостоячі припущення про те, як розпізнавання мовлення повинно розгортатися у масштабі.

Когда мова стає основним інтерфейсом для агентів ІІ та корпоративних систем, динамічне, контекстно-чутливе розпізнавання мовлення може виявитися життєво необхідним. Запуск QUASAR сигналізує про рух від статичних вибірів моделей до адаптивної, керованої продуктивністю оркестрації — підходу, який може змінити спосіб споживання ASR усім екосистемою голосового ІІ.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.