Штучний Інтелект
Modulate представляє моделі ансамблю прослуховування, переосмислюючи те, як штучний інтелект розуміє людський голос

Штучний інтелект стрімко розвивається, проте одна сфера залишається незмінно складною: справжнє розуміння людського голосу. Не лише сказаних слів, а й емоцій, що стоять за ними, намірів, сформованих тоном і часом, і тонких сигналів, які відрізняють дружні жарти від розчарування, обману чи шкоди. Сьогодні, Модулювати оголосив про значний прорив із введенням Модель ансамблю прослуховування (ELM), нова архітектура штучного інтелекту, розроблена спеціально для розуміння голосу в реальному світі.
Поряд з оголошенням про дослідження, було представлено Modulate Велма 2.0, перше виробниче розгортання моделі прослуховування Ensemble. Компанія повідомляє, що Velma 2.0 перевершує провідні базові моделі за точністю розмовного спілкування, працюючи при цьому за значно меншу вартість, що є помітним твердженням у той час, коли підприємства переглядають стійкість масштабного розгортання штучного інтелекту.
Чому голос був складним для ШІ
Більшість систем штучного інтелекту, які аналізують мовлення, дотримуються знайомого підходу. Аудіо перетворюється на текст, а потім цей транскрипт обробляється великою мовною моделлю. Хоча цей процес ефективний для транскрипції та підсумовування, він позбавляє голос більшої частини того, що робить його змістовним.
Тон, емоційний перегин, вагання, сарказм, перекриття мови та фоновий шум – все це несуть важливий контекст. Коли мова сплющується в текст, ці виміри втрачаються, що часто призводить до неправильне тлумачення наміру або настрої. Це стає особливо проблематичним у таких середовищах, як підтримка клієнтів, виявлення шахрайства, онлайн-ігри та комунікації на основі штучного інтелекту, де нюанси безпосередньо впливають на результати.
Згідно з Modulate, це обмеження є радше архітектурним, ніж керованим даними. Великі мовні моделі оптимізовані для прогнозування тексту, а не для інтеграції кількох акустичних та поведінкових сигналів у режимі реального часу. Для усунення цієї прогалини були створені ансамблеві моделі прослуховування.
Що таке модель ансамбевого прослуховування?
Модель ансамблю прослуховування — це не окрема нейронна мережа, навчена робити все одночасно. Натомість це скоординована система, що складається з багатьох спеціалізованих моделей, кожна з яких відповідає за аналіз різних вимірів голосової взаємодії.
В рамках ELM окремі моделі досліджують емоції, стрес, індикатори обману, ідентичність мовця, таймінг, просодію, фоновий шум та потенційні штучні або імітовані голоси. Ці сигнали синхронізуються через узгоджений за часом рівень оркестрації, який створює єдину та зрозумілу інтерпретацію того, що відбувається в розмові.
Такий явний розподіл праці є центральним у підході ELM. Замість того, щоб покладатися на одну масивну модель для неявно виведеного значення, ансамблеві моделі прослуховування поєднують кілька цільових перспектив, покращуючи як точність, так і прозорість.
Всередині Велми 2.0
Velma 2.0 – це суттєвий розвиток попередніх систем Modulate, заснованих на ансамблі. Вона використовує понад 100 компонентних моделей, що працюють разом у режимі реального часу та структуровані за п'ятьма аналітичними рівнями.
Перший рівень зосереджений на базовій обробці аудіо, визначенні кількості динаміків, часу мовлення та пауз. Далі йде вилучення акустичного сигналу, яке ідентифікує емоційні стани, рівень стресу, ознаки обману, синтетичні голосові маркери та шум навколишнього середовища.
Третій рівень оцінює сприйнятий намір, розрізняючи щиру похвалу та саркастичні чи ворожі зауваження. Моделювання поведінки потім відстежує динаміку розмови з часом, позначаючи розчарування, плутанину, запрограмовану мову або спроби соціальної інженерії. Останній рівень, аналіз розмови, перетворює ці дані на події, що стосуються підприємства, такі як незадоволені клієнти, порушення політики, потенційне шахрайство або несправність агентів штучного інтелекту.
Modulate повідомляє, що Velma 2.0 розуміє значення та наміри розмов приблизно на 30 відсотків точніше, ніж провідні підходи на основі LLM, водночас будучи від 10 до 100 разів економічно ефективнішою в масштабі.
Від модерації ігор до корпоративної аналітики
Витоки моделей прослуховування Ensemble лежать у ранній роботі Modulate з онлайн-іграми. Популярні ігри, такі як Call of Duty та Grand Theft Auto Online, створюють одні з найскладніших голосових середовищ, які тільки можна уявити. Розмови швидкі, галасливі, емоційно заряджені та наповнені сленгом та контекстуальними посиланнями.
Відокремлення грайливих сміття від справжніх домагань у режимі реального часу вимагає набагато більше, ніж просто транскрипція. Оскільки Modulate використовувала свою систему модерації голосу, ToxMod, він поступово збирав дедалі складніші ансамблі моделей, щоб врахувати ці нюанси. Координація десятків спеціалізованих моделей стала важливою для досягнення необхідної точності, що зрештою призвело команду до формалізації підходу в нову архітектурну структуру.
Velma 2.0 узагальнює цю архітектуру за межі ігор. Сьогодні вона є основою корпоративної платформи Modulate, аналізуючи сотні мільйонів розмов у різних галузях, щоб виявити шахрайство, зловживання, невдоволення клієнтів та аномальну активність штучного інтелекту.
Виклик для моделей фундаменту
Ця заява пролунала в той момент, коли підприємства переглядають свої стратегії щодо штучного інтелекту. Незважаючи на величезні інвестиції, великий відсоток ініціатив у сфері штучного інтелекту не досягає виробництва або забезпечують тривалу цінність. До поширених перешкод належать галюцинацій, зростання витрат на логічний висновок, непрозоре прийняття рішень та труднощі з інтеграцією аналітики ШІ в операційні робочі процеси.
Ансамблеві моделі прослуховування безпосередньо вирішують ці проблеми. Спираючись на безліч менших, спеціально розроблених моделей, а не на єдину монолітну систему, ELM є менш витратними в експлуатації, їх легше перевіряти та вони більш інтерпретуються. Кожен вихідний сигнал можна простежити до певних сигналів, що дозволяє організаціям зрозуміти, чому було зроблено той чи інший висновок.
Такий рівень прозорості особливо важливий у регульованих або високоризикових середовищах, де рішення за принципом «чорної скриньки» неприйнятні. Modulate позиціонує ELM не як заміну великим мовним моделям, а як більш доцільну архітектуру для голосового інтелекту корпоративного рівня.
Від мовлення до тексту
Одним із найперспективніших аспектів Velma 2.0 є її здатність аналізувати те, як щось сказано, а не лише те, що сказано. Це включає виявлення штучних або імітованих голосів, що викликає зростаюче занепокоєння, оскільки технології генерації голосу стають більш доступними.
З удосконаленням клонування голосу підприємства стикаються зі зростаючими ризиками, пов'язаними з шахрайством, підробкою ідентифікаційних даних та соціальною інженерією. Вбудовуючи розпізнавання синтетичного голосу безпосередньо в свій ансамбль, Velma 2.0 розглядає автентичність як основний сигнал, а не як додатковий компонент.
Поведінкове моделювання системи також дозволяє отримувати проактивне розуміння ситуації. Вона може визначати, коли промовець читає сценарій, коли наростає розчарування або коли взаємодія наближається до конфлікту. Ці можливості дозволяють організаціям втручатися раніше та ефективніше.
Новий напрямок розвитку корпоративного штучного інтелекту
Модулювати описує модель ансамблю прослуховування як нову категорію архітектури штучного інтелекту, що відрізняється як від традиційних конвеєрів обробки сигналів, так і від великих базових моделей. Основна ідея полягає в тому, що складні людські взаємодії краще розуміються через скоординовану спеціалізацію, а не масштабування методом грубої сили.
Оскільки підприємства вимагають систем штучного інтелекту, які є підзвітними, ефективними та відповідають реальним операційним потребам, моделі прослуховування Ensemble вказують на майбутнє, де інтелект збирається з багатьох цілеспрямованих компонентів. Оскільки Velma 2.0 вже працює у виробничому середовищі, Modulate робить ставку на те, що цей архітектурний зсув резонуватиме далеко за межі модерації голосу та підтримки клієнтів.
У галузі, яка шукає альтернативи дедалі більшим чорним скринькам, моделі ансамбльного прослуховування (Ensemble Listening Models) показують, що наступний значний прогрес у сфері штучного інтелекту може полягати в більш уважному прослуховуванні, а не просто в більш агресивних обчисленнях.












