Штучний Інтелект
CNTXT AI запускає Munsit: найточнішу систему розпізнавання арабського мовлення з усіх коли-небудь створених

У вирішальний момент для арабомовного штучного інтелекту, Штучний інтелект CNTXT оприлюднив Мунсіт, модель розпізнавання арабського мовлення наступного покоління, яка є не лише найточнішою з коли-небудь створених для арабської мови, але й рішуче перевершує світових гігантів, таких як OpenAI, Meta, Microsoft та ElevenLabs, за стандартними тестами. Розроблена в ОАЕ та адаптована для арабської мови з нуля, Munsit є потужним кроком вперед у тому, що CNTXT називає «суверенним штучним інтелектом» — технологією, створеною в регіоні, для регіону, але з глобальною конкурентоспроможністю.
Наукові основи цього досягнення викладено в нещодавно опублікованій статті команди, "Удосконалення розпізнавання арабського мовлення за допомогою масштабного слабо контрольованого навчання", який запроваджує масштабований, ефективний з точки зору даних метод навчання, що вирішує проблему давньої нестачі маркованих даних арабського мовлення. Цей метод — слабо контрольоване навчання — дозволив команді створити систему, яка встановлює нову планку якості транскрипції як у сучасній стандартній арабській мові (MSA), так і в більш ніж 25 регіональних діалектах.
Подолання дефіциту даних в арабській ASR
Арабська мова, попри те, що є однією з найпоширеніших мов у світі та офіційною мовою Організації Об'єднаних Націй, довгий час вважалася мовою з низьким рівнем ресурсів у сфері розпізнавання мовлення. Це пов'язано як з її морфологічна складність та брак великих, різноманітних, маркованих наборів даних мовлення. На відміну від англійської мови, яка має переваги в незліченних годинах аудіоданих, транскрибованих вручну, діалектне багатство арабської мови та фрагментована цифрова присутність створюють значні труднощі для створення надійних систем автоматичного розпізнавання мовлення (ASR).
Замість того, щоб чекати, поки повільний і дорогий процес ручної транскрипції наздожене, CNTXT AI обрала радикально масштабованіший шлях: слабкий нагляд. Їхній підхід розпочався з масивного корпусу з понад 30,000 15,000 годин немаркованого арабського аудіо, зібраного з різних джерел. За допомогою спеціально розробленого конвеєра обробки даних цей необроблений аудіо був очищений, сегментований і автоматично маркований, щоб отримати високоякісний навчальний набір даних обсягом XNUMX XNUMX годин — один з найбільших і найрепрезентативніших корпусів арабського мовлення, коли-небудь зібраних.
Цей процес не спирався на анотацію людиною. Натомість, CNTXT розробила багатоетапну систему для генерації, оцінки та фільтрації гіпотез з кількох моделей ASR. Ці транскрипції порівнювалися за допомогою відстані Левенштейна для вибору найбільш узгоджених гіпотез, а потім пропускалися через мовну модель для оцінки їхньої граматичної правдоподібності. Сегменти, які не відповідали визначеним порогам якості, відкидалися, гарантуючи, що навіть без перевірки людиною навчальні дані залишаються надійними. Команда вдосконалювала цей конвеєр за допомогою кількох ітерацій, щоразу покращуючи точність міток шляхом перенавчання самої системи ASR та повернення її до процесу мічення.
Живлення Munsit: Архітектура конформістів
В основі Munsit лежить модель Conformer, гібридна нейронна мережа, яка поєднує локальну чутливість згорткових шарів з можливостями глобального моделювання послідовностей трансформаторів. Така конструкція робить Conformer особливо вправним в обробці нюансів розмовної мови, де вирішальні як довгострокові залежності (такі як структура речення), так і дрібні фонетичні деталі.
Штучний інтелект CNTXT реалізував великий варіант Conformer, навчаючи його з нуля, використовуючи 80-канальні mel-спектрограми як вхідні дані. Модель складається з 18 шарів і включає приблизно 121 мільйон параметрів. Навчання проводилося на високопродуктивному кластері з використанням восьми графічних процесорів NVIDIA A100 з точністю bfloat16, що дозволяє ефективно обробляти величезні розміри пакетів та багатовимірні простори ознак. Для обробки токенізації морфологічно багатої структури арабської мови команда використовувала токенізатор SentencePiece, спеціально навчений на їхньому власному корпусі, що призвело до створення словника з 1,024 підслівних одиниць.
На відміну від звичайного навчання ASR з учителем, яке зазвичай вимагає поєднання кожного аудіокліпу з ретельно транскрибованою міткою, метод CNTXT повністю працював на слабких мітках. Ці мітки, хоча й були більш шумними, ніж ті, що перевірені людиною, були оптимізовані за допомогою циклу зворотного зв'язку, який надавав пріоритет консенсусу, граматичній когерентності та лексичної правдоподібності. Модель навчалася з використанням... Часова класифікація коннекціоністів (CTC) функція втрат, яка добре підходить для моделювання невирівняних послідовностей — критично важлива для завдань розпізнавання мовлення, де час вимовлених слів є змінним і непередбачуваним.
Домінування в бенчмарках
Результати говорять самі за себе. Munsit було протестовано на провідних моделях ASR з відкритим кодом та комерційних моделях на шести еталонних арабських наборах даних: SADA, Common Voice 18.0, MASC (clean and noisy), MGB-2 та Casablanca. Ці набори даних разом охоплюють десятки діалектів та акцентів по всьому арабському світу, від Саудівської Аравії до Марокко.
За всіма показниками, Munsit-1 досяг середнього коефіцієнта помилок слів (WER) 26.68 та коефіцієнта помилок символів (CER) 10.05. Для порівняння, найпродуктивніша версія Whisper від OpenAI зафіксувала середній WER 36.86 та CER 17.21. SeamlessM4T від Meta, ще одна сучасна багатомовна модель, показала ще вищі результати. Munsit перевершив усі інші системи як за чистими, так і за шумними даними, і продемонстрував особливо високу стійкість у шумних умовах, що є критичним фактором для реальних застосувань, таких як кол-центри та державні служби.
Розрив був настільки ж разючим і в порівнянні з пропрієтарними системами. Munsit перевершив моделі ASR для арабської мови від Microsoft Azure, Scribe від ElevenLabs і навіть функцію транскрипції GPT-4o від OpenAI. Ці результати не є незначними покращеннями — вони представляють середнє відносне покращення на 23.19% у WER та 24.78% у CER порівняно з найсильнішим відкритим базовим рівнем, що робить Munsit беззаперечним лідером у розпізнаванні арабської мови.
Платформа для майбутнього арабського голосового штучного інтелекту
Хоча Munsit-1 вже трансформує можливості транскрипції, субтитрів та підтримки клієнтів на арабомовних ринках, CNTXT AI розглядає цей запуск як лише початок. Компанія передбачає повний набір технологій голосового зв'язку арабською мовою, включаючи перетворення тексту в мовлення, голосових помічників та системи перекладу в режимі реального часу — усі вони базуються на суверенній інфраструктурі та регіонально релевантному штучному інтелекті.
«Munsit — це більше, ніж просто прорив у розпізнаванні мовлення», — сказав Мохаммад Абу Шейх, генеральний директор CNTXT AI. «Це декларація того, що арабська мова належить до передових ланок світового штучного інтелекту. Ми довели, що штучний інтелект світового класу не потрібно імпортувати — його можна створити тут, арабською мовою, для арабської мови».
Зі зростанням регіонально-орієнтованих моделей, таких як Munsit, індустрія штучного інтелекту вступає в нову еру — еру, де лінгвістична та культурна релевантність не приносяться в жертву заради досягнення технічної досконалості. Фактично, з Мунсіт, ШІ CNTXT показав, що це одне й те саме.