Connect with us

CNTXT AI запускает Munsit: самую точную систему распознавания арабской речи, когда-либо созданную

Искусственный интеллект

CNTXT AI запускает Munsit: самую точную систему распознавания арабской речи, когда-либо созданную

mm

В определяющий момент для арабского языка искусственного интеллекта CNTXT AI представила Munsit, модель следующего поколения распознавания арабской речи, которая не только является самой точной, когда-либо созданной для арабского языка, но и значительно превосходит глобальных гигантов, таких как OpenAI, Meta, Microsoft и ElevenLabs, на стандартных тестах. Разработанная в ОАЭ и адаптированная для арабского языка с нуля, Munsit представляет собой мощный шаг вперед в том, что CNTXT называет “суверенным ИИ” – технологией, созданной в регионе, для региона, но с глобальной конкурентоспособностью.

Научные основы этого достижения изложены в недавно опубликованной статье Развитие распознавания арабской речи с помощью крупномасштабного слабого надзора, которая представляет собой масштабируемый, эффективный метод обучения, который решает давнюю проблему нехватки помеченных данных арабской речи. Этот метод – слабый надзор – позволил команде создать систему, которая устанавливает новый стандарт качества транскрипции как для современного стандартного арабского языка (MSA), так и для более 25 региональных диалектов.

Преодоление нехватки данных в арабском распознавании речи

Арабский язык, несмотря на то, что он является одним из наиболее распространенных языков в мире и официальным языком Организации Объединенных Наций, долгое время считался языком с низкими ресурсами в области распознавания речи. Это связано как с его морфологической сложностью, так и с нехваткой крупных, разнообразных, помеченных наборов данных речи. В отличие от английского языка, который пользуется бесчисленными часами вручную транскрибированных аудиоданных, богатство диалектов арабского языка и его фрагментированное цифровое присутствие представляли значительные проблемы для создания прочных систем автоматического распознавания речи (ASR).

Вместо того, чтобы ждать медленного и дорогого процесса ручной транскрипции, CNTXT AI выбрала радикально более масштабируемый путь: слабый надзор. Их подход начался с огромного корпуса более 30 000 часов не помеченных арабских аудиозаписей, собранных из различных источников. С помощью自одельной системы обработки данных эта сырая аудиоинформация была очищена, разделена и автоматически помечена, чтобы получить высококачественный 15-тысячный набор данных для обучения – один из крупнейших и наиболее представительных арабских речевых корпусов, когда-либо собранных.

Этот процесс не полагался на человеческую аннотацию. Вместо этого CNTXT разработала многоступенчатую систему для генерации, оценки и фильтрации гипотез из нескольких моделей распознавания речи. Эти транскрипции были сопоставлены с помощью расстояния Левенштейна, чтобы выбрать наиболее последовательные гипотезы, а затем переданы через языковую модель для оценки их грамматической правдоподобности. Сегменты, которые не соответствовали заданным порогам качества, были отбрасывались, гарантируя, что даже без человеческой верификации обучающие данные оставались надежными. Команда усовершенствовала эту систему через несколько итераций, каждый раз улучшая точность помеченных данных путем повторного обучения системы распознавания речи и ее возврата в процесс помечания.

Двигатель Munsit: архитектура Conformer

В основе Munsit лежит модель Conformer, гибридная нейронная сеть, которая сочетает локальную чувствительность свёрточных слоев с возможностями глобальной последовательной моделирования трансформеров. Этот дизайн делает Conformer особенно подходящим для обработки нюансов устной речи, где важны как долгосрочные зависимости (например, структура предложения), так и тонкие фонетические детали.

CNTXT AI реализовала крупную версию Conformer, обучив ее с нуля с использованием 80-канальных мел-спектрограмм в качестве входных данных. Модель состоит из 18 слоев и включает примерно 121 миллион параметров. Обучение проводилось на высокопроизводительном кластере с использованием восьми GPU NVIDIA A100 с точностью bfloat16, что позволило эффективно обрабатывать крупные пакеты и высокоразмерные пространства признаков. Для токенизации морфологически богатой структуры арабского языка команда использовала токенизатор SentencePiece, обученный специально на их собственном корпусе, в результате чего получился словарь из 1024 субсловных единиц.

В отличие от традиционного обучения распознавания речи с надзором, которое обычно требует, чтобы каждая аудиозапись была сопоставлена с тщательно транскрибированной меткой, метод CNTXT работал полностью с слабыми метками. Эти метки, хотя и более шумные, чем проверенные человеком, были оптимизированы через обратную связь, которая отдавала приоритет консенсусу, грамматической связности и лексической правдоподобности. Модель была обучена с использованием функции потерь Connectionist Temporal Classification (CTC), которая хорошо подходит для моделирования не выровненных последовательностей – критически важного для задач распознавания речи, где время произнесенных слов переменно и непредсказуемо.

Доминирование на тестах

Результаты говорят сами за себя. Munsit была протестирована против ведущих открытых и коммерческих моделей распознавания речи на шести тестовых наборах арабского языка: SADA, Common Voice 18.0, MASC (чистый и шумный), MGB-2 и Casablanca. Эти наборы данных коллективно охватывают десятки диалектов и акцентов по всему арабскому миру, от Саудовской Аравии до Марокко.

На всех тестах Munsit-1 достигла среднего коэффициента ошибок слов (WER) 26,68 и среднего коэффициента ошибок символов (CER) 10,05. Для сравнения, лучшая версия OpenAI’s Whisper показала средний WER 36,86 и CER 17,21. Meta’s SeamlessM4T, другой передовой многоязычный модель, показала еще более высокие результаты. Munsit превзошла все другие системы как на чистых, так и на шумных данных и продемонстрировала особенно сильную устойчивость в шумных условиях, что является критическим фактором для реальных приложений, таких как колл-центры и общественные услуги.

Разрыв был равно ярким против проприетарных систем. Munsit превзошла модели распознавания речи Microsoft Azure для арабского языка, ElevenLabs Scribe и даже функцию транскрипции OpenAI’s GPT-4o. Эти результаты не являются незначительными – они представляют собой среднее относительное улучшение 23,19% WER и 24,78% CER по сравнению с сильнейшей открытой базовой линией, что устанавливает Munsit как явного лидера в распознавании арабской речи.

Платформа для будущего арабского голосового ИИ

Хотя Munsit-1 уже преобразует возможности транскрипции, субтитров и поддержки клиентов на арабском языке, CNTXT AI считает этот запуск только началом. Компания представляет себе полный набор технологий голоса на арабском языке, включая синтез речи, голосовые помощники и системы реального перевода – все это основано на суверенной инфраструктуре и регионально релевантном ИИ.

“Munsit – это не просто прорыв в распознавании речи”, – сказал Мохаммад Абу Шейх, генеральный директор CNTXT AI. “Это заявление о том, что арабский язык принадлежит к авангарду глобального ИИ. Мы доказали, что мировой класс ИИ не нужно импортировать – его можно создать здесь, на арабском языке, для арабского языка”.

С ростом региональных моделей, таких как Munsit, отрасль ИИ вступает в новую эру – ту, где лингвистическая и культурная релевантность не жертвуются в погоне за техническим совершенством. На самом деле, с Munsit CNTXT AI показала, что они являются одним и тем же.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.

Раскрытие информации о рекламе: Unite.AI придерживается строгих редакционных стандартов, чтобы предоставлять читателям точную информацию и новости. Мы можем получать вознаграждение, если вы переходите по ссылкам на продукты, которые мы рассмотрели.