Свяжитесь с нами:

CNTXT AI запускает Munsit: самую точную систему распознавания арабской речи из когда-либо созданных

Искусственный интеллект

CNTXT AI запускает Munsit: самую точную систему распознавания арабской речи из когда-либо созданных

mm

В решающий момент для искусственного интеллекта на арабском языке CNTXT ИИ представил Мунсит, модель распознавания арабской речи следующего поколения, которая не только является самой точной из когда-либо созданных для арабского языка, но и решительно превосходит мировых гигантов, таких как OpenAI, Meta, Microsoft и ElevenLabs, по стандартным показателям. Разработанная в ОАЭ и адаптированная для арабского языка с нуля, Munsit представляет собой мощный шаг вперед в том, что CNTXT называет «суверенным ИИ» — технология, созданная в регионе, для региона, но при этом имеющая глобальную конкурентоспособность.

Научные основы этого достижения изложены в недавно опубликованной статье группы. Развитие распознавания арабской речи посредством широкомасштабного обучения со слабым контролем , который представляет масштабируемый, эффективный метод обучения, который решает давнюю нехватку маркированных данных арабской речи. Этот метод — слабо контролируемое обучение — позволил команде создать систему, которая устанавливает новую планку качества транскрипции как для современного стандартного арабского языка (MSA), так и для более чем 25 региональных диалектов.

Преодоление нехватки данных в арабском ASR

Арабский язык, несмотря на то, что он является одним из самых распространенных языков в мире и официальным языком Организации Объединенных Наций, долгое время считался языком с низкими ресурсами в области распознавания речи. Это связано как с его морфологическая сложность и отсутствие обширных, разнообразных и размеченных наборов речевых данных. В отличие от английского языка, который использует бесчисленные часы аудиозаписей, расшифрованных вручную, диалектное богатство арабского языка и фрагментарное присутствие в цифровом пространстве создают серьёзные трудности для создания надёжных систем автоматического распознавания речи (ASR).

Вместо того чтобы ждать, пока медленный и дорогой процесс ручной транскрипции догонит, CNTXT AI пошел по радикально более масштабируемому пути: слабому надзору. Их подход начался с огромного корпуса из более чем 30,000 15,000 часов немаркированного арабского аудио, собранного из разных источников. С помощью специально созданного конвейера обработки данных этот сырой аудиоматериал был очищен, сегментирован и автоматически маркирован, чтобы получить высококачественный XNUMX XNUMX-часовой обучающий набор данных — один из крупнейших и наиболее репрезентативных арабских речевых корпусов, когда-либо собранных.

Этот процесс не полагался на аннотацию человеком. Вместо этого CNTXT разработал многоступенчатую систему для генерации, оценки и фильтрации гипотез из нескольких моделей ASR. Эти транскрипции были перекрестно сравнены с использованием расстояния Левенштейна для выбора наиболее последовательных гипотез, затем пропущены через языковую модель для оценки их грамматической правдоподобности. Сегменты, которые не соответствовали определенным пороговым значениям качества, были отброшены, что гарантировало, что даже без человеческой проверки данные обучения оставались надежными. Команда совершенствовала этот конвейер с помощью нескольких итераций, каждый раз улучшая точность маркировки путем повторного обучения самой системы ASR и подачи ее обратно в процесс маркировки.

Энергия Мансита: архитектура Conformer

В основе Munsit лежит модель Conformer, гибридная архитектура нейронной сети, которая сочетает локальную чувствительность сверточных слоев с возможностями моделирования глобальной последовательности трансформаторов. Такая конструкция делает Conformer особенно искусным в обработке нюансов разговорной речи, где как долгосрочные зависимости (например, структура предложения), так и мелкие фонетические детали имеют решающее значение.

CNTXT AI реализовал крупную версию Conformer, обучив её с нуля, используя 80-канальные mel-спектрограммы в качестве входных данных. Модель состоит из 18 слоёв и включает около 121 миллиона параметров. Обучение проводилось на высокопроизводительном кластере с восемью графическими процессорами NVIDIA A100 с точностью bfloat16, что обеспечивает эффективную обработку больших объёмов данных и многомерных пространств признаков. Для токенизации морфологически богатой структуры арабского языка команда использовала токенизатор SentencePiece, специально обученный на их собственном корпусе, что привело к созданию словаря из 1,024 подсловных единиц.

В отличие от обычного контролируемого обучения ASR, которое обычно требует, чтобы каждый аудиоклип был связан с тщательно транскрибированной меткой, метод CNTXT работал исключительно на слабых метках. Эти метки, хотя и более шумные, чем те, которые были проверены человеком, были оптимизированы с помощью цикла обратной связи, который отдавал приоритет консенсусу, грамматической связности и лексической правдоподобности. Модель была обучена с использованием Коннекционистская временная классификация (CTC) Функция потерь, которая хорошо подходит для моделирования невыровненных последовательностей, что имеет решающее значение для задач распознавания речи, где время произнесения слов изменчиво и непредсказуемо.

Доминирование в эталонных показателях

Результаты говорят сами за себя. Munsit был протестирован с ведущими моделями ASR с открытым исходным кодом и коммерческими моделями на шести эталонных арабских наборах данных: SADA, Common Voice 18.0, MASC (чистый и шумный), MGB-2 и Casablanca. Эти наборы данных в совокупности охватывают десятки диалектов и акцентов по всему арабскому миру, от Саудовской Аравии до Марокко.

Во всех тестах Munsit-1 достиг среднего показателя ошибок в словах (WER) 26.68 и показателя ошибок в символах (CER) 10.05. Для сравнения, самая производительная версия OpenAI Whisper показала средний показатель WER 36.86 и CER 17.21. SeamlessM4T от Meta, ещё одна передовая многоязычная модель, показала ещё более высокие результаты. Munsit превзошёл все остальные системы как на чистых, так и на зашумлённых данных, продемонстрировав особенно высокую надёжность в условиях шума, что критически важно для реальных приложений, таких как колл-центры и государственные службы.

Разрыв был столь же значительным по сравнению с проприетарными системами. Munsit превзошёл модели распознавания арабской речи Microsoft Azure, ElevenLabs Scribe и даже функцию транскрибации OpenAI GPT-4o. Эти результаты не являются незначительными — они представляют собой среднее относительное улучшение на 23.19% по WER и 24.78% по CER по сравнению с самым сильным открытым базовым уровнем, что делает Munsit явным лидером в области распознавания арабской речи.

Платформа для будущего арабского голосового ИИ

В то время как Munsit-1 уже трансформирует возможности транскрипции, субтитров и поддержки клиентов на арабоязычных рынках, CNTXT AI рассматривает этот запуск как только начало. Компания предполагает полный набор технологий голосовой связи на арабском языке, включая преобразование текста в речь, голосовых помощников и системы перевода в реальном времени — все это основано на суверенной инфраструктуре и региональном ИИ.

«Munsit — это больше, чем просто прорыв в распознавании речи», — сказал Мохаммад Абу Шейх, генеральный директор CNTXT AI. «Это заявление о том, что арабский язык должен быть на передовой мирового ИИ. Мы доказали, что ИИ мирового класса не нужно импортировать — его можно создать здесь, на арабском языке, для арабского языка».

С появлением региональных моделей, таких как Munsit, индустрия ИИ вступает в новую эру — ту, где языковая и культурная значимость не приносится в жертву стремлению к техническому совершенству. Фактически, с Мунсит, CNTXT AI показал, что это одно и то же.

Антуан — дальновидный лидер и партнер-основатель Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Серийный предприниматель, он считает, что ИИ будет таким же разрушительным для общества, как электричество, и его часто ловят на том, что он восторженно отзывается о потенциале разрушительных технологий и AGI.

футурист, он посвятил себя изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Ценные бумаги.io, платформа, ориентированная на инвестиции в передовые технологии, которые меняют будущее и преобразуют целые секторы.