Суверенный ИИ: Munsit лидирует в распознавании арабской речи

Компания CNTXT AI из ОАЭ представила Munsit – передовую модель распознавания арабской речи, которая демонстрирует самую высокую точность среди существующих аналогов и опережает разработки мировых технологических лидеров, таких как OpenAI, Meta, Microsoft и ElevenLabs, по стандартным отраслевым тестам. Munsit, разработанная непосредственно в регионе и для региона, является значительным шагом в развитии концепции, которую CNTXT называет «суверенным ИИ» – технологии, созданной с учетом местных особенностей, но конкурентоспособной на глобальном уровне.

Научная база этого достижения изложена в недавней публикации команды под названием «Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning». В работе представлен масштабируемый и эффективный с точки зрения использования данных метод обучения, основанный на слабо контролируемом обучении (weakly supervised learning). Этот подход позволил решить давнюю проблему нехватки размеченных речевых данных для арабского языка и создать систему, устанавливающую новый стандарт качества транскрипции как для современного стандартного арабского языка (MSA), так и для более чем 25 региональных диалектов.

Несмотря на то, что арабский язык является одним из самых распространенных в мире и официальным языком ООН, в области распознавания речи он долгое время считался «низкоресурсным». Причины кроются в его морфологической сложности и отсутствии больших, разнообразных наборов размеченных речевых данных. В отличие от английского, для которого существуют огромные объемы вручную транскрибированных аудиозаписей, богатство диалектов арабского языка и его фрагментированное цифровое присутствие создавали серьезные препятствия для разработки надежных систем автоматического распознавания речи (ASR).

Вместо того чтобы полагаться на медленный и дорогостоящий процесс ручной транскрипции, CNTXT AI выбрала более масштабируемый путь слабо контролируемого обучения. Компания собрала обширный корпус из более чем 30 000 часов неразмеченных арабских аудиозаписей из различных источников. С помощью специально разработанного конвейера обработки данных эти необработанные аудиофайлы были очищены, сегментированы и автоматически размечены. В результате был получен высококачественный обучающий набор данных объемом 15 000 часов – один из крупнейших и наиболее репрезентативных корпусов арабской речи, когда-либо созданных.

Важно отметить, что этот процесс не требовал участия людей-аннотаторов. Вместо этого CNTXT разработала многоэтапную систему для генерации, оценки и фильтрации гипотез транскрипции, полученных от нескольких ASR-моделей. Эти гипотезы сравнивались между собой с использованием расстояния Левенштейна для выбора наиболее согласованных вариантов. Затем выбранные транскрипции проверялись языковой моделью на грамматическую правдоподобность. Сегменты, не соответствующие установленным порогам качества, отбрасывались, что обеспечивало надежность обучающих данных даже без ручной верификации. Команда усовершенствовала этот конвейер за несколько итераций, каждый раз повышая точность разметки путем переобучения самой ASR-системы и использования ее обновленной версии в процессе маркировки.

В основе Munsit лежит архитектура Conformer – гибридная нейронная сеть, сочетающая сверточные слои, чувствительные к локальным особенностям сигнала, и трансформеры, эффективно моделирующие глобальные зависимости в последовательности. Такая конструкция делает Conformer особенно подходящей для обработки нюансов разговорной речи, где важны как дальние связи (например, структура предложения), так и мельчайшие фонетические детали. CNTXT AI реализовала крупную версию Conformer, обучив ее с нуля на 80-канальных мел-спектрограммах. Модель состоит из 18 слоев и насчитывает около 121 миллиона параметров. Обучение проводилось на высокопроизводительном кластере с использованием восьми графических процессоров NVIDIA A100 с точностью bfloat16, что позволило эффективно обрабатывать большие пакеты данных и многомерные признаки. Для токенизации морфологически богатого арабского языка использовался токенизатор SentencePiece, специально обученный на собственном корпусе компании, с результирующим словарем в 1024 подъединицы.

В отличие от традиционного контролируемого обучения ASR, где каждый аудиофрагмент должен иметь точную транскрипцию, метод CNTXT полностью основан на «слабых» метках. Хотя эти метки содержат больше шума, чем проверенные человеком, они были оптимизированы с помощью цикла обратной связи, который отдавал приоритет консенсусу, грамматической связности и лексической правдоподобности. Модель обучалась с использованием функции потерь Connectionist Temporal Classification (CTC), хорошо подходящей для задач моделирования невыровненных последовательностей, что критически важно для распознавания речи с ее вариативным и непредсказуемым таймингом слов.

Результаты тестов подтверждают эффективность Munsit. Модель сравнивали с ведущими открытыми и коммерческими ASR-системами на шести эталонных наборах данных для арабского языка: SADA, Common Voice 18.0, MASC (чистый и зашумленный), MGB-2 и Casablanca. Эти наборы охватывают десятки диалектов и акцентов арабского мира, от Саудовской Аравии до Марокко. В среднем по всем тестам Munsit-1 показала частоту ошибок на уровне слов (WER) 26,68% и частоту ошибок на уровне символов (CER) 10,05%. Для сравнения, лучшая версия Whisper от OpenAI достигла средних показателей WER 36,86% и CER 17,21%. Многоязычная модель SeamlessM4T от Meta показала еще более высокие значения ошибок. Munsit превзошла все остальные системы как на чистых, так и на зашумленных данных, продемонстрировав особенно высокую устойчивость к шуму – ключевой фактор для реальных приложений, таких как колл-центры и государственные службы.

Превосходство Munsit над проприетарными системами оказалось столь же значительным. Модель обошла арабские ASR-модели Microsoft Azure, ElevenLabs Scribe и даже функцию транскрипции GPT-4o от OpenAI. Эти результаты представляют собой не незначительное улучшение, а среднее относительное снижение WER на 23,19% и CER на 24,78% по сравнению с самой сильной открытой базовой моделью. Это утверждает Munsit в качестве явного лидера в области распознавания арабской речи.

Хотя Munsit-1 уже расширяет возможности транскрипции, создания субтитров и поддержки клиентов на арабоязычных рынках, CNTXT AI рассматривает этот запуск лишь как начало. Компания планирует создать полный набор голосовых технологий для арабского языка, включая синтез речи, голосовых помощников и системы перевода в реальном времени, основанные на суверенной инфраструктуре и регионально ориентированном ИИ. Мохаммад Абу Шейх, генеральный директор CNTXT AI, заявляет, что Munsit – это больше, чем просто прорыв в распознавании речи. По его словам, это декларация того, что арабский язык заслуживает места в авангарде глобального искусственного интеллекта. Он утверждает, что компания доказала: ИИ мирового класса не обязательно импортировать – его можно создавать здесь, на арабском языке и для него.

С появлением таких регионально-специфичных моделей, как Munsit, индустрия искусственного интеллекта вступает в новую эру, где лингвистическая и культурная релевантность не приносятся в жертву техническому совершенству. Фактически, на примере Munsit компания CNTXT AI показала, что эти аспекты могут быть неразрывно связаны.

 

Сердечная диагностика: от универсального порога к точности ИИ

FutureHouse запустила ИИ-платформу для ускорения научных открытий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *