Connect with us

Состояние многоязычных LLM: выход за пределы английского

Искусственный интеллект

Состояние многоязычных LLM: выход за пределы английского

mm
Multilingual LLMs Blog image

Согласно исследованиям Microsoft, около 88% мировых языков, на которых говорят 1,2 миллиарда человек, не имеют доступа к Большим языковым моделям (LLM). Это связано с тем, что большинство LLM ориентированы на английский язык, т.е. они в основном построены на основе английских данных и для англоязычных пользователей. ​Этот английский доминирование также сохраняется в разработке LLM и привело к цифровому языковому разрыву, потенциально исключая большинство людей из преимуществ LLM. Чтобы решить эту проблему для LLM, необходима LLM, которая может быть обучена на разных языках и выполнять задачи на разных языках. Вступают многоязычные LLM!

Что такое многоязычные LLM?

Многоязычная LLM может понимать и генерировать текст на нескольких языках. Они обучаются на наборах данных, содержащих разные языки, и могут выполнять различные задачи на более чем одном языке по запросу пользователя.

Применения многоязычных LLM огромны, они включают перевод литературы на местные диалекты, реальное многоязычное общение, создание многоязычного контента и т.д. Они помогут всем получить доступ к информации и общаться друг с другом легко, независимо от языка.

Кроме того, многоязычные LLM решают проблемы, такие как отсутствие культурных нюансов и контекста, ограничения обучающих данных и потенциальная потеря знаний во время перевода.

Как работают многоязычные LLM?

Создание многоязычной LLM включает тщательную подготовку сбалансированного корпуса текста на различных языках и выбор подходящей архитектуры и метода обучения для обучения модели, предпочтительно модели Transformer, которая идеальна для многоязычного обучения.

Шаги создания многоязычной LLM

Источник: Изображение автора

Одним из методов является обмен вложениями, которые отражают семантическое значение слов на разных языках. Это позволяет LLM учиться сходствам и различиям каждого языка, что позволяет ему лучше понимать различные языки.

Эти знания также позволяют LLM адаптироваться к различным лингвистическим задачам, таким как перевод языков, написание в разных стилях и т.д. Другим методом является перекрестное обучение на разных языках, при котором модель предварительно обучается на большом корпусе многоязычных данных, прежде чем быть дообученной на конкретных задачах.

Этот двухэтапный процесс гарантирует, что модель имеет прочную основу в понимании языка, что делает ее адаптируемой к различным приложениям.

Примеры многоязычных больших языковых моделей

Сравнительная таблица многоязычных LLM

Источник: Ruder.io

Несколько заметных примеров многоязычных LLM появились, каждый из которых удовлетворяет конкретным лингвистическим потребностям и культурным контекстам. Давайте рассмотрим несколько из них:

1. BLOOM

BLOOM – это многоязычная LLM с открытым доступом, которая отдает приоритет разнообразным языкам и доступности. С 176 миллиардами параметров BLOOM может выполнять задачи на 46 естественных и 13 программных языках, что делает ее одной из крупнейших и наиболее разнообразных LLM.

Открытая природа BLOOM позволяет исследователям, разработчикам и языковым сообществам использовать ее возможности и вносить вклад в ее улучшение.

2. YAYI 2

YAYI 2 – это открытая LLM, предназначенная специально для азиатских языков, учитывая сложности и культурные нюансы региона. Она была предварительно обучена с нуля на многоязычном корпусе из более 16 азиатских языков, содержащем 2,65 триллиона отфильтрованных токенов.

Это позволяет модели давать лучшие результаты, удовлетворяя конкретным требованиям языков и культур в Азии.

3. PolyLM

PolyLM – это открытая “полиглот” LLM, которая фокусируется на решении проблем низкоресурсных языков, предлагая возможности адаптации. Она была обучена на наборе данных из примерно 640 миллиардов токенов и доступна в двух размерах моделей: 1,7B и 13B. PolyLM знает более 16 разных языков.

Она позволяет моделям, обученным на языках с высокими ресурсами, дообучаться для низкоресурсных языков с ограниченными данными. Эта гибкость делает LLM более полезными в различных языковых ситуациях и задачах.

4. XGLM

XGLM, имеющая 7,5 миллиардов параметров, – это многоязычная LLM, обученная на корпусе, охватывающем разнообразный набор из более 20 языков, используя метод обучения с несколькими выстрелами. Она является частью семьи крупномасштабных многоязычных LLM, обученных на огромном наборе текста и кода.

Она стремится охватить многие языки полностью, что является причиной, по которой она фокусируется на инклюзивности и лингвистическом разнообразии. XGLM демонстрирует потенциал для построения моделей, удовлетворяющих потребностям различных языковых сообществ.

5. mT5

mT5 (массово многоязычный текст-на-текстовый трансферный трансформер) был разработан Google AI. Обученная на наборе данных common crawl, mT5 – это передовая многоязычная LLM, которая может обрабатывать 101 язык, от широко распространенных испанского и китайского до менее ресурсных языков, таких как баскский и кечуа.

Она также отличается в многоязычных задачах, таких как перевод, суммаризация, ответы на вопросы и т.д.

Возможна ли универсальная LLM?

Концепция языково-нейтральной LLM, способной понимать и генерировать язык без предвзятости к любому конкретному языку, является интригующей.

Хотя разработка真正 универсальной LLM еще далека, текущие многоязычные LLM продемонстрировали значительный успех. Как только они будут полностью разработаны, они смогут удовлетворять потребностям недопредставленных языков и разнообразных сообществ.

Например, исследования показывают, что большинство многоязычных LLM могут облегчить нулевое перекрестное обучение на разных языках из языка с высокими ресурсами в язык с низкими ресурсами без задачи-специфического обучающего набора данных.

Кроме того, модели, такие как YAYI и BLOOM, которые фокусируются на конкретных языках и сообществах, продемонстрировали потенциал языково-ориентированных подходов в продвижении прогресса и инклюзивности.

Чтобы построить универсальную LLM или улучшить текущие многоязычные LLM, людям и организациям необходимо:

  • Организовать краудсорсинг для вовлечения носителей языка и курирования языковых наборов данных.
  • Поддержать общественные усилия по открытым вкладам и финансированию многоязычных исследований и разработок.

Проблемы многоязычных LLM

Хотя концепция универсальных многоязычных LLM имеет большую перспективу, они также сталкиваются с несколькими проблемами, которые необходимо решить, прежде чем мы сможем извлечь из них пользу:

1. Количество данных

Многоязычные модели требуют более крупного словаря для представления токенов на многих языках, чем монолингвальные модели, но многие языки не имеют крупномасштабных наборов данных. Это затрудняет эффективное обучение этих моделей.

2. Проблемы качества данных

Обеспечение точности и культурной уместности выходных данных многоязычных LLM на разных языках является значительной проблемой. Модели должны быть обучены и дообучены с тщательным учетом лингвистических и культурных нюансов, чтобы избежать предвзятости и неточностей.

3. Ограничения ресурсов

Обучение и запуск многоязычных моделей требуют значительных вычислительных ресурсов, таких как мощные GPU (например, NVIDIA A100 GPU). Высокая стоимость представляет проблемы, особенно для низкоресурсных языков и сообществ с ограниченным доступом к вычислительной инфраструктуре.

4. Архитектура модели

Адаптация архитектур моделей для учета разнообразных лингвистических структур и сложностей является постоянной проблемой. Модели должны быть способны обрабатывать языки с разными порядками слов, морфологическими вариациями и системами письма, сохраняя при этом высокую производительность и эффективность.

5. Сложности оценки

Оценка производительности многоязычных LLM за пределами английских эталонов имеет решающее значение для измерения их истинной эффективности. Это требует учета культурных нюансов, лингвистических особенностей и требований конкретных областей.

Многоязычные LLM имеют потенциал разрушить языковые барьеры, расширить возможности низкоресурсных языков и облегчить эффективное общение между разнообразными сообществами.

Не пропустите последние новости и анализ в области ИИ и МО – посетите unite.ai сегодня.

Haziqa является Data Scientist с обширным опытом написания технического контента для компаний AI и SaaS.