Artificial Intelligence

Snowflake Arctic: передовая программа LLM для корпоративного искусственного интеллекта

опубликованный

2 недели назад

25 апреля 2024

Snowflake Arctic: передовая программа LLM для корпоративного искусственного интеллекта

Сегодня предприятия все чаще изучают способы использования больших языковых моделей (LLM) для повышения производительности и создания интеллектуальных приложений. Однако многие из доступных вариантов LLM представляют собой общие модели, не предназначенные для специализированных нужд предприятия, таких как анализ данных, кодирование и автоматизация задач. Входить Снежинка Арктика – современная программа LLM, специально разработанная и оптимизированная для основных сценариев корпоративного использования.

Программа Arctic, разработанная исследовательской группой в области искусственного интеллекта в Snowflake, расширяет границы возможного благодаря эффективному обучению, экономической эффективности и беспрецедентному уровню открытости. Эта революционная модель превосходит ключевые корпоративные тесты, требуя при этом гораздо меньше вычислительной мощности по сравнению с существующими моделями LLM. Давайте углубимся в то, что делает Арктику переломным моментом в сфере корпоративного искусственного интеллекта.

Новое определение корпоративного интеллекта По своей сути Arctic сосредоточен на обеспечении исключительной производительности по показателям, которые действительно важны для предприятий — кодированию, SQL-запросам, выполнению сложных инструкций и получению обоснованных, основанных на фактах результатов. Снежинка объединила эти важные возможности в романе «корпоративная разведкаметрика.

Результаты говорят сами за себя. Arctic соответствует или превосходит такие модели, как LLAMA 7B и LLAMA 70B, в тестах корпоративного интеллекта, используя при этом менее половины вычислительного бюджета для обучения. Примечательно, что, несмотря на использование В 17 раз меньше вычислительных ресурсов, чем у LLAMA 70B, Arctic достигает паритета в специализированных тестах, таких как кодирование (HumanEval+, MBPP+), генерация SQL (Spider) и следование инструкциям (IFEval).

Но мастерство Арктики выходит за рамки простого достижения корпоративных стандартов. Он обеспечивает высокую производительность в плане общего понимания языка, рассуждения и математических способностей по сравнению с моделями, обученными с экспоненциально более высокими вычислительными бюджетами, такими как DBRX. Эти комплексные возможности делают Arctic непревзойденным выбором для удовлетворения разнообразных потребностей предприятий в области искусственного интеллекта.

Инновация

Гибридный трансформатор с плотным электроизлучением. Так как же команде Snowflake удалось создать такой невероятно функциональный, но эффективный LLM? Ответ кроется в новейшей архитектуре гибридного трансформатора с плотной смесью экспертов (MoE) компании Arctic.

Традиционные модели плотных трансформаторов становятся все более дорогостоящими в обучении по мере роста их размеров, а вычислительные требования растут линейно. Конструкция MoE помогает обойти это за счет использования нескольких параллельных сетей прямой связи (экспертов) и активации только подмножества для каждого входного токена.

Однако простого использования архитектуры MoE недостаточно — Arctic изобретательно сочетает в себе сильные стороны как плотных, так и MoE-компонентов. Он сочетает в себе преобразовательный кодер с плотностью 10 миллиардов параметров и 128 экспертных остаточных слоев многоуровневого перцептрона MoE (MLP). Эта гибридная модель с плотным MoE насчитывает 480 миллиардов параметров, но только 17 миллиардов из них активны в любой момент времени с использованием топ-2 стробирования.

Последствия весьма значительны: Арктика достигает беспрецедентного качества и производительности моделей, сохраняя при этом удивительно эффективную вычислительную эффективность во время обучения и вывода. Например, у Arctic во время вывода на 50% меньше активных параметров, чем у таких моделей, как DBRX.

Но модельная архитектура — это только одна часть истории. Превосходство Арктики является кульминацией нескольких новаторских методов и идей, разработанных исследовательской группой Snowflake:

Учебная программа по данным обучения, ориентированная на предприятия. В ходе обширных экспериментов команда обнаружила, что общие навыки, такие как здравое рассуждение, следует изучать на ранних этапах, а более сложные специализации, такие как программирование и SQL, лучше всего приобретать позже в процессе обучения. Учебная программа по работе с данными в Арктике основана на трехэтапном подходе, имитирующем прогресс в обучении человека.

Первые тератокены ориентированы на создание широкой общей базы. Следующие 1.5 тератокена будут посвящены развитию корпоративных навыков с помощью данных, адаптированных для SQL, задач кодирования и многого другого. Окончательные тератокены дополнительно уточняют специализацию Арктики с использованием уточненных наборов данных.

Оптимальный архитектурный выбор Хотя MoE обещают лучшее качество вычислений, выбор правильных конфигураций имеет решающее значение, но до конца не понятен. В результате тщательного исследования Snowflake остановилась на архитектуре, в которой работают 128 экспертов, причем двое лучших контролируют каждый уровень после оценки компромисса между качеством и эффективностью.

Увеличение количества экспертов обеспечивает больше комбинаций, увеличивая возможности модели. Однако это также увеличивает затраты на связь, поэтому Snowflake получила 128 тщательно разработанных «сжатых» экспертов, активированных через топ-2 шлюза в качестве оптимального баланса.

Совместное проектирование систем Но даже оптимальная модель архитектуры может быть подорвана узкими местами в системе. Таким образом, команда Snowflake и здесь применила инновации — совместно разработала архитектуру модели вместе с базовыми системами обучения и вывода.

Для эффективного обучения компоненты плотности и MoE были структурированы таким образом, чтобы обеспечить перекрытие связи и вычислений, скрывая значительные накладные расходы на связь. Что касается выводов, команда использовала инновации NVIDIA, чтобы обеспечить высокоэффективное развертывание, несмотря на масштабы Арктики.

Такие методы, как квантование FP8, позволяют разместить полную модель на одном узле графического процессора для интерактивного вывода. Большие партии задействуют возможности параллелизма Arctic на нескольких узлах, сохраняя при этом впечатляющую вычислительную эффективность благодаря компактным активным параметрам 17B.

При наличии лицензии Apache 2.0 веса и коды Arctic доступны без ограничений для любого личного, исследовательского или коммерческого использования. Но Snowflake пошла гораздо дальше, открыв исходные коды своих полных рецептов данных, реализации моделей, советов и глубоких исследовательских идей, лежащих в основе Арктики.

"Арктическая кулинарная книга» представляет собой всеобъемлющую базу знаний, охватывающую все аспекты построения и оптимизации крупномасштабной модели Министерства экологии, такой как Арктика. Он извлекает ключевые знания из источников данных, проектирования архитектуры моделей, совместного проектирования систем, оптимизированных схем обучения/выводов и многого другого.

От определения оптимальных учебных программ по работе с данными до проектирования MoE и совместной оптимизации компиляторов, планировщиков и аппаратного обеспечения — этот обширный массив знаний демократизирует навыки, ранее ограничивавшиеся элитными лабораториями искусственного интеллекта. «Арктическая кулинарная книга» ускоряет процесс обучения и дает возможность предприятиям, исследователям и разработчикам во всем мире создавать собственные экономически эффективные и адаптированные программы LLM практически для любого сценария использования.

Начало работы с Арктикой

Для компаний, стремящихся использовать Арктику, Snowflake предлагает несколько способов быстрого начала работы:

Бессерверный вывод: клиенты Snowflake могут бесплатно получить доступ к модели Arctic на Snowflake Cortex, полностью управляемой платформе искусственного интеллекта компании. Кроме того, Arctic доступен во всех основных каталогах моделей, таких как AWS, Microsoft Azure, NVIDIA и других.

Начните с нуля: вес и реализация модели с открытым исходным кодом позволяют разработчикам напрямую интегрировать Arctic в свои приложения и сервисы. Репозиторий Arctic предоставляет примеры кода, руководства по развертыванию, рецепты тонкой настройки и многое другое.

Создавайте собственные модели. Благодаря исчерпывающим руководствам Arctic Cookbook разработчики могут с нуля создавать свои собственные модели MoE, оптимизированные для любого специализированного варианта использования, используя уроки, полученные в ходе разработки Arctic.

Новая эра открытого предпринимательства ИИ Арктика — это больше, чем просто еще одна мощная языковая модель. Она знаменует новую эру открытых, экономичных и специализированных возможностей ИИ, специально созданных для предприятий.

От революционного анализа данных и производительности кодирования до автоматизации задач и более интеллектуальных приложений — ДНК Arctic, ориентированная на предприятия, делает его непревзойденным выбором по сравнению с обычными программами LLM. Открыв исходный код не только модели, но и всего процесса исследований и разработок, лежащего в ее основе, Snowflake способствует развитию культуры сотрудничества, которая поднимет всю экосистему искусственного интеллекта.

Поскольку предприятия все чаще используют генеративный искусственный интеллект, Арктика предлагает смелый план разработки моделей, объективно превосходящих производственные нагрузки и корпоративную среду. Сочетание передовых исследований, непревзойденной эффективности и стойкой открытости устанавливает новый стандарт в демократизации преобразующего потенциала ИИ.

Вот раздел с примерами кода о том, как использовать модель Snowflake Arctic:

Практический опыт с Арктикой

Теперь, когда мы рассмотрели, что делает Арктику по-настоящему новаторской, давайте углубимся в то, как разработчики и специалисты по обработке данных могут начать применять эту мощную модель на практике.
«Из коробки» Arctic доступен предварительно обученным и готовым к развертыванию через основные центры моделирования, такие как Hugging Face и партнерские платформы искусственного интеллекта. Но его реальная мощь проявляется при настройке и точной настройке для ваших конкретных случаев использования.

Лицензия Arctic Apache 2.0 предоставляет полную свободу для ее интеграции в ваши приложения, сервисы или пользовательские рабочие процессы искусственного интеллекта. Давайте рассмотрим несколько примеров кода с использованием библиотеки преобразователей, чтобы вы могли начать:
Базовый вывод об Арктике

Для случаев быстрого создания текста мы можем очень легко загрузить Arctic и выполнить базовый вывод:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Это должно вывести что-то вроде:

«Столица Франции – Париж. Париж – крупнейший город Франции и экономический, политический и культурный центр страны. Здесь находятся такие известные достопримечательности, как Эйфелева башня, Лувр и собор Парижской Богоматери».

Как видите, Arctic без проблем понимает запрос и предоставляет подробный и обоснованный ответ, используя свои надежные возможности понимания языка.

Тонкая настройка для специализированных задач

Несмотря на впечатляющий внешний вид, Arctic по-настоящему великолепен, если его настроить и настроить на основе ваших собственных данных для решения специализированных задач. Снежинка предоставила обширные рецепты, охватывающие:

Подбор высококачественных обучающих данных, адаптированных к вашему сценарию использования.
Реализация индивидуальных многоступенчатых программ обучения.
Использование эффективных подходов тонкой настройки LoRA, P-Tuning или FactorizedFusion.
Оптимизация для понимания SQL, кодирования или других ключевых корпоративных навыков.

Вот пример того, как точно настроить Arctic на ваших собственных наборах данных кодирования, используя рецепты LoRA и Snowflake:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Этот код показывает, как можно легко загрузить Arctic, инициализировать конфигурацию LoRA, адаптированную для генерации кода, а затем точно настроить модель на основе собственных наборов данных кодирования, используя рекомендации Snowflake.

Настраиваемая и точно настроенная, Arctic становится частной мощной компанией, настроенной на обеспечение непревзойденной производительности основных рабочих процессов вашего предприятия и потребностей заинтересованных сторон.

Быстрый инновационный цикл Арктики

Одним из наиболее впечатляющих аспектов Арктики является стремительный темп, с которым исследовательская группа Snowflake по искусственному интеллекту задумала, разработала и представила миру эту передовую модель. От начала до выпуска открытого исходного кода весь арктический проект занял менее трех месяцев и задействовал лишь около одной восьмой вычислительного бюджета, типичного для обучения аналогичных больших языковых моделей.

Эта способность быстро повторять, внедрять инновации и создавать результаты самых современных исследований в области ИИ поистине замечательна. Он демонстрирует глубокие технические возможности Snowflake и позволяет компании постоянно расширять границы разработки новых, оптимизированных для предприятий возможностей искусственного интеллекта.

Арктическое семейство и вложения.

Арктика — это только начало амбиций Snowflake в сфере корпоративного обучения LLM. Компания уже открыла исходный код семейства лучших в отрасли моделей встраивания текста Snowflake Arctic Embed, оптимизированных для обеспечения производительности поиска в профилях разных размеров.

Как показано ниже, модели Arctic Embed достигают высочайшей точности поиска по авторитетному тесту MTEB (текстовый поиск), превосходя другие ведущие модели внедрения, включая закрытые предложения от крупных технологических гигантов.

[Вставьте изображение, показывающее результаты теста поиска MTEB для моделей Arctic Embed]

Эти модели внедрения дополняют Arctic LLM и позволяют предприятиям создавать мощные решения для генерации ответов на вопросы и расширенного поиска на основе интегрированного стека с открытым исходным кодом.

Но дорожная карта Snowflake выходит далеко за рамки просто Арктики и встраивания. Исследователи искусственного интеллекта компании усердно работают над расширением семейства Arctic новыми моделями, предназначенными для мультимодальных задач, речи, видео и других передовых возможностей – и все они созданы с использованием тех же принципов специализации, эффективности и открытости.

Партнерство для открытой экосистемы искусственного интеллекта Snowflake понимает, что для реализации всего потенциала открытого искусственного интеллекта корпоративного уровня необходимо развивать богатую экосистему партнерских отношений в рамках сообщества искусственного интеллекта. Релиз в Арктике уже активизировал сотрудничество с крупными платформами и провайдерами:

NVIDIA тесно сотрудничает со Snowflake для оптимизации Арктики для эффективного развертывания с использованием передового стека вывода искусственного интеллекта NVIDIA, включая TensorRT, Triton и другие. Это позволяет предприятиям экономически эффективно обслуживать Арктику в больших масштабах.

Hugging Face, ведущий центр моделей с открытым исходным кодом, включил Arctic в свои библиотеки и репозитории моделей. Это обеспечивает плавную интеграцию Arctic в существующие рабочие процессы и приложения искусственного интеллекта на основе Hugging Face.

Такие платформы, как Replication, SageMaker и другие, быстро перешли к предложению размещенных демонстраций, API и гибких путей интеграции для Арктики, ускоряя ее внедрение.

Открытый исходный код направлял развитие Арктики, и открытые экосистемы остаются центральным элементом ее эволюции. Snowflake стремится развивать тесное сотрудничество с исследователями, разработчиками, партнерами и предприятиями по всему миру, чтобы расширить границы возможностей открытых специализированных моделей искусственного интеллекта.

Мини-Близнецы: раскрытие потенциала языковых моделей мультимодального видения

Не пропустите

AIOS: Операционная система для агентов LLM

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.