Искусственный интеллект

Можно ли создать крупные языковые модели, такие как ChatGPT, за половину стоимости?

Published May 11, 2023

Updated April 28, 2026

Haziqa Sajid

Крупные языковые модели (LLM) типа GPT-3 и ChatGPT революционизировали ИИ, предлагая возможности понимания естественного языка и генерации контента. Однако их разработка обходится в значительную сумму, ограничивая доступность и дальнейшие исследования. Исследователи оценивают, что обучение GPT-3 стоило OpenAI около $5 миллионов. Тем не менее, Microsoft признала потенциал и инвестировала $1 миллиард в 2019 году и $10 миллиардов в 2023 году в проект GPT-3 и ChatGPT OpenAI.

LLM являются машинными моделями обучения, обученными на обширных текстовых данных для приложений обработки естественного языка. Они основаны на архитектуре трансформера и используют механизмы внимания для задач обработки естественного языка, таких как ответы на вопросы, машинный перевод, анализ настроений и т. д.

Возникает вопрос: можно ли увеличить эффективность этих крупных моделей, одновременно снижая вычислительную стоимость и время обучения?

Были разработаны несколько подходов, таких как прогрессивные нейронные сети, морфизм сети, параллелизм внутри слоя, наследование знаний и т. д., для снижения вычислительной стоимости обучения нейронных сетей. Новый подход LiGO (линейный оператор роста), который мы обсудим, устанавливает новый эталон. Он снижает вычислительную стоимость обучения LLM на 50%.

Прежде чем обсуждать эту технику, важно проанализировать факторы, способствующие высокой стоимости создания LLM.

Стоимость создания крупных языковых моделей

Три основных расхода на разработку LLM следующие:

1. Вычислительные ресурсы

Создание LLM требует значительных вычислительных ресурсов для обучения на больших наборах данных. Они должны обрабатывать миллиарды параметров и учиться сложным закономерностям из обширных текстовых данных.

Необходимо инвестировать в специализированное оборудование, такое как графические процессоры (GPU) и процессоры тензорного処理 (TPU), для создания и обучения LLM, чтобы достичь эталонной производительности.

Например, GPT-3 был обучен на суперкомпьютере с 10 000 корпоративными GPU (H100 и A100) и 285 000 ядер CPU.

2. Потребление энергии

Интенсивные вычислительные ресурсы, необходимые для создания LLM, приводят к значительному потреблению энергии. Например, обучение 175 миллиардов параметров GPT-3 заняло 14,8 дней с использованием 10 000 GPU V100, что эквивалентно 3,55 миллионам часов GPU. Такой высокий уровень потребления энергии имеет значительные экологические последствия.

3. Хранение и управление данными

LLM обучаются на больших наборах данных. Например, GPT-3 был обучен на обширном корпусе текстовых данных, включая Common Crawl, WebText2, Books1, Books2 и Википедию, среди других источников. Необходимо значительное вложение в инфраструктуру для сбора, курирования и хранения этих наборов данных.

Также необходимо облачное хранение для хранения данных и человеческая экспертиза для предварительной обработки данных и контроля версий. Кроме того, обеспечение того, чтобы ваша стратегия данных соответствовала правилам, таким как GDPR, также добавляет к стоимости.

Техника LiGO: снижение стоимости создания крупных языковых моделей вдвое

LiGO (линейный оператор роста) – это новая техника, разработанная исследователями в MIT, для снижения вычислительной стоимости обучения LLM на 50%. Этот метод заключается в инициализации весов более крупных моделей из весов более мелких предварительно обученных моделей, что позволяет эффективно масштабировать нейронные сети.

Изображение из статьи: Обучение предварительно обученных моделей для эффективного обучения трансформеров

Yoon Kim, старший автор статьи, говорит:

«Оценивается, что обучение моделей в масштабе, подобном тому, на котором, как полагают, работает ChatGPT, может занять миллионы долларов только за одну сессию обучения. Можно ли улучшить эффективность этих методов обучения, чтобы мы могли получить хорошие модели за меньшее время и за меньшие деньги? Мы предлагаем сделать это, используя более мелкие языковые модели, которые были предварительно обучены ранее.»

Этот метод сохраняет преимущества более крупных моделей при снижении вычислительной стоимости и времени обучения по сравнению с обучением крупной модели с нуля. LiGO использует данный линейный оператор роста, который объединяет операторы глубины и ширины для оптимальной производительности.

В статье использовались различные наборы данных для проведения текстовых экспериментов, включая английский корпус Википедии для обучения моделей BERT и RoBERTa, и набор данных C4 для обучения GPT2.

Экспериментирование с техникой LiGO включало рост BERT-Small до BERT-Base, BERT-Base до BERT-Large, RoBERTaSmall до RoBERTa-Base, GPT2-Base до GPT2-Medium и CaiT-XS до CaiT-S.

Исследователи сравнили свой подход с несколькими другими базовыми вариантами, включая обучение с нуля, прогрессивное обучение, bert2BERT и KI.

Техника LiGO предложила 44,7% экономии операций с плавающей точкой (FLOPs) и 40,7% экономии времени стендарта по сравнению с обучением BERT-Base с нуля, повторно используя модель BERT-Small. Оператор роста LiGO превосходит StackBERT, MSLT, bert2BERT и KI в эффективном обучении.

Преимущества использования техники оптимизации обучения, такой как LiGO

LiGO – это эффективный метод обучения нейронных сетей, который имеет различные преимущества, перечисленные ниже:

1. Быстрое обучение

Как упоминалось ранее, быстрое обучение является основным преимуществом техники LiGO. Она обучает LLM за половину времени, увеличивая производительность и снижая затраты.

2. Эффективное использование ресурсов

LiGO является ресурсоэффективным, поскольку она минимизирует время стендарта и операции с плавающей точкой, что приводит к более экономически эффективному и экологически чистому подходу к обучению крупных моделей трансформеров.

3. Обобщение

Техника LiGO улучшила производительность как языковых, так и визуальных трансформеров, что указывает на то, что это общая техника, которую можно применять к различным задачам.

Создание коммерческих продуктов ИИ – это только один аспект общих расходов, связанных с системами ИИ. Другой значительный компонент затрат исходит из ежедневной эксплуатации. Например, OpenAI стоит около $700 000 каждый день, чтобы отвечать на запросы с помощью ChatGPT. Исследователи, как ожидается, будут продолжать исследовать подходы, которые делают LLM экономически эффективными во время обучения и более доступными во время выполнения.

Для получения дополнительного контента, связанного с ИИ, посетите unite.ai.