Штучний інтелект

Чи можна створити великі мовні моделі, подібні до ChatGPT, за половину вартості?

Опубліковано 11 травня 2023

Оновлено 23 травня 2026

Haziqa Sajid

Великі мовні моделі (LLM) типу GPT-3 і ChatGPT революціонізували штучний інтелект, пропонуючи можливості розуміння природної мови та генерації контенту. Однак їх розробка відбувається за велику ціну, що обмежує доступність та подальші дослідження. Дослідники оцінюють, що навчання GPT-3 коштувало OpenAI близько $5 мільйонів. Тим не менш, Microsoft визнала потенціал і вклала $1 мільярд у 2019 році та $10 мільярдів у 2023 році в проект GPT-3 та ChatGPT компанії OpenAI.

Великі мовні моделі – це моделі машинного навчання, які тренуються на великих текстових даних для застосунків обробки природної мови. Вони засновані на архітектурі трансформерів і використовують механізми уваги для завдань обробки природної мови, таких як відповіді на питання, машинний переклад, аналіз настрою тощо.

Поставляється питання: чи можна підвищити ефективність цих великих моделей, одночасно зменшуючи обчислювальні витрати та час навчання?

Було розроблено кілька підходів, таких як прогресивні нейронні мережі, морфізм мереж, паралелізм моделей всередині шарів, спадкування знань тощо, для зменшення обчислювальних витрат навчання нейронних мереж. Новий підхід LiGO (оператор лінійного зростання), про який ми поговоримо, встановлює новий стандарт. Він зменшує обчислювальні витрати навчання великих мовних моделей вдвічі.

Перед обговоренням цього методу необхідно розглянути фактори, які сприяють високій вартості створення великих мовних моделей.

Вартість створення великих мовних моделей

Три основні види витрат на розробку великих мовних моделей:

1. Обчислювальні ресурси

Створення великих мовних моделей вимагає великих обчислювальних ресурсів для навчання на великих даних. Вони повинні обробляти мільярди параметрів і вивчати складні закономірності з великих текстових даних.

Інвестиції в спеціалізоване обладнання, таке як графічні процесори (GPU) та процесори тензорної обробки (TPU), необхідні для створення та навчання великих мовних моделей для досягнення найкращих результатів.

Наприклад, GPT-3 було навчено на суперкомп’ютері з 10 000 корпоративних GPU (H100 і A100) та 285 000 ядер CPU.

2. Витрати енергії

Великі обчислювальні ресурси, необхідні для створення великих мовних моделей, призводять до значного споживання енергії. Наприклад, навчання 175 мільярдів параметрів GPT-3 зайняло 14,8 днів за допомогою 10 000 GPU V100, що еквівалентно 3,55 мільйонам годин роботи GPU. Такий високий рівень споживання енергії має значні екологічні наслідки.

3. Зберігання та управління даними

Великі мовні моделі навчаться на великих даних. Наприклад, GPT-3 було навчено на величезному корпусі текстових даних, включаючи Common Crawl, WebText2, Books1, Books2, Вікіпедію тощо. Значні інвестиції в інфраструктуру необхідні для збору, кураторства та зберігання цих даних.

Також потрібне хмарне сховище для зберігання даних, а також людський досвід для попередньої обробки даних та контролю версій. Крім того, забезпечення того, щоб ваша стратегія даних відповідала нормативним вимогам, таким як GDPR, також додає до витрат.

Техніка LiGO: зменшення вартості створення великих мовних моделей вдвічі

LiGO (оператор лінійного зростання) – це новий метод, розроблений дослідниками в MIT, для зменшення обчислювальних витрат навчання великих мовних моделей на 50%. Метод полягає в ініціалізації ваг великих моделей з ваг менших попередньо навчених моделей, що дозволяє ефективно масштабувати нейронні мережі.

Зображення з статті: Learning to Grow Pretrained Models For Efficient Transformer Training

Yoon Kim, старший автор статті, каже:

“Було оцінено, що навчання моделей у масштабі, подібному до того, на якому працює ChatGPT, може зайняти мільйони доларів лише за одну сесію навчання. Чи можемо ми покращити ефективність цих методів навчання, щоб отримати хороші моделі за менший час і за менші гроші? Ми пропонуємо зробити це, використовуючи менші мовні моделі, які раніше були навчені.”

Цей метод зберігає переваги великих моделей при зменшених обчислювальних витратах та часі навчання порівняно з навчанням великої моделі з нуля. LiGO використовує даних-орієнтований лінійний оператор зростання, який поєднує оператори глибини та ширини для оптимальної продуктивності.

У статті використовувалися різні набори даних для проведення текстових експериментів, включаючи англійський корпус Вікіпедії для навчання моделей BERT і RoBERTa, а також набір даних C4 для навчання моделі GPT2.

Експерименти з технікою LiGO включали розширення BERT-Small до BERT-Base, BERT-Base до BERT-Large, RoBERTa-Small до RoBERTa-Base, GPT2-Base до GPT2-Medium, а також CaiT-XS до CaiT-S.

Дослідники порівняли свій підхід з іншими базовими методами, включаючи навчання з нуля, прогресивне навчання, bert2BERT та KI.

Техніка LiGO пропонує 44,7% економії операцій з плаваючою точкою та 40,7% економії часу порівняно з навчанням BERT-Base з нуля шляхом повторного використання моделі BERT-Small. Оператор зростання LiGO перевершує StackBERT, MSLT, bert2BERT та KI в ефективному навчанні.

Переваги використання методу оптимізації навчання типу LiGO

LiGO – це ефективний метод навчання нейронних мереж, який має різні переваги:

1. Швидше навчання

Як вже зазначалося, швидше навчання – це основна перевага техніки LiGO. Вона тренує великі мовні моделі вдвічі швидше, збільшуючи продуктивність та зменшуючи витрати.

2. Ефективність ресурсів

LiGO є ефективним щодо ресурсів, оскільки мінімізує час та операції з плаваючою точкою, що призводить до більш економічного та екологічного підходу до навчання великих трансформерних моделей.

3. Універсальність

Техніка LiGO покращила продуктивність як мовних, так і візуальних трансформерних моделей, що свідчить про те, що це універсальний метод, який можна застосовувати до різних завдань.

Створення комерційних продуктів штучного інтелекту – це лише один аспект загальних витрат, пов’язаних з системами штучного інтелекту. Іншим значним компонентом витрат є щоденні операції. Наприклад, OpenAI витрачає близько $700 000 щодня, щоб відповідати на запити за допомогою ChatGPT. Дослідники очікується, що вони продовжуватимуть розробляти підходи, які зроблять великі мовні моделі економічними під час навчання та більш доступними під час виконання.

Для отримання більшої кількості інформації про штучний інтелект відвідайте unite.ai.