Π‘Π²ΡΠΆΠΈΡ‚Π΅ΡΡŒ с Π½Π°ΠΌΠΈ:

ПониманиС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ большого языка ΠΈ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠΉ ΠΊ памяти: Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ΅ ΠΏΠΎΠ³Ρ€ΡƒΠΆΠ΅Π½ΠΈΠ΅

Π˜ΡΠΊΡƒΡΡΡ‚Π²Π΅Π½Π½Ρ‹ΠΉ ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚

ПониманиС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ большого языка ΠΈ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠΉ ΠΊ памяти: Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ΅ ΠΏΠΎΠ³Ρ€ΡƒΠΆΠ΅Π½ΠΈΠ΅

mm
РасчСт ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π² LLM Π½Π° основС трансформатора

Π‘ΠΎΠ»ΡŒΡˆΠΈΠ΅ языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ (LLM) добились Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… успСхов Π² послСдниС Π³ΠΎΠ΄Ρ‹. Π’Π°ΠΊΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΊΠ°ΠΊ GPT-4, Gemini ΠΎΡ‚ Google ΠΈ Claude 3, ΡƒΡΡ‚Π°Π½Π°Π²Π»ΠΈΠ²Π°ΡŽΡ‚ Π½ΠΎΠ²Ρ‹Π΅ стандарты возмоТностСй ΠΈ ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ. Π­Ρ‚ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°ΡŽΡ‚ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ ΠΈ ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄ тСкста, Π½ΠΎ ΠΈ ΠΎΡ‚ΠΊΡ€Ρ‹Π²Π°ΡŽΡ‚ Π½ΠΎΠ²Ρ‹Π΅ Π³ΠΎΡ€ΠΈΠ·ΠΎΠ½Ρ‚Ρ‹ Π² ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅, объСдиняя тСкстовыС, графичСскиС, Π°ΡƒΠ΄ΠΈΠΎ- ΠΈ Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½Ρ‹Π΅ для создания Π±ΠΎΠ»Π΅Π΅ комплСксных Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ Π½Π° основС ИИ.

НапримСр, модСль GPT-4 ΠΎΡ‚ OpenAI продСмонстрировала Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ Π² ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠΈ ΠΈ создании тСкста, ΠΏΠΎΡ…ΠΎΠΆΠ΅Π³ΠΎ Π½Π° чСловСчСский, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ ΠΌΠΎΠ΄Π΅Π»ΠΈ Gemini ΠΎΡ‚ Google прСвосходно ΡΠΏΡ€Π°Π²Π»ΡΡŽΡ‚ΡΡ с ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΎΠΉ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Ρ‚ΠΈΠΏΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…, Π²ΠΊΠ»ΡŽΡ‡Π°Ρ тСкст, изобраТСния ΠΈ Π°ΡƒΠ΄ΠΈΠΎ, обСспСчивая Π±ΠΎΠ»Π΅Π΅ ΠΏΠ»Π°Π²Π½ΠΎΠ΅ ΠΈ контСкстно-Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½ΠΎΠ΅ взаимодСйствиС. Аналогичным ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΌΠΎΠ΄Π΅Π»ΠΈ Claude 3 ΠΎΡ‚ Anthropic извСстны своСй ΠΌΠ½ΠΎΠ³ΠΎΡΠ·Ρ‹Ρ‡Π½ΠΎΡΡ‚ΡŒΡŽ ΠΈ ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½Π½ΠΎΠΉ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒΡŽ ΠΏΡ€ΠΈ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠΈ Π·Π°Π΄Π°Ρ‡ ИИ.

ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅ LLM ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ‚ ΡƒΡΠΊΠΎΡ€ΡΡ‚ΡŒΡΡ, ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ тонкостСй этих ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, особСнно ΠΈΡ… ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠΉ ΠΊ памяти, становится Ρ€Π΅ΡˆΠ°ΡŽΡ‰ΠΈΠΌ. Π”Π°Π½Π½ΠΎΠ΅ руководство ΠΏΡ€ΠΈΠ·Π²Π°Π½ΠΎ ΠΏΡ€ΠΎΡΡΠ½ΠΈΡ‚ΡŒ эти аспСкты, прСдлагая ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎΠ΅ ΠΈ простоС для понимания объяснСниС.

ΠžΡΠ½ΠΎΠ²Ρ‹ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ большиС языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ?

Π‘ΠΎΠ»ΡŒΡˆΠΈΠ΅ языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” это Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Π΅ сСти, ΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Π½Π° ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹Ρ… Π½Π°Π±ΠΎΡ€Π°Ρ… Π΄Π°Π½Π½Ρ‹Ρ… для понимания ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ чСловСчСского языка. Они ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ΡΡ Π½Π° Ρ‚Π°ΠΊΠΈΠ΅ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹, ΠΊΠ°ΠΊ «ВрансформСры», ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Ρ‚Π°ΠΊΠΈΠ΅ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹, ΠΊΠ°ΠΊ самообслуТиваниС, для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΈ создания тСкста.

Π’Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π² LLM

ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΡΠ²Π»ΡΡŽΡ‚ΡΡ основными ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°ΠΌΠΈ этих ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Они Π²ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‚ Π² сСбя вСса ΠΈ смСщСния, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ модСль ΠΊΠΎΡ€Ρ€Π΅ΠΊΡ‚ΠΈΡ€ΡƒΠ΅Ρ‚ Π² процСссС обучСния для ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ ошибок ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΎΠ². ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² часто ΠΊΠΎΡ€Ρ€Π΅Π»ΠΈΡ€ΡƒΠ΅Ρ‚ с ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒΡŽ ΠΈ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒΡŽ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π½ΠΎ Ρ‚Π°ΠΊΠΆΠ΅ влияСт Π½Π° Π΅Ρ‘ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ рСсурсы ΠΈ трСбования ΠΊ памяти.

ПониманиС Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ трансформатора

ВрансформСры-Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°

ВрансформСры АрхитСктура

ΠžΠ±Π·ΠΎΡ€

АрхитСктура Transformer, прСдставлСнная Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ Васвани ΠΈ Π΄Ρ€. Β«Π’Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ β€” это всС, Ρ‡Ρ‚ΠΎ Π²Π°ΠΌ Π½ΡƒΠΆΠ½ΠΎΒ». (2017) стал основой для ΠΌΠ½ΠΎΠ³ΠΈΡ… ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌ LLM. Он состоит ΠΈΠ· ΠΊΠΎΠ΄Π΅Ρ€Π° ΠΈ Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Π°, ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΈΠ· ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… состоит ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹Ρ… слоСв.

ΠšΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ ΠΊΠΎΠ΄Π΅Ρ€Π° ΠΈ Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Π°

  • ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Ρ‰ΠΈΠΊ: ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ Π²Ρ…ΠΎΠ΄Π½ΡƒΡŽ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΈ создаСт контСкстно-зависимоС прСдставлСниС.
  • Π΄Π΅ΡˆΠΈΡ„Ρ€Π°Ρ‚ΠΎΡ€: Π“Π΅Π½Π΅Ρ€ΠΈΡ€ΡƒΠ΅Ρ‚ Π²Ρ‹Ρ…ΠΎΠ΄Π½ΡƒΡŽ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ прСдставлСниС ΠΊΠΎΠ΄ΠΈΡ€ΠΎΠ²Ρ‰ΠΈΠΊΠ° ΠΈ Ρ€Π°Π½Π΅Π΅ сгСнСрированныС Ρ‚ΠΎΠΊΠ΅Π½Ρ‹.

ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ ΡΡ‚Ρ€ΠΎΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π±Π»ΠΎΠΊΠΈ

  1. МногоголовоС Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅: позволяСт ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ Ρ„ΠΎΠΊΡƒΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π½Π° Ρ€Π°Π·Π½Ρ‹Ρ… частях Π²Ρ…ΠΎΠ΄Π½ΠΎΠΉ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ.
  2. НСйронныС сСти прямого распространСния: добавляСт ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΡΡ‚ΡŒ ΠΈ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ.
  3. Нормализация слоя: Π‘Ρ‚Π°Π±ΠΈΠ»ΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΈ ускоряСт Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΡƒ Π·Π° счСт Π½ΠΎΡ€ΠΌΠ°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΡ‡Π½Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ².

ВычислСниС количСства ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²

ВрансформаторноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅

ΠŸΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ для эффСктивного обучСния трансформаторов

РасчСт ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π² LLM Π½Π° основС трансформатора

Π”Π°Π²Π°ΠΉΡ‚Π΅ Ρ€Π°Π·Π±Π΅Ρ€Ρ‘ΠΌ расчёт ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ LLM Π½Π° основС Transformer. Π‘ΡƒΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ обозначСния ΠΈΠ· ΠΎΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½ΠΎΠΉ ΡΡ‚Π°Ρ‚ΡŒΠΈ, Π³Π΄Π΅ d_model прСдставляСт собой Ρ€Π°Π·ΠΌΠ΅Ρ€Π½ΠΎΡΡ‚ΡŒ скрытых состояний ΠΌΠΎΠ΄Π΅Π»ΠΈ.

  1. ВстраиваниС слоя:
    • ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ = vocab_size * d_model
  2. МногоголовоС вниманиС:
    • Для ΠΏΠ°ΠΊΠ΅Ρ‚ΠΎΠ² h Π³ΠΎΠ»ΠΎΠ²Ρ‹, с d_k = d_v = d_model / h:
    • ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ = 4 * d_model^ 2 (для Q, K, V ΠΈ ΠΏΡ€ΠΎΠ³Π½ΠΎΠ·ΠΎΠ² Π²Ρ‹Ρ…ΠΎΠ΄Π°)
  3. Π‘Π΅Ρ‚ΡŒ прямой связи:
    • ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ = 2 * d_model * d_ff + d_model + d_ff
    • Π³Π΄Π΅ d_ff ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ 4 * d_model
  4. Нормализация слоя:
    • ΠŸΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ = 2 * d_model (для ΠΌΠ°ΡΡˆΡ‚Π°Π±Π° ΠΈ прСдвзятости)

ΠžΠ±Ρ‰ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ для ΠΎΠ΄Π½ΠΎΠ³ΠΎ слоя ВрансформСра:

  • Parameters_layer = Parameters_attention + Parameters_ffn + 2 * Parameters_layernorm

Для ΠΌΠΎΠ΄Π΅Π»ΠΈ с N слои:

  • ΠžΠ±Ρ‰ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ = N * Parameters_layer + Parameters_embedding + Parameters_output

ΠŸΡ€ΠΈΠΌΠ΅Ρ€ расчСта

Рассмотрим модСль со ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌΠΈ характСристиками:

  • d_model = 768
  • h (количСство Π³ΠΎΠ»ΠΎΠ² внимания) = 12
  • N (количСство слоСв) = 12
  • vocab_size = 50,000
  1. ВстраиваниС слоя:
    • 50,000 * 768 = 38,400,000
  2. МногоголовоС вниманиС:
    • 4 * 768^2 = 2,359,296
  3. Π‘Π΅Ρ‚ΡŒ прямой связи:
    • 2 * 768 * (4 * 768) + 768 + (4 * 768) = 4,719,616 XNUMX XNUMX
  4. Нормализация слоя:
    • 2 * 768 = 1,536

ΠžΠ±Ρ‰ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ Π½Π° слой:

  • 2,359,296 4,719,616 2 + 1,536 7,081,984 XNUMX + (XNUMX * XNUMX XNUMX) = XNUMX XNUMX XNUMX

ΠžΠ±Ρ‰ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ для 12 слоСв:

  • 12 * 7,081,984 = 84,983,808

ΠžΠ±Ρ‰ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

  • 84,983,808 + 38,400,000 = 123,383,808

Π­Ρ‚Π° модСль Π±ΡƒΠ΄Π΅Ρ‚ ΠΈΠΌΠ΅Ρ‚ΡŒ ΠΎΠΊΠΎΠ»ΠΎ 123 ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ².

Π’ΠΈΠΏΡ‹ использования памяти

ΠŸΡ€ΠΈ Ρ€Π°Π±ΠΎΡ‚Π΅ с LLM Π½Π°ΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Ρ‚ΡŒ Π΄Π²Π° основных Ρ‚ΠΈΠΏΠ° использования памяти:

  1. МодСль памяти: ΠŸΠ°ΠΌΡΡ‚ΡŒ, нСобходимая для хранСния ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ.
  2. Π Π°Π±ΠΎΡ‡Π΅ΠΉ памяти: ΠΏΠ°ΠΌΡΡ‚ΡŒ, нСобходимая Π²ΠΎ врСмя Π²Ρ‹Π²ΠΎΠ΄Π° ΠΈΠ»ΠΈ обучСния для хранСния ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΡ‡Π½Ρ‹Ρ… Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΉ, Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΈ состояний ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π°.

РасчСт памяти ΠΌΠΎΠ΄Π΅Π»ΠΈ

ΠŸΠ°ΠΌΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ связана с количСством ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ хранится Π² Π²ΠΈΠ΄Π΅ 32-Π±ΠΈΡ‚Π½ΠΎΠ³ΠΎ числа с ΠΏΠ»Π°Π²Π°ΡŽΡ‰Π΅ΠΉ запятой, хотя Π² Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… модСлях ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ смСшанной точности с 16-Π±ΠΈΡ‚Π½Ρ‹ΠΌΠΈ числами с ΠΏΠ»Π°Π²Π°ΡŽΡ‰Π΅ΠΉ запятой.

ΠŸΠ°ΠΌΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ (Π±Π°ΠΉΡ‚Ρ‹) = количСство ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² * Π±Π°ΠΉΡ‚ Π½Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€

Для нашСй ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ со 123 ΠΌΠΈΠ»Π»ΠΈΠΎΠ½Π°ΠΌΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²:

  • ΠŸΠ°ΠΌΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ (32-битная) = 123,383,808 4 493,535,232 * 494 Π±Π°ΠΉΡ‚Π° = XNUMX XNUMX XNUMX Π±Π°ΠΉΡ‚Π° β‰ˆ XNUMX ΠœΠ‘
  • ΠŸΠ°ΠΌΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ (16-битная) = 123,383,808 2 246,767,616 * 247 Π±Π°ΠΉΡ‚Π° = XNUMX XNUMX XNUMX Π±Π°ΠΉΡ‚Π° β‰ˆ XNUMX ΠœΠ‘

ΠžΡ†Π΅Π½ΠΊΠ° Ρ€Π°Π±ΠΎΡ‡Π΅ΠΉ памяти

ВрСбования ΠΊ Ρ€Π°Π±ΠΎΡ‡Π΅ΠΉ памяти ΠΌΠΎΠ³ΡƒΡ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Π»ΠΈΡ‡Π°Ρ‚ΡŒΡΡ Π² зависимости ΠΎΡ‚ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ, Ρ€Π°Π·ΠΌΠ΅Ρ€Π° ΠΏΠ°ΠΊΠ΅Ρ‚Π° ΠΈ Π΄Π»ΠΈΠ½Ρ‹ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ. Грубая ΠΎΡ†Π΅Π½ΠΊΠ° Ρ€Π°Π±ΠΎΡ‡Π΅ΠΉ памяти Π²ΠΎ врСмя Π²Ρ‹Π²ΠΎΠ΄Π°:

Рабочая ΠΏΠ°ΠΌΡΡ‚ΡŒ β‰ˆ 2 * ΠŸΠ°ΠΌΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ

Π­Ρ‚ΠΎ ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Π΅Ρ‚ сохранСниС ΠΊΠ°ΠΊ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ‚Π°ΠΊ ΠΈ ΠΏΡ€ΠΎΠΌΠ΅ΠΆΡƒΡ‚ΠΎΡ‡Π½Ρ‹Ρ… Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΉ. Π’ΠΎ врСмя обучСния трСбования ΠΊ памяти ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ Π΅Ρ‰Π΅ Π²Ρ‹ΡˆΠ΅ ΠΈΠ·-Π·Π° нСобходимости Ρ…Ρ€Π°Π½ΠΈΡ‚ΡŒ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹ ΠΈ состояния ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π°:

ВрСнировочная ΠΏΠ°ΠΌΡΡ‚ΡŒ β‰ˆ 4 * МодСльная ΠΏΠ°ΠΌΡΡ‚ΡŒ

Для нашСй ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

  • Рабочая ΠΏΠ°ΠΌΡΡ‚ΡŒ Π²Ρ‹Π²ΠΎΠ΄Π° β‰ˆ 2 * 494 ΠœΠ‘ = 988 ΠœΠ‘ β‰ˆ 1 Π“Π‘
  • ВрСнировочная ΠΏΠ°ΠΌΡΡ‚ΡŒ β‰ˆ 4 * 494 ΠœΠ‘ = 1,976 ΠœΠ‘ β‰ˆ 2 Π“Π‘

УстойчивоС использованиС памяти ΠΈ ΠΏΠΈΠΊΠΎΠ²ΠΎΠ΅ использованиС памяти

ΠŸΡ€ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π½Π° основС Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ Transformer ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ использования памяти критичСски Π²Π°ΠΆΠ½ΠΎ для эффСктивного распрСдСлСния рСсурсов. Π”Π°Π²Π°ΠΉΡ‚Π΅ Ρ€Π°Π·Π΄Π΅Π»ΠΈΠΌ трСбования ΠΊ памяти Π½Π° Π΄Π²Π΅ основныС ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ: использованиС памяти Π² устойчивом состоянии ΠΈ ΠΏΠΈΠΊΠΎΠ²ΠΎΠ΅ использованиС памяти.

УстойчивоС использованиС памяти

Π‘Ρ‚Π°Ρ†ΠΈΠΎΠ½Π°Ρ€Π½ΠΎΠ΅ использованиС памяти Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π² сСбя ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹:

  1. ВСс ΠΌΠΎΠ΄Π΅Π»ΠΈ: ΠΊΠΎΠΏΠΈΠΈ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠ΄Π΅Π»ΠΈ FP32, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰ΠΈΠ΅ 4N Π±Π°ΠΉΡ‚, Π³Π΄Π΅ N β€” количСство ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ².
  2. Бостояния ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π°: Для ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ‚ΠΎΡ€Π° Адама это Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ 8N Π±Π°ΠΉΡ‚ (2 состояния Π½Π° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€).
  3. Π“Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹: ΠΊΠΎΠΏΠΈΠΈ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² FP32, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰ΠΈΠ΅ 4N Π±Π°ΠΉΡ‚.
  4. Π’Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅: ΠŸΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Ρ, Ρ‡Ρ‚ΠΎ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ Ρ‚ΠΈΠΏ int64, для этого трСбуСтся 8BD Π±Π°ΠΉΡ‚, Π³Π΄Π΅ B β€” Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΏΠ°ΠΊΠ΅Ρ‚Π°, Π° D β€” Π²Ρ…ΠΎΠ΄Π½ΠΎΠ΅ ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅.

ΠžΠ±Ρ‰Π΅Π΅ использованиС памяти Π² устойчивом состоянии ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠ±Π»ΠΈΠ·ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

  • M_steady = 16N + 8BD Π±Π°ΠΉΡ‚

ИспользованиС ΠΏΠΈΠΊΠΎΠ²ΠΎΠΉ памяти

ПиковоС использованиС памяти происходит Π²ΠΎ врСмя ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΡ…ΠΎΠ΄Π°, ΠΊΠΎΠ³Π΄Π° ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‚ΡΡ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ для вычислСния Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°. ΠžΡΠ½ΠΎΠ²Π½Ρ‹ΠΌΠΈ Ρ„Π°ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ, Π²Π»ΠΈΡΡŽΡ‰ΠΈΠΌΠΈ Π½Π° ΠΏΠΈΠΊΠΎΠ²ΡƒΡŽ ΠΏΠ°ΠΌΡΡ‚ΡŒ, ΡΠ²Π»ΡΡŽΡ‚ΡΡ:

  1. Нормализация слоя: трСбуСтся 4E Π±Π°ΠΉΡ‚Π° Π½Π° Π½ΠΎΡ€ΠΌΡƒ слоя, Π³Π΄Π΅ E = BSH (B: Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΏΠ°ΠΊΠ΅Ρ‚Π°, S: Π΄Π»ΠΈΠ½Π° ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, H: скрытый Ρ€Π°Π·ΠΌΠ΅Ρ€).
  2. Π‘Π»ΠΎΠΊ внимания:
    • ВычислСниС QKV: 2E Π±Π°ΠΉΡ‚Π°
    • ΠœΠ°Ρ‚Ρ€ΠΈΡ†Π° внимания: 4 Π±Π°ΠΉΡ‚Π° BSS (S: Π΄Π»ΠΈΠ½Π° ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ)
    • Π’Ρ‹Ρ…ΠΎΠ΄ внимания: 2E Π±Π°ΠΉΡ‚Π°
  3. Π‘Π»ΠΎΠΊ прямой связи:
    • ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΉ ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ: 2E Π±Π°ΠΉΡ‚Π°.
    • Активация GELU: 8E Π±Π°ΠΉΡ‚
    • Π’Ρ‚ΠΎΡ€ΠΎΠΉ Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΉ ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ: 2E Π±Π°ΠΉΡ‚Π°.
  4. ΠšΡ€ΠΎΡΡ-энтропийная потСря:
    • Π›ΠΎΠ³ΠΈΡ‚Ρ‹: 6BSV Π±Π°ΠΉΡ‚ (V: Ρ€Π°Π·ΠΌΠ΅Ρ€ словаря)

ΠžΠ±Ρ‰ΠΈΠΉ объСм памяти Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ ΠΊΠ°ΠΊ:

  • M_act = L * (14E + 4BSS) + 6BSV Π±Π°ΠΉΡ‚

Π“Π΄Π΅ L β€” количСство слоСв трансформатора.

ΠžΠ±Ρ‰Π΅Π΅ ΠΏΠΈΠΊΠΎΠ²ΠΎΠ΅ использованиС памяти

ПиковоС использованиС памяти Π²ΠΎ врСмя Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠ±Π»ΠΈΠ·ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ, объСдинив ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΡƒΡŽ ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΈ ΠΏΠ°ΠΌΡΡ‚ΡŒ Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ:

  • M_peak = M_steady + M_act + 4BSV Π±Π°ΠΉΡ‚Π°

Π”ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ 4BSV ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°Π΅Ρ‚ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ Π²Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π² Π½Π°Ρ‡Π°Π»Π΅ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΡ…ΠΎΠ΄Π°.

Понимая эти ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹, ΠΌΡ‹ ΠΌΠΎΠΆΠ΅ΠΌ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ использованиС памяти Π²ΠΎ врСмя обучСния ΠΈ Π²Ρ‹Π²ΠΎΠ΄Π°, обСспСчивая эффСктивноС распрСдСлСниС рСсурсов ΠΈ ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

Π—Π°ΠΊΠΎΠ½Ρ‹ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡ ΠΈ сообраТСния эффСктивности

 Π—Π°ΠΊΠΎΠ½Ρ‹ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡ для LLM

ИсслСдования ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ LLM ΠΈΠΌΠ΅Π΅Ρ‚ Ρ‚Π΅Π½Π΄Π΅Π½Ρ†ΠΈΡŽ ΠΏΠΎΠ΄Ρ‡ΠΈΠ½ΡΡ‚ΡŒΡΡ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΌ Π·Π°ΠΊΠΎΠ½Π°ΠΌ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡ ΠΏΠΎ ΠΌΠ΅Ρ€Π΅ увСличСния количСства ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². Каплан ΠΈ Π΄Ρ€. (2020) Π·Π°ΠΌΠ΅Ρ‚ΠΈΠ»ΠΈ, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ΡΡ ΠΏΠΎ стСпСнному Π·Π°ΠΊΠΎΠ½Ρƒ количСства ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ Π±ΡŽΠ΄ΠΆΠ΅Ρ‚Π° ΠΈ Ρ€Π°Π·ΠΌΠ΅Ρ€Π° Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ….

Π’Π·Π°ΠΈΠΌΠΎΡΠ²ΡΠ·ΡŒ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒΡŽ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ количСством ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΌΠΎΠΆΠ½ΠΎ Π°ΠΏΠΏΡ€ΠΎΠΊΡΠΈΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ:

ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ ∝ N^Ξ±

Π“Π΄Π΅ N β€” количСство ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π° Ξ± β€” ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡ, ΠΎΠ±Ρ‹Ρ‡Π½ΠΎ ΠΎΠΊΠΎΠ»ΠΎ 0.07 для Π·Π°Π΄Π°Ρ‡ модСлирования языка.

Π­Ρ‚ΠΎ ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ для достиТСния ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ Π½Π° 10% Π½Π°ΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΡ‚ΡŒ количСство ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π² 10^(1/Ξ±) β‰ˆ 3.7 Ρ€Π°Π·Π°.

ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ эффСктивности

ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ LLM ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ‚ расти, исслСдоватСли ΠΈ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΈ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π»ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ эффСктивности:

a) Π’Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠ° смСшанной точности: использованиС 16-Π±ΠΈΡ‚Π½Ρ‹Ρ… ΠΈΠ»ΠΈ Π΄Π°ΠΆΠ΅ 8-Π±ΠΈΡ‚Π½Ρ‹Ρ… чисСл с ΠΏΠ»Π°Π²Π°ΡŽΡ‰Π΅ΠΉ запятой для ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Ρ… ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΉ для ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΡ использования памяти ΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠΉ.

b) ΠŸΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌ ΠΌΠΎΠ΄Π΅Π»ΠΈ: РаспрСдСлСниС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎ нСскольким графичСским процСссорам ΠΈΠ»ΠΈ TPU для ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π±ΠΎΠ»Π΅Π΅ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, Ρ‡Π΅ΠΌ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΏΠΎΠΌΠ΅ΡΡ‚ΠΈΡ‚ΡŒΡΡ Π½Π° ΠΎΠ΄Π½ΠΎΠΌ устройствС.

c) ГрадиСнтная ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ Ρ‚ΠΎΡ‡ΠΊΠ°: ОбмСн вычислСний Π½Π° ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΏΡƒΡ‚Π΅ΠΌ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ расчСта ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Ρ… Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΉ Π²ΠΎ врСмя ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎΠ³ΠΎ ΠΏΡ€ΠΎΡ…ΠΎΠ΄Π° вмСсто ΠΈΡ… сохранСния.

d) ΠžΡ‚ΡΠ΅Ρ‡Π΅Π½ΠΈΠ΅ ΠΈ ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅: ΡƒΠ΄Π°Π»Π΅Π½ΠΈΠ΅ ΠΌΠ΅Π½Π΅Π΅ Π²Π°ΠΆΠ½Ρ‹Ρ… вСсов ΠΈΠ»ΠΈ сниТСниС ΠΈΡ… точности послС Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ для создания ΠΌΠ΅Π½ΡŒΡˆΠΈΡ… ΠΏΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ€Ρƒ ΠΈ Π±ΠΎΠ»Π΅Π΅ эффСктивных ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

e) ΠŸΠ΅Ρ€Π΅Π³ΠΎΠ½ΠΊΠ°: ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΌΠ΅Π½ΡŒΡˆΠΈΡ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈΠΌΠΈΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ повСдСния Π±ΠΎΠ»Π΅Π΅ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ сохраняя Π±ΠΎΠ»ΡŒΡˆΡƒΡŽ Ρ‡Π°ΡΡ‚ΡŒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΏΡ€ΠΈ мСньшСм количСствС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ².

ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ ΠΈ расчСты

GPT-3, ΠΎΠ΄Π½Π° ΠΈΠ· ΠΊΡ€ΡƒΠΏΠ½Π΅ΠΉΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΈΠΌΠ΅Π΅Ρ‚ 175 ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄ΠΎΠ² ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². Он ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Π½ΡƒΡŽ Ρ‡Π°ΡΡ‚ΡŒ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ Transformer. Π§Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ½ΡΡ‚ΡŒ Π΅Π³ΠΎ ΠΌΠ°ΡΡˆΡ‚Π°Π±, Π΄Π°Π²Π°ΠΉΡ‚Π΅ Ρ€Π°Π·ΠΎΠ±ΡŒΠ΅ΠΌ количСство ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π½Π° гипотСтичСскиС значСния:

  • d_model = 12288
  • d_ff = 4 * 12288 = 49152
  • ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ слоСв = 96

Для ΠΎΠ΄Π½ΠΎΠ³ΠΎ слоя Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Π°:

ΠžΠ±Ρ‰ΠΈΠ΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ = 8 * 12288^2 + 8 * 12288 * 49152 + 2 * 12288 β‰ˆ 1.1 ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π°.

Π˜Ρ‚ΠΎΠ³ΠΎ для 96 слоСв:

1.1 ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄ * 96 = 105.6 ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π°

ΠžΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ бСрутся ΠΈΠ· встраивания ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΡ… ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠ².

Π—Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅

ПониманиС ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠΉ ΠΊ памяти Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈΠΌΠ΅Π΅Ρ‚ Ρ€Π΅ΡˆΠ°ΡŽΡ‰Π΅Π΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ для эффСктивного проСктирования, обучСния ΠΈ развСртывания этих ΠΌΠΎΡ‰Π½Ρ‹Ρ… инструмСнтов. Разбирая ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ Transformer ΠΈ изучая практичСскиС ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ GPT, ΠΌΡ‹ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌ Π±ΠΎΠ»Π΅Π΅ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ΅ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ слоТности ΠΈ ΠΌΠ°ΡΡˆΡ‚Π°Π±Π° этих ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

Π§Ρ‚ΠΎΠ±Ρ‹ Π»ΡƒΡ‡ΡˆΠ΅ ΠΏΠΎΠ½ΡΡ‚ΡŒ послСдниС достиТСния Π² области Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ ΠΈΡ… ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ, ΠΎΠ·Π½Π°ΠΊΠΎΠΌΡŒΡ‚Π΅ΡΡŒ с этими ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Ρ‹ΠΌΠΈ руководствами:

ПослСдниС ΠΏΡΡ‚ΡŒ Π»Π΅Ρ‚ я погруТался Π² ΡƒΠ²Π»Π΅ΠΊΠ°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠΈΡ€ машинного обучСния ΠΈ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ обучСния. Моя ΡΡ‚Ρ€Π°ΡΡ‚ΡŒ ΠΈ ΠΎΠΏΡ‹Ρ‚ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΠ»ΠΈ ΠΌΠ½Π΅ ΠΏΡ€ΠΈΠ½ΡΡ‚ΡŒ участиС Π² Π±ΠΎΠ»Π΅Π΅ Ρ‡Π΅ΠΌ 50 Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°Ρ… ΠΏΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠ½ΠΎΠ³ΠΎ обСспСчСния, удСляя особоС Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ AI/ML. МоС постоянноС Π»ΡŽΠ±ΠΎΠΏΡ‹Ρ‚ΡΡ‚Π²ΠΎ Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΡ€ΠΈΠ²Π»Π΅ΠΊΠ»ΠΎ мСня ΠΊ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ СстСствСнного языка, области, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ я ΠΎΡ‡Π΅Π½ΡŒ Ρ…ΠΎΡ‡Ρƒ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚ΡŒ дальшС.