Îstîxbaratê ya sûnî

Hûn dikarin Modelên Zimanên Mezin Mîna ChatGPT Bi Nîv Mesrefê Ava bikin?

Published

mehan 12 ago

Bila 11, 2023

Modelên Zimanên Mezin (LLM) mîna GPT-3 û ChatGPT bi pêşkêşkirina têgihîştina Zimanê xwezayî û kapasîteyên hilberîna naverokê ve AI-ê şoreş kirin. Lê pêşkeftina wan bi bihayek giran tê ku gihîştin û lêkolîna bêtir sînordar dike. Lekolînwan texmîn dikin ku perwerdehiya GPT-3 li dora OpenAI-yê mesref dike 5 mîlyon $. Lêbelê, Microsoft potansiyel nas kir û veberhênan kir 1 milyar $ li 2019 û 10 milyar $ di sala 2023-an de di veberhênana GPT-3 û ChatGPT ya OpenAI de.

LLM modelên fêrbûna makîneyê ne ku ji bo serîlêdanên NLP li ser daneyên tekstî yên berfireh hatine perwerde kirin. Ew li ser mîmariya veguherîner in û mekanîzmayên baldariyê ji bo karên NLP-ê yên wekî pirs-bersiv, wergerandina makîneyê, analîzkirina hestê, hwd bikar tînin.

Pirs derdikeve holê: gelo karbidestiya van modelên mezin dikare were zêdekirin dema ku di heman demê de lêçûna hesabkerî û dema perwerdehiyê kêm bike?

Gelek nêzîkatî, wek Torên Neuralî yên Pêşverû, Morfîzma Torê, paralelîzma modela hundurîn, mîrata zanînêû hwd., Ji bo kêmkirina lêçûna hesabker a perwerdehiya torên neuralî hatine pêşve xistin. Roman LiGO Nêzîkatiya (Operatorê Mezinbûna Rêzik) ku em ê nîqaş bikin danîna pîvanek nû ye. Ew lêçûna hesabkirinê ya perwerdehiya LLM-an nîvî dike.

Berî nîqaşkirina vê teknîkê, vekolîna faktorên ku beşdarî nirxa bilind a çêkirina LLM-an dibin girîng e.

Mesrefa Avakirina Modelên Zimanên Mezin

Sê lêçûnên sereke ji bo pêşkeftina LLM-an wiha ne:

1. Çavkaniyên Computational

Avakirina LLM-yan ji bo perwerdehiya li ser danehevên mezin hewceyê çavkaniyên hesabker ên girseyî hewce dike. Pêdivî ye ku ew bi mîlyaran parametreyan bişopînin û ji daneyên pirjimar ên nivîsê nimûneyên tevlihev fêr bibin.

Veberhênana di hardware pispor de wek Yekîneyên Pêvajoya Grafîkê (GPUs) û Yekîneyên Pêvajoya Tensor (TPU) ji bo avakirin û perwerdekirina LLM-an hewce ne ku performansa herî pêşkeftî bi dest bixin.

Mînakî, GPT-3 li ser yek hate perwerde kirin supercomputer bi 10000 GPU-yên pola pargîdanî (H100 û A100) û 285,000 core CPU.

2. Vexwarina Enerjiyê

Çavkaniyên hesabker ên zexm ên ku ji bo avakirina LLM-an hewce ne, di encama xerckirina enerjiyê ya girîng de ne. Mînakî, perwerdehiya 175 mîlyar parametreyên GPT-3 girt rojan 14.8 bikaranîna 10,000 V100 GPU, bi qasî 3.55 mîlyon demjimêrên GPU. Asta bilind a xerckirina enerjiyê bandorên girîng ên jîngehê jî dike.

3. Data Storage & Management

LLM li ser daneyên mezin têne perwerde kirin. Mînakî, GPT-3 li ser pirfirehiya nivîsê hate perwerde kirin jimare, di nav çavkaniyên din de Common Crawl, WebText2, Books1, Books2, û Wikipedia jî hene. Veberhênana binesaziyê ya girîng ji bo berhevkirin, berhevkirin û hilanîna van danezan hewce ye.

Di heman demê de, hilanîna cloudê ji bo hilanîna daneyê, û pisporiya mirovî ji bo pêşdibistanên daneyê û kontrolkirina guhertoyê hewce ye. Digel vê yekê, piştrastkirina ku stratejiya daneya we bi rêzikên mîna GDPR re tevdigere jî lêçûn zêde dike.

Teknîkî LiGO: Mesrefa Avakirina Modelên Zimanên Mezin Nîvê Bikin

LiGO (Linear Growth Operator) teknîkek nû ye ku ji hêla lêkolînerên li MIT-ê ve hatî pêşve xistin da ku lêçûnên jimartinê yên perwerdehiya LLM-an ji sedî 50 kêm bike. Rêbaz bi destpêkirina giraniya modelên mezintir ji yên modelên piçûktir ên pêş-perwerdekirî re vedihewîne, ku pîvandina bikêrhatî ya torên neuralî dike.

Wêne ji Kaxezê: Fêrbûna Mezinbûna Modelên Pêş-perwerdekirî Ji bo Perwerdehiya Transformer a Bibandor

Yoon Kim, nivîskarê payebilind ê rojnameyê, dibêje:

"Tê texmîn kirin ku modelên perwerdehiyê bi pîvana ku ChatGPT tê texmîn kirin ku li ser bixebite dikare bi mîlyonan dolaran tenê ji bo yek perwerdehiyê bigire. Ma em dikarin karbidestiya van rêbazên perwerdehiyê baştir bikin, da ku em hîn jî di demek hindik de û bi drav kêmtir modelên baş bistînin? Em pêşniyar dikin ku em vê yekê bi karanîna modelên zimanên piçûk ên ku berê hatine perwerde kirin bikin."

Ev rêbaz feydeyên performansê yên modelên mezin bi kêmkirina lêçûn û dema perwerdehiyê re li gorî perwerdekirina modelek mezin ji nû ve diparêze. LiGO operatorek mezinbûna xêzik-rêveber a daneyê bikar tîne ku ji bo performansa çêtirîn operatorên kûrahî û firehiyê bi hev re dike.

Kaxezê ji bo ceribandinên li ser bingeha nivîsê, di nav de korpusa Wîkîpediya îngilîzî ya ji bo perwerdekirina modelên BERT û RoBERTa û databasa C4 ji bo perwerdekirina GPT2, gelek danehevan bikar anî.

Ceribandina teknîka LiGO di nav xwe de mezinbûna BERT-Small ber BERT-Base, BERT-Base ber BERT-Large, RoBERTaSmall ber RoBERTa-Base, GPT2-Base heya GPT2-Medium, û CaiT-XS heya CaiT-S.

Lekolînwan nêzîkatiya xwe bi gelek bingehên din re berhev kirin, di nav de perwerdehiya ji sifirê, perwerdehiya pêşkeftî, bert2BERT, û KI.

Teknîka LiGO 44.7% teserûf di FLOP-an de (operasyonên xala herikandinê di çirkeyê de) û 40.7% teserûf di dema dîwar de li gorî perwerdehiya BERT-Base ji nû ve bi karanîna modela BERT-Small ji nû ve pêşkêş kir. Operatorê mezinbûna LiGO di perwerdehiya bikêrhatî de ji StackBERT, MSLT, bert2BERT, û KI derdixe.

Feydeyên Bikaranîna Teknîkî Optimîzasyona Perwerdehiyê Mîna LiGO

LiGO rêbazek perwerdehiya tora neuralî ya bikêr e ku xwedan feydeyên cihêreng ên jêrîn e:

1. Perwerdehiya Leztir

Wekî ku berê hate gotin, perwerdehiya zûtir avantaja sereke ya teknîka LiGO ye. Ew LLM-an di nîvê demê de perwerde dike, hilberîneriyê zêde dike û lêçûn kêm dike.

2. Çavkaniyên bi bandor

LiGO-çavkaniyek bikêrhatî ye ji ber ku ew dema dîwar û FLOP-an kêm dike, ji bo perwerdekirina modelên veguherîner ên mezin rê li ber nêzîkatiyek bihatir û ekolojîk-dostane vedike.

3. Giştîkirin

Teknolojiya LiGO performansa hem veguherînerên ziman û hem jî yên dîtbarî çêtir kiriye û destnîşan dike ku ew teknîkek gelemperî ye ku dikare li karên cihêreng were sepandin.

Avakirina hilberên bazirganî yên AI-ê tenê yek rûçikek lêçûnên giştî ye ku bi pergalên AI-ê ve girêdayî ye. Parçeyek din a girîng a lêçûnên ji karûbarên rojane tê. Mînakî, mesrefa wê OpenAI-yê ye $700,000 her roj bi karanîna ChatGPT bersiva pirsan bidin. Tê payîn ku lêkolîner lêkolîna nêzîkatiyên ku LLM-an di dema perwerdehiyê de lêçûn-bandor dikin û di dema xebitandinê de bêtir bigihînin bidomînin.

Ji bo bêtir naveroka têkildarî AI-ê, biçin yekbûn.ai.