Tá fiontair sa lá atá inniu ann ag iniúchadh níos mó bealaí chun samhlacha móra teanga (LLManna) a ghiaráil chun táirgiúlacht a mhéadú agus feidhmchláir éirimiúla a chruthú. Mar sin féin, is samhlacha cineálacha iad go leor de na roghanna LLM atá ar fáil nach bhfuil curtha in oiriúint do shainriachtanais fiontair amhail anailís sonraí, códú agus uathoibriú tascanna. Cuir isteach Artach gcáithnínísneachta – LLM úrscothach atá deartha agus optamaithe go sainiúil le haghaidh cásanna croí-úsáide fiontair.
Arna fhorbairt ag an bhfoireann taighde AI ag Snowflake, brúnn an tArtach teorainneacha an méid is féidir le hoiliúint éifeachtach, cost-éifeachtúlacht, agus leibhéal oscailteachta gan sárú. Tá an tsamhail réabhlóideach seo ar fheabhas ar phríomhthagarmharcanna fiontair agus éilíonn sé i bhfad níos lú cumhachta ríomhaireachta i gcomparáid le LLManna reatha. Léimid an rud a dhéanann an tArtach ina mhalartóir cluiche d’fhiontar AI.
Faisnéis Fhiontraíochta Athshainithe Ina chroílár, tá Artach dírithe ar léasair ar fheidhmíocht eisceachtúil a sheachadadh ar mhéadracht atá fíorthábhachtach d’fhiontair – códú, fiosrú SQL, teagasc casta ag leanúint, agus aschuir bunaithe ar fhíricí a tháirgeadh. Chuir an gcáithnínísneachta na cumais ríthábhachtacha seo le chéile in úrscéal "faisnéis fiontraíochta” méadrach.
Labhraíonn na torthaí ar a son féin. Buaileann Artach le samhlacha cosúil le LLAMA 7B agus LLAMA 70B ar thagarmharcanna faisnéise fiontair nó sáraíonn siad iad agus é ag baint úsáide as níos lú ná leath den bhuiséad ríomhaireachta le haghaidh oiliúna. Go hiontach, in ainneoin úsáid a bhaint as 17 n-uaire níos lú acmhainní ríofa ná LLAMA 70B, Baineann an tArtach paireacht amach ar thástálacha speisialaithe amhail códú (HumanEval+, MBPP+), giniúint SQL (Spider), agus teagasc a leanann (IFEval).
Ach téann cumas Artach níos faide ná tagarmharcanna fiontair a fheidhmiú. Coinníonn sé feidhmíocht láidir ar fud na tuisceana ginearálta teanga, an réasúnaíocht agus an inniúlacht mhatamaiticiúil i gcomparáid le samhlacha atá oilte le buiséid ríomh easpónantúla níos airde mar DBRX. Mar gheall ar an gcumas iomlánaíoch seo is rogha gan sárú é an tArtach chun dul i ngleic le riachtanais éagsúla AI an fhiontair.
An Nuálaíocht
Claochladán Dlúth-MoE Hibrideach Mar sin, conas a chruthaigh foireann na gcáithníní Sneachta LLM a bhí thar a bheith cumasach ach éifeachtach? Tá an freagra in ailtireacht cheannródaíoch Artach Meascán de Shaineolaithe Hibrideach (MoE).
Éiríonn samhlacha traidisiúnta claochladán dlúth níos costasaí le hoiliúint de réir mar a mhéadaíonn a méid, agus méadú líneach ar riachtanais ríomhaireachtúla. Cuidíonn an dearadh MoE é seo a shárú trí úsáid a bhaint as illíonraí comhthreomhaire ar aghaidh chun cinn (saineolaithe) agus gan ach fo-thacar a ghníomhachtú do gach comhartha ionchuir.
Mar sin féin, ní leor ach ailtireacht MoE a úsáid - comhcheanglaíonn Artach láidreachtaí na gcomhpháirteanna dlútha agus MoE araon go hinniúil. Péireálann sé ionchódóir claochladán dlúth 10 billiún paraiméadar le ciseal perceptron ilchiseal MoE iarmharach 128 (MLP). Is ionann an tsamhail dlúth hibrideach MoE seo agus 480 billiún paraiméadair ach níl ach 17 billiún gníomhach ag aon am ar leith ag baint úsáide as geataí barr-2.
Tá na himpleachtaí as cuimse – baineann an tArtach cáilíocht agus cumas samhail amach gan fasach agus fanann sé thar a bheith éifeachtach ó thaobh ríomhaireacht de le linn oiliúna agus tátail. Mar shampla, tá 50% níos lú paraiméadair ghníomhacha ag Artach ná samhlacha cosúil le DBRX le linn tátail.
Ach níl san ailtireacht mhúnla ach cuid amháin den scéal. Tá sármhaitheas Artach mar bhuaic ar roinnt teicníochtaí agus léargais cheannródaíocha a d’fhorbair an fhoireann taighde Snowflake:
- Curaclam Sonraí Oiliúna atá Dírithe ar Fhiontar Trí thurgnamh fairsing, fuair an fhoireann amach gur cheart scileanna cineálacha cosúil le réasúnaíocht chiallmhar a fhoghlaim go luath, agus is fearr speisialtóirí níos casta cosúil le códú agus SQL a fháil níos déanaí sa phróiseas oiliúna. Leanann curaclam sonraí Artach cur chuige trí chéim a dhéanann aithris ar dhul chun cinn foghlama an duine.
Díríonn na chéad teratokens ar bhunús ginearálta leathan a thógáil. Díríonn an chéad 1.5 teratokens eile ar scileanna fiontraíochta a fhorbairt trí shonraí atá oiriúnaithe do SQL, tascanna códaithe, agus go leor eile. Déanann na teratokens deiridh speisialtóireachtaí an Artaigh a bheachtú tuilleadh ag baint úsáide as tacair sonraí scagtha.
- Roghanna Ailtireachta Is Fearr Cé go ngeallann MoEanna cáilíocht níos fearr in aghaidh an ríomhaire, tá sé ríthábhachtach na cumraíochtaí cearta a roghnú ach ní thuigtear go leor iad. Trí mhiontaighde, tháinig an gcáithnínísneachta i dtír ar ailtireacht a d'fhostaigh 128 saineolaí le geataí barr-2 gach sraithe tar éis comhbhabhtáil éifeachtúlachta cáilíochta a mheas.
Soláthraíonn méadú ar líon na saineolaithe teaglaim níos mó, feabhas a chur ar chumas múnla. Ardaíonn sé seo costais chumarsáide freisin, áfach, agus mar sin thuirling Snowflake ar 128 saineolaí “comhdhlúite” deartha go cúramach a ghníomhaigh trí gheataí barr-2 mar an chothromaíocht is fearr.
- Comhdhearadh an Chórais Ach is féidir fiú an ailtireacht samhail is fearr is féidir a bhaint de bharr scrogaill chórais. Mar sin rinne foireann na gcáithnínísneachta nuáil anseo freisin – ag comhdhearadh ailtireacht na samhla lámh ar láimh leis na córais oiliúna agus tátail bhunúsacha.
Ar mhaithe le hoiliúint éifeachtach, rinneadh na comhpháirteanna dlúth agus MoE a struchtúrú chun cumarsáid agus ríomhaireacht fhorluiteach a chumasú, rud a chuir i bhfolach forchostais shuntasacha cumarsáide. Ó thaobh na tátail de, bhain an fhoireann leas as nuálaíochtaí NVIDIA chun imscaradh an-éifeachtach a chumasú in ainneoin scála an Artaigh.
Ligeann teicnící cosúil le cainníochtú FP8 an tsamhail iomlán a fheistiú ar nód GPU amháin le haghaidh tátail idirghníomhach. Téann baisceanna níos mó i ngleic le cumais chomhthreomhaireachta an Artaigh thar nóid iolracha agus fanann siad thar a bheith éifeachtach ó thaobh ríomha de a bhuíochas dá pharaiméadair ghníomhacha dhlúth 17B.
Le ceadúnas Apache 2.0, tá meáchain agus cód an Artaigh ar fáil gan cheadú d’aon úsáid phearsanta, thaighde nó thráchtála. Ach tá Snowflake imithe i bhfad níos faide, ag foinsiú oscailte a n-oidis sonraí iomlána, cur i bhfeidhm samhail, leideanna, agus na léargais taighde domhain powering Artach.
An "Leabhar cócaireachta Artach” is bonn cuimsitheach eolais é a chlúdaíonn gach gné de thógáil agus barrfheabhsú samhail MoE ar scála mór mar an Artach. Déanann sé príomh-fhoghlaim a dhriogadh trasna foinsiú sonraí, dearadh ailtireachta samhlacha, comhdhearadh córais, oiliúint optamaithe/scéimeanna tátail agus go leor eile.
Ó na curaclam sonraí is fearr a shainaithint go dtí MoEanna a ailtireacht agus tiomsaitheoirí, sceidealóirí agus crua-earraí a chomh-uasmhéadú - déanann an comhlacht fairsing eolais seo daonlathas a dhéanamh ar scileanna a bhí teoranta do shaotharlanna AI mionlach roimhe seo. Cuireann an Arctic Cookbook dlús le cuair foghlama agus cuireann sé ar chumas gnólachtaí, taighdeoirí agus forbróirí ar fud an domhain a LLManna sainoiriúnaithe féin a chruthú le haghaidh beagnach aon chás úsáide.
Tús a chur leis an Artach
Do chuideachtaí a bhfuil fonn orthu Artach a ghiaráil, cuireann Snowflake ilbhealaí ar fáil le tosú go tapa:
Tátal gan Fhreastalaí: Is féidir le custaiméirí gcáithnínísneachta an tsamhail Artach a rochtain saor in aisce ar Snowflake Cortex, ardán AI lán-bhainistithe na cuideachta. Thairis sin, tá an tArtach ar fáil ar fud gach mór-chatalóg samhail mar AWS, Microsoft Azure, NVIDIA, agus níos mó.
Tosaigh ó Scratch: Ceadaíonn meáchain agus feidhmiúcháin na samhla foinse oscailte d’fhorbróirí an tArtach a chomhtháthú go díreach ina gcuid apps agus seirbhísí. Soláthraíonn an repo Artach samplaí cód, ranganna teagaisc imlonnaithe, oidis mionchoigeartaithe, agus go leor eile.
Samhlacha Saincheaptha a Thógáil: A bhuí le treoracha uileghabhálacha an Artach Cookbook, is féidir le forbróirí a gcuid samhlacha MoE saincheaptha féin a thógáil ón tús optamaithe le haghaidh aon chás úsáide speisialaithe ag baint úsáide as an méid a foghlaimíodh ó fhorbairt Artach.
Ré Nua Fiontraíochta Oscailte Tá níos mó ag baint le AI Artach ná samhail teanga chumhachtach eile - fógraíonn sé ré nua de chumais AI oscailte, cost-éifeachtúla agus speisialaithe a tógadh go sainiúil don fhiontar.
Ó réabhlóidiú a dhéanamh ar anailísíocht sonraí agus ar tháirgiúlacht códaithe go dtí uathoibriú tascanna agus feidhmchláir níos cliste a chumhachtú, déanann DNA an chéad fhiontar san Artach rogha thar a bheith rathúil ar LLManna cineálacha. Agus trí fhoinsiú oscailte ní hamháin an tsamhail ach an próiseas iomlán T&F taobh thiar de, tá Snowflake ag cothú cultúr comhoibrithe a ardóidh an t-éiceachóras AI iomlán.
Agus fiontair ag glacadh le AI giniúna níos mó, cuireann Artach treoirphlean trom ar fáil chun samhlacha a fhorbairt atá níos fearr go hoibiachtúil maidir le hualaí oibre táirgthe agus timpeallachtaí fiontair. Socraíonn a chomhthionchar taighde ceannródaíoch, éifeachtúlacht gan mheaitseáil agus éiteas seasta oscailte tagarmharc nua maidir le cumas claochlaitheach AI a dhaonlathas.
Seo alt le samplaí de chód ar conas an tsamhail Artach gcáithnínísneachta a úsáid:
Lámha ar Le Artach
Anois agus an rud a dhéanann an tArtach fíor-nua-aoiseach clúdaithe againn, déanaimis dul i ngleic leis an gcaoi ar féidir le forbróirí agus eolaithe sonraí tosú ar an tsamhail chumhachtach seo a chur ag obair.
As an mbosca, tá an tArtach ar fáil réamhoilte agus réidh le himscaradh trí mhórmhoil mhúnla mar Hugging Face agus ardáin comhpháirtíochta AI. Ach tagann a chumhacht fíor chun cinn agus é á shaincheapadh agus á mionchoigeartú do do chásanna úsáide sonracha.
Soláthraíonn ceadúnas Apache 2.0 Artach saoirse iomlán chun é a chomhtháthú isteach i do apps, seirbhísí nó sreabhadh oibre AI saincheaptha. Siúlfaimid roinnt samplaí de chóid ag baint úsáide as leabharlann na gclaochladáin chun tú a chur ar bun:
Tátal Bunúsach leis an Artach
I gcás cásanna úsáide tapa giniúna téacs, is féidir linn an tArtach a luchtú agus tátal bunúsach a rith go héasca:
from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
Ba cheart go ndéanfadh sé seo aschur mar seo a leanas:
“Is é Páras príomhchathair na Fraince. Is í Páras an chathair is mó sa Fhrainc agus lárionad eacnamaíoch, polaitiúil agus cultúrtha na tíre. Tá sainchomharthaí tíre cáiliúla ann mar an Túr Eiffel, músaem an Louvre, agus Ardeaglais Notre-Dame.”
Mar a fheiceann tú, tuigeann an tArtach an cheist gan uaim agus soláthraíonn sé freagra mionsonraithe, bunaithe ar a chumas láidir tuisceana teanga.
Mionchoigeartú do Thascanna Speisialaithe
Cé go bhfuil sé iontach lasmuigh den bhosca, tá an tArtach ag taitneamh go fírinneach nuair a dhéantar do shonraí dílseánaigh a shaincheapadh agus a mhionchoigeartú le haghaidh tascanna speisialaithe. Tá oidis fhairsing curtha ar fáil ag an gcáithnínísneachta a chlúdaíonn:
- Coimeád sonraí oiliúna ardchaighdeáin atá oiriúnaithe do do chás úsáide
- Curaclam oiliúna ilchéime saincheaptha a chur i bhfeidhm
- Cur chuige éifeachtúla LoRA, P-Tiúnta nó Comhleá Fachtóirí a ghiaráil
- Optimizations le haghaidh SQL géarchúiseach, códú nó scileanna fiontraíochta tábhachtacha eile
Seo sampla de conas an tArtach a mhionchoigeartú ar do thacair sonraí códaithe féin ag úsáid oidis LoRA agus Snowflake:
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)
Léiríonn an cód seo conas is féidir leat an tArtach a luchtú gan stró, cumraíocht LORA a chur in oiriúint do ghiniúint cód, agus ansin mionchoigeartú a dhéanamh ar an tsamhail ar do thacair sonraí códaithe dílsithe agus treoir Snowflake a ghiaráil.
Artach saincheaptha agus mionchoigeartaithe, déantar an tArtach ina chumhachtaí príobháideach atá tiúnta chun feidhmíocht gan chomhoiriúnú a sheachadadh ar do chroí-sreafaí oibre fiontair agus ar riachtanais na bpáirtithe leasmhara.