Kunsmatige Intelligensie
MPT-30B: MosaicML oortref GPT-3 met 'n nuwe LLM om die grense van NLP te verskuif
MosaicML is 'n generatiewe AI maatskappy wat KI-ontplooiing en skaalbaarheidsoplossings bied. Hul nuutste groot taalmodel (LLM) MPT-30B maak opslae oor die KI-gemeenskap.
MosaicML se LLM-reis het begin met die vrystelling van MPT-7B (Mosaic Pretrained Transformer) in Mei 2023 wat met drie variante gekom het:
- MPT-7B-StoryWriter-65k+ (vir langvormverhaalgenerering)
- MPT-7B-Instruct (vir kortvorm-instruksies wat volg)
- MPT-7B-klets (vir dialooggenerering)
Die modelle het groot sukses in die ML-gemeenskap beleef vanweë hul oopbron-aard, kommersiële bruikbaarheid en uitsonderlike vermoë om uitgebreide konteksvensters te hanteer.
Die belangrikste is dat die model gelykop was en in sommige gevalle beter as die ander vergelykbare modelle gevaar het (LLaMA-7B, StabielLM 7B, ens). Teen Junie was die MPT-7B-reeks meer as 3 miljoen keer afgelaai. Op 22 Junie het MosaicML vrygestel MPT-30B wat die lat selfs verder verhoog het vir oopbron-grondslagmodelle.
Die MPT-30B: 'n Kragtige LLM wat GPT-3 oorskry
MPT-30B is 'n oopbron en kommersieel gelisensieerde dekodeerder-gebaseerde LLM wat kragtiger is as GPT-3-175B met slegs 17% van GPT-3 parameters, dit wil sê, 30B. Dit vaar beter as GPT-3 op verskeie take. Hier is 'n vergelyking tussen MPT-30B en GPT-3.
MPT-30B bou voort op die vorige MPT-7B-model. Dit is rekenkundig doeltreffend om op te lei in vergelyking met modelle met soortgelyke groottes. Byvoorbeeld, LLaMA-30B het ongeveer 1.44 keer meer FLOPs-begroting as MPT-30B gebruik, terwyl Falcon-40B 'n 1.27 keer hoër FLOPs-begroting as MPT-30B gehad het. Hier is 'n illustrasie van MPT-30B se verbetering op verskeie take teenoor sy voorganger.
Sommige spesiale kenmerke van MPT-30B is soos volg:
8k Token Konteks Venster
Konteksvenster in LLM's verwys na die reeks tekens wat die model kan oorweeg voordat die uitset gegenereer word. MPT-30B het 'n konteksvenster van 8000 tokens gehad tydens opleiding. Dit is eers opgelei op 1T-token met behulp van 2k-tekenreekse en toe 'n bykomende 50B-tekens van 8k-tekenreekse (ongeveer 6000 woorde).
ALiBi Ondersteuning
Om hierdie kenmerk te verduidelik, kom ons kyk na 'n vraag:
Hoe kan MPT-30B verstaan en voorspellings maak vir langer rye as waarop dit opgelei is?
MPT-30B gebruik 'n Aandag met lineêre vooroordele (ALiBi) tegniek om langer rye te verstaan en die konteksvenster verder as 8k tokens uit te brei tydens fynverstelling of afleiding.
In plaas daarvan om posisionele inbeddings te bereken waarin ons 'n vektor aan elke woord in die ry toewys, bereken ALiBi aandagtellings tussen sleutel- en navraagtekens. Wanneer die sleutel- en navraagtekens naby mekaar is, is die straf laag, maar andersins hoër. As gevolg hiervan, die onderliggende transformator argitektuur kan ekstrapoleer na langvorm-insette.
Doeltreffende afleidings- en opleidingsprestasie via FlashAttention
Aandag, dws fokus op relevante dele van die invoerreeks, is 'n kritieke komponent van transformators, maar dit kan stadig en geheue-intensief wees, veral wanneer lang teksreekse verwerk word.
Flitsaandag is 'n benadering wat deur navorsers by Cornell Universiteit voorgestel is wat hierdie probleem vir MPT-30B aanspreek. Deur gebruik te maak van 'n tegniek genaamd teëlwerk, verminder FlashAttention die aantal kere wat die model moet lees uit of na die geheue skryf, wat die verwerking versnel. Daarom gebruik die model die nuutste FlashAttention-tegniek en NVIDIA's Vinniger Transformer optimaliseringsbiblioteek vir doeltreffende opleiding en afleiding.
Gemak van opleiding en ontplooiing
Ontwikkelaars kan MPT-30B van nuuts af oplei of MosaicML se kontrolepunte gebruik vir vinniger ontplooiing. Dit kan ook verfyn word vir domeinspesifieke gebruiksgevalle op 'n spesifieke datastel.
Die model se grootte is gekies om moeitelose ontplooiing op 'n enkele GPU moontlik te maak, spesifiek 1xA100-80GB in 16-bis-presisie of 1xA100-40GB in 8-bis-presisie. Dit beteken dat die model ontwerp is om binne die geheuebeperkings van hierdie GPU's te pas.
Kodering vermoëns
MPT-30B bied ook buitengewone koderingsvermoëns. HumanEval is 'n datastel wat deur OpenAI vrygestel is wat 164 handgemaakte programmeringsprobleme bevat. Op die HumanEval-datastel oortref die model doelgeboude LLM-modelle, soos die StarCoder reeks.
Fyn-gestemde variante: MPT-30B-Instruct & MPT-30B-Chat
MPT-30B-Opdrag
LLM's word hoofsaaklik gebruik vir instruksies soos vraagbeantwoording, teksopsomming, taalvertaling, ens. MPT-30B-Instruct is 'n kommersieel bruikbare (behou kommersiële CC-By-SA-3.0-lisensie) variant van MPT-30B wat spesifiek verfyn is vir onderrig wat volg op take. Vir fyn-instelling is die volgende datastelle gebruik:
- FLAN
- P3
- alpaca
- Dolly-15k
Die Dolly-datastel is verder aangevul met Anthropic se nuttige en skadelose datastel vir instruksie fyninstelling. Daarbenewens is 'n diverse reeks datastelle gebruik vir datavergroting, wat soos volg is:
- Kompetisie Wiskunde
- Graadskool Wiskunde
- DialogSum
- DuoRC
- QASPER
- Gehalte
- Somskerm
- Spider
MPT-30B-klets
MPT-30B-Chat is 'n fyn-ingestelde weergawe van MPT-30B vir dialoog generering. Dit is 'n navorsingsartefak wat vrygestel is onder die CC-By-NC-SA-4.0-lisensie, wat slegs nie-kommersiële gebruik toelaat. Die model is verfyn met behulp van verskeie taaldatastelle, insluitend:
- Airoboros/GPT4-1.2
- Baize
- Camel
- GPTeacher
- guanaco
- Lang Dekkings
- DeelGPT
- WizardLM
LLM's deel 'n groot deel van die multimiljard dollar generatiewe KI-mark, wat in 'n japtrap geweldige groei beleef het nadat ChatGPT die landskap verlede jaar 'n omwenteling gemaak het. Die MPT-familie is 'n fundamentele deel van hierdie revolusie. In die nabye toekoms kan ons verwag om kommersieel beskikbare oopbronmodelle te sien wat baie kragtiger en doeltreffender is as die MPT-familie.
Vir die jongste KI-nuus, besoek verenig.ai.