Kunstig intelligens
MPT-30B: MosaicML overgår GPT-3 med en ny LLM for å flytte grensene til NLP
MosaicML er en generativ AI selskap som leverer AI-implementering og skalerbarhetsløsninger. Deres siste store språkmodell (LLM) MPT-30B skaper bølger over hele AI-fellesskapet.
MosaicMLs LLM-reise startet med utgivelsen av MPT-7B (Mosaic Pretrained Transformer) i mai 2023 som kom med tre varianter:
- MPT-7B-StoryWriter-65k+ (for langformig historiegenerering)
- MPT-7B-Instruct (for kortformede instruksjoner som følger)
- MPT-7B-Chat (for dialoggenerering)
Modellene var vitne til massiv suksess i ML-samfunnet på grunn av deres åpen kildekode-natur, kommersielle brukervennlighet og eksepsjonelle evne til å håndtere utvidede kontekstvinduer.
Det viktigste er at modellen var på nivå og i noen tilfeller overgikk de andre sammenlignbare modellene (LLaMA-7B, StableLM 7B, etc). I juni hadde MPT-7B-serien blitt lastet ned over 3 millioner ganger. 22. juni lanserte MosaicML MPT-30B som hevet baren ytterligere for open source-fundamentmodeller.
MPT-30B: En kraftig LLM som overgår GPT-3
MPT-30B er en åpen kildekode og kommersielt lisensiert dekoderbasert LLM som er kraftigere enn GPT-3-175B med bare 17 % av GPT-3-parametrene, dvs. 30B. Den overgår GPT-3 på flere oppgaver. Her er en sammenligning mellom MPT-30B og GPT-3.
MPT-30B bygger på den forrige MPT-7B-modellen. Det er beregningsmessig effektivt å trene sammenlignet med modeller med lignende størrelser. For eksempel brukte LLaMA-30B omtrent 1.44 ganger mer FLOP-budsjett enn MPT-30B, mens Falcon-40B hadde et 1.27 ganger høyere FLOP-budsjett enn MPT-30B. Her er en illustrasjon av MPT-30Bs forbedring på forskjellige oppgaver i forhold til forgjengeren.
Noen spesielle funksjoner til MPT-30B er som følger:
8k Token-kontekstvindu
Kontekstvindu i LLM-er refererer til rekkevidden av tokens modellen kan vurdere før utdataene genereres. MPT-30B hadde et kontekstvindu på 8000 tokens på treningstidspunktet. Den ble først trent på 1T token ved å bruke 2k tokensekvenser og deretter ytterligere 50B tokens av 8k tokensekvenser (omtrent 6000 ord).
ALiBi-støtte
For å forklare denne funksjonen, la oss vurdere et spørsmål:
Hvordan kan MPT-30B forstå og lage spådommer for lengre sekvenser enn det den ble trent på?
MPT-30B bruker en Oppmerksomhet med lineære skjevheter (ALiBi) teknikk for å forstå lengre sekvenser og utvide kontekstvinduet utover 8k tokens under finjustering eller slutning.
I stedet for å beregne posisjonelle innebygginger der vi tilordner en vektor til hvert ord i sekvensen, beregner ALiBi oppmerksomhetspoeng mellom nøkkel- og spørresymboler. Når nøkkel- og spørresymbolene er nær hverandre, er straffen lav, men ellers høyere. Som et resultat, det underliggende transformatorarkitektur kan ekstrapolere til langformede innganger.
Effektiv slutnings- og treningsytelse via FlashAttention
Oppmerksomhet, dvs. å fokusere på relevante deler av inndatasekvensen, er en kritisk komponent i transformatorer, men det kan være tregt og minnekrevende, spesielt ved behandling av lange tekstsekvenser.
FlashAttention er en tilnærming foreslått av forskere ved Cornell University som adresserer dette problemet for MPT-30B. Ved å bruke en teknikk som kalles flislegging, reduserer FlashAttention antallet ganger modellen trenger å lese fra eller skrive til minnet, noe som øker hastigheten på behandlingen. Derfor bruker modellen den toppmoderne FlashAttention-teknikken og NVIDIA-er Raskere Transformer optimaliseringsbibliotek for effektiv opplæring og slutning.
Enkel opplæring og distribusjon
Utviklere kan trene MPT-30B fra bunnen av eller bruke MosaicMLs sjekkpunkter for raskere distribusjoner. Den kan også finjusteres for domenespesifikke brukstilfeller på et bestemt datasett.
Modellens størrelse ble valgt for å muliggjøre uanstrengt distribusjon på en enkelt GPU, nærmere bestemt 1xA100-80GB i 16-biters presisjon eller 1xA100-40GB i 8-biters presisjon. Dette betyr at modellen ble designet for å passe innenfor minnebegrensningene til disse GPUene.
Kodingsevner
MPT-30B gir også eksepsjonelle kodingsmuligheter. HumanEval er et datasett utgitt av OpenAI som inneholder 164 håndlagde programmeringsproblemer. På HumanEval-datasettet overgår modellen spesialbygde LLM-modeller, for eksempel StarCoder serien.
Finjusterte varianter: MPT-30B-Instruct og MPT-30B-Chat
MPT-30B-instruks
LLM-er brukes først og fremst til instruksjoner som svar på spørsmål, tekstoppsummering, språkoversettelse osv. MPT-30B-Instruct er en kommersielt brukbar (opprettholder kommersiell CC-By-SA-3.0-lisens) variant av MPT-30B finjustert spesielt for instruksjon etter oppgaver. For finjustering ble følgende datasett brukt:
- FLAN
- P3
- Alpaca
- Dolly-15k
Dolly-datasettet ble ytterligere utvidet med Anthropics nyttige og ufarlige datasett for instruksjonsfinjustering. I tillegg ble et mangfoldig utvalg av datasett brukt for dataforsterkning, som er som følger:
- KonkurranseMath
- GradeSchoolMath
- DialogSum
- DuoRC
- QASPER
- Kvalitet
- SummScreen
- Spider
MPT-30B-Chat
MPT-30B-Chat er en finjustert versjon av MPT-30B for dialoggenerering. Det er en forskningsartefakt utgitt under CC-By-NC-SA-4.0-lisensen, som kun tillater ikke-kommersiell bruk. Modellen ble finjustert ved hjelp av ulike språkdatasett, inkludert:
- Airoboros/GPT4-1.2
- Baize
- Kamel
- GPTlærer
- guanaco
- Longcoversations
- Del GPT
- WizardLM
LLM-er deler en stor del av flere milliarder dollar generative AI-markedet, som har opplevd en enorm vekst på kort tid etter at ChatGPT revolusjonerte landskapet i fjor. MPT-familien er en grunnleggende del av denne revolusjonen. I nær fremtid kan vi forvente å se kommersielt tilgjengelige åpen kildekode-modeller som er langt kraftigere og mer effektive enn MPT-familien.
For de siste AI-nyhetene, besøk unite.ai.