stub MPT-30B: MosaicML overgår GPT-3 med en ny LLM for å pushe grensene til NLP - Unite.AI
Kontakt med oss

Kunstig intelligens

MPT-30B: MosaicML overgår GPT-3 med en ny LLM for å flytte grensene til NLP

mm

Publisert

 on

Utvalgt blogg Image-MPT-30B: MosaicML overgår GPT-3 med en ny LLM for å flytte grensene til språkmodeller

MosaicML er en generativ AI selskap som leverer AI-implementering og skalerbarhetsløsninger. Deres siste store språkmodell (LLM) MPT-30B skaper bølger over hele AI-fellesskapet.

MosaicMLs LLM-reise startet med utgivelsen av MPT-7B (Mosaic Pretrained Transformer) i mai 2023 som kom med tre varianter:

  1. MPT-7B-StoryWriter-65k+ (for langformig historiegenerering)
  2. MPT-7B-Instruct (for kortformede instruksjoner som følger)
  3. MPT-7B-Chat (for dialoggenerering)

Modellene var vitne til massiv suksess i ML-samfunnet på grunn av deres åpen kildekode-natur, kommersielle brukervennlighet og eksepsjonelle evne til å håndtere utvidede kontekstvinduer.

Det viktigste er at modellen var på nivå og i noen tilfeller overgikk de andre sammenlignbare modellene (LLaMA-7B, StableLM 7B, etc). I juni hadde MPT-7B-serien blitt lastet ned over 3 millioner ganger. 22. juni lanserte MosaicML MPT-30B som hevet baren ytterligere for open source-fundamentmodeller.

MPT-30B: En kraftig LLM som overgår GPT-3

MPT-30B er en åpen kildekode og kommersielt lisensiert dekoderbasert LLM som er kraftigere enn GPT-3-175B med bare 17 % av GPT-3-parametrene, dvs. 30B. Den overgår GPT-3 på flere oppgaver. Her er en sammenligning mellom MPT-30B og GPT-3.

MPT-30B bygger på den forrige MPT-7B-modellen. Det er beregningsmessig effektivt å trene sammenlignet med modeller med lignende størrelser. For eksempel brukte LLaMA-30B omtrent 1.44 ganger mer FLOP-budsjett enn MPT-30B, mens Falcon-40B hadde et 1.27 ganger høyere FLOP-budsjett enn MPT-30B. Her er en illustrasjon av MPT-30Bs forbedring på forskjellige oppgaver i forhold til forgjengeren.

Noen spesielle funksjoner til MPT-30B er som følger:

8k Token-kontekstvindu

Kontekstvindu i LLM-er refererer til rekkevidden av tokens modellen kan vurdere før utdataene genereres. MPT-30B hadde et kontekstvindu på 8000 tokens på treningstidspunktet. Den ble først trent på 1T token ved å bruke 2k tokensekvenser og deretter ytterligere 50B tokens av 8k tokensekvenser (omtrent 6000 ord).

ALiBi-støtte

For å forklare denne funksjonen, la oss vurdere et spørsmål:

Hvordan kan MPT-30B forstå og lage spådommer for lengre sekvenser enn det den ble trent på?

MPT-30B bruker en Oppmerksomhet med lineære skjevheter (ALiBi) teknikk for å forstå lengre sekvenser og utvide kontekstvinduet utover 8k tokens under finjustering eller slutning.

I stedet for å beregne posisjonelle innebygginger der vi tilordner en vektor til hvert ord i sekvensen, beregner ALiBi oppmerksomhetspoeng mellom nøkkel- og spørresymboler. Når nøkkel- og spørresymbolene er nær hverandre, er straffen lav, men ellers høyere. Som et resultat, det underliggende transformatorarkitektur kan ekstrapolere til langformede innganger.

Effektiv slutnings- og treningsytelse via FlashAttention

Oppmerksomhet, dvs. å fokusere på relevante deler av inndatasekvensen, er en kritisk komponent i transformatorer, men det kan være tregt og minnekrevende, spesielt ved behandling av lange tekstsekvenser.

FlashAttention er en tilnærming foreslått av forskere ved Cornell University som adresserer dette problemet for MPT-30B. Ved å bruke en teknikk som kalles flislegging, reduserer FlashAttention antallet ganger modellen trenger å lese fra eller skrive til minnet, noe som øker hastigheten på behandlingen. Derfor bruker modellen den toppmoderne FlashAttention-teknikken og NVIDIA-er Raskere Transformer optimaliseringsbibliotek for effektiv opplæring og slutning.

Enkel opplæring og distribusjon

Utviklere kan trene MPT-30B fra bunnen av eller bruke MosaicMLs sjekkpunkter for raskere distribusjoner. Den kan også finjusteres for domenespesifikke brukstilfeller på et bestemt datasett.

Modellens størrelse ble valgt for å muliggjøre uanstrengt distribusjon på en enkelt GPU, nærmere bestemt 1xA100-80GB i 16-biters presisjon eller 1xA100-40GB i 8-biters presisjon. Dette betyr at modellen ble designet for å passe innenfor minnebegrensningene til disse GPUene.

Kodingsevner

MPT-30B gir også eksepsjonelle kodingsmuligheter. HumanEval er et datasett utgitt av OpenAI som inneholder 164 håndlagde programmeringsproblemer. På HumanEval-datasettet overgår modellen spesialbygde LLM-modeller, for eksempel StarCoder serien.

Finjusterte varianter: MPT-30B-Instruct og MPT-30B-Chat

MPT-30B-instruks

LLM-er brukes først og fremst til instruksjoner som svar på spørsmål, tekstoppsummering, språkoversettelse osv. MPT-30B-Instruct er en kommersielt brukbar (opprettholder kommersiell CC-By-SA-3.0-lisens) variant av MPT-30B finjustert spesielt for instruksjon etter oppgaver. For finjustering ble følgende datasett brukt:

  1. FLAN
  2. P3
  3. Alpaca
  4. Dolly-15k

Dolly-datasettet ble ytterligere utvidet med Anthropics nyttige og ufarlige datasett for instruksjonsfinjustering. I tillegg ble et mangfoldig utvalg av datasett brukt for dataforsterkning, som er som følger:

  1. KonkurranseMath
  2. GradeSchoolMath
  3. DialogSum
  4. DuoRC
  5. QASPER
  6. Kvalitet
  7. SummScreen
  8. Spider

MPT-30B-Chat

MPT-30B-Chat er en finjustert versjon av MPT-30B for dialoggenerering. Det er en forskningsartefakt utgitt under CC-By-NC-SA-4.0-lisensen, som kun tillater ikke-kommersiell bruk. Modellen ble finjustert ved hjelp av ulike språkdatasett, inkludert:

  1. Airoboros/GPT4-1.2
  2. Baize
  3. Kamel
  4. GPTlærer
  5. guanaco
  6. Longcoversations
  7. Del GPT
  8. WizardLM

LLM-er deler en stor del av flere milliarder dollar generative AI-markedet, som har opplevd en enorm vekst på kort tid etter at ChatGPT revolusjonerte landskapet i fjor. MPT-familien er en grunnleggende del av denne revolusjonen. I nær fremtid kan vi forvente å se kommersielt tilgjengelige åpen kildekode-modeller som er langt kraftigere og mer effektive enn MPT-familien.

For de siste AI-nyhetene, besøk unite.ai.