Kunstig intelligens

Inne i DBRX: Databricks slipper løs kraftig åpen kildekode LLM

Publisert April 16, 2024

Aayush Mittal Mittal

I det raskt voksende feltet av store språkmodeller (LLM) har en ny kraftig modell dukket opp – DBRX, en åpen kildekode-modell laget av Databricks. Denne LLM skaper bølger med sin state-of-the-art ytelse på tvers av et bredt spekter av benchmarks, og konkurrerer til og med med evnene til bransjegiganter som OpenAIs GPT-4.

DBRX representerer en betydelig milepæl i demokratiseringen av kunstig intelligens, og gir forskere, utviklere og bedrifter åpen tilgang til en språkmodell på toppnivå. Men hva er egentlig DBRX, og hva gjør den så spesiell? I dette tekniske dypdykket vil vi utforske den innovative arkitekturen, treningsprosessen og nøkkelfunksjonene som har drevet DBRX til forkant av det åpne LLM-landskapet.

Fødselen til DBRX Opprettelsen av DBRX ble drevet av Databricks' oppdrag om å gjøre dataintelligens tilgjengelig for alle virksomheter. Som en leder innen dataanalyseplattformer anerkjente Databricks det enorme potensialet til LLM-er og satte seg fore å utvikle en modell som kunne matche eller til og med overgå ytelsen til proprietære tilbud.

Etter måneder med intensiv forskning, utvikling og en investering på flere millioner dollar, oppnådde Databricks-teamet et gjennombrudd med DBRX. Modellens imponerende ytelse på et bredt spekter av benchmarks, inkludert språkforståelse, programmering og matematikk, etablerte den som en ny toppmoderne innen åpne LLM-er.

Innovativ arkitektur

Kraften til blanding av eksperter Kjernen i DBRX sin eksepsjonelle ytelse ligger dens innovative blanding av eksperter (MoE) arkitektur. Denne banebrytende designen representerer et avvik fra tradisjonelle tette modeller, og tar i bruk en sparsom tilnærming som forbedrer både førtreningseffektiviteten og slutningshastigheten.

I MoE-rammeverket er bare en utvalgt gruppe komponenter, kalt "eksperter", aktivert for hver inngang. Denne spesialiseringen lar modellen takle et bredere spekter av oppgaver med større dyktighet, samtidig som den optimerer beregningsressurser.

DBRX tar dette konseptet enda lenger med sin finkornede MoE-arkitektur. I motsetning til noen andre MoE-modeller som bruker et mindre antall større eksperter, sysselsetter DBRX 16 eksperter, med fire eksperter aktive for alle gitte innspill. Denne designen gir svimlende 65 ganger flere mulige ekspertkombinasjoner, noe som direkte bidrar til DBRXs overlegne ytelse.

DBRX skiller seg ut med flere innovative funksjoner:

Roterende posisjonskodinger (RoPE): Forbedrer forståelsen av tokenposisjoner, avgjørende for å generere kontekstuelt nøyaktig tekst.
Gated Linear Units (GLU): Introduserer en portmekanisme som forbedrer modellens evne til å lære komplekse mønstre mer effektivt.
Grouped Query Attention (GQA): Forbedrer modellens effektivitet ved å optimalisere oppmerksomhetsmekanismen.
Avansert tokenisering: Bruker GPT-4s tokenizer for å behandle innganger mer effektivt.

MoE-arkitekturen er spesielt godt egnet for storskala språkmodeller, da den gir mulighet for mer effektiv skalering og bedre utnyttelse av beregningsressurser. Ved å distribuere læringsprosessen på tvers av flere spesialiserte undernettverk, kan DBRX effektivt allokere data og beregningskraft for hver oppgave, og sikre både høykvalitets output og optimal effektivitet.

Omfattende treningsdata og effektiv optimalisering Selv om DBRXs arkitektur utvilsomt er imponerende, ligger dens sanne kraft i den grundige treningsprosessen og den enorme mengden data den ble utsatt for. DBRX ble fortrent på forbløffende 12 billioner tokens med tekst- og kodedata, nøye kurert for å sikre høy kvalitet og mangfold.

Treningsdataene ble behandlet ved hjelp av Databricks' verktøypakke, inkludert Apache Spark for databehandling, Unity Catalog for dataadministrasjon og styring, og MLflow for eksperimentsporing. Dette omfattende verktøysettet tillot Databricks-teamet å effektivt administrere, utforske og avgrense det massive datasettet, og la grunnlaget for DBRX sin eksepsjonelle ytelse.

For ytterligere å forbedre modellens muligheter, benyttet Databricks en dynamisk førskolelæreplan, som innovativt varierte datamiksen under trening. Denne strategien tillot hvert token å bli effektivt behandlet ved å bruke de aktive 36 milliarder parameterne, noe som resulterte i en mer avrundet og tilpasningsdyktig modell.

Dessuten ble DBRXs opplæringsprosess optimalisert for effektivitet, og utnyttet Databricks' pakke med proprietære verktøy og biblioteker, inkludert Composer, LLM Foundry, MegaBlocks og Streaming. Ved å bruke teknikker som læreplanlæring og optimaliserte optimaliseringsstrategier, oppnådde teamet nesten en firedobling av dataeffektiviteten sammenlignet med deres tidligere modeller.

Opplæring og arkitektur

DBRX ble trent ved å bruke en neste-token-prediksjonsmodell på et kolossalt datasett på 12 billioner tokens, med vekt på både tekst og kode. Dette opplæringssettet antas å være betydelig mer effektivt enn de som ble brukt i tidligere modeller, og sikrer en rik forståelse og responsevne på tvers av varierte spørsmål.

DBRXs arkitektur er ikke bare et vitnesbyrd om Databricks' tekniske dyktighet, men fremhever også bruken på tvers av flere sektorer. Fra å forbedre chatbot-interaksjoner til å drive komplekse dataanalyseoppgaver, kan DBRX integreres i ulike felt som krever nyansert språkforståelse.

Bemerkelsesverdig nok konkurrerer DBRX Instruct til og med med noen av de mest avanserte lukkede modellene på markedet. I følge Databricks' målinger overgår den GPT-3.5 og er konkurransedyktig med Gemini 1.0 Pro og Mistral Medium på tvers av ulike benchmarks, inkludert generell kunnskap, sunn fornuft, programmering og matematisk resonnement.

For eksempel, på MMLU-benchmark, som måler språkforståelse, oppnådde DBRX Instruct en poengsum på 73.7 %, og overgikk GPT-3.5s rapporterte poengsum på 70.0 %. På HellaSwag commonsense-resonneringsreferansen oppnådde DBRX Instruct imponerende 89.0 %, og overgikk GPT-3.5 sine 85.5 %.

DBRX Instruct skinner virkelig, og oppnår en bemerkelsesverdig 70.1 % nøyaktighet på HumanEvals benchmark, og overgår ikke bare GPT-3.5 (48.1 %), men også den spesialiserte CodeLLaMA-70B Instruct-modellen (67.8 %).

Disse eksepsjonelle resultatene fremhever DBRXs allsidighet og dens evne til å utmerke seg på tvers av et mangfold av oppgaver, fra naturlig språkforståelse til kompleks programmering og matematisk problemløsning.

Effektiv inferens og skalerbarhet En av hovedfordelene med DBRXs MoE-arkitektur er effektiviteten under inferens. Takket være sparsom aktivering av parametere, kan DBRX oppnå inferensgjennomstrømning som er opptil to til tre ganger raskere enn tette modeller med samme totale parameterantall.

Sammenlignet med LLaMA2-70B, en populær åpen kildekode LLM, demonstrerer DBRX ikke bare høyere kvalitet, men har også nesten dobbelt så høy inferenshastighet, til tross for at den har omtrent halvparten så mange aktive parametere. Denne effektiviteten gjør DBRX til et attraktivt valg for distribusjon i et bredt spekter av applikasjoner, fra innholdsskaping til dataanalyse og mer.

Dessuten har Databricks utviklet en robust treningsstabel som lar bedrifter trene sine egne DBRX-klassemodeller fra bunnen av eller fortsette opplæringen på toppen av de angitte sjekkpunktene. Denne evnen gir bedrifter mulighet til å utnytte det fulle potensialet til DBRX og skreddersy det til deres spesifikke behov, og ytterligere demokratisere tilgangen til banebrytende LLM-teknologi.

Databricks' utvikling av DBRX-modellen markerer et betydelig fremskritt innen maskinlæring, spesielt gjennom bruken av innovative verktøy fra åpen kildekode-fellesskapet. Denne utviklingsreisen er betydelig påvirket av to sentrale teknologier: MegaBlocks-biblioteket og PyTorchs Fully Sharded Data Parallel (FSDP)-system.

MegaBlocks: Enhancing MoE Efficiency

Ocuco Megablokker biblioteket adresserer utfordringene knyttet til dynamisk ruting i Mixture-of-Experts (MoEs) lag, en vanlig hindring i skalering av nevrale nettverk. Tradisjonelle rammeverk pålegger ofte begrensninger som enten reduserer modelleffektiviteten eller går på akkord med modellkvaliteten. MegaBlocks omdefinerer imidlertid MoE-beregning gjennom blokksparende operasjoner som på en dyktig måte administrerer den iboende dynamikken i MoEs, og dermed unngår disse kompromissene.

Denne tilnærmingen bevarer ikke bare tokens integritet, men stemmer også godt overens med moderne GPU-funksjoner, og muliggjør opptil 40 % raskere treningstider sammenlignet med tradisjonelle metoder. Slik effektivitet er avgjørende for opplæringen av modeller som DBRX, som er avhengige av avanserte MoE-arkitekturer for å administrere sine omfattende parametersett effektivt.

PyTorch FSDP: Skalering av store modeller

PyTorchs fullstendig delte dataparallell (FSDP) presenterer en robust løsning for opplæring av eksepsjonelt store modeller ved å optimalisere parameterskjæring og distribusjon på tvers av flere dataenheter. Samdesignet med nøkkelkomponenter fra PyTorch, integreres FSDP sømløst, og tilbyr en intuitiv brukeropplevelse i likhet med lokale treningsoppsett, men i mye større skala.

FSDPs design løser smart flere kritiske problemer:

Brukererfaring: Det forenkler brukergrensesnittet, til tross for de komplekse backend-prosessene, noe som gjør det mer tilgjengelig for bredere bruk.
Maskinvare heterogenitet: Den tilpasser seg varierte maskinvaremiljøer for å optimalisere ressursutnyttelsen effektivt.
Ressursutnyttelse og minneplanlegging: FSDP forbedrer bruken av beregningsressurser og minimerer minnekostnader, noe som er avgjørende for treningsmodeller som opererer i DBRX-skalaen.

FSDP støtter ikke bare større modeller enn tidligere mulig under det distribuerte dataparallelle rammeverket, men opprettholder også nesten lineær skalerbarhet når det gjelder gjennomstrømning og effektivitet. Denne evnen har vist seg å være essensiell for Databricks' DBRX, og lar den skalere på tvers av flere GPUer samtidig som den administrerer det store antallet parametere effektivt.

Tilgjengelighet og integrasjoner

I tråd med sitt oppdrag om å fremme åpen tilgang til AI, har Databricks gjort DBRX tilgjengelig gjennom flere kanaler. Vektene til både basismodellen (DBRX Base) og den finjusterte modellen (DBRX Instruct) ligger på den populære Hugging Face-plattformen, slik at forskere og utviklere enkelt kan laste ned og jobbe med modellen.

I tillegg, DBRX-modelllager er tilgjengelig på GitHub, og gir åpenhet og muliggjør videre utforskning og tilpasning av modellens kode.

For Databricks-kunder er DBRX Base og DBRX Instruct lett tilgjengelige via Databricks Foundation Model API-er, noe som muliggjør sømløs integrasjon i eksisterende arbeidsflyter og applikasjoner. Dette forenkler ikke bare distribusjonsprosessen, men sikrer også datastyring og sikkerhet for sensitive brukssaker.

Videre har DBRX allerede blitt integrert i flere tredjeparts plattformer og tjenester, som You.com og Perplexity Labs, noe som utvider rekkevidden og potensielle applikasjoner. Disse integrasjonene viser den økende interessen for DBRX og dets muligheter, samt den økende bruken av åpne LLM-er på tvers av ulike bransjer og bruksområder.

Long-Context Capabilities and Retrieval Augmented Generation En av de fremtredende funksjonene til DBRX er dens evne til å håndtere lange kontekstinndata, med en maksimal kontekstlengde på 32,768 XNUMX tokens. Denne funksjonen lar modellen behandle og generere tekst basert på omfattende kontekstuell informasjon, noe som gjør den godt egnet for oppgaver som dokumentoppsummering, spørsmålssvar og informasjonsinnhenting.

I benchmarks for evaluering av langkontekstytelse, som KV-Pairs og HotpotQAXL, overgikk DBRX Instruct GPT-3.5 Turbo på tvers av ulike sekvenslengder og kontekstposisjoner.

DBRX overgår etablerte åpen kildekode-modeller på språkforståelse (MMLU), programmering (HumanEval) og matematikk (GSM8K).

Begrensninger og fremtidig arbeid

Mens DBRX representerer en betydelig prestasjon innen åpne LLM-er, er det viktig å erkjenne dens begrensninger og områder for fremtidig forbedring. Som enhver AI-modell kan DBRX produsere unøyaktige eller partiske svar, avhengig av kvaliteten og mangfoldet til treningsdataene.

I tillegg, mens DBRX utmerker seg med generelle oppgaver, kan visse domenespesifikke applikasjoner kreve ytterligere finjustering eller spesialisert opplæring for å oppnå optimal ytelse. For eksempel, i scenarier der nøyaktighet og troskap er av største betydning, anbefaler Databricks å bruke RAG-teknikker (gjenvinning augmented generation) for å forbedre modellens produksjon.

Videre består DBRXs nåværende opplæringsdatasett primært av engelskspråklig innhold, noe som potensielt begrenser ytelsen på ikke-engelske oppgaver. Fremtidige iterasjoner av modellen kan innebære å utvide treningsdataene til å omfatte et mer mangfoldig spekter av språk og kulturelle kontekster.

Databricks er forpliktet til kontinuerlig å forbedre DBRXs evner og adressere dens begrensninger. Fremtidig arbeid vil fokusere på å forbedre modellens ytelse, skalerbarhet og brukervennlighet på tvers av ulike applikasjoner og brukstilfeller, samt å utforske teknikker for å redusere potensielle skjevheter og fremme etisk AI-bruk.

I tillegg planlegger selskapet å avgrense opplæringsprosessen ytterligere, ved å utnytte avanserte teknikker som forent læring og metoder for å bevare personvern for å sikre personvern og sikkerhet.

Veien fremover

DBRX representerer et betydelig skritt fremover i demokratiseringen av AI-utvikling. Den ser for seg en fremtid der enhver bedrift har muligheten til å kontrollere sine data og sin skjebne i den fremvoksende verden av generativ AI.

Ved å åpne DBRX og gi tilgang til de samme verktøyene og infrastrukturen som ble brukt til å bygge den, gir Databricks bedrifter og forskere mulighet til å utvikle sine egne banebrytende Databricks skreddersydd for deres spesifikke behov.

Gjennom Databricks-plattformen kan kunder utnytte selskapets pakke med databehandlingsverktøy, inkludert Apache Spark, Unity Catalog og MLflow, for å kurere og administrere treningsdataene deres. De kan deretter bruke Databricks optimaliserte treningsbiblioteker, som Composer, LLM Foundry, MegaBlocks og Streaming, for å trene sine egne DBRX-klassemodeller effektivt og i stor skala.

Denne demokratiseringen av AI-utvikling har potensial til å låse opp en ny bølge av innovasjon, ettersom bedrifter får muligheten til å utnytte kraften til store språkmodeller for et bredt spekter av applikasjoner, fra innholdsskaping og dataanalyse til beslutningsstøtte og mer.

Dessuten, ved å fremme et åpent og samarbeidende økosystem rundt DBRX, har Databricks som mål å akselerere tempoet i forskning og utvikling innen store språkmodeller. Etter hvert som flere organisasjoner og enkeltpersoner bidrar med sin ekspertise og innsikt, vil den kollektive kunnskapen og forståelsen av disse kraftige AI-systemene fortsette å vokse, og baner vei for enda mer avanserte og dyktige modeller i fremtiden.

Konklusjon

DBRX er en spillskifter i verden av store språkmodeller med åpen kildekode. Med sin innovative blanding av ekspertarkitektur, omfattende treningsdata og toppmoderne ytelse, har den satt en ny standard for hva som er mulig med åpne LLM-er.

Ved å demokratisere tilgangen til banebrytende AI-teknologi gir DBRX forskere, utviklere og bedrifter mulighet til å utforske nye grenser innen naturlig språkbehandling, innholdsskaping, dataanalyse og mer. Ettersom Databricks fortsetter å foredle og forbedre DBRX, er de potensielle bruksområdene og effekten av denne kraftige modellen virkelig ubegrensede.

Relaterte temaer:Databaser DBRX GPT-3.5 LLM Megablokker Mistral Blanding av eksperter MMLU

Neste

Arlington, VA: Fremstår som et nytt kraftsenter innen AI-innovasjon

Ikke gå glipp av

Adobe forhåndsviser nye generative AI-verktøy for videoarbeidsflyter

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.