Kunstig intelligens

Inde i DBRX: Databricks frigiver kraftfuld Open Source LLM

Opdateret on April 16, 2024

I det hastigt fremadskridende felt af store sprogmodeller (LLM'er) er der dukket en ny kraftfuld model op – DBRX, en open source-model skabt af Databricks. Denne LLM laver bølger med sin avancerede ydeevne på tværs af en bred vifte af benchmarks, og konkurrerer endda med evnerne hos industrigiganter som OpenAI's GPT-4.

DBRX repræsenterer en væsentlig milepæl i demokratiseringen af kunstig intelligens, og giver forskere, udviklere og virksomheder åben adgang til en sprogmodel på højeste niveau. Men hvad er DBRX egentlig, og hvad gør den så speciel? I dette tekniske dyk vil vi udforske den innovative arkitektur, træningsproces og nøglefunktioner, der har drevet DBRX til forkant med det åbne LLM-landskab.

DBRX's fødsel Oprettelsen af DBRX var drevet af Databricks' mission om at gøre dataintelligens tilgængelig for alle virksomheder. Som førende inden for dataanalyseplatforme anerkendte Databricks det enorme potentiale ved LLM'er og satte sig for at udvikle en model, der kunne matche eller endda overgå ydeevnen af proprietære tilbud.

Efter måneder med intensiv forskning, udvikling og en investering på flere millioner dollar opnåede Databricks-teamet et gennembrud med DBRX. Modellens imponerende præstation på en lang række benchmarks, herunder sprogforståelse, programmering og matematik, etablerede den solidt som en ny state-of-the-art inden for åbne LLM'er.

Innovativ arkitektur

Styrken ved Mixture-of-Experts Kernen i DBRX's enestående ydeevne ligger dens innovative mix-of-expert-arkitektur (MoE). Dette banebrydende design repræsenterer en afvigelse fra traditionelle tætte modeller, der vedtager en sparsom tilgang, der forbedrer både førtræningseffektiviteten og inferenshastigheden.

I MoE-rammerne er kun en udvalgt gruppe af komponenter, kaldet "eksperter", aktiveret for hver input. Denne specialisering giver modellen mulighed for at tackle en bredere vifte af opgaver med større dygtighed, samtidig med at den optimerer beregningsressourcer.

DBRX tager dette koncept endnu længere med sin finkornede MoE-arkitektur. I modsætning til nogle andre MoE-modeller, der bruger et mindre antal større eksperter, beskæftiger DBRX 16 eksperter, med fire eksperter aktive for et givet input. Dette design giver svimlende 65 gange flere mulige ekspertkombinationer, hvilket direkte bidrager til DBRX's overlegne ydeevne.

DBRX adskiller sig med flere innovative funktioner:

Rotary Position Encodings (RoPE): Forbedrer forståelsen af tokenpositioner, afgørende for generering af kontekstuelt nøjagtig tekst.
Gated Linear Units (GLU): Introducerer en gating-mekanisme, der forbedrer modellens evne til at lære komplekse mønstre mere effektivt.
Grouped Query Attention (GQA): Forbedrer modellens effektivitet ved at optimere opmærksomhedsmekanismen.
Avanceret tokenisering: Bruger GPT-4's tokenizer til at behandle input mere effektivt.

MoE-arkitekturen er særligt velegnet til storskala sprogmodeller, da den giver mulighed for mere effektiv skalering og bedre udnyttelse af beregningsressourcer. Ved at fordele læringsprocessen på tværs af flere specialiserede undernetværk kan DBRX effektivt allokere data og regnekraft til hver opgave, hvilket sikrer både output af høj kvalitet og optimal effektivitet.

Omfattende træningsdata og effektiv optimering Selvom DBRX's arkitektur uden tvivl er imponerende, ligger dens sande kraft i den omhyggelige træningsproces og den enorme mængde data, den blev udsat for. DBRX blev fortrænet på forbløffende 12 billioner tokens af tekst- og kodedata, omhyggeligt sammensat for at sikre høj kvalitet og mangfoldighed.

Træningsdataene blev behandlet ved hjælp af Databricks' suite af værktøjer, herunder Apache Spark til databehandling, Unity Catalog til datastyring og -styring og MLflow til eksperimentsporing. Dette omfattende værktøjssæt gjorde det muligt for Databricks-teamet effektivt at administrere, udforske og forfine det massive datasæt, hvilket lagde grundlaget for DBRX's enestående ydeevne.

For yderligere at forbedre modellens muligheder anvendte Databricks et dynamisk fortræningspensum, der innovativt varierede datamixet under træningen. Denne strategi gjorde det muligt for hvert token at blive effektivt behandlet ved hjælp af de aktive 36 milliarder parametre, hvilket resulterede i en mere velafrundet og tilpasningsdygtig model.

Desuden blev DBRX's træningsproces optimeret til effektivitet, ved at udnytte Databricks' suite af proprietære værktøjer og biblioteker, herunder Composer, LLM Foundry, MegaBlocks og Streaming. Ved at anvende teknikker som læseplanlæring og optimerede optimeringsstrategier opnåede teamet næsten en firedobling af computereffektiviteten sammenlignet med deres tidligere modeller.

Træning og arkitektur

DBRX blev trænet ved hjælp af en næste-token-forudsigelsesmodel på et kolossalt datasæt på 12 billioner tokens, med vægt på både tekst og kode. Dette træningssæt menes at være betydeligt mere effektivt end dem, der blev brugt i tidligere modeller, hvilket sikrer en rig forståelse og responsevne på tværs af forskellige prompter.

DBRX's arkitektur er ikke kun et bevis på Databricks' tekniske dygtighed, men fremhæver også dets anvendelse på tværs af flere sektorer. Fra at forbedre chatbot-interaktioner til at drive komplekse dataanalyseopgaver kan DBRX integreres i forskellige felter, der kræver nuanceret sprogforståelse.

Bemærkelsesværdigt nok konkurrerer DBRX Instruct endda med nogle af de mest avancerede lukkede modeller på markedet. Ifølge Databricks' målinger overgår den GPT-3.5 og er konkurrencedygtig med Gemini 1.0 Pro og Mistral Medium på tværs af forskellige benchmarks, herunder generel viden, sund fornuft, programmering og matematisk ræsonnement.

For eksempel, på MMLU benchmark, som måler sprogforståelse, opnåede DBRX Instruct en score på 73.7 %, hvilket overgik GPT-3.5's rapporterede score på 70.0 %. På HellaSwag commonsense-benchmark scorede DBRX Instruct imponerende 89.0 %, hvilket overgik GPT-3.5's 85.5 %.

DBRX Instruct skinner virkelig og opnår en bemærkelsesværdig 70.1 % nøjagtighed på HumanEval benchmark, og overgår ikke kun GPT-3.5 (48.1 %), men også den specialiserede CodeLLaMA-70B Instruct-model (67.8 %).

Disse enestående resultater fremhæver DBRX's alsidighed og dens evne til at udmærke sig på tværs af en bred vifte af opgaver, fra naturlig sprogforståelse til kompleks programmering og matematisk problemløsning.

Effektiv inferens og skalerbarhed En af de vigtigste fordele ved DBRX's MoE-arkitektur er dens effektivitet under inferens. Takket være den sparsomme aktivering af parametre kan DBRX opnå inferensgennemløb, der er op til to til tre gange hurtigere end tætte modeller med det samme samlede parameterantal.

Sammenlignet med LLaMA2-70B, en populær open source LLM, demonstrerer DBRX ikke kun højere kvalitet, men kan også prale af næsten dobbelt slutningshastighed, på trods af at have omkring halvt så mange aktive parametre. Denne effektivitet gør DBRX til et attraktivt valg til udrulning i en bred vifte af applikationer, fra indholdsoprettelse til dataanalyse og videre.

Desuden har Databricks udviklet en robust træningsstak, der gør det muligt for virksomheder at træne deres egne DBRX-klasse modeller fra bunden eller fortsætte træningen oven på de leverede kontrolpunkter. Denne evne sætter virksomheder i stand til at udnytte det fulde potentiale af DBRX og skræddersy det til deres specifikke behov, hvilket yderligere demokratiserer adgangen til avanceret LLM-teknologi.

Databricks' udvikling af DBRX-modellen markerer et betydeligt fremskridt inden for maskinlæring, især gennem dens brug af innovative værktøjer fra open source-fællesskabet. Denne udviklingsrejse er væsentligt påvirket af to centrale teknologier: MegaBlocks-biblioteket og PyTorchs Fully Sharded Data Parallel (FSDP)-system.

MegaBlocks: Enhancing MoE Efficiency

Megablokke biblioteket løser udfordringerne forbundet med den dynamiske routing i Mixture-of-Experts (MoEs) lag, en fælles forhindring i skalering af neurale netværk. Traditionelle rammer pålægger ofte begrænsninger, der enten reducerer modeleffektiviteten eller går på kompromis med modelkvaliteten. MegaBlocks omdefinerer imidlertid MoE-beregning gennem blokspare operationer, der på en dygtig måde håndterer den iboende dynamik i MoEs, og dermed undgår disse kompromiser.

Denne tilgang bevarer ikke kun tokens integritet, men stemmer også godt overens med moderne GPU-funktioner, hvilket letter op til 40 % hurtigere træningstider sammenlignet med traditionelle metoder. En sådan effektivitet er afgørende for træningen af modeller som DBRX, der i høj grad er afhængige af avancerede MoE-arkitekturer for at administrere deres omfattende parametersæt effektivt.

PyTorch FSDP: Skalering af store modeller

PyTorch's fuldt uddelte dataparallel (FSDP) præsenterer en robust løsning til træning af usædvanligt store modeller ved at optimere parameterskæring og distribution på tværs af flere computerenheder. Co-designet med centrale PyTorch-komponenter, FSDP integreres problemfrit og tilbyder en intuitiv brugeroplevelse, der ligner lokale træningsopsætninger, men i meget større skala.

FSDP's design løser smart adskillige kritiske problemer:

Brugererfaring: Det forenkler brugergrænsefladen på trods af de komplekse backend-processer, hvilket gør den mere tilgængelig for bredere brug.
Hardware heterogenitet: Den tilpasser sig forskellige hardwaremiljøer for at optimere ressourceudnyttelsen effektivt.
Ressourceudnyttelse og hukommelsesplanlægning: FSDP forbedrer brugen af beregningsressourcer og minimerer samtidig hukommelsesomkostninger, hvilket er afgørende for træningsmodeller, der fungerer på DBRX-skalaen.

FSDP understøtter ikke kun større modeller, end det tidligere var muligt under Distributed Data Parallel frameworket, men opretholder også nær-lineær skalerbarhed med hensyn til gennemløb og effektivitet. Denne egenskab har vist sig at være essentiel for Databricks' DBRX, hvilket gør det muligt for den at skalere på tværs af flere GPU'er, samtidig med at dens store antal parametre administreres effektivt.

Tilgængelighed og integrationer

I tråd med sin mission om at fremme åben adgang til AI, har Databricks gjort DBRX tilgængelig gennem flere kanaler. Vægtene af både basismodellen (DBRX Base) og den finjusterede model (DBRX Instruct) er hostet på den populære Hugging Face-platform, hvilket giver forskere og udviklere mulighed for nemt at downloade og arbejde med modellen.

Derudover DBRX-modellager er tilgængelig på GitHub, hvilket giver gennemsigtighed og muliggør yderligere udforskning og tilpasning af modellens kode.

For Databricks kunder er DBRX Base og DBRX Instruct bekvemt tilgængelige via Databricks Foundation Model API'erne, hvilket muliggør problemfri integration i eksisterende arbejdsgange og applikationer. Dette forenkler ikke kun implementeringsprocessen, men sikrer også datastyring og sikkerhed for følsomme brugssager.

Ydermere er DBRX allerede blevet integreret i flere tredjepartsplatforme og -tjenester, såsom You.com og Perplexity Labs, hvilket udvider dets rækkevidde og potentielle applikationer. Disse integrationer demonstrerer den voksende interesse for DBRX og dets muligheder, såvel som den stigende anvendelse af åbne LLM'er på tværs af forskellige industrier og use cases.

Long-Context Capabilities og Retrieval Augmented Generation En af DBRX's iøjnefaldende funktioner er dens evne til at håndtere lang kontekst-input med en maksimal kontekstlængde på 32,768 tokens. Denne funktion gør det muligt for modellen at behandle og generere tekst baseret på omfattende kontekstuel information, hvilket gør den velegnet til opgaver som dokumentresumé, besvarelse af spørgsmål og informationssøgning.

I benchmarks, der evaluerer ydeevne i lang kontekst, såsom KV-Pairs og HotpotQAXL, klarede DBRX Instruct GPT-3.5 Turbo på tværs af forskellige sekvenslængder og kontekstpositioner.

DBRX overgår etablerede open source-modeller på sprogforståelse (MMLU), programmering (HumanEval) og matematik (GSM8K).

Begrænsninger og fremtidigt arbejde

Selvom DBRX repræsenterer en betydelig præstation inden for åbne LLM'er, er det vigtigt at anerkende dets begrænsninger og områder for fremtidig forbedring. Som enhver AI-model kan DBRX producere unøjagtige eller partiske svar, afhængigt af kvaliteten og mangfoldigheden af dets træningsdata.

Mens DBRX udmærker sig ved generelle opgaver, kan visse domænespecifikke applikationer kræve yderligere finjustering eller specialiseret træning for at opnå optimal ydeevne. For eksempel i scenarier, hvor nøjagtighed og pålidelighed er af yderste vigtighed, anbefaler Databricks at bruge retrieval augmented generation (RAG) teknikker til at forbedre modellens output.

Ydermere består DBRX's nuværende træningsdatasæt primært af engelsksproget indhold, hvilket potentielt begrænser dets ydeevne på ikke-engelske opgaver. Fremtidige iterationer af modellen kan indebære at udvide træningsdataene til at omfatte en mere mangfoldig række sprog og kulturelle kontekster.

Databricks er forpligtet til løbende at forbedre DBRX's muligheder og adressere dens begrænsninger. Fremtidigt arbejde vil fokusere på at forbedre modellens ydeevne, skalerbarhed og anvendelighed på tværs af forskellige applikationer og brugssager, samt at udforske teknikker til at afbøde potentielle skævheder og fremme etisk AI-brug.

Derudover planlægger virksomheden at forfine træningsprocessen yderligere ved at udnytte avancerede teknikker såsom fødereret læring og metoder til beskyttelse af privatlivets fred for at sikre databeskyttelse og sikkerhed.

Vejen foran

DBRX repræsenterer et væsentligt skridt fremad i demokratiseringen af AI-udvikling. Den forestiller sig en fremtid, hvor enhver virksomhed har evnen til at kontrollere sine data og sin skæbne i den nye verden af generativ AI.

Ved at åbne DBRX og give adgang til de samme værktøjer og infrastruktur, som bruges til at bygge det, giver Databricks virksomheder og forskere mulighed for at udvikle deres egne banebrydende Databricks, der er skræddersyet til deres specifikke behov.

Gennem Databricks platformen kan kunderne udnytte virksomhedens suite af databehandlingsværktøjer, herunder Apache Spark, Unity Catalog og MLflow, til at kurere og administrere deres træningsdata. De kan derefter bruge Databricks' optimerede træningsbiblioteker, såsom Composer, LLM Foundry, MegaBlocks og Streaming, til at træne deres egne DBRX-klasse modeller effektivt og i skala.

Denne demokratisering af AI-udvikling har potentialet til at låse op for en ny bølge af innovation, efterhånden som virksomheder får muligheden for at udnytte kraften i store sprogmodeller til en bred vifte af applikationer, fra indholdsskabelse og dataanalyse til beslutningsstøtte og videre.

Ved at fremme et åbent og kollaborativt økosystem omkring DBRX sigter Databricks desuden på at accelerere tempoet i forskning og udvikling inden for store sprogmodeller. Efterhånden som flere organisationer og enkeltpersoner bidrager med deres ekspertise og indsigt, vil den kollektive viden og forståelse af disse kraftfulde AI-systemer fortsætte med at vokse og bane vejen for endnu mere avancerede og dygtige modeller i fremtiden.

Konklusion

DBRX er en game-changer i verden af open source store sprogmodeller. Med sin innovative blanding af ekspertarkitektur, omfattende træningsdata og avancerede ydeevne har den sat et nyt benchmark for, hvad der er muligt med åbne LLM'er.

Ved at demokratisere adgangen til avanceret AI-teknologi giver DBRX forskere, udviklere og virksomheder mulighed for at udforske nye grænser inden for naturlig sprogbehandling, indholdsskabelse, dataanalyse og mere. Da Databricks fortsætter med at forfine og forbedre DBRX, er de potentielle anvendelser og virkninger af denne kraftfulde model virkelig ubegrænsede.

Relaterede emner:Databrikker DBRX GPT-3.5 LLM Megablokke Mistral Blanding af eksperter MMLU

Næste

Arlington, VA: Fremstår som et nyt kraftcenter inden for AI-innovation

Gå ikke glip af

Adobe viser nye generative AI-værktøjer til videoarbejdsgange

Aayush Mittal

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.