Kontakt med oss

Kunstig intelligens

DeepSeek-V3: Hvordan en kinesisk AI-oppstart overgår tekniske giganter i kostnader og ytelse

mm

Generativ AI utvikler seg raskt, transformerer bransjer og skaper nye muligheter daglig. Denne bølgen av innovasjon har ført til intens konkurranse blant teknologiselskaper som prøver å bli ledende på feltet. USA-baserte selskaper som OpenAI, Anthropic og Meta har dominert feltet i årevis. Imidlertid en ny utfordrer, den Kina-baserte oppstarten DeepSeek, vinner raskt terreng. Med sin nyeste modell, DeepSeek-V3, konkurrerer selskapet ikke bare med etablerte teknologigiganter OpenAI sin GPT-4o, Antropics Claude 3.5og Metas Llama 3.1 i ytelse, men også overgå dem i kostnadseffektivitet. I tillegg til markedskantene, forstyrrer selskapet status quo ved å offentlig gjøre opplærte modeller og underliggende teknologi tilgjengelig. En gang i hemmelighet holdt av selskapene, er disse strategiene nå åpne for alle. Denne utviklingen redefinerer spillereglene.

I denne artikkelen undersøker vi hvordan DeepSeek-V3 oppnår sine gjennombrudd og hvorfor det kan forme fremtiden til generativ AI for både bedrifter og innovatører.

Begrensninger i eksisterende store språkmodeller (LLMs)

Etter hvert som etterspørselen etter avanserte store språkmodeller (LLM) vokser, øker også utfordringene knyttet til implementeringen av dem. Modeller som GPT-4o og Claude 3.5 viser imponerende egenskaper, men kommer med betydelig ineffektivitet:

  • Ineffektiv ressursutnyttelse:

De fleste modeller er avhengige av å legge til lag og parametere for å øke ytelsen. Selv om denne tilnærmingen er effektiv, krever den enorme maskinvareressurser, noe som øker kostnadene og gjør skalerbarhet upraktisk for mange organisasjoner.

  • Flaskehalser for langsekvensbehandling:

Eksisterende LLM-er bruker transformatorarkitekturen som sin grunnleggende modelldesign. Transformatorer sliter med minnekrav som vokser eksponentielt ettersom inngangssekvensene forlenges. Dette resulterer i ressurskrevende slutninger, og begrenser deres effektivitet i oppgaver som krever lang kontekstforståelse.

  • Treningsflaskehalser på grunn av kommunikasjonskostnader:

Modelltrening i stor skala møter ofte ineffektivitet på grunn av GPU-kommunikasjon. Dataoverføring mellom noder kan føre til betydelig inaktiv tid, redusere det totale beregnings-til-kommunikasjonsforholdet og øke kostnadene.

Disse utfordringene tyder på at det å oppnå forbedret ytelse ofte går på bekostning av effektivitet, ressursutnyttelse og kostnader. DeepSeek viser imidlertid at det er mulig å forbedre ytelsen uten å ofre effektivitet eller ressurser. Slik takler DeepSeek disse utfordringene for å få det til.

Hvordan DeepSeek-V3 overvinner disse utfordringene

DeepSeek-V3 adresserer disse begrensningene gjennom innovative design- og ingeniørvalg, og håndterer effektivt denne avveiningen mellom effektivitet, skalerbarhet og høy ytelse. Slik gjør du det:

  • Intelligent ressursallokering gjennom blanding av eksperter (MoE)

I motsetning til tradisjonelle modeller, bruker DeepSeek-V3 en Blanding av eksperter (MoE) arkitektur som selektivt aktiverer 37 milliarder parametere per token. Denne tilnærmingen sikrer at beregningsressurser tildeles strategisk der det er nødvendig, og oppnår høy ytelse uten maskinvarekravene til tradisjonelle modeller.

  • Effektiv langsekvenshåndtering med latent oppmerksomhet med flere hoder (MHLA)

I motsetning til tradisjonelle LLM-er som er avhengige av transformatorarkitekturer som krever minneintensive cacher for lagring av rå nøkkelverdi (KV), bruker DeepSeek-V3 en innovativ Latent oppmerksomhet med flere hoder (MHLA) mekanisme. MHLA forvandler hvordan KV-cacher administreres ved å komprimere dem til et dynamisk latent rom ved hjelp av "latente spor." Disse sporene fungerer som kompakte minneenheter, og destillerer kun den mest kritiske informasjonen mens de forkaster unødvendige detaljer. Ettersom modellen behandler nye tokens, oppdateres disse sporene dynamisk, og opprettholder konteksten uten å øke minnebruken.

Ved å redusere minnebruken gjør MHLA DeepSeek-V3 raskere og mer effektiv. Det hjelper også modellen med å holde fokus på det som betyr noe, og forbedrer dens evne til å forstå lange tekster uten å bli overveldet av unødvendige detaljer. Denne tilnærmingen sikrer bedre ytelse samtidig som du bruker færre ressurser.

  • Blandet presisjonstrening med FP8

Tradisjonelle modeller er ofte avhengige av høypresisjonsformater som FP16 eller FP32 for å opprettholde nøyaktigheten, men denne tilnærmingen øker minnebruken og beregningskostnadene betydelig. DeepSeek-V3 tar en mer innovativ tilnærming med sitt FP8 blandet presisjonsrammeverk, som bruker 8-bits flytende kommarepresentasjoner for spesifikke beregninger. Ved å intelligent justere presisjonen for å matche kravene til hver oppgave, reduserer DeepSeek-V3 GPU-minnebruken og øker hastigheten på treningen, alt uten at det går på bekostning av numerisk stabilitet og ytelse.

  • Løse kommunikasjonsoverhead med DualPipe

For å takle problemet med kommunikasjonsoverhead, bruker DeepSeek-V3 et innovativt DualPipe-rammeverk for å overlappe beregninger og kommunikasjon mellom GPUer. Dette rammeverket lar modellen utføre begge oppgavene samtidig, noe som reduserer inaktive perioder når GPU-er venter på data. Sammen med avanserte kommunikasjonskjerner på tvers av noder som optimerer dataoverføring via høyhastighetsteknologier som InfiniBand og NV Link, gjør dette rammeverket det mulig for modellen å oppnå et konsistent beregnings-til-kommunikasjonsforhold selv når modellen skaleres.

Hva gjør DeepSeek-V3 unik?

DeepSeek-V3s innovasjoner leverer banebrytende ytelse samtidig som de opprettholder et bemerkelsesverdig lavt beregningsmessig og økonomisk fotavtrykk.

  • Treningseffektivitet og kostnadseffektivitet

En av DeepSeek-V3s mest bemerkelsesverdige prestasjoner er den kostnadseffektive treningsprosessen. Modellen ble trent på et omfattende datasett med 14.8 billioner tokens av høy kvalitet over omtrent 2.788 millioner GPU-timer på Nvidia H800 GPU-er. Denne treningsprosessen ble fullført til en totalkostnad på rundt 5.57 millioner dollar, en brøkdel av utgiftene til konkurrentene. For eksempel krevde OpenAIs GPT-4o angivelig over 100 millioner dollar til trening. Denne sterke kontrasten understreker DeepSeek-V3s effektivitet, og oppnår banebrytende ytelse med betydelig reduserte beregningsressurser og økonomiske investeringer.

  • Overlegne resonneringsevner:

MHLA-mekanismen utstyrer DeepSeek-V3 med eksepsjonell evne til å behandle lange sekvenser, slik at den kan prioritere relevant informasjon dynamisk. Denne evnen er spesielt viktig for å forstå lange sammenhenger som er nyttige for oppgaver som flertrinnsresonnering. Modellen bruker forsterkende læring for å trene MoE med modeller i mindre skala. Denne modulære tilnærmingen med MHLA-mekanisme gjør at modellen kan utmerke seg i resonneringsoppgaver. Benchmarks viser konsekvent at DeepSeek-V3 utkonkurrerer GPT-4o, Claude 3.5 og Llama 3.1 i flertrinns problemløsning og kontekstuell forståelse.

  • Energieffektivitet og bærekraft:

Med FP8-presisjon og DualPipe-parallellisme, minimerer DeepSeek-V3 energiforbruket samtidig som nøyaktigheten opprettholdes. Disse innovasjonene reduserer inaktiv GPU-tid, reduserer energibruken og bidrar til et mer bærekraftig AI-økosystem.

Final Thoughts

DeepSeek-V3 eksemplifiserer kraften til innovasjon og strategisk design i generativ AI. Ved å overgå industriledere når det gjelder kostnadseffektivitet og resonneringsevner, har DeepSeek bevist at det er mulig å oppnå banebrytende fremskritt uten overdreven ressurskrav.

DeepSeek-V3 tilbyr en praktisk løsning for organisasjoner og utviklere som kombinerer rimelighet med banebrytende muligheter. Dens fremvekst betyr at AI ikke bare vil bli kraftigere i fremtiden, men også mer tilgjengelig og inkluderende. Ettersom industrien fortsetter å utvikle seg, tjener DeepSeek-V3 som en påminnelse om at fremgang ikke trenger å gå på bekostning av effektivitet.

Dr. Tehseen Zia er en fast førsteamanuensis ved COMSATS University Islamabad, med en doktorgrad i AI fra Wiens teknologiske universitet, Østerrike. Med spesialisering i kunstig intelligens, maskinlæring, datavitenskap og datasyn, har han gitt betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter. Dr. Tehseen har også ledet ulike industrielle prosjekter som hovedetterforsker og fungert som AI-konsulent.