Connect with us

Kunstig intelligens

DeepSeek-V3: Hvordan en kinesisk AI-startup overgår teknologigigantene i kostnad og ytelse

mm

Generativ AI utvikler seg raskt, og transformerer industrier og skaper nye muligheter daglig. Denne bølgen av innovasjon har ført til intens konkurranse blant teknologiselskaper som prøver å bli ledere på området. US-baserte selskaper som OpenAI, Anthropic og Meta har dominert markedet i år. Men en ny utfordrer, den kinesiske startupen DeepSeek, er raskt på vei til å ta igjen. Med sin nyeste modell, DeepSeek-V3, er selskapet ikke bare i ferd med å utfordre etablerte teknologigigantene som OpenAI’s GPT-4o, Anthropic’s Claude 3.5 og Meta’s Llama 3.1 når det gjelder ytelse, men også overgår dem i kostnadseffektivitet. Foruten markedets fordeler, er selskapet i ferd med å bryte status quo ved å gjøre trente modeller og underliggende teknologi tilgjengelig for offentligheten. Disse strategiene, som tidligere var hemmeligholdt av selskapene, er nå åpne for alle. Disse utviklingene endrer spilleregler.

I denne artikkelen utforsker vi hvordan DeepSeek-V3 oppnår sine gjennombrudd og hvorfor det kan forme fremtiden for generativ AI for bedrifter og innovatører.

Begrensninger i eksisterende store språkmodeller (LLM)

Ettersom etterspørselen etter avanserte store språkmodeller (LLM) vokser, øker også utfordringene forbundet med deres utrulling. Modeller som GPT-4o og Claude 3.5 viser imponerende evner, men kommer med betydelige ineffektiviteter:

  • Ueffektiv ressursutnyttelse:

De fleste modellene baserer seg på å legge til lag og parametre for å øke ytelsen. Mens dette er effektivt, krever dette tilnærmingen enorme hardware-ressurser, noe som driver opp kostnadene og gjør skalerbarheten uvirkelig for mange organisasjoner.

  • Langsekvensbehandlingens flaskehalser:

Eksisterende LLM benytter transformer-arkitekturen som grunnmodell. Transformere sliter med minnekrav som vokser eksponentielt når inndata-sekvensene lenges. Dette resulterer i ressursintensiv inferens, noe som begrenser deres effektivitet i oppgaver som krever lang kontekstforståelse.

  • Treningsflaskehalser på grunn av kommunikasjons-overhead:

Storskala modell-trening møter ofte ineffektiviteter på grunn av GPU-kommunikasjons-overhead. Dataoverføring mellom noder kan føre til betydelig tom tid, noe som reduserer den totale beregnings-til-kommunikasjons-ratio og øker kostnadene.

Disse utfordringene antyder at å oppnå forbedret ytelse ofte kommer på bekostning av effektivitet, ressursutnyttelse og kostnad. Men DeepSeek demonstrerer at det er mulig å forbedre ytelsen uten å ofre effektivitet eller ressurser. Her er hvordan DeepSeek tackler disse utfordringene for å gjøre det mulig.

Hvordan DeepSeek-V3 overvinner disse utfordringene

DeepSeek-V3 addresserer disse begrensningene gjennom innovative design- og ingeniørvalg, og håndterer effektivt denne avveiningen mellom effektivitet, skalerbarhet og høy ytelse. Her er hvordan:

  • Intelligent ressursallokering gjennom Mixture-of-Experts (MoE)

I motsetning til tradisjonelle modeller, benytter DeepSeek-V3 en Mixture-of-Experts (MoE)-arkitektur som selektivt aktiverer 37 milliarder parametre per token. Denne tilnærmingen sikrer at beregningsressursene allokeres strategisk der de trengs, og oppnår høy ytelse uten de hardware-kravene til tradisjonelle modeller.

  • Effektiv langsekvensbehandling med Multi-Head Latent Attention (MHLA)

I motsetning til tradisjonelle LLM som baserer seg på Transformer-arkitekturer som krever minne-intensive caches for å lagre rå nøkkel-verdi (KV), benytter DeepSeek-V3 en innovativ Multi-Head Latent Attention (MHLA)-mekanisme. MHLA transformerer hvordan KV-caches håndteres ved å komprimere dem til en dynamisk latent rom menggunakan “latent slots”. Disse slotene fungerer som kompakte minneenheter, og destillerer bare den viktigste informasjonen mens de kasserer unødvendige detaljer. Mens modellen prosesserer nye token, oppdaterer disse slotene dynamisk, og opprettholder konteksten uten å øke minnebruk.

Ved å redusere minnebruk, gjør MHLA DeepSeek-V3 raskere og mer effektiv. Den hjelper også modellen å fokusere på det som er viktigst, og forbedrer dens evne til å forstå lange tekster uten å bli overveldet av unødvendige detaljer. Denne tilnærmingen sikrer bedre ytelse mens den bruker færre ressurser.

  • Blandet presisjonstreningsmetode med FP8

Tradisjonelle modeller baserer seg ofte på høy-presisjonsformater som FP16 eller FP32 for å opprettholde nøyaktighet, men denne tilnærmingen øker betydelig minnebruk og beregningskostnader. DeepSeek-V3 tar en mer innovativ tilnærming med sin FP8-blandet presisjonsramme, som benytter 8-bits flytende punkt-representasjoner for bestemte beregninger. Ved å inteligent justere presisjon for å møte kravene til hver oppgave, reduserer DeepSeek-V3 GPU-minnebruk og akselerer trening, uten å kompromittere numerisk stabilitet og ytelse.

  • Løsning av kommunikasjons-overhead med DualPipe

For å takle problemet med kommunikasjons-overhead, benytter DeepSeek-V3 en innovativ DualPipe-ramme for å overlappe beregning og kommunikasjon mellom GPU-er. Denne rammen tillater modellen å utføre begge oppgavene samtidig, og reduserer de tomme periodene når GPU-er venter på data. Kombinert med avanserte cross-node kommunikasjonskerner som optimaliserer dataoverføring via høyhastighetsteknologier som InfiniBand og NVLink, gjør denne rammen det mulig for modellen å oppnå en konstant beregnings-til-kommunikasjons-ratio, selv når modellen skalerer.

Hva gjør DeepSeek-V3 unikt?

DeepSeek-V3s innovasjoner leverer banebrytende ytelse mens den opprettholder en merkbart lav beregnings- og finansiell fotavtrykk.

  • Trenings-effektivitet og kostnadseffektivitet

En av DeepSeek-V3s mest bemerkelsesverdige prestasjoner er dens kostnadseffektive treningsprosess. Modellen ble trent på et omfattende datasett på 14,8 billioner høykvalitets-token over omtrent 2,788 millioner GPU-timer på Nvidia H800 GPU-er. Denne treningsprosessen ble fullført til en total kostnad på rundt 5,57 millioner dollar, en brøkdel av utgiftene som ble påført av dens motparter. For eksempel, skal OpenAI’s GPT-4o ha krevd over 100 millioner dollar for trening. Denne markante kontrasten understreker DeepSeek-V3s effektivitet, og oppnår banebrytende ytelse med betydelig reduserte beregningsressurser og finansiell investering.

  • Overlegen resonemsevne:

MHLA-mekanismen utstyrer DeepSeek-V3 med en unik evne til å prosessere lange sekvenser, og lar den prioritere relevant informasjon dynamisk. Denne evnen er spesielt viktig for å forstå lange kontekster, som er nyttig for oppgaver som multi-trinn resonemse. Modellen benytter forsterkingslæring for å trene MoE med mindre modeller. Denne modulære tilnærmingen med MHLA-mekanismen gjør det mulig for modellen å utmerke seg i resonemseoppgaver. Benchmark-tester viser konsekvent at DeepSeek-V3 overgår GPT-4o, Claude 3.5 og Llama 3.1 i multi-trinn problemløsning og kontekstforståelse.

  • Energi-effektivitet og bærekraft:

Med FP8-presisjon og DualPipe-parallellisme, minimiserer DeepSeek-V3 energiforbruk mens den opprettholder nøyaktighet. Disse innovasjonene reduserer tom GPU-tid, reduserer energibruk og bidrar til et mer bærekraftig AI-økosystem.

Slutt tanker

DeepSeek-V3 eksemplifiserer kraften av innovasjon og strategisk design i generativ AI. Ved å overgå industrijättene i kostnadseffektivitet og resonemseevne, har DeepSeek bevist at det er mulig å oppnå banebrytende fremgang uten å kreve ekstreme ressurskrav.

DeepSeek-V3 tilbyr en praktisk løsning for organisasjoner og utviklere som kombinerer rimelighet med banebrytende evner. Dens oppkomst markerer at AI ikke bare vil bli mer kraftig i fremtiden, men også mer tilgjengelig og inkluderende. Mens industrien fortsetter å utvikle seg, tjener DeepSeek-V3 som en påminnelse om at fremgang ikke behøver å komme på bekostning av effektivitet.

Dr. Tehseen Zia er en fast ansatt associate professor ved COMSATS University Islamabad, med en PhD i AI fra Vienna University of Technology, Østerrike. Som spesialist i kunstig intelligens, maskinlæring, datavitenskap og datavisjon, har han gjort betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter. Dr. Tehseen har også ledet flere industriprosjekter som hovedundersøker og tjenestegjort som AI-konsulent.