Connect with us

Kunstig intelligens

Hvordan DeepSeek knuste kostnadsskranken med $5,6M

mm

Konvensjonell AI-visdom antyder at bygging av store språkmodeller (LLM) krever dype lommer – vanligvis milliarder i investeringer. Men DeepSeek, en kinesisk AI-startup, har nettopp knust denne paradigmen med deres siste prestasjon: utvikling av en verdensklasse AI-modell for bare $5,6 millioner.

DeepSeeks V3-modell kan konkurrere med industrigiganter som Googles Gemini og OpenAIs siste tilbud, samtidig som de bruker en brøkdel av de typiske beregningsresursene. Prestasjonen fanget oppmerksomheten til mange industriledere, og det som gjør dette spesielt merkbart er at selskapet klarte å oppnå dette til tross for å møte amerikanske eksportrestriksjoner som begrenset deres tilgang til de siste Nvidia-chipene.

Økonomien til effektiv AI

Tallene forteller en overbevisende historie om effisiens. Mens de fleste avanserte AI-modellene krever mellom 16 000 og 100 000 GPUer for trening, klarte DeepSeek å nå målet med bare 2 048 GPUer som kjørte i 57 dager. Modellens trening forbrukte 2,78 millioner GPU-timer på Nvidia H800-chipene – bemerkelsesverdig beskjedent for en 671-milliardparameters modell.

For å sette dette i perspektiv, trengte Meta omtrent 30,8 millioner GPU-timer – omtrent 11 ganger mer beregningskraft – for å trene deres Llama 3-modell, som faktisk har færre parametre på 405 milliarder. DeepSeeks tilnærming ligner en mesterklasse i optimalisering under begrensninger. Ved å arbeide med H800-GPUer – AI-chipene designet av Nvidia spesifikt for den kinesiske markedet med reduserte muligheter – omgjorde selskapet potensielle begrensninger til innovasjon. I stedet for å bruke ferdige løsninger for prosessor-kommunikasjon, utviklet de tilpassede løsninger som maksimerte effisiensen.

Mens konkurrenter fortsatt opererer under antagelsen at massive investeringer er nødvendige, demonstrerer DeepSeek at ingeniøriten og effektiv ressursutnyttelse kan jevne ut spillere.

Ingeniøriten av det umulige

DeepSeeks prestasjon ligger i deres innovative tekniske tilnærming, og viser at noen ganger de mest betydelige gjennombruddene kommer fra å arbeide innenfor begrensninger i stedet for å kaste ubegrensede ressurser på et problem.

I hjertet av denne innovasjonen ligger en strategi kalt “auxiliary-loss-free load balancing”. Tenk på det som å orkestrere et massivt parallelt prosesseringsystem der du tradisjonelt ville trenge komplekse regler og straffer for å holde alt gående jevnt. DeepSeek snudde denne konvensjonelle visdommen på hodet, og utviklet et system som naturlig opprettholder balanse uten den overhead som tradisjonelle tilnærminger medfører.

Teamet gikk også i spissen for hva de kalte “Multi-Token Prediction” (MTP) – en teknikk som lar modellen tenke foran ved å forutsi flere token på en gang. I praksis oversettes dette til en imponerende 85-90% akseptansrate for disse forutsigelsene over ulike emner, og leverer 1,8 ganger raskere prosesseringshastigheter enn tidligere tilnærminger.

Den tekniske arkitekturen i seg selv er et mesterverk av effisiens. DeepSeeks V3 benytter en blanding av eksperter med 671 milliarder totale parametre, men her er det clevere – den aktiverer bare 37 milliarder for hvert token. Denne selektive aktiveringen betyr at de får fordelene med en massiv modell samtidig som de opprettholder praktisk effisiens.

Deres valg av FP8 blandet presisjonstreningsramme er et annet sprang fremover. I stedet for å akseptere de konvensjonelle begrensningene til redusert presisjon, utviklet de tilpassede løsninger som opprettholder nøyaktighet samtidig som de betydelig reduserer minne- og beregningskrav.

Rippleffekter i AI-økosystemet

Påvirkningen av DeepSeeks prestasjon går langt utover bare en vellykket modell.

For europeisk AI-utvikling er dette gjennombruddet spesielt betydelig. Mange avanserte modeller kommer ikke til EU fordi selskaper som Meta og OpenAI enten ikke kan eller ikke vil tilpasse seg EU AI-loven. DeepSeeks tilnærming viser at bygging av banebrytende AI ikke alltid krever massive GPU-kluster – det handler mer om å bruke tilgjengelige ressurser effektivt.

Denne utviklingen viser også hvordan eksportrestriksjoner kan drive innovasjon. DeepSeeks begrensede tilgang til høykvalitets-hardware tvang dem til å tenke annerledes, og resulterte i programvareoptimaliseringer som kanskje aldri ville ha oppstått i en ressursrik miljø.

Demokratiseringsimplikasjonene er dyptgående. Mens industrigiganter fortsatt brenner gjennom milliarder, har DeepSeek skapt en blåkopi for effektiv, kostnadseffektiv AI-utvikling. Dette kunne åpne døren for mindre selskaper og forskningsinstitusjoner som tidligere ikke kunne konkurrere på grunn av ressursbegrensninger.

Men dette betyr ikke at storskala beregningsinfrastruktur blir foreldet. Industrien skifter fokus mot å skalerer inferenstid – hvor lenge en modell tar å generere svar. Etterhvert som denne trenden fortsetter, vil betydelige beregningsressurser fortsatt være nødvendige, sannsynligvis enda mer over tid.

Men DeepSeek har fundamentalt endret samtalen. Langtidsimplikasjonene er klare: vi går inn i en æra hvor innovativ tenkning og effektiv ressursbruk kan bety mer enn ren beregningskraft. For AI-samfunnet betyr dette å fokusere ikke bare på hvilke ressurser vi har, men på hvordan vi kreativt og effektivt bruker dem.

Alex McFarland er en AI-journalist og forfatter som utforsker de nyeste utviklingene innen kunstig intelligens. Han har samarbeidet med tallrike AI-startups og publikasjoner verden over.