Connect with us

Artificiell intelligens

Hur DeepSeek knäckte kostnadsspannet med 5,6 miljoner dollar

mm

Den konventionella AI-visdomen säger att byggandet av stora språkmodeller (LLM) kräver djupa fickor – vanligtvis miljarder i investeringar. Men DeepSeek, ett kinesiskt AI-startup, har just krossat denna paradigm med deras senaste prestation: utvecklingen av en världsklass AI-modell för bara 5,6 miljoner dollar.

DeepSeeks V3-modell kan gå i nivå med branschjättar som Googles Gemini och OpenAIs senaste erbjudanden, allt medan de använder en bråkdel av de vanliga beräkningsresurserna. Prestationen fick uppmärksamhet från många branschledare, och det som gör detta särskilt anmärkningsvärt är att företaget uppnådde detta trots att de stod inför USA:s exportrestriktioner som begränsade deras tillgång till de senaste Nvidia-chippen.

Ekonomi för effektiv AI

Siffrorna berättar en övertygande historia om effektivitet. Medan de flesta avancerade AI-modellerna kräver mellan 16 000 och 100 000 GPU:er för utbildning, lyckades DeepSeek med bara 2 048 GPU:er som kördes under 57 dagar. Modellens utbildning förbrukade 2,78 miljoner GPU-timmar på Nvidia H800-chippar – påfallande blygsamma för en 671-miljardersparametarmodell.

För att sätta detta i perspektiv behövde Meta ungefär 30,8 miljoner GPU-timmar – ungefär 11 gånger mer beräkningskraft – för att utbilda sin Llama 3-modell, som faktiskt har färre parametrar på 405 miljarder. DeepSeeks tillvägagångssätt liknar en mästarklass i optimering under begränsningar. Genom att arbeta med H800-GPU:er – AI-chippar som är specialutformade av Nvidia för den kinesiska marknaden med reducerade funktioner – förvandlade företaget potentiella begränsningar till innovation. Istället för att använda färdiga lösningar för processor-kommunikation utvecklade de anpassade lösningar som maximerade effektiviteten.

Medan konkurrenterna fortsätter att verka under antagandet att massiva investeringar är nödvändiga, visar DeepSeek att skarpsinne och effektiv resursanvändning kan jämna ut spelplanen.

Att konstruera det omöjliga

DeepSeeks prestation ligger i deras innovativa tekniska tillvägagångssätt, som visar att ibland kommer de mest betydande genombrotten från att arbeta inom begränsningar snarare än att kasta obegränsade resurser på ett problem.

I hjärtat av denna innovation ligger en strategi som kallas “auxiliary-loss-free load balancing”. Tänk på det som att orkestrera ett massivt parallellt bearbetningssystem där du traditionellt sett skulle behöva komplexa regler och straff för att hålla allt igång. DeepSeek vände den konventionella visdomen upp och ner, genom att utveckla ett system som naturligt upprätthåller balans utan den traditionella tillvägagångssättets överhuvud.

Teamet banade också väg för vad de kallar “Multi-Token Prediction” (MTP) – en teknik som låter modellen tänka i förväg genom att förutsäga flera token på samma gång. I praktiken översätts detta till en imponerande 85-90% acceptansgrad för dessa förutsägelser över olika ämnen, vilket ger 1,8 gånger snabbare bearbetningshastigheter än tidigare tillvägagångssätt.

Den tekniska arkitekturen i sig är ett mästerverk av effektivitet. DeepSeeks V3 använder en blandning av experter med totalt 671 miljarder parametrar, men här är det smarta – den aktiverar bara 37 miljarder för varje token. Denna selektiva aktivering innebär att de får fördelarna med en massiv modell samtidigt som de upprätthåller praktisk effektivitet.

Deras val av FP8 mixed precision-träningsramverk är ett annat stort steg. Istället för att acceptera de konventionella begränsningarna av reducerad precision, utvecklade de anpassade lösningar som upprätthåller noggrannhet samtidigt som de betydligt minskar minnes- och beräkningskraven.

Rippleffekter i AI-ekosystemet

Påverkan av DeepSeeks prestation sträcker sig långt utöver bara en lyckad modell.

För europeisk AI-utveckling är denna genombrott särskilt betydelsefull. Många avancerade modeller når inte EU eftersom företag som Meta och OpenAI antingen inte kan eller inte vill anpassa sig till EU:s AI-lag. DeepSeeks tillvägagångssätt visar att byggandet av toppmoderna AI inte alltid kräver massiva GPU-kluster – det handlar mer om att använda tillgängliga resurser effektivt.

Denna utveckling visar också hur exportrestriktioner kan driva innovation. DeepSeeks begränsade tillgång till högkvalitativ hårdvara tvingade dem att tänka annorlunda, vilket resulterade i programvaruoptimeringar som kanske aldrig skulle ha dykt upp i en resursrik miljö. Denna princip kan omforma hur vi närmar oss AI-utveckling globalt.

Demokratiseringsimplikationerna är djupgående. Medan branschjättar fortsätter att förbruka miljarder, har DeepSeek skapat en plan för effektiv och kostnadseffektiv AI-utveckling. Detta kan öppna dörrar för mindre företag och forskningsinstitutioner som tidigare inte kunde konkurrera på grund av resursbegränsningar.

Detta betyder dock inte att storskalig beräkningsinfrastruktur blir föråldrad. Branschen skiftar fokus mot att skala inferenstid – hur lång tid en modell tar att generera svar. När denna trend fortsätter kommer betydande beräkningsresurser fortfarande att vara nödvändiga, sannolikt ännu mer över tiden.

Men DeepSeek har grundläggande förändrat samtalet. De långsiktiga implikationerna är tydliga: vi går in i en era där innovativt tänkande och effektiv resursanvändning kan betyda mer än ren beräkningskraft. För AI-samhället innebär detta att fokusera inte bara på vilka resurser vi har, utan på hur kreativt och effektivt vi använder dem.

Alex McFarland är en AI-journalist och författare som utforskar de senaste utvecklingarna inom artificiell intelligens. Han har samarbetat med många AI-startups och publikationer över hela världen.