Tekoäly
Kuinka DeepSeek mursi kustannusesteet 5,6 miljoonalla

Perinteinen tekoälyviisaus sanoo, että suurten kielen mallien (LLM) rakentaminen vaatii syvät taskut – tyypillisesti miljardeja sijoituksia. Mutta DeepSeek, kiinalainen tekoälystart-up, rikkoi tämän paradigman viimeisimmällä saavutuksellaan: kehittämällä maailmanluokan tekoälymallin vain 5,6 miljoonalla dollarilla.
DeepSeekin V3-malli pystyy kilpailemaan alan jättien kuten Googlen Gemini ja OpenAI:n uusimpien tarjontojen kanssa, käyttäen samalla vain murto-osan tyypillisistä laskentaresursseista. Saavutus herätti monien alan johtajien huomion, ja se, mikä tekee tästä erityisesti merkittävää, on, että yhtiö onnistui tässä huolimatta Yhdysvaltain vientirajoituksista, jotka rajoittivat pääsyä uusimpiin Nvidian piireihin.
Tekoälyn taloustiede
Luvut kertovat vakuuttavan tarinan tehokkuudesta. Kun useimmat edistyneet tekoälymallit vaativat 16 000 ja 100 000 GPU:ta koulutukseen, DeepSeek onnistui vain 2 048 GPU:lla, jotka pyörittiin 57 päivää. Mallin koulutus kulutti 2,78 miljoonaa GPU-tuntia Nvidia H800 -piireillä – hämmästyttävän kohtuullinen 671 miljardin parametrin malli.
Vertailun vuoksi Meta tarvitsi noin 30,8 miljoonaa GPU-tuntia – noin 11 kertaa enemmän laskentatehoa – kouluttaakseen Llama 3 -mallin, jolla on itse asiassa vähemmän parametrejä, 405 miljardia. DeepSeekin lähestymistapa muistuttaa mestarin luokan optimointia rajoituksissa. H800-GPU:iden kanssa – tekoälypiirejä, joita Nvidia on suunnitellut erityisesti kiinalaiselle markkinalle vähennetyillä ominaisuuksilla – yhtiö muutti mahdolliset rajoitukset innovaatioksi. Sen sijaan, että olisi käyttänyt valmiita ratkaisuja prosessorien viestintään, he kehittivät mukautettuja ratkaisuja, jotka maksimoivat tehokkuuden.
Kun kilpailijat jatkavat toimintaa oletuksella, että massiiviset sijoitukset ovat välttämättömiä, DeepSeek osoittaa, että älykkyys ja resurssien tehokas käyttö voivat tasoittaa pelikenttää.
Mahdottoman insinöörinti
DeepSeekin saavutus perustuu innovatiiviseen tekniseen lähestymistapaan, joka osoittaa, että joskus merkittävimmät läpimurrot tulevat työskentelemisestä rajoituksissa sen sijaan, että heittäisiä rajattomia resursseja ongelmaan.
Innovaation ydin on strategia, jota kutsutaan “apuloseurantavapaaksi kuormituksen tasapainottamiseksi”. Ajattele sitä massiivisena rinnakkaislaskentajärjestelmänä, jossa perinteisesti tarvittaisiin monimutkaisia sääntöjä ja rangaistuksia, jotta kaikki toimisi sulavasti. DeepSeek käänsi tämän perinteisen viisauden päälaelleen kehittämällä järjestelmän, joka ylläpitää tasapainoa ilman perinteisten lähestymistapojen ylikuormitusta.
Tiimi kehitti myös niin kutsutun “monitokenennusteen” (MTP) -tekniikan, joka sallii mallin ajatella eteenpäin ennustamalla useita tokenia kerran. Käytännössä tämä kääntyy vaikuttavaksi 85-90 prosentin hyväksymisprosentiksi näille ennusteille eri aiheista, tarjoamalla 1,8 kertaa nopeamman prosessoinnin kuin aiemmat lähestymistavat.
Itse tekninen arkkitehtuuri on tehokkuuden mestariteos. DeepSeekin V3 käyttää asiantuntijoiden sekoitusta 671 miljardilla yhteisparametrillä, mutta tässä on älykäs osa – se aktivoi vain 37 miljardia jokaiselle tokenille. Tämä valikoiva aktivaatio tarkoittaa, että he saavat massiivisen mallin hyödyt ylläpitäen samalla käytännön tehokkuutta.
Heidän valintansa FP8-sekoitettu tarkkuuden koulutuskehyksessä on toinen askel eteenpäin. Sen sijaan, että hyväksyisi vähennetyn tarkkuuden rajoitukset, he kehittivät mukautettuja ratkaisuja, jotka ylläpitävät tarkkuutta merkittävästi vähentäen muisti- ja laskentavaatimuksia.
Aallot tekoälyn ekosysteemissä
DeepSeekin saavutuksen vaikutus ulottuu paljon yli yhden onnistuneen mallin.
Euroopan tekoälykehitykselle tämä läpimurto on erityisen merkittävä. Monet edistyneet mallit eivät pääse EU: hun, koska yhtiöt kuten Meta ja OpenAI joko eivät voi tai eivät halua sopeuttaa EU:n tekoälylakia. DeepSeekin lähestymistapa osoittaa, että rakentaa alan huipputasoa ei välttämättä vaadi massiivisia GPU-klustereita – se on enemmän kyse resurssien tehokkaasta käytöstä.
Tämä kehitys osoittaa myös, miten vientirajoitukset voivat itse asiassa ajaa innovaatiota. DeepSeekin rajoitettu pääsy korkean tason laitteistoon pakotti heidät ajattelemaan toisin, mikä johti ohjelmistoparempiin, joita ei olisi välttämättä keksitty resursseilla rikkaassa ympäristössä. Tämä periaate voi muuttaa, miten lähestymme tekoälykehitystä maailmanlaajuisesti.
Demokratisoinnin vaikutukset ovat syvät. Kun alan jätit jatkavat toimintaa oletuksella, että massiiviset sijoitukset ovat välttämättömiä, DeepSeek on luonut viitetiedon tehokkaasta, kustannustehokkaasta tekoälykehityksestä. Tämä voisi avata ovia pienemmille yhtiöille ja tutkimuslaitoksille, jotka eivät aiemmin voineet kilpailla resurssirajoitusten vuoksi.
Tämä ei kuitenkaan tarkoita, että suurten mittakaavojen laskentainfrastruktuuri on muuttumassa vanhentuneeksi. Alan fokus siirtyy skaalautuvan inference-ajan – kuinka kauan malli tarvitsee vastata – kehittämiseen. Kun tämä suuntaus jatkuu, merkittävät laskentaresurssit ovat edelleen välttämättömiä, luultavasti jopa enemmän tulevaisuudessa.
Mutta DeepSeek on muuttanut perustavanlaatuisesti keskustelun. Pitkän aikavälin vaikutukset ovat selvät: menemme aikakauteen, jossa innovatiivinen ajattelu ja resurssien tehokas käyttö voivat olla tärkeämpää kuin pelkästään laskentateho. Tekoälyyhteisölle tämä tarkoittaa, että keskitymme ei vain resursseihimme, vaan siihen, miten luovuasti ja tehokkaasti käytämme niitä.












