Kapcsolatba velünk

Mesterséges intelligencia

Hogyan törte át a DeepSeek a költségkorlátot 5.6 millió dollárral?

korszerűsített on

A hagyományos AI bölcsesség azt sugallja, hogy épít nagy nyelvi modellek (LLM) mély zsebeket igényel – jellemzően milliárdos befektetést. De DeepSeek, egy kínai mesterséges intelligencia startup, éppen ezt a paradigmát törte szét legújabb vívmányukkal: világszínvonalú AI-modellt fejlesztettek ki mindössze 5.6 millió dollárért.

A DeepSeek V3-as modellje fej-fej mellett haladhat olyan iparági óriásokkal, mint például A Google Gemini és a Az OpenAI legújabb ajánlatai, miközben a tipikus számítási erőforrások töredékét használja. Az eredmény sok iparági vezető figyelmét felkeltette, és ami ezt különösen figyelemre méltó, az az, hogy a vállalat teljesítette ezt annak ellenére, hogy az Egyesült Államok exportkorlátozásaival kellett szembenéznie, amelyek korlátozták hozzáférésüket a legújabb termékekhez. Nvidia chipek.

A hatékony AI gazdaságtana

A számok a hatékonyság lenyűgöző történetét mesélik el. Míg a legtöbb fejlett mesterséges intelligencia modell 16,000 100,000 és 2,048 57 közötti GPU-t igényel a képzéshez, a DeepSeek mindössze 2.78 800 GPU 671 napig futott. A modell képzése XNUMX millió GPU órát emésztett fel Nvidia HXNUMX chipeken – ami egy XNUMX milliárdos paraméterű modellnél figyelemreméltóan szerény.

Ahhoz, hogy ezt szem előtt tartsuk, a Metának hozzávetőleg 30.8 millió GPU-órára volt szüksége – nagyjából 11-szer nagyobb számítási teljesítményre –, hogy betanítsa Llama 3 modell, amelynek valójában kevesebb paramétere van 405 milliárdnál. A DeepSeek megközelítése a megszorítások melletti optimalizálás mesterkurzusához hasonlít. A H800 GPU-kkal – az Nvidia által kifejezetten a kínai piacra tervezett, csökkentett képességű mesterséges intelligencia chipekkel – a vállalat innovációvá változtatta a lehetséges korlátokat. Ahelyett, hogy kész megoldásokat használtak volna a processzoros kommunikációhoz, olyan egyedi megoldásokat fejlesztettek ki, amelyek maximalizálják a hatékonyságot.

Míg a versenytársak továbbra is azt feltételezik, hogy hatalmas beruházásokra van szükség, a DeepSeek bebizonyítja, hogy a találékonyság és a hatékony erőforrás-felhasználás kiegyenlítheti a versenyfeltételeket.

A lehetetlen megtervezése

A DeepSeek vívmánya az innovatív technikai megközelítésben rejlik, amely megmutatja, hogy néha a leghatásosabb áttörést a korlátok között végzett munka eredményezi, nem pedig korlátlan erőforrások ráfordítása egy problémára.

Ennek az innovációnak a középpontjában a „kiegészítő veszteségmentes terheléselosztás” nevű stratégia áll. Gondoljon úgy, mint egy hatalmas párhuzamos feldolgozórendszer megszervezésére, ahol hagyományosan összetett szabályokra és szankciókra van szükség ahhoz, hogy minden zökkenőmentesen működjön. A DeepSeek a feje tetejére állította ezt a hagyományos bölcsességet, és olyan rendszert fejlesztett ki, amely természetesen fenntartja az egyensúlyt a hagyományos megközelítések túlterhelése nélkül.

A csapat úttörő szerepet játszott az úgynevezett „Multi-Token Prediction” (MTP) technikában is, amely lehetővé teszi a modell számára, hogy több token előrejelzésével előre gondolkodjon. A gyakorlatban ez lenyűgöző, 85-90%-os elfogadási arányt jelent ezeknek az előrejelzéseknek a különböző témákban, ami 1.8-szor gyorsabb feldolgozási sebességet biztosít, mint a korábbi megközelítések.

Maga a műszaki architektúra a hatékonyság mesterműve. A DeepSeek V3-a szakértők vegyes megközelítését alkalmazza, összesen 671 milliárd paraméterrel, de itt van az okos rész – csak 37 milliárdot aktivál minden tokennél. Ez a szelektív aktiválás azt jelenti, hogy kihasználják a hatalmas modell előnyeit, miközben megőrzik a gyakorlati hatékonyságot.

Az általuk választott FP8 vegyes precíziós képzési keretrendszer újabb előrelépést jelent. Ahelyett, hogy elfogadták volna a csökkentett pontosság hagyományos korlátait, olyan egyedi megoldásokat fejlesztettek ki, amelyek megőrzik a pontosságot, miközben jelentősen csökkentik a memória- és számítási követelményeket.

Ripple Effects az AI ökoszisztémájában

A DeepSeek teljesítményének hatása messze túlmutat egyetlen sikeres modellen.

Az európai mesterséges intelligencia fejlesztése szempontjából ez az áttörés különösen jelentős. Sok fejlett modell nem jut el az EU-ba, mert az olyan vállalatok, mint a Meta és az OpenAI, nem tudnak, vagy nem tudnak alkalmazkodni az EU-hoz EU AI törvény. A DeepSeek megközelítése azt mutatja, hogy az élvonalbeli mesterséges intelligencia felépítéséhez nem mindig van szükség hatalmas GPU-fürtökre – sokkal inkább a rendelkezésre álló erőforrások hatékony felhasználásáról van szó.

Ez a fejlemény azt is mutatja, hogy az exportkorlátozások miként vezethetik ténylegesen az innovációt. A DeepSeek csúcskategóriás hardverhez való korlátozott hozzáférése más gondolkodásra kényszerítette őket, ami olyan szoftveroptimalizálásokat eredményezett, amelyek erőforrásokban gazdag környezetben talán soha nem jöttek volna létre. Ez az elv átalakíthatja azt, ahogyan globálisan közelítjük meg az AI-fejlesztést.

A demokratizálódás következményei mélyrehatóak. Míg az iparági óriások továbbra is milliárdokat égetnek el, a DeepSeek elkészítette a hatékony, költséghatékony AI-fejlesztés tervezetét. Ez olyan kisebb cégek és kutatóintézetek előtt nyithat meg kapukat, amelyek korábban az erőforrások szűkössége miatt nem tudtak versenyezni.

Ez azonban nem jelenti azt, hogy a nagyszabású számítástechnikai infrastruktúra elavulttá válna. Az ipar a következtetési idő skálázására helyezi a hangsúlyt – mennyi ideig tart a modellnek a válaszok generálása. Ahogy ez a tendencia folytatódik, továbbra is jelentős számítási erőforrásokra lesz szükség, idővel valószínűleg még inkább.

De a DeepSeek alapvetően megváltoztatta a beszélgetést. A hosszú távú következmények egyértelműek: egy olyan korszakba lépünk, ahol az innovatív gondolkodás és a hatékony erőforrás-felhasználás többet jelenthet, mint a puszta számítási teljesítmény. Az AI-közösség számára ez azt jelenti, hogy nem csak arra kell összpontosítani, hogy milyen erőforrásaink vannak, hanem arra is, hogy mennyire kreatívan és hatékonyan használjuk azokat.

Alex McFarland mesterséges intelligencia újságíró és író, aki a mesterséges intelligencia legújabb fejleményeit vizsgálja. Számos AI startup vállalkozással és publikációval működött együtt világszerte.