Conectează-te cu noi

Inteligența artificială

Cum DeepSeek a spart bariera costurilor cu 5.6 milioane USD

mm

Înțelepciunea IA convențională sugerează această clădire modele de limbaj mari (LLM) necesită buzunare adânci – de obicei miliarde de investiții. Dar DeepSeek, un startup chinez de AI, tocmai a spulberat această paradigmă cu cea mai recentă realizare a lor: dezvoltarea unui model AI de clasă mondială pentru doar 5.6 milioane de dolari.

Modelul V3 al DeepSeek poate concura cu giganți din industrie precum Gemenii de la Google și Cele mai recente oferte ale OpenAI, toate utilizând o fracțiune din resursele de calcul tipice. Realizarea a atras atenția multor lideri din industrie și ceea ce face acest lucru deosebit de remarcabil este faptul că compania a reușit acest lucru, în ciuda faptului că s-a confruntat cu restricții la export din SUA care le-au limitat accesul la cele mai recente cipuri Nvidia.

Economia IA eficientă

Cifrele spun o poveste convingătoare despre eficiență. În timp ce majoritatea modelelor avansate de inteligență artificială necesită între 16,000 și 100,000 de GPU-uri pentru antrenament, DeepSeek a reușit să funcționeze cu doar 2,048 de GPU-uri timp de 57 de zile. Antrenamentul modelului a consumat 2.78 milioane de ore GPU pe cipuri Nvidia H800 – remarcabil de modest pentru un model cu 671 de miliarde de parametri.

Pentru a pune acest lucru în perspectivă, Meta a avut nevoie de aproximativ 30.8 milioane de ore GPU - de aproximativ 11 ori mai multă putere de calcul - pentru a-și antrena Model Llama 3, care are de fapt mai puțini parametri, la 405 miliarde. Abordarea DeepSeek seamănă cu o clasă de măiestrie în optimizare sub constrângeri. Lucrând cu GPU-uri H800 - cipuri AI concepute de Nvidia special pentru piața chineză cu capacități reduse - compania a transformat potențialele limitări în inovație. În loc să utilizeze soluții standard pentru comunicarea procesorului, au dezvoltat soluții personalizate care au maximizat eficiența.

În timp ce concurenții continuă să opereze pe baza ipotezei că sunt necesare investiții masive, DeepSeek demonstrează că ingeniozitatea și utilizarea eficientă a resurselor pot egala condițiile de concurență.

Ingineria imposibilului

Realizarea DeepSeek constă în abordarea sa tehnică inovatoare, demonstrând că uneori cele mai importante descoperiri vin din lucrul în limite restrictive, mai degrabă decât din alocarea de resurse nelimitate pentru a rezolva o problemă.

În centrul acestei inovații se află o strategie numită „echilibrarea încărcării fără pierderi auxiliare”. Gândiți-vă la aceasta ca la orchestrarea unui sistem masiv de procesare paralelă, unde în mod tradițional, ați avea nevoie de reguli și penalități complexe pentru ca totul să funcționeze fără probleme. DeepSeek a răsturnat această înțelepciune convențională, dezvoltând un sistem care menține în mod natural echilibrul fără costurile suplimentare ale abordărilor tradiționale.

Echipa a fost, de asemenea, pionierat a ceea ce ei numesc „Multi-Token Prediction” (MTP) – o tehnică care permite modelului să anticipeze, prezicând mai multe jetoane simultan. În practică, acest lucru se traduce printr-o rată de acceptare impresionantă de 85-90% pentru aceste predicții pe diverse subiecte, oferind viteze de procesare de 1.8 ori mai mari decât abordările anterioare.

Arhitectura tehnică în sine este o capodoperă a eficienței. DeepSeek V3 folosește o abordare bazată pe o combinație de experți, cu un total de 671 de miliarde de parametri, dar iată partea ingenioasă - activează doar 37 de miliarde pentru fiecare token. Această activare selectivă înseamnă că beneficiază de un model masiv, menținând în același timp eficiența practică.

Alegerea lor pentru cadrul de antrenament de precizie mixtă FP8 este un alt salt înainte. În loc să accepte limitările convenționale ale preciziei reduse, au dezvoltat soluții personalizate care mențin precizia reducând în același timp în mod semnificativ cerințele de memorie și de calcul.

Efecte de undă în ecosistemul inteligenței artificiale

Impactul realizării DeepSeek se extinde mult dincolo de un singur model de succes.

Pentru dezvoltarea IA europeană, această descoperire este deosebit de semnificativă. Multe modele avansate nu ajung în UE, deoarece companii precum Meta și OpenAI fie nu se pot adapta, fie nu se vor adapta Actul AI al UEAbordarea DeepSeek arată că construirea unei inteligențe artificiale de ultimă generație nu necesită întotdeauna clustere masive de GPU - este vorba mai degrabă despre utilizarea eficientă a resurselor disponibile.

Această evoluție arată, de asemenea, cum restricțiile la export pot stimula de fapt inovația. Accesul limitat al DeepSeek la hardware de ultimă generație i-a obligat să gândească diferit, ceea ce a dus la optimizări software care poate nu ar fi apărut niciodată într-un mediu bogat în resurse. Acest principiu ar putea remodela modul în care abordăm dezvoltarea inteligenței artificiale la nivel global.

Implicațiile democratizării sunt profunde. În timp ce giganții din industrie continuă să consume miliarde, DeepSeek a creat un plan pentru dezvoltarea AI eficientă și rentabilă. Acest lucru ar putea deschide porți pentru companii mai mici și instituții de cercetare care anterior nu puteau concura din cauza limitărilor de resurse.

Cu toate acestea, acest lucru nu înseamnă că infrastructura de calcul la scară largă devine învechită. Industria își schimbă atenția către scalarea timpului de inferență - cât timp durează un model pentru a genera răspunsuri. Pe măsură ce această tendință continuă, vor fi în continuare necesare resurse de calcul semnificative, probabil și mai mult în timp.

Dar DeepSeek a schimbat fundamental conversația. Implicațiile pe termen lung sunt clare: intrăm într-o eră în care gândirea inovatoare și utilizarea eficientă a resurselor ar putea conta mai mult decât puterea de calcul. Pentru comunitatea AI, aceasta înseamnă să ne concentrăm nu doar asupra resurselor pe care le avem, ci și asupra cât de creativ și eficient le folosim.

Alex McFarland este jurnalist și scriitor AI care explorează cele mai recente evoluții în inteligența artificială. A colaborat cu numeroase startup-uri și publicații AI din întreaga lume.