Connect with us

Lideri de opinie

Modele LLM personalizate pentru fiecare afacere? DeepSeek ne arată drumul

mm

Odinioară, chemarea clarion a tehnologiei era “telefoane mobile pentru toată lumea” – și, într-adevăr, comunicațiile mobile au revoluționat afacerile (și lumea). Astăzi, echivalentul acestei chemări este să ofere tuturor acces la aplicații de inteligență artificială. Dar adevărata putere a inteligenței artificiale constă în utilizarea acesteia pentru nevoile specifice ale afacerilor și organizațiilor. Calea deschisă de startup-ul chinez DeepSeek demonstrează cum inteligența artificială poate fi, într-adevăr, utilizată de toată lumea, în special de cei cu bugete limitate, pentru a-și îndeplini nevoile specifice. Într-adevăr, apariția inteligenței artificiale la un cost mai mic promite să schimbe modelul profund înrădăcinat al soluțiilor de inteligență artificială, care adesea rămân în afara vizibilității pentru multe afaceri mici și organizații, din cauza cerințelor de cost.

Modelele LLM sunt – sau au fost – o întreprindere scumpă, care necesită acces la cantități masive de date, un număr mare de calculatoare puternice pentru a procesa datele și timp și resurse investite în antrenarea modelului. Dar aceste reguli se schimbă. Funcționând cu un buget modest, DeepSeek și-a dezvoltat propriul model LLM și o aplicație de tip ChatGPT pentru întrebări – cu o investiție mult mai mică decât cea pentru sisteme similare construite de companii americane și europene. Abordarea lui DeepSeek deschide o fereastră către dezvoltarea de modele LLM pentru organizații mai mici, care nu au miliarde de dolari pentru a cheltui. Într-adevăr, ziua în care majoritatea organizațiilor mici pot dezvolta propriile modele LLM pentru a-și servi scopurile specifice nu este departe, oferind, de obicei, o soluție mai eficientă decât modelele LLM generale, cum ar fi ChatGPT.

În timp ce dezbate rămâne asupra costului real al lui DeepSeek, nu doar costul îl deosebește pe acesta și pe modele similare: este faptul că s-a bazat pe cipuri mai puțin avansate și pe o abordare mai focalizată a antrenării. Ca o companie chineză supusă restricțiilor de export ale SUA, DeepSeek nu a putut accesa cipurile avansate Nvidia care sunt, în general, utilizate pentru calculul greu necesar dezvoltării LLM, și a fost, astfel, forțat să utilizeze cipurile Nvidia H-800 mai puțin puternice, care nu pot procesa date la fel de rapid sau de eficient.

Pentru a compensa lipsa de putere, DeepSeek a adoptat o abordare diferită, mai focalizată și directă pentru dezvoltarea LLM. În loc să arunce cantități uriașe de date către un model și să se bazeze pe puterea de calcul pentru a eticheta și a aplica datele, DeepSeek a îngustat antrenarea, utilizând o cantitate mică de date de înaltă calitate “de start rece” și aplicând IRL (învățare prin întărire iterativă, cu algoritmul aplicând date în diferite scenarii și învățând din ele). Această abordare focalizată permite modelului să învețe mai repede, cu mai puține greșeli și cu mai puțină putere de calcul irosită.

Similar cu modul în care părinții pot ghida mișcările specifice ale unui bebeluș, ajutându-l să se rostogolească cu succes pentru prima dată – în loc să-l lase să descopere singur sau să-i învețe o varietate mai largă de mișcări care ar putea, în teorie, să-i ajute să se rostogolească – oamenii de știință care antrenează aceste modele de inteligență artificială mai focalizate se concentrează pe ceea ce este cel mai necesar pentru anumite sarcini și rezultate. Astfel de modele nu au, probabil, o aplicabilitate la fel de largă ca modelele LLM mai mari, cum ar fi ChatGPT, dar pot fi de încredere pentru aplicații specifice și pot duce la îndeplinirea acestor sarcini cu precizie și eficiență. Chiar și criticii lui DeepSeek admit că abordarea sa structurată de dezvoltare a crescut semnificativ eficiența, permițându-i să facă mai mult cu mult mai puțin.

Această abordare se referă la oferirea celor mai buni intrări pentru inteligența artificială, astfel încât aceasta să-și poată atinge obiectivele în modul cel mai inteligent și eficient posibil, și poate fi valoroasă pentru orice organizație care dorește să dezvolte un model LLM pentru nevoile și sarcinile sale specifice. O astfel de abordare este din ce în ce mai valoroasă pentru afacerile mici și organizații. Primul pas constă în a începe cu datele potrivite. De exemplu, o companie care dorește să utilizeze inteligența artificială pentru a-și ajuta echipele de vânzări și marketing ar trebui să antreneze modelul său pe un set de date selectate cu atenție, care se concentrează pe conversații de vânzări, strategii și metrici. Acest lucru împiedică modelul să irosească timp și putere de calcul pe informații irelevante. În plus, antrenamentul trebuie structurat în etape, asigurându-se că modelul stăpânește fiecare sarcină sau concept înainte de a trece la următorul.

Acest lucru are, de asemenea, paralele în creșterea unui bebeluș, așa cum am învățat eu însumi de când am devenit mamă, cu câteva luni în urmă. În ambele scenarii, o abordare ghidată, pas cu pas, evită irosirea de resurse și reduce frecarea. În final, o astfel de abordare, atât pentru bebelușii oameni, cât și pentru modelele de inteligență artificială, duce la îmbunătățire iterativă. Pe măsură ce bebelușul crește sau modelul învață mai mult, capacitățile sale se îmbunătățesc. Acest lucru înseamnă că modelele pot fi rafinate și îmbunătățite pentru a face față mai bine situațiilor din lumea reală.

Această abordare menține costurile scăzute, prevenind proiectele de inteligență artificială de a deveni o sursă de epuizare a resurselor, făcându-le mai accesibile pentru echipele și organizațiile mai mici. De asemenea, duce la o performanță mai bună a modelelor de inteligență artificială, mai rapid; și, deoarece modelele nu sunt supraîncărcate cu date inutile, ele pot fi, de asemenea, ajustate pentru a se adapta la noi informații și la nevoi de afaceri în schimbare – cheie în piețele competitive.

Sosirea lui DeepSeek și a lumii de inteligență artificială la un cost mai mic și mai eficient – deși, la început, a răspândit panică în lumea inteligenței artificiale și pe piețele bursiere – este, în general, un dezvoltare pozitivă pentru sectorul de inteligență artificială. Eficiența și costurile mai mici ale inteligenței artificiale, cel puțin pentru anumite aplicații focalizate, vor duce, în cele din urmă, la o utilizare mai mare a inteligenței artificiale, în general, ceea ce stimulează creșterea pentru toată lumea, de la dezvoltatori la producători de cipuri și până la utilizatorii finali. Într-adevăr, DeepSeek ilustrează paradoxul Jevons – unde o eficiență mai mare va duce, probabil, la o utilizare mai mare a unei resurse, nu mai mică. Pe măsură ce această tendință pare să continue, afacerile mici care se concentrează pe utilizarea inteligenței artificiale pentru a-și îndeplini nevoile specifice vor fi, de asemenea, mai bine pregătite pentru creștere și succes.

Stav Levi-Neumark este CEO & Co-fondator al Alta și expert în managementul produselor și creșterea veniturilor. Anterior, a fost una dintre primele angajate la Monday.com, unde a ajutat la dezvoltarea "BigBrain", un instrument intern de business intelligence utilizat pentru operațiunile zilnice ale companiei. Stav deține o diplomă de licență în știința computerelor și statistică de la Universitatea Ebraică din Ierusalim.