Liderii gândirii
Mirajul inteligenței artificiale din China: Cum ascunde „open source” ceea ce contează cel mai mult

Având în vedere că marile companii tehnologice precum Google, Microsoft și Meta concurează pentru a domina piața inteligenței artificiale, companiile chineze High Flyer, Baidu, Moonshot și Alibaba au făcut furori pentru lansarea... DeepSeek, ERNIE 4.5, Kimi K2 și Qwen3 modele lingvistice mari, respectiv, ca sursă deschisă. Această trecere de la lansarea de modele GenAI protejate, proprietare, a fost percepută ca un semn că industria IA din China îmbrățișează puterea sursei deschise pentru a democratiza dezvoltarea IA și a stimula inovația.
La fel ca mulți jucători care își laudă ofertele ca fiind open source și chiar includ acest lucru în numele companiilor lor, High Flyer, Baidu și Moonshot nu au distribuit de fapt elemente esențiale, cum ar fi seturile de date, care stau la baza modelelor lor. Întrucât aceste modele mari încearcă să devină produse de bază pe care se bazează dezvoltatorii, transparența unui open source autentic, care poate fi testat, investigat și iterat, este esențială pentru crearea unei tehnologii imparțiale, etice și benefice în care să putem avea încredere cu toții. Toate aceste modele „open source” sunt de fapt „open weight”, ceea ce înseamnă că pot fi descărcate și utilizate, dar nu pot fi inspectate în niciun mod semnificativ fără date.
Așa cum le place jucătorilor americani Deschide AI și meta Deși par să se îndepărteze de open source, invitația deschisă a Baidu de a valorifica suita sa gratuită de modele ERNIE 4.5 poate stimula într-adevăr inovația și colaborarea cu dezvoltatorii care doresc să creeze aplicații mai mici și puternice. În același timp, compania, care este similară cu Google din China, și-a asigurat un avantaj competitiv prin încurajarea adoptării și consolidarea modelelor sale în ecosistemul IA înfloritor.
Același lucru se poate spune și despre DeepSeek, Kimi K2, modelul ieftin, și versiunea actualizată a Qwen3 - care se mândrește cu teste de performanță ce contestă modele închise precum Claude Opus 4 și GPT-4o-0327.
Acești jucători din domeniul inteligenței artificiale s-au poziționat bine în cursa pentru a deveni modelul preferat, iar cea mai recentă actualizare inovatoare a Qwen3 a fost inspirată chiar și de feedback-ul comunității open source.
La fel ca mulți dintre cei care își laudă modelul de inteligență artificială ca fiind open source, comunitatea chineză de inteligență artificială nu distribuie de fapt datele sau alte componente critice ale sistemelor sale de inteligență artificială. În schimb, le cere dezvoltatorilor globali să aibă încredere oarbă în modele pe care nu le pot înțelege sau investiga cu adevărat.
Atribuirea controlului asupra viitorului cu modele de inteligență artificială open source
Când iPhone-ul a apărut pe piață în 2007, unii au presupus că Mac va domina jocul smartphone-urilor cu iOS, dar... Participarea la proiecte open source este esențială pentru startup-uri, stimulând totodată creșterea antreprenorială și economică la nivel mondial - iar Android, un start-up achiziționat de Google în 2005, a urmat această cale spre victorie.
Prin lansarea de software open source care putea fi vizualizat, modificat, adoptat și partajat, Android a invitat cadre universitare, dezvoltatori și chiar concurenți să colaboreze la software. Acest lucru a accelerat procesul de inovare, a democratizat terenul de joc și, în cele din urmă, a redus prețurile. Android a apărut pe piață la un an după primul iPhone și, la începutul acestui an, se lăuda cu 71.88% din piața globală, față de 27.65% pentru iOS.
Într-o revoluție tehnologică care părea să se fi produs peste noapte, smartphone-urile au devenit omniprezente și, chiar dacă îmbunătățirile software-ului, hardware-ului și interfeței utilizator continuă, industria a evoluat mult dincolo de încercarea de a revoluționa modul în care funcționează smartphone-urile. Având în vedere că telefoanele mobile sunt acum o marfă, inovația disponibilă astăzi constă în aplicațiile care rulează pe ele, iar pentru a fi concurenți, furnizorii de smartphone-uri trebuie să mențină un ecosistem care să atragă dezvoltatorii.
La nici trei ani de la lansarea ChatGPT, industria inteligenței artificiale se află într-o prăpastie similară. Fiecare jucător din industria globală a inteligenței artificiale își propune ca modelele sale să devină următorul Android sau chiar iOS, iar prin trecerea la open source cu modelele DeepSeek, ERNIE 4.5 și Kimi K2, inovatorii chinezi doresc să-și asume dreptul la un ecosistem înfloritor.
Deși acest lucru ar putea funcționa în favoarea lor, nu promovează adevărata transparență a open source-ului, care a fost esențială nu doar pentru a stimula inovația, ci pentru a stimula inovația în care putem avea încredere.
Datele sunt piesa lipsă în majoritatea inteligenței artificiale open source
Având în vedere că modelele de inteligență artificială sunt mult mai complicate de creat și de partajat decât software-ul tradițional, apelul pentru o inteligență artificială complet open source nu este de mică importanță. În loc de un simplu cod sursă, sistemele de inteligență artificială sunt compuse din șapte componente—inclusiv codul sursă, parametrii modelului, setul de date, hiperparametrii, codul sursă de antrenament, generarea de numere aleatorii și cadrele software.
Fiecare element trebuie să funcționeze împreună pentru ca un model să ofere rezultatele dorite, ceea ce înseamnă că dezvoltatorii au nevoie de vizibilitate deplină pentru a partaja, modifica și adopta un sistem și pentru a înțelege ce se întâmplă. Cu reproductibilitatea ca fundament al metodei științifice, însă, industria inteligenței artificiale are... obicei utilizarea termenului „open source” pentru a se referi la lansări gratuite sau la preț redus, care sunt puse la dispoziție cu acces la câteva piese ale puzzle-ului.
De exemplu, Baidu a pus la dispoziție gratuit zece modele ERNIE 4.5. Pe lângă partajarea modelului și a parametrilor, compania a lansat și cu sursă deschisă ERNIEKit și setul de instrumente de implementare FastDeploy. Acestea permit dezvoltatorilor să construiască aplicații AI puternice, oferind capabilități de nivel industrial, fluxuri de lucru pentru instruire și inferență eficiente din punct de vedere al resurselor și compatibilitate multi-hardware.
Cu alte cuvinte, Baidu le-a oferit dezvoltatorilor instrumente interesante care le permit să declanșeze inovația mai rapid, ceea ce speră că îi va convinge, la rândul său, să aleagă ERNIE 4.5 în locul concurenței.
Dezvoltatorilor care utilizează ERNIE 4.5 li se cere însă să aibă încredere orbește în model, deoarece Baidu a ascuns multe aspecte, inclusiv seturile de date care informează și predau modelele sale.
Puterea modelelor de inteligență artificială transparente, open source
Deși fiecare piesă a puzzle-ului IA este esențială pentru funcționarea unui model, 80% din proiectele de inteligență artificială eșuează, iar datele sunt în centrul problemeiSeturile de date inexacte, incomplete și părtinitoare duc la modele care nu se comportă previzibil sau așa cum se dorește.
Recent, videoclipul accidentului fatal din 2023 cu Tesla Full-Self-Driving (FSD) a fost publicat., de exemplu, a expus cel mai rău scenariu posibil a ceea ce se poate întâmpla atunci când un set de date și un model sunt insuficiente. În timp ce Tesla Model Y a accelerat spre un soare strălucitor, în apus, sistemul parțial automatizat nu a putut înțelege sau reacționa corespunzător la ceea ce camerele sale vedeau - sau nu vedeau. În timp ce mașinile conduse de oameni au încetinit și au oprit pe dreapta, confuzia FSD a dus la moartea unei femei.
Acest eșec devastator a reflectat date vizuale incomplete, precum și lipsa unui mecanism de siguranță care să țină cont de astfel de puncte moarte. Atunci când dezvoltatorii nu au o vedere asupra datelor lor, nu pot vedea cum interacționează acestea cu modelul, ceea ce înseamnă că nu pot descoperi astfel de greșeli și nu pot itera pentru performanțe robuste.
Și mai îngrijorător este că, fără datele care alimentează modelul, sunt obligați să aibă încredere orbește în el.
Totuși, atunci când seturile de date sunt open source, comunitatea IA a dovedit că va elimina problemele supărătoare, așa cum a făcut-o prin descoperirea peste 1,000 de adrese URL care conțin materiale verificate privind abuzul sexual asupra copiilor în LAION 5BAvând în vedere că setul de date utilizat pentru modelele de generare a textului în imagine prin inteligență artificială este fundamental în crearea de aplicații precum Stable Diffusion și Midjourney, ar fi fost devastator pentru industria inteligenței artificiale dacă utilizatorii ar fi început să producă imagini fotorealiste ilicite. În schimb, natura deschisă a acestui set de date a permis comunității să descopere conținutul periculos și să motiveze o soluție, a declarat Liaison B.
În plus, o mare parte din acel prim set de date s-a bazat pe extragerea datelor web efectuată de enormul Common Crawl, care a fost folosit și pentru modelele ChatGPT și LLAMA. Chiar și atunci când Crawlerele de inteligență artificială continuă să își exprime îngrijorarea cu privire la copywriting, confidențialitate și etichetarea părtinitoare și rasiste., totuși, dezvoltatorii din comunitatea IA sunt lucrăm la modalități de a curăța părți din setul de date open source în creștere al Common Crawl pentru o utilizare mai sigură.
Întrucât dezvoltatorii își propun nu doar să construiască o inteligență artificială puternică, ci și o inteligență artificială în care putem avea încredere, atât utilizatorii, cât și industria sunt protejați de transparența și colaborarea oferite de o adevărată sursă deschisă.
Îmbrățișând calea open source
Întrucât mulți sunt încă precauți în privința acestei tehnologii înfloritoare, cursa pentru a deveni iOS sau Android în rândul modelelor mari de inteligență artificială este în desfășurare - și, pe măsură ce comunitatea globală de inteligență artificială construiește, la propriu, ceea ce va deveni standardul pentru viitor, iar sistemele de inteligență artificială conduc deja mașini și oferă evaluări medicale, stabilirea încrederii prin crearea unei inteligențe artificiale imparțiale, fiabile și sigure nu a fost niciodată mai importantă.
Întrucât comunitatea de inteligență artificială din China încearcă să se poziționeze drept campioni ai inovației deschise, calea către o inteligență artificială sigură se găsește doar în transparența unui adevărat open source, dovedită prin decenii de inovație software. Aplicarea termenului la sisteme care nu partajează elemente critice precum datele nu permite dezvoltatorilor să investigheze, să reproducă și să itereze. Deși atractivitatea modelelor ușor disponibile, precum DeepSeek, ERNIE 4.5, Kimi K2 și Qwen3, este incontestabilă, dezvoltatorii care le utilizează renunță la transparența care încurajează colaborarea și inovația în favoarea confortului.
Comunitatea inteligenței artificiale trebuie să aleagă: să adopte transparența radicală prin intermediul unui software open source autentic sau să riște să construiască sistemele critice de mâine pe baza cutiilor negre de astăzi.