Liderii gândirii
Regândirea Open Source în era inteligenței artificiale generative

Modelul open-source – un etos al dezvoltării de software în care codul sursă este pus la dispoziția publicului în mod liber pentru redistribuire sau modificare – a fost mult timp un catalizator pentru inovație. Idealul s-a născut în 1983, când Richard Stallman, un dezvoltator de software, a devenit frustrat de natura de cutie neagră a imprimantei sale cu sursă închisă, aflată în stare de eșec.
Viziunea sa a declanșat mișcarea pentru software liber, deschizând calea pentru ecosistemul open-source care stă la baza unei mari părți a inovației actuale în domeniul internetului și al software-ului.
Dar asta a fost acum peste 40 de ani.
Astăzi, IA generativă, cu provocările sale tehnice și etice unice, remodelează sensul „deschiderii”, cerându-ne să revizuim și să regândim paradigma open-source – nu pentru a o abandona, ci pentru a o adapta.
Inteligența artificială și libertățile open-source
Cele patru libertăți fundamentale ale software-ului open-source – capacitatea de a rulează, studiază, modifică și redistribuie orice cod software – sunt în contradicție cu natura inteligenței artificiale generative în mai multe moduri:
- Rulați: Modelele de inteligență artificială necesită adesea costuri foarte mari de infrastructură și de calcul, ceea ce limita acces din cauza constrângerilor de resurse.
- Studiați și modificați: Modelele de inteligență artificială sunt incredibil de complexe, așa că înțelegerea și modificarea lor Fără acces atât la cod, cât și la datele care îl informează reprezintă o provocare semnificativă.
- redistribuireaMulte modele de inteligență artificială restricționează redistribuirea prin design, în special cele cu ponderi antrenate și seturi de date proprietare deținute de furnizorul platformei.
Erodarea acestor principii fundamentale nu se datorează intențiilor rău intenționate, ci mai degrabă complexității și costului sistemelor moderne de inteligență artificială. Într-adevăr, cerințele financiare pentru instruirea modelelor de inteligență artificială de ultimă generație au crescut dramatic în ultimii ani - se pare că GPT-4 al OpenAI a suportat costuri de instruire de până la $ 78 milioane, excluzând salariile personalului, cu cheltuieli totale depășire $ 100 de milioane de.
Complexitatea inteligenței artificiale „open source”
Un model de inteligență artificială cu adevărat deschis ar necesita transparență totală a codului sursă al inferenței, a codului sursă de antrenament, a ponderilor modelului și a datelor de antrenament. Cu toate acestea, multe modele etichetate drept „deschise” vor publica doar cod de inferență sau ponderi parțiale, în timp ce altele oferă licențiere limitată sau restricționează complet utilizarea comercială.
Această deschidere imparțială creează iluzia principiilor open-source, deși în practică este insuficientă.
Luați în considerare faptul că o analiză realizată de Open Source Initiative (OSI) a constatat că mai multe modele lingvistice mari populare pretinzând că este open source – inclusiv Llama2 și Llama 3.x (dezvoltate de Meta), Grok (X), Phi-2 (Microsoft) și Mixtral (Mistral AI) – sunt incompatibile din punct de vedere structural cu principiile open-source.
Provocările legate de sustenabilitate și stimulare
Majoritatea programelor software open-source au fost construite pe baza unor eforturi conduse de voluntari sau finanțate prin granturi, mai degrabă decât pe baza unor infrastructuri cu costuri mari și care necesită multă putere de calcul. Pe de altă parte, modelele de inteligență artificială sunt scumpe de instruit și de întreținut, iar costurile sunt de așteptat să crească. CEO-ul Anthropic, Dario Amodei, prezice că ar putea costa în cele din urmă până la $ 100 de miliarde de pentru a antrena un model de ultimă generație.
Fără un model de finanțare sustenabil sau o structură de stimulente, dezvoltatorii se confruntă cu o alegere între restricționarea accesului prin licențe cu sursă închisă sau necomerciale sau riscul unui colaps financiar.
Concepții greșite despre „greutățile deschise” și licențiere
Accesibilitatea modelelor de inteligență artificială a devenit din ce în ce mai confuză, multe platforme promovându-se drept „deschise”, impunând în același timp restricții care contrazic fundamental principiile open-source. Această „joc de mânie” se manifestă în mai multe moduri:
- Modelele etichetate drept „greutăți deschise” pot interzice complet utilizarea comercială, menținându-le mai mult ca niște curiozități academice decât ca instrumente practice de afaceri pe care publicul le poate explora și dezvolta.
- Unii furnizori oferă acces la modele pre-antrenate, dar își păstrează cu zel seturile de date și metodologiile de antrenament, ceea ce face imposibilă reproducerea sau verificarea semnificativă a constatărilor lor.
- Multe platforme impun restricții de redistribuire care împiedică dezvoltatorii să dezvolte sau să îmbunătățească modelele pentru comunitățile lor, chiar dacă pot „accesa” complet codul.
În aceste cazuri, „deschis pentru cercetare” este doar un limbaj dublu pentru „închis pentru afaceri”. Rezultatul este o formă nesinceră de dependență de un furnizor, în care organizațiile investesc timp și resurse în platforme care par accesibile publicului, doar pentru a descoperi limitări critice atunci când încearcă să scaleze sau să comercializeze aplicațiile.
Confuzia rezultată nu doar frustrează dezvoltatorii. Ea subminează în mod activ încrederea în ecosistemul IA. Creează așteptări nerealiste în rândul părților interesate care presupun în mod rezonabil că IA „deschisă” este comparabilă cu comunitățile de software open-source, unde transparența, drepturile de modificare și libertatea comercială sunt respectate.
Întârziere juridică
Avansul rapid al GenAI depășește deja dezvoltarea unor cadre juridice adecvate, creând o rețea complexă de provocări legate de proprietatea intelectuală care agravează preocupările preexistente.
Primul câmp de luptă juridic major se concentrează pe utilizarea datelor de antrenament. Modelele de învățare profundă obțin seturi mari de date de pe internet, cum ar fi imagini disponibile publicului și textul paginilor web. Această colectare masivă de date a stârnit dezbateri aprinse despre drepturile de proprietate intelectuală. Companiile de tehnologie susțin că sistemele lor de inteligență artificială studiază și învață din materiale protejate prin drepturi de autor pentru a crea conținut nou, transformator. Deținătorii de drepturi de autor, însă, susțin că aceste companii de inteligență artificială le copiază ilegal lucrările, generând conținut concurent care le amenință mijloacele de trai.
Proprietatea asupra operelor derivate generate de inteligența artificială reprezintă încă o ambiguitate juridică. Nimeni nu este sigur cum să clasifice conținutul generat de inteligența artificială, cu excepția Biroului pentru Drepturi de Autor din SUA, care afirmă că „dacă inteligența artificială generează în întregime conținut, acesta nu poate fi protejat prin drepturi de autor”.
Incertitudinea juridică din jurul GenAI – în special în ceea ce privește încălcarea drepturilor de autor, proprietatea asupra operelor generate de inteligența artificială și conținutul nelicențiat din datele de antrenament – devine și mai tensionată pe măsură ce modelele fundamentale de inteligență artificială apar ca instrumente de importanță geopolitică: națiunile care se întrec în dezvoltarea unor capabilități superioare de inteligență artificială pot fi mai puțin înclinate să restricționeze accesul la date, ceea ce dezavantajează competitivitatea țărilor cu protecții mai stricte ale proprietății intelectuale.
Ce trebuie să devină open source-ul în era inteligenței artificiale
Trenul GenAI a plecat deja din gară și nu dă semne de încetinire. Sperăm să construim un viitor în care IA încurajează, nu înăbușă, inovația. În acest caz, liderii din domeniul tehnologiei au nevoie de un cadru care să asigure utilizarea comercială sigură și transparentă, să promoveze inovația responsabilă, să abordeze proprietatea asupra datelor și licențierea acestora și să facă diferența între „deschis” și „liber”.
Un concept emergent, cel Licență Open Commercial Source, poate oferi o cale de urmat prin propunerea de acces liber pentru utilizare necomercială, acces licențiat pentru utilizare comercială și recunoașterea și respectarea provenienței și proprietății datelor.
Pentru a se adapta la această nouă realitate, comunitatea open-source trebuie să dezvolte modele de licențiere deschisă specifice inteligenței artificiale, să formeze parteneriate public-private pentru a finanța aceste modele și să stabilească standarde de încredere pentru transparență, siguranță și etică.
Open source-ul a schimbat lumea odată. Inteligența artificială generativă o schimbă din nou. Pentru a păstra spiritul deschiderii, trebuie să evoluăm litera legii sale, recunoscând cerințele unice ale inteligenței artificiale, abordând în același timp provocările pentru a crea un ecosistem incluziv și sustenabil.