Vođe misli
Ponovno promišljanje otvorenog koda u doba generativne umjetne inteligencije

Model otvorenog koda – etos razvoja softvera u kojem je izvorni kod slobodno dostupan za javnu distribuciju ili modifikaciju – dugo je bio katalizator inovacija. Ideal je rođen 1983. godine kada je Richard Stallman, softverski programer, postao frustriran crnom kutijom svog pisača zatvorenog koda koji je bio u kvaru.
Njegova vizija potaknula je pokret slobodnog softvera, utrvši put ekosustavu otvorenog koda koji pokreće velik dio današnjeg interneta i softverskih inovacija.
Ali to je bilo prije više od 40 godina.
Danas, generativna umjetna inteligencija, sa svojim jedinstvenim tehničkim i etičkim izazovima, preoblikuje značenje „otvorenosti“, zahtijevajući da ponovno razmotrimo i preispitamo paradigmu otvorenog koda – ne da je napustimo, već da je prilagodimo.
Umjetna inteligencija i slobode otvorenog koda
Četiri temeljne slobode softvera otvorenog koda – mogućnost da se pokrenuti, proučavati, modificirati i preraspodijeliti bilo koji softverski kod – u suprotnosti su s prirodom generativne umjetne inteligencije na nekoliko načina:
- Trčanje: Modeli umjetne inteligencije često zahtijevaju vrlo visoke infrastrukturne i računalne troškove, što ograničiti pristup zbog ograničenja resursa.
- Proučite i modificirajte: Modeli umjetne inteligencije su nevjerojatno složeni, pa razumijevanje i njihovo mijenjanje Bez pristupa i kodu i podacima koji ga informiraju predstavlja značajan izazov.
- PreraspodjelaMnogi AI modeli ograničiti preraspodjelu po dizajnu, posebno oni s treniranim težinama i vlasničkim skupovima podataka u vlasništvu pružatelja platforme.
Erozija ovih temeljnih načela nije posljedica zlonamjerne namjere, već čiste složenosti i troškova modernih AI sustava. Doista, financijski zahtjevi za obuku najsuvremenijih AI modela dramatično su porasli posljednjih godina - OpenAI-jev GPT-4 navodno je uzrokovao troškove obuke do $ 78 milijuna, isključujući plaće osoblja, s ukupnim rashodima prelazi $ 100 milijuna,
Složenost umjetne inteligencije "otvorenog koda"
Uistinu otvoreni model umjetne inteligencije zahtijevao bi potpunu transparentnost izvornog koda za zaključivanje, izvornog koda za učenje, težina modela i podataka za učenje. Međutim, mnogi modeli označeni kao "otvoreni" objavit će samo kod za zaključivanje ili djelomične težine, dok drugi nude ograničeno licenciranje ili u potpunosti ograničavaju komercijalnu upotrebu.
Ova nepristrana otvorenost stvara iluziju principa otvorenog koda, dok u praksi ne uspijeva.
Uzmite u obzir da je analiza koju je provela Inicijativa otvorenog koda (OSI) otkrila da nekoliko popularnih modela velikih jezika tvrdeći da je otvorenog koda – uključujući Llama2 i Llama 3.x (razvijene od strane Meta), Grok (X), Phi-2 (Microsoft) i Mixtral (Mistral AI) – strukturno su nekompatibilni s principima otvorenog koda.
Izazovi održivosti i poticanja
Većina softvera otvorenog koda izgrađena je volonterskim ili financiranim naporima, a ne računalno intenzivnim i skupim infrastrukturama. S druge strane, modeli umjetne inteligencije skupi su za obuku i održavanje, a očekuje se da će troškovi samo rasti. Izvršni direktor Anthropica, Dario Amodei, predviđa da bi to na kraju moglo koštati i do $ 100 milijardi za treniranje vrhunskog modela.
Bez održivog modela financiranja ili strukture poticaja, programeri se suočavaju s izborom između ograničavanja pristupa putem licenci zatvorenog koda ili nekomercijalnih licenci ili riskiranja financijskog kolapsa.
Zablude o „otvorenim utezima“ i licenciranju
Pristupačnost modela umjetne inteligencije postala je sve nejasnija, a mnoge se platforme oglašavaju kao "otvorene" dok nameću ograničenja koja su u osnovi u suprotnosti s pravim principima otvorenog koda. Ta "spretnost" očituje se na više načina:
- Modeli označeni kao "otvoreni utezi" mogu u potpunosti zabraniti komercijalnu upotrebu, održavajući ih više kao akademske kuriozitete nego praktične poslovne alate za javnost za istraživanje i razvoj.
- Neki pružatelji usluga nude pristup prethodno obučenim modelima, ali revno čuvaju svoje skupove podataka i metodologije za obuku, što onemogućuje smislenu reprodukciju ili provjeru njihovih nalaza.
- Mnoge platforme nameću ograničenja redistribucije koja sprječavaju razvojne programere da grade na modelima ili ih poboljšavaju za svoje zajednice, čak i ako mogu u potpunosti "pristupiti" kodu.
U tim slučajevima, „otvoreno za istraživanje“ je samo dvostruki izraz za „zatvoreno za poslovanje“. Rezultat je neiskren oblik vezanosti za dobavljača, gdje organizacije ulažu vrijeme i resurse u platforme koje se čine otvoreno dostupnima, samo da bi otkrile kritična ograničenja pri pokušaju skaliranja ili komercijalizacije aplikacija.
Rezultirajuća zbunjenost ne samo da frustrira developere. Ona aktivno potkopava povjerenje u ekosustav umjetne inteligencije. Postavlja nerealna očekivanja među dionicima koji razumno pretpostavljaju da je „otvorena“ umjetna inteligencija usporediva sa zajednicama softvera otvorenog koda, gdje se poštuju transparentnost, prava na modifikaciju i komercijalna sloboda.
Pravni zastoj
Brzi napredak GenAI-a već nadmašuje razvoj odgovarajućih pravnih okvira, stvarajući složenu mrežu izazova intelektualnog vlasništva koji pogoršavaju već postojeće probleme.
Prvo veliko pravno bojno polje usredotočuje se na korištenje podataka za obuku. Modeli dubokog učenja nabavljaju velike skupove podataka s interneta, kao što su javno dostupne slike i tekst web stranica. Ovo masovno prikupljanje podataka potaknulo je žestoke rasprave o pravima intelektualnog vlasništva. Tehnološke tvrtke tvrde da njihovi AI sustavi proučavaju i uče iz materijala zaštićenih autorskim pravima kako bi stvorili novi, transformativni sadržaj. Vlasnici autorskih prava, međutim, tvrde da te AI tvrtke nezakonito kopiraju njihova djela, stvarajući konkurentski sadržaj koji ugrožava njihovu egzistenciju.
Vlasništvo nad izvedenim djelima generiranim umjetnom inteligencijom predstavlja još jednu pravnu dvosmislenost. Nitko nije sasvim siguran kako klasificirati sadržaj generiran umjetnom inteligencijom, osim američkog Ureda za autorska prava, koji navodi da „ako umjetna inteligencija u potpunosti generira sadržaj, ne može biti zaštićen autorskim pravima“.
Pravna nesigurnost oko GenAI-a – posebno u pogledu kršenja autorskih prava, vlasništva nad djelima generiranim umjetnom inteligencijom i nelicenciranog sadržaja u podacima za obuku – postaje još veća kako se temeljni modeli umjetne inteligencije pojavljuju kao alati od geopolitičke važnosti: nacije koje se utrkuju u razvoju superiornijih mogućnosti umjetne inteligencije mogu biti manje sklone ograničavanju pristupa podacima, stavljajući zemlje sa strožom zaštitom intelektualnog vlasništva u konkurentski nepovoljan položaj.
Što otvoreni kod mora postati u doba umjetne inteligencije
Vlak GenAI već je napustio stanicu i ne pokazuje znakove usporavanja. Nadamo se da ćemo izgraditi budućnost u kojoj umjetna inteligencija potiče, a ne guši inovacije. U tom slučaju, tehnološkim liderima potreban je okvir koji osigurava sigurnu i transparentnu komercijalnu upotrebu, potiče odgovorne inovacije, rješava pitanje vlasništva nad podacima i licenciranja te razlikuje „otvoreno“ od „besplatno“.
Koncept u nastajanju, Licenca otvorenog komercijalnog koda, može ponuditi put naprijed predlaganjem slobodnog pristupa za nekomercijalnu upotrebu, licenciranog pristupa za komercijalnu upotrebu te priznavanja i poštivanja podrijetla i vlasništva nad podacima.
Kako bi se prilagodila ovoj novoj stvarnosti, zajednica otvorenog koda mora razviti modele otvorenog licenciranja specifične za umjetnu inteligenciju, formirati javno-privatna partnerstva za financiranje tih modela i uspostaviti pouzdane standarde za transparentnost, sigurnost i etiku.
Otvoreni kod je jednom promijenio svijet. Generativna umjetna inteligencija ga ponovno mijenja. Kako bismo sačuvali duh otvorenosti, moramo razvijati slovo njegovog zakona, priznajući jedinstvene zahtjeve umjetne inteligencije, a istovremeno se izravno suočavajući s izazovima kako bismo stvorili uključiv i održiv ekosustav.