Tanke ledare
Att omvärdera öppen källkod i den generativa AI-eran

Öppen källkodsmodellen – en mjukvaruutvecklingsmodell där källkod görs fritt tillgänglig för offentlig distribution eller modifiering – har länge varit en katalysator för innovation. Idealet föddes 1983 när Richard Stallman, en mjukvaruutvecklare, blev frustrerad över den svarta lådans karaktär hos sin slutna källkodsskrivare på kort sikt.
Hans vision utlöste rörelsen för fri mjukvara och banade väg för det ekosystem med öppen källkod som driver en stor del av dagens internet- och mjukvaruinnovation.
Men det var över 40 år sedan.
Idag omformar generativ AI, med sina unika tekniska och etiska utmaningar, innebörden av "öppenhet" och kräver att vi ser över och omprövar paradigmet med öppen källkod – inte att överge det, utan att anpassa det.
AI och friheterna med öppen källkod
De fyra grundläggande friheterna inom öppen källkodsprogramvara – möjligheten att köra, studera, modifiera och omdistribuera all programkod – står i konflikt med den generativa AI:ns natur på flera sätt:
- Springa: AI-modeller kräver ofta mycket höga infrastruktur- och beräkningskostnader, vilket begränsa tillgång på grund av resursbegränsningar.
- Studera och modifiera: AI-modeller är otroligt komplexa, så att förstå och förändra dem utan tillgång till både koden och de data som ligger till grund för den är en betydande utmaning.
- OmfördelningMånga AI-modeller begränsa omfördelning genom design, särskilt de med tränade vikter och proprietära datamängder som ägs av plattformsleverantören.
Urholkningen av dessa kärnprinciper beror inte på onda avsikter utan snarare på den stora komplexiteten och kostnaden för moderna AI-system. Faktum är att de ekonomiska kraven för att utbilda toppmoderna AI-modeller har ökat dramatiskt de senaste åren – OpenAI:s GPT-4 har enligt uppgift medfört utbildningskostnader på upp till $ 78 miljoner, exklusive personallöner, med totala utgifter överstiger $ 100 miljoner.
Komplexiteten hos "öppen källkod" AI
En verkligt öppen AI-modell skulle kräva total transparens i inferenskällkod, träningskällkod, modellviktningar och träningsdata. Många modeller märkta som "öppna" kommer dock bara att släppa inferenskod eller partiella viktningar, medan andra erbjuder begränsad licens eller begränsar kommersiell användning helt och hållet.
Denna opartiska öppenhet skapar illusionen av principer för öppen källkod, men brister i praktiken.
Tänk på att en analys från Open Source Initiative (OSI) fann att flera populära stora språkmodeller påstår sig vara öppen källkod – inklusive Llama2 och Llama 3.x (utvecklade av Meta), Grok (X), Phi-2 (Microsoft) och Mixtral (Mistral AI) – är strukturellt inkompatibla med principer för öppen källkod.
Utmaningar inom hållbarhet och incitament
Det mesta av programvara med öppen källkod byggdes på volontärdrivna eller bidragsfinansierade insatser, snarare än beräkningsintensiva, kostsamma infrastrukturer. AI-modeller, å andra sidan, är dyra att träna och underhålla, och kostnaderna förväntas bara stiga. Anthropics VD, Dario Amodei, förutspår att det så småningom kan kosta så mycket som $ 100 miljarder att utbilda en banbrytande modell.
Utan en hållbar finansieringsmodell eller incitamentsstruktur står utvecklare inför valet mellan att begränsa åtkomsten genom slutna licenser eller icke-kommersiella licenser eller att riskera ekonomisk kollaps.
Missuppfattningar kring "öppna vikter" och licensiering
Tillgängligheten av AI-modeller har blivit alltmer förvirrad, med många plattformar som marknadsför sig som "öppna" samtidigt som de inför restriktioner som i grunden motsäger verkliga principer för öppen källkod. Denna "trick" manifesterar sig på flera sätt:
- Modeller märkta som "öppna vikter" kan helt förbjuda kommersiell användning och behålla dem mer som akademiska kuriositeter än praktiska affärsverktyg för allmänheten att utforska och utveckla.
- Vissa leverantörer erbjuder tillgång till förtränade modeller men skyddar noggrant sina träningsdataset och metoder, vilket gör det omöjligt att reproducera eller verifiera deras resultat på ett meningsfullt sätt.
- Många plattformar inför omdistributionsrestriktioner som hindrar utvecklare från att bygga vidare på eller förbättra modellerna för sina communities, även om de har full "åtkomst" till koden.
I dessa fall är ”öppen för forskning” bara en dubbel term för ”stängd för affärer”. Resultatet blir en oärlig form av leverantörslåsning, där organisationer investerar tid och resurser i plattformar som verkar öppet tillgängliga, bara för att upptäcka kritiska begränsningar när de försöker skala upp eller kommersialisera applikationerna.
Den resulterande förvirringen frustrerar inte bara utvecklare. Den undergräver aktivt förtroendet för AI-ekosystemet. Den skapar orealistiska förväntningar bland intressenter som rimligen antar att "öppen" AI är jämförbar med öppen källkod-programvarugemenskaper, där transparens, modifieringsrättigheter och kommersiell frihet upprätthålls.
Rättslig fördröjning
GenAIs snabba utveckling överträffar redan utvecklingen av lämpliga rättsliga ramar, vilket skapar ett komplext nätverk av utmaningar gällande immateriella rättigheter som förvärrar redan befintliga problem.
Det första stora juridiska slagfältet handlar om användningen av träningsdata. Djupinlärningsmodeller hämtar stora datamängder från internet, såsom offentligt tillgängliga bilder och text på webbsidor. Denna massiva datainsamling har gett upphov till hårda debatter om immateriella rättigheter. Teknikföretag hävdar att deras AI-system studerar och lär sig av upphovsrättsskyddat material för att skapa nytt, transformerande innehåll. Upphovsrättsinnehavare hävdar dock att dessa AI-företag olagligen kopierar deras verk och genererar konkurrerande innehåll som hotar deras försörjning.
Äganderätten till AI-genererade derivatverk representerar ytterligare en juridisk tvetydighet. Ingen är helt säker på hur man ska klassificera AI-genererat innehåll, förutom US Copyright Office, som säger att "om AI enbart genererar innehåll, kan det inte skyddas av upphovsrätt".
Den rättsliga osäkerheten kring GenAI – särskilt vad gäller upphovsrättsintrång, äganderätt till AI-genererade verk och olicensierat innehåll i träningsdata – blir ännu mer angelägen i takt med att grundläggande AI-modeller framträder som verktyg av geopolitisk betydelse: Nationer som tävlar om att utveckla överlägsna AI-kapaciteter kan vara mindre benägna att begränsa dataåtkomst, vilket försätter länder med strängare immateriella rättigheter i en konkurrensnackdel.
Vad öppen källkod måste bli i AI-åldern
GenAI-tåget har redan lämnat stationen och visar inga tecken på att sakta ner. Vi hoppas kunna bygga en framtid där AI uppmuntrar snarare än kväver innovation. I så fall behöver teknikledare ett ramverk som säkerställer säker och transparent kommersiell användning, främjar ansvarsfull innovation, hanterar dataägande och licensiering, och skiljer mellan "öppet" och "fritt".
Ett framväxande koncept, den Öppen kommersiell källkodslicens, kan erbjuda en väg framåt genom att föreslå fri åtkomst för icke-kommersiellt bruk, licensierad åtkomst för kommersiellt bruk och erkännande av och respekt för datas ursprung och äganderätt.
För att anpassa sig till denna nya verklighet måste öppen källkod-gemenskapen utveckla AI-specifika modeller för öppen licensering, bilda offentlig-privata partnerskap för att finansiera dessa modeller och etablera pålitliga standarder för transparens, säkerhet och etik.
Öppen källkod förändrade världen en gång. Generativ AI förändrar den igen. För att bevara öppenhetens anda måste vi utveckla dess lagar i sin helhet, erkänna AI:s unika krav samtidigt som vi tar itu med utmaningarna för att skapa ett inkluderande och hållbart ekosystem.