Gedachte leiders
Open Source heroverwegen in het tijdperk van generatieve AI

Het open-sourcemodel ā een softwareontwikkelingsfilosofie waarbij broncode vrij beschikbaar wordt gesteld voor openbare herdistributie of aanpassing ā is al lang een katalysator voor innovatie. Het ideaal ontstond in 1983 toen Richard Stallman, een softwareontwikkelaar, gefrustreerd raakte door de black-box-aard van zijn closed-sourceprinter die het begaf.
Zijn visie was de aanzet tot de vrije softwarebeweging en maakte de weg vrij voor het open-source ecosysteem dat een groot deel van de huidige innovatie op het gebied van internet en software aandrijft.
Maar dat was meer dan 40 jaar geleden.
Tegenwoordig verandert generatieve AI, met zijn unieke technische en ethische uitdagingen, de betekenis van 'openheid'. Dit vereist dat we het open-sourceparadigma opnieuw bekijken en doordenken ā niet om het los te laten, maar om het aan te passen.
AI en de open-sourcevrijheden
De vier fundamentele vrijheden van open-source software ā het vermogen om uitvoeren, bestuderen, aanpassen en herverdelen elke softwarecode ā staan op verschillende manieren haaks op de aard van generatieve AI:
- Run: AI-modellen vereisen vaak zeer hoge infrastructuur- en rekenkosten, wat begrenzing toegang vanwege beperkte middelen.
- Studeren en aanpassen: AI-modellen zijn ongelooflijk complex, dus het begrijpen en veranderen ervan zonder toegang tot zowel de code als de data die hieraan ten grondslag liggen, is dat een grote uitdaging.
- Herverdeling: Veel AI-modellen herverdeling beperken opzettelijk, met name die met getrainde gewichten en eigen datasets die eigendom zijn van de platformaanbieder.
De erosie van deze kernprincipes is niet te wijten aan kwade bedoelingen, maar eerder aan de enorme complexiteit en kosten van moderne AI-systemen. De financiĆ«le eisen voor het trainen van state-of-the-art AI-modellen zijn de afgelopen jaren dramatisch gestegen ā OpenAI's GPT-4 zou trainingskosten hebben veroorzaakt van tot $ 78 miljoen, exclusief personeelssalarissen, met totale uitgaven meer dan $ 100 miljoen.
De complexiteit van 'open source' AI
Een echt open AI-model vereist volledige transparantie van de broncode van de inferentie, de broncode van de training, de modelgewichten en de trainingsdata. Veel modellen met het label "open" zullen echter alleen inferentiecode of gedeeltelijke gewichten vrijgeven, terwijl andere een beperkte licentie aanbieden of commercieel gebruik volledig beperken.
Deze onpartijdige openheid creƫert de illusie van open-sourceprincipes, maar schiet in de praktijk tekort.
Bedenk dat uit een analyse van het Open Source Initiative (OSI) is gebleken dat verschillende populaire grote taalmodellen beweren open source te zijn ā waaronder Llama2 en Llama 3.x (ontwikkeld door Meta), Grok (X), Phi-2 (Microsoft) en Mixtral (Mistral AI) ā zijn structureel onverenigbaar met open-sourceprincipes.
Uitdagingen op het gebied van duurzaamheid en prikkels
De meeste open-sourcesoftware is gebouwd op basis van vrijwilligerswerk of subsidies, in plaats van op rekenintensieve, dure infrastructuren. AI-modellen daarentegen zijn duur om te trainen en te onderhouden, en de kosten zullen naar verwachting alleen maar stijgen. De CEO van Anthropic, Dario Amodei, voorspelt dat het uiteindelijk wel eens zo'n 100 miljoen dollar zou kunnen kosten. $ 100 miljard om een geavanceerd model te trainen.
Zonder een duurzaam financieringsmodel of prikkelstructuur staan ontwikkelaars voor de keuze: het beperken van de toegang middels gesloten-bron- of niet-commerciƫle licenties of het risico lopen op een financiƫle ineenstorting.
Misvattingen over āOpen Weightsā en licenties
De toegankelijkheid van AI-modellen is steeds meer vertroebeld, waarbij veel platforms zichzelf als "open" profileren, terwijl ze beperkingen opleggen die fundamenteel in strijd zijn met de principes van open source. Deze "goocheltruc" manifesteert zich op meerdere manieren:
- Modellen die als 'open gewichten' worden bestempeld, verbieden mogelijk volledig commercieel gebruik. Ze blijven dan meer een academische curiositeit dan een praktisch zakelijk hulpmiddel voor het publiek om te verkennen en te ontwikkelen.
- Sommige aanbieders bieden toegang tot vooraf getrainde modellen, maar bewaken hun trainingsdatasets en -methodologieƫn zorgvuldig, waardoor het onmogelijk is om hun bevindingen op zinvolle wijze te reproduceren of te verifiƫren.
- Veel platforms leggen herdistributiebeperkingen op die ontwikkelaars ervan weerhouden om voort te bouwen op de modellen of deze te verbeteren voor hun communities, zelfs als ze volledige 'toegang' hebben tot de code.
In deze gevallen is "open voor onderzoek" gewoon dubbelzinnig voor "gesloten voor zaken". Het resultaat is een oneerlijke vorm van vendor lock-in, waarbij organisaties tijd en middelen investeren in platformen die ogenschijnlijk openbaar toegankelijk zijn, maar vervolgens kritieke beperkingen ontdekken bij pogingen om de applicaties op te schalen of te commercialiseren.
De resulterende verwarring frustreert niet alleen ontwikkelaars, maar ondermijnt ook actief het vertrouwen in het AI-ecosysteem. Het schept onrealistische verwachtingen bij belanghebbenden die er terecht van uitgaan dat 'open' AI vergelijkbaar is met open-source softwaregemeenschappen, waar transparantie, wijzigingsrechten en commerciƫle vrijheid worden gewaarborgd.
Juridische vertraging
De snelle vooruitgang van GenAI loopt al voor op de ontwikkeling van passende juridische kaders. Hierdoor ontstaat een complex web van uitdagingen op het gebied van intellectueel eigendom, die de reeds bestaande zorgen nog groter maken.
Het eerste grote juridische strijdtoneel draait om het gebruik van trainingsdata. Deep learning-modellen halen grote datasets van het internet, zoals openbaar beschikbare afbeeldingen en de tekst van webpagina's. Deze enorme dataverzameling heeft geleid tot felle debatten over intellectuele-eigendomsrechten. Techbedrijven beweren dat hun AI-systemen auteursrechtelijk beschermd materiaal bestuderen en ervan leren om nieuwe, transformatieve content te creƫren. Auteursrechthouders beweren echter dat deze AI-bedrijven hun werk onrechtmatig kopiƫren en daarmee concurrerende content genereren die hun bestaan bedreigt.
Het eigendom van door AI gegenereerde afgeleide werken vertegenwoordigt nog een juridische dubbelzinnigheid. Niemand weet precies hoe AI-gegenereerde content geclassificeerd moet worden, behalve het Amerikaanse Copyright Office, dat stelt dat "als AI volledig content genereert, deze niet auteursrechtelijk beschermd kan worden."
De juridische onzekerheid rondom GenAI ā met name met betrekking tot inbreuk op auteursrechten, eigendom van door AI gegenereerde werken en niet-gelicentieerde content in trainingsdata ā wordt nog groter naarmate fundamentele AI-modellen zich ontwikkelen tot instrumenten van geopolitiek belang: landen die haast hebben om superieure AI-capaciteiten te ontwikkelen, zijn mogelijk minder geneigd om de toegang tot data te beperken, waardoor landen met strengere intellectuele-eigendomsbescherming een concurrentienadeel ondervinden.
Wat open source moet worden in het AI-tijdperk
De GenAI-trein is al vertrokken en vertoont geen tekenen van vertraging. We hopen een toekomst te creƫren waarin AI innovatie stimuleert in plaats van onderdrukt. In dat geval hebben techleiders een raamwerk nodig dat veilig en transparant commercieel gebruik garandeert, verantwoorde innovatie stimuleert, data-eigendom en -licenties aanpakt en onderscheid maakt tussen 'open' en 'gratis'.
Een opkomend concept, de Open commerciƫle bronlicentiekan een oplossing bieden door gratis toegang voor niet-commercieel gebruik, gelicentieerde toegang voor commercieel gebruik en erkenning en respect voor de herkomst en het eigendom van gegevens voor te stellen.
Om zich aan deze nieuwe realiteit aan te passen, moet de open-sourcegemeenschap AI-specifieke open licentiemodellen ontwikkelen, publiek-private partnerschappen vormen om deze modellen te financieren en vertrouwde standaarden voor transparantie, veiligheid en ethiek vaststellen.
Open source heeft de wereld ooit veranderd. Generatieve AI verandert die opnieuw. Om de geest van openheid te behouden, moeten we de letter van de wet verder ontwikkelen, de unieke eisen van AI erkennen en tegelijkertijd de uitdagingen direct aanpakken om een inclusief en duurzaam ecosysteem te creƫren.