Ajatusten johtajat
Avoimen lähdekoodin uudelleenajattelu generatiivisen tekoälyn aikakaudella

Avoimen lähdekoodin malli – ohjelmistokehityksen eetos, jossa lähdekoodi on vapaasti saatavilla julkiseen jakeluun tai muokkaamiseen – on pitkään toiminut innovaatioiden katalysaattorina. Ideaali syntyi vuonna 1983, kun ohjelmistokehittäjä Richard Stallman turhautui heti alkuunsa suljetun lähdekoodin tulostimensa mustalaatikkoluonteeseen.
Hänen visionsa käynnisti vapaiden ohjelmistojen liikkeen ja tasoitti tietä avoimen lähdekoodin ekosysteemille, joka pyörittää suurta osaa nykypäivän internetistä ja ohjelmistoinnovaatioista.
Mutta se oli yli 40 vuotta sitten.
Nykyään generatiivinen tekoäly ainutlaatuisine teknisine ja eettisine haasteineen muokkaa "avoimuuden" merkitystä ja vaatii meitä tarkastelemaan ja uudistamaan avoimen lähdekoodin paradigmaa – ei hylätäksemme sitä, vaan mukauttaaksemme sitä.
Tekoäly ja avoimen lähdekoodin vapaudet
Avoimen lähdekoodin ohjelmistojen neljä perusvapautta – kyky ajaa, tutkia, muokata ja jakaa uudelleen mikä tahansa ohjelmistokoodi – ovat monella tapaa ristiriidassa generatiivisen tekoälyn luonteen kanssa:
- Juosta: Tekoälymallit vaativat usein erittäin korkeita infrastruktuuri- ja laskentakustannuksia, mikä rajoittaa pääsy resurssirajoitusten vuoksi.
- Tutki ja muokkaa: Tekoälymallit ovat uskomattoman monimutkaisia, joten niiden ymmärtäminen ja muuttaminen Ilman pääsyä sekä koodiin että sitä tukevaan dataan on merkittävä haaste.
- uusjakoMonet tekoälymallit rajoittaa uudelleenjakoa suunnittelun vuoksi, erityisesti ne, joissa on koulutettuja painoja ja alustan tarjoajan omistamia suojattuja tietojoukkoja.
Näiden keskeisten periaatteiden mureneminen ei johdu pahantahtoisista aikomuksista, vaan pikemminkin nykyaikaisten tekoälyjärjestelmien monimutkaisuudesta ja kustannuksista. Huippuluokan tekoälymallien kouluttamisen taloudelliset vaatimukset ovat itse asiassa kasvaneet dramaattisesti viime vuosina – OpenAI:n GPT-4:n kerrotaan aiheuttaneen koulutuskustannuksia jopa $ 78 miljoonaa, lukuun ottamatta henkilökunnan palkkoja, kokonaiskuluineen ylittävät $ 100 euroa.
Avoimen lähdekoodin tekoälyn monimutkaisuus
Todella avoin tekoälymalli edellyttäisi täydellistä läpinäkyvyyttä päättelykoodille, harjoituskoodille, mallin painotuksille ja harjoitusdatalle. Monet "avoimiksi" merkityt mallit julkaisevat kuitenkin vain päättelykoodia tai osittaisia painotuksia, kun taas toiset tarjoavat rajoitettua lisensointia tai rajoittavat kaupallista käyttöä kokonaan.
Tämä puolueeton avoimuus luo illuusion avoimen lähdekoodin periaatteista, mutta jää käytännössä vajaaksi.
Huomioi, että Open Source Initiativen (OSI) analyysi osoitti useiden suosittujen suurten kielimallien väittää olevansa avoimen lähdekoodin – mukaan lukien Llama2 ja Llama 3.x (Metan kehittämä), Grok (X), Phi-2 (Microsoft) ja Mixtral (Mistral AI) – ovat rakenteellisesti yhteensopimattomia avoimen lähdekoodin periaatteiden kanssa.
Kestävyyden ja kannustimien haasteet
Suurin osa avoimen lähdekoodin ohjelmistoista rakennettiin vapaaehtoisvoimin tai apurahojen turvin, ei laskentatehokkaiden ja kustannustehokkaiden infrastruktuurien avulla. Toisaalta tekoälymallien kouluttaminen ja ylläpito ovat kalliita, ja kustannusten odotetaan vain nousevan. Anthropicin toimitusjohtaja Dario Amodei ennustaa, että se voi lopulta maksaa jopa $ 100 miljardia kouluttaakseen huippumallin.
Ilman kestävää rahoitusmallia tai kannustinrakennetta kehittäjät joutuvat valitsemaan joko suljetun lähdekoodin tai ei-kaupallisten lisenssien avulla saatavuuden rajoittamisen tai taloudellisen romahduksen riskin välillä.
Väärinkäsityksiä "avoimista painoista" ja lisensseistä
Tekoälymallien saavutettavuudesta on tullut yhä sekavampaa, ja monet alustat markkinoivat itseään "avoimina" samalla, kun ne asettavat rajoituksia, jotka ovat perustavanlaatuisesti ristiriidassa todellisten avoimen lähdekoodin periaatteiden kanssa. Tämä "kikkailu" ilmenee monin tavoin:
- ”Avoimiksi painoiksi” merkityt mallit saattavat kieltää kaupallisen käytön kokonaan, pitäen ne enemmän akateemisina kuriositeetteina kuin käytännön liiketoimintatyökaluina, joita yleisö voi tutkia ja kehittää.
- Jotkut palveluntarjoajat tarjoavat pääsyn esikoulutettuihin malleihin, mutta varjelevat innokkaasti koulutusdatajoukkojaan ja -menetelmiään, mikä tekee mahdottomaksi toistaa tai varmentaa havaintojaan mielekkäällä tavalla.
- Monet alustat asettavat uudelleenjakelurajoituksia, jotka estävät kehittäjiä rakentamasta mallien pohjalta tai parantamasta niitä yhteisöilleen, vaikka heillä olisikin täysi "pääsy" koodiin.
Näissä tapauksissa ”avoin tutkimukselle” on vain kaksoiskieltä sanalle ”suljettu liiketoiminnalle”. Tuloksena on epärehellinen toimittajariippuvuuden muoto, jossa organisaatiot investoivat aikaa ja resursseja alustoille, jotka vaikuttavat avoimesti saatavilla olevilta, vain huomatakseen kriittisiä rajoituksia yrittäessään skaalata tai kaupallistaa sovelluksia.
Tästä johtuva hämmennys ei ainoastaan turhauta kehittäjiä. Se myös heikentää aktiivisesti luottamusta tekoälyekosysteemiin. Se asettaa epärealistisia odotuksia sidosryhmille, jotka kohtuudella olettavat, että "avoin" tekoäly on verrattavissa avoimen lähdekoodin ohjelmistoyhteisöihin, joissa läpinäkyvyyttä, muokkausoikeuksia ja kaupallista vapautta kunnioitetaan.
Oikeudellinen viive
GenAI:n nopea kehitys ylittää jo nyt asianmukaisten oikeudellisten kehysten kehityksen, mikä on luonut monimutkaisen verkoston immateriaalioikeushaasteita, jotka pahentavat jo olemassa olevia huolenaiheita.
Ensimmäinen merkittävä oikeudellinen taistelukenttä keskittyy harjoitusdatan käyttöön. Syväoppimismallit hankkivat internetistä suuria tietojoukkoja, kuten julkisesti saatavilla olevia kuvia ja verkkosivujen tekstiä. Tämä massiivinen tiedonkeruu on käynnistänyt kiivaan keskustelun immateriaalioikeuksista. Teknologiayritykset väittävät, että heidän tekoälyjärjestelmänsä tutkivat ja oppivat tekijänoikeuksilla suojatusta materiaalista luodakseen uutta, mullistavaa sisältöä. Tekijänoikeuksien haltijat kuitenkin väittävät, että nämä tekoälyyritykset kopioivat laittomasti heidän teoksiaan ja tuottavat kilpailevaa sisältöä, joka uhkaa heidän toimeentuloaan.
Tekoälyn luomien johdannaisteosten omistajuus on jälleen yksi oikeudellinen epäselvyys. Kukaan ei ole aivan varma, miten tekoälyn luomaa sisältöä luokitellaan, paitsi Yhdysvaltain tekijänoikeusvirasto, joka toteaa, että "jos tekoäly tuottaa kokonaan sisältöä, sitä ei voida suojata tekijänoikeudella".
GenAI:hin liittyvä oikeudellinen epävarmuus – erityisesti tekijänoikeusrikkomusten, tekoälyn luomien teosten omistajuuden ja harjoitusdatan luvattoman sisällön osalta – kiristyy entisestään, kun tekoälyn perustavanlaatuiset mallit nousevat geopoliittisesti tärkeiksi työkaluiksi: Kansakunnat, jotka kilpailevat kehittääkseen parempia tekoälyominaisuuksia, saattavat olla vähemmän taipuvaisia rajoittamaan datan saatavuutta, mikä asettaa tiukempia immateriaalioikeuksia suojaavia maita kilpailuhaittaan.
Mitä avoimen lähdekoodin on muututtava tekoälyn aikakaudella
GenAI-juna on jo lähtenyt asemalta eikä osoita hidastumisen merkkejä. Toivomme rakentavamme tulevaisuuden, jossa tekoäly kannustaa innovaatioita tukahduttamisen sijaan. Siinä tapauksessa teknologiajohtajat tarvitsevat kehyksen, joka varmistaa turvallisen ja läpinäkyvän kaupallisen käytön, edistää vastuullista innovaatiota, käsittelee datan omistajuutta ja lisensointia sekä erottaa toisistaan "avoimen" ja "ilmaisen".
Nouseva käsite, Avoimen kaupallisen lähdekoodin lisenssi, voi tarjota tien eteenpäin ehdottamalla ilmaista pääsyä ei-kaupalliseen käyttöön, lisensoitua pääsyä kaupalliseen käyttöön sekä datan alkuperän ja omistajuuden tunnustamista ja kunnioittamista.
Sopeutuakseen tähän uuteen todellisuuteen avoimen lähdekoodin yhteisön on kehitettävä tekoälyyn keskittyviä avoimen lisensoinnin malleja, muodostettava julkisen ja yksityisen sektorin kumppanuuksia näiden mallien rahoittamiseksi ja luotava luotettavat standardit läpinäkyvyydelle, turvallisuudelle ja eettisyydelle.
Avoin lähdekoodi muutti maailmaa kerran. Generatiivinen tekoäly muuttaa sitä jälleen. Säilyttääksemme avoimuuden hengen meidän on kehitettävä sen lakia kirjaimellisesti tunnustaen tekoälyn ainutlaatuiset vaatimukset ja samalla tarttuen haasteisiin suoraan luodaksemme osallistavan ja kestävän ekosysteemin.