Kontakt med oss

Tankeledere

Å tenke nytt om åpen kildekode i den generative kunstige intelligensens tidsalder

mm

Åpen kildekode-modellen – en programvareutviklingsetos der kildekode gjøres fritt tilgjengelig for offentlig omdistribusjon eller modifisering – har lenge vært en katalysator for innovasjon. Idealet ble født i 1983 da Richard Stallman, en programvareutvikler, ble frustrert over den svarte boksen til sin lukkede kildekode-skriver på frifot.

Hans visjon utløste bevegelsen for fri programvare, og banet vei for økosystemet med åpen kildekode som driver mye av dagens internett- og programvareinnovasjon.

Men det var for over 40 år siden.

I dag omformer generativ AI, med sine unike tekniske og etiske utfordringer, betydningen av «åpenhet», og krever at vi revurderer og tenker nytt om paradigmet med åpen kildekode – ikke å forlate det, men å tilpasse det.

AI og åpen kildekode-frihetene

De fire grunnleggende frihetene til åpen kildekode-programvare – muligheten til å kjøre, studere, modifisere og omfordele all programvarekode – er i strid med generativ AIs natur på flere måter:

  • Løpe: AI-modeller krever ofte svært høye infrastruktur- og beregningskostnader, noe som begrense adgang på grunn av ressursbegrensninger.
  • Studer og modifiser: AI-modeller er utrolig komplekse, så å forstå og endre dem uten tilgang til både koden og dataene som ligger til grunn for den er en betydelig utfordring.
  • omfordelingMange AI-modeller begrense omfordeling ved design, spesielt de med trente vekter og proprietære datasett eid av plattformleverandøren.

Nedbrytningen av disse kjerneprinsippene skyldes ikke ondsinnede hensikter, men snarere den store kompleksiteten og kostnadene ved moderne AI-systemer. Faktisk har de økonomiske kravene til opplæring av toppmoderne AI-modeller økt dramatisk de siste årene – OpenAIs GPT-4 har angivelig pådratt seg opplæringskostnader på opp til $ 78 millioner, unntatt lønninger for ansatte, med totale utgifter stiger $ 100 millioner.

Kompleksiteten til «åpen kildekode» AI

En virkelig åpen AI-modell ville kreve total åpenhet om kildekode for slutninger, kildekode for trening, modellvekter og treningsdata. Mange modeller merket som «åpne» vil imidlertid bare frigi slutningskode eller delvise vekter, mens andre tilbyr begrenset lisens eller begrenser kommersiell bruk helt.

Denne upartiske åpenheten skaper en illusjon av åpen kildekode-prinsipper, men den kommer til kort i praksis.

Tenk på at en analyse fra Open Source Initiative (OSI) fant at flere populære store språkmodeller påstår å være åpen kildekode – inkludert Llama2 og Llama 3.x (utviklet av Meta), Grok (X), Phi-2 (Microsoft) og Mixtral (Mistral AI) – er strukturelt inkompatible med prinsipper for åpen kildekode.

Utfordringer med bærekraft og insentiver

Mesteparten av programvaren med åpen kildekode ble bygget på frivillighetsdrevet eller tilskuddsfinansiert innsats, snarere enn dataintensiv, kostnadskrevende infrastruktur. AI-modeller, derimot, er dyre å trene og vedlikeholde, og kostnadene forventes bare å stige. Anthropics administrerende direktør, Dario Amodei, spår at det til slutt kan koste så mye som $ 100 milliarder å trene en banebrytende modell.

Uten en bærekraftig finansieringsmodell eller insentivstruktur står utviklere overfor et valg mellom å begrense tilgangen gjennom lukkede eller ikke-kommersielle lisenser, eller å risikere økonomisk kollaps.

Misoppfatninger rundt «åpne vekter» og lisensiering

Tilgjengeligheten av AI-modeller har blitt stadig mer forvirret, med mange plattformer som markedsfører seg som «åpne» samtidig som de innfører restriksjoner som fundamentalt motsier ekte åpen kildekode-prinsipper. Denne «håndbevegelsen» manifesterer seg på flere måter:

  • Modeller merket som «åpne vekter» kan forby kommersiell bruk fullstendig, og opprettholde dem mer som akademiske kuriositeter enn praktiske forretningsverktøy som publikum kan utforske og utvikle.
  • Noen leverandører tilbyr tilgang til forhåndstrente modeller, men vokter ivrig over treningsdatasettene og metodene sine, noe som gjør det umulig å reprodusere eller verifisere funnene deres på en meningsfull måte.
  • Mange plattformer pålegger redistribusjonsbegrensninger som hindrer utviklere i å bygge videre på eller forbedre modellene for fellesskapene sine, selv om de har full «tilgang» til koden.

I disse tilfellene er «åpen for forskning» bare dobbeltspråk for «stengt for forretningsdrift». Resultatet er en uærlig form for leverandørlåsing, der organisasjoner investerer tid og ressurser i plattformer som tilsynelatende er åpent tilgjengelige, bare for å oppdage kritiske begrensninger når de prøver å skalere eller kommersialisere applikasjonene.

Den resulterende forvirringen frustrerer ikke bare utviklere. Den undergraver aktivt tilliten til AI-økosystemet. Den setter urealistiske forventninger blant interessenter som med rimelighet antar at «åpen» AI er sammenlignbar med programvaremiljøer med åpen kildekode, der åpenhet, modifikasjonsrettigheter og kommersiell frihet opprettholdes.

Juridisk forsinkelse

GenAIs raske fremskritt overgår allerede utviklingen av passende juridiske rammeverk, og skaper et komplekst nett av utfordringer knyttet til immaterielle rettigheter som forverrer eksisterende bekymringer.

Den første store juridiske slagmarken dreier seg om bruk av treningsdata. Dyp læringsmodeller henter store datasett fra internett, for eksempel offentlig tilgjengelige bilder og tekst på nettsider. Denne massive datainnsamlingen har skapt heftige debatter om immaterielle rettigheter. Teknologiselskaper hevder at deres AI-systemer studerer og lærer av opphavsrettsbeskyttet materiale for å skape nytt, transformerende innhold. Opphavsrettseiere hevder imidlertid at disse AI-selskapene ulovlig kopierer verkene deres, og genererer konkurrerende innhold som truer levebrødet deres.

Eierskap av AI-genererte avledede verk representerer enda en juridisk tvetydighet. Ingen er helt sikre på hvordan man skal klassifisere AI-generert innhold, bortsett fra US Copyright Office, som sier at «hvis AI utelukkende genererer innhold, kan det ikke beskyttes av opphavsrett».

Den juridiske usikkerheten rundt GenAI – spesielt når det gjelder brudd på opphavsrett, eierskap til AI-genererte verk og ulisensiert innhold i treningsdata – blir enda mer anspent ettersom grunnleggende AI-modeller dukker opp som verktøy av geopolitisk betydning: Nasjoner som kjemper om å utvikle overlegne AI-kapasiteter, kan være mindre tilbøyelige til å begrense datatilgang, noe som setter land med strengere IP-beskyttelse i en konkurransemessig ulempe.

Hva åpen kildekode må bli i AI-alderen

GenAI-toget har allerede forlatt stasjonen og viser ingen tegn til å bremse ned. Vi håper å bygge en fremtid der AI oppmuntrer til snarere enn å kvele innovasjon. I så fall trenger teknologiledere et rammeverk som sikrer trygg og transparent kommersiell bruk, fremmer ansvarlig innovasjon, adresserer dataeierskap og lisensiering, og skiller mellom «åpent» og «gratis».

Et fremvoksende konsept, den Åpen kommersiell kildekode-lisens, kan tilby en vei videre ved å foreslå fri tilgang for ikke-kommersiell bruk, lisensiert tilgang for kommersiell bruk, og anerkjennelse av og respekt for opprinnelse og eierskap til data.

For å tilpasse seg denne nye virkeligheten må åpen kildekode-miljøet utvikle AI-spesifikke modeller for åpen lisensiering, danne offentlig-private partnerskap for å finansiere disse modellene og etablere pålitelige standarder for åpenhet, sikkerhet og etikk.

Åpen kildekode forandret verden én gang. Generativ AI forandrer den igjen. For å bevare åpenhetens ånd må vi utvikle dens bokstav, anerkjenne de unike kravene til AI samtidig som vi tar tak i utfordringene direkte for å skape et inkluderende og bærekraftig økosystem.

Dr. Yair Adato er grunnlegger og administrerende direktør i Bria, selskapet som ble opprettet for å etablere en risikofri, åpen plattform for generativ AI. Hans visjon var å skape en generativ AI-plattform som følger ansvarlige AI-prinsipper og omdefinerer konseptene opphavsrett og IP, slik at dataeierskap og generativ AI kan sameksistere.

Dr. Adato er en visjonær innen sitt felt og har en doktorgrad i informatikk innen datasyn fra Ben-Gurion University i samarbeid med Harvard University. Med mer enn 50 patenter som bygger broen mellom AI og kommersiell bruk, kan Dr. Adato skryte av en bemerkelsesverdig merittliste med å fremme AI-innovasjon. Før han ledet Bria, var Dr. Adato teknisk direktør hos Trax Retail, noe som muliggjorde Trax' raske vekst fra en tidligfase-oppstartsbedrift med 20 ansatte til en enhjørning med nærmere 1000 ansatte. Han er eller har vært medlem av et rådgivende styre for flere selskaper, inkludert Sparx, Vicomi, Tasq, DataGen og Anima.