Følg os

Tanke ledere

Gentænkning af open source i den generative AI-tidsalder

mm

Open source-modellen – en softwareudviklingsetos, hvor kildekode stilles frit tilgængelig til offentlig distribution eller ændring – har længe været en katalysator for innovation. Idealet blev født i 1983, da Richard Stallman, en softwareudvikler, blev frustreret over den sorte boks-karakter, hans lukkede kildekodeprinter havde, på et øjeblik.

Hans vision satte gang i bevægelsen for fri software og banede vejen for det open source-økosystem, der driver en stor del af nutidens internet- og softwareinnovation.

Men det var over 40 ĂĄr siden.

I dag omformer generativ kunstig intelligens, med sine unikke tekniske og etiske udfordringer, betydningen af "åbenhed" og kræver, at vi gentænker og gentænker open source-paradigmet – ikke at opgive det, men at tilpasse det.

AI og open source-frihederne

De fire grundlæggende friheder ved open source-software – evnen til at køre, studere, ændre og omfordele enhver softwarekode – er i modstrid med generativ AI's natur på flere måder:

  • Løb: AI-modeller kræver ofte meget høje infrastruktur- og beregningsomkostninger, hvilket begrænse adgang pĂĄ grund af ressourcebegrænsninger.
  • Undersøg og modificer: AI-modeller er utroligt komplekse, sĂĄ at forstĂĄ og ændre dem uden adgang til bĂĄde koden og de data, der ligger til grund for den, er en betydelig udfordring.
  • omfordelingMange AI-modeller begrænse omfordeling efter design, især dem med trænede vægte og proprietære datasæt ejet af platformudbyderen.

Udhulingen af ​​disse kerneprincipper skyldes ikke ondsindet hensigt, men snarere den store kompleksitet og omkostninger ved moderne AI-systemer. Faktisk er de økonomiske krav til træning af avancerede AI-modeller steget dramatisk i de senere år – OpenAIs GPT-4 har angiveligt medført træningsomkostninger på op til $ 78 millioner, eksklusive medarbejderlønninger, med samlede udgifter overstiger $ 100 millioner.

Kompleksiteten af "open source" AI

En ægte åben AI-model ville kræve total gennemsigtighed i inferenskode, træningskildekode, modelvægte og træningsdata. Mange modeller, der er mærket som "åbne", vil dog kun frigive inferenskode eller delvise vægte, mens andre tilbyder begrænset licens eller helt begrænser kommerciel brug.

Denne upartiske ĂĄbenhed skaber illusionen af open source-principper, men i praksis er den tilkortkommelig.

Overvej, at en analyse foretaget af Open Source Initiative (OSI) viste, at flere populære store sprogmodeller påstår at være open source – inklusive Llama2 og Llama 3.x (udviklet af Meta), Grok (X), Phi-2 (Microsoft) og Mixtral (Mistral AI) – er strukturelt uforenelige med open source-principper.

Udfordringer inden for bæredygtighed og incitamentsdannelse

Det meste open source-software blev bygget på frivilligt drevet eller tilskudsfinansieret indsats, snarere end computerintensive, omkostningstunge infrastrukturer. AI-modeller er derimod dyre at træne og vedligeholde, og omkostningerne forventes kun at stige. Anthropics administrerende direktør, Dario Amodei, forudsiger, at det i sidste ende kan koste så meget som $ 100 milliarder at træne en banebrydende model.

Uden en bæredygtig finansieringsmodel eller incitamentsstruktur står udviklere over for et valg mellem at begrænse adgangen gennem lukkede eller ikke-kommercielle licenser eller at risikere økonomisk kollaps.

Misforståelser omkring "åbne vægte" og licensering

Tilgængeligheden af AI-modeller er blevet mere og mere uklar, og mange platforme markedsfører sig selv som "åbne", samtidig med at de pålægger restriktioner, der fundamentalt modsiger sande open source-principper. Dette "håndgreb" manifesterer sig på flere måder:

  • Modeller mærket som "ĂĄbne vægte" kan helt forbyde kommerciel brug og bevare dem mere som akademiske kuriositeter end praktiske forretningsværktøjer, som offentligheden kan udforske og udvikle.
  • Nogle udbydere tilbyder adgang til prætrænede modeller, men beskytter omhyggeligt deres træningsdatasæt og metoder, hvilket gør det umuligt at reproducere eller verificere deres resultater meningsfuldt.
  • Mange platforme pĂĄlægger restriktioner for omdistribution, der forhindrer udviklere i at bygge videre pĂĄ eller forbedre modellerne for deres fællesskaber, selvom de har fuld "adgang" til koden.

I disse tilfælde er "åben for forskning" blot en dobbeltbetegnelse for "lukket for erhvervslivet". Resultatet er en uærlig form for leverandørfastlåsning, hvor organisationer investerer tid og ressourcer i platforme, der tilsyneladende er åbent tilgængelige, kun for at opdage kritiske begrænsninger, når de forsøger at skalere eller kommercialisere applikationerne.

Den resulterende forvirring frustrerer ikke blot udviklere. Den underminerer aktivt tilliden til AI-økosystemet. Den skaber urealistiske forventninger blandt interessenter, der med rimelighed antager, at "åben" AI kan sammenlignes med open source-softwarefællesskaber, hvor gennemsigtighed, ændringsrettigheder og kommerciel frihed opretholdes.

Juridisk forsinkelse

GenAIs hurtige fremskridt overgår allerede udviklingen af passende juridiske rammer og skaber et komplekst netværk af udfordringer inden for intellektuel ejendomsret, der forværrer allerede eksisterende bekymringer.

Den første store juridiske kampplads centrerer sig om brugen af træningsdata. Deep learning-modeller henter store datasæt fra internettet, såsom offentligt tilgængelige billeder og tekst på websider. Denne massive dataindsamling har udløst heftige debatter om intellektuelle ejendomsrettigheder. Teknologivirksomheder hævder, at deres AI-systemer studerer og lærer af ophavsretligt beskyttet materiale for at skabe nyt, transformerende indhold. Ophavsretsindehavere hævder imidlertid, at disse AI-virksomheder ulovligt kopierer deres værker og genererer konkurrerende indhold, der truer deres levebrød.

Ejerskab af AI-genererede afledte værker repræsenterer endnu en juridisk tvetydighed. Ingen er helt sikre på, hvordan man klassificerer AI-genereret indhold, bortset fra US Copyright Office, som fastslår, at "hvis AI udelukkende genererer indhold, kan det ikke beskyttes af ophavsret."

Den juridiske usikkerhed omkring GenAI – især hvad angår krænkelse af ophavsret, ejerskab af AI-genererede værker og ulicenseret indhold i træningsdata – bliver endnu mere anspændt i takt med at grundlæggende AI-modeller fremstår som værktøjer af geopolitisk betydning: Nationer, der kæmper for at udvikle overlegne AI-kapaciteter, kan være mindre tilbøjelige til at begrænse dataadgang, hvilket sætter lande med strengere IP-beskyttelse i en konkurrencemæssig ulempe.

Hvad open source skal blive i AI-alderen

GenAI-toget har allerede forladt stationen og viser ingen tegn på at bremse op. Vi håber at kunne bygge en fremtid, hvor AI fremmer snarere end kvæler innovation. I så fald har teknologiledere brug for en ramme, der sikrer sikker og transparent kommerciel brug, fremmer ansvarlig innovation, adresserer dataejerskab og licensering og skelner mellem "åben" og "fri".

Et fremvoksende koncept, Ă…ben kommerciel kildekode-licens, kan tilbyde en vej fremad ved at foreslĂĄ fri adgang til ikke-kommerciel brug, licenseret adgang til kommerciel brug og anerkendelse af og respekt for datas oprindelse og ejerskab.

For at tilpasse sig denne nye virkelighed skal open source-miljøet udvikle AI-specifikke åbne licensmodeller, danne offentlig-private partnerskaber for at finansiere disse modeller og etablere pålidelige standarder for gennemsigtighed, sikkerhed og etik.

Open source ændrede verden én gang. Generativ AI ændrer den igen. For at bevare åbenhedens ånd skal vi udvikle dens bogstav, anerkende de unikke krav fra AI, samtidig med at vi tager udfordringerne direkte op for at skabe et inkluderende og bæredygtigt økosystem.

Dr. Yair Adato er grundlægger og administrerende direktør for Bria, virksomheden, der blev oprettet for at etablere en risikofri, åben platform for generativ AI. Hans vision var at skabe en generativ AI-platform, der følger ansvarlige AI-principper og omdefinerer begreberne ophavsret og IP, så dataejerskab og generativ AI kan sameksistere.

Dr. Adato er en visionær inden for sit felt og har en ph.d. i datalogi inden for computer vision fra Ben-Gurion University i samarbejde med Harvard University. Med mere end 50 patenter, der bygger bro mellem AI og kommerciel brug, kan Dr. Adato prale af en bemærkelsesværdig historik med at fremme AI-innovation. Før han ledede Bria, fungerede Dr. Adato som CTO hos Trax Retail, hvilket muliggjorde Trax' hurtige vækst fra en tidlig startup med 20 ansatte til en enhjørning med næsten 1000 medarbejdere. Han er eller har været medlem af advisory boards for flere virksomheder, herunder Sparx, Vicomi, Tasq, DataGen og Anima.