Kunstig intelligens

Kampen om åpen kildekode vs språkmodeller med lukket kildekode: en teknisk analyse

Publisert

3 måneder siden

Februar 12, 2024

Store språkmodeller (LLM) har fengslet AI-fellesskapet de siste årene, og har ledet gjennombrudd innen naturlig språkbehandling. Bak hypen ligger en kompleks debatt – bør disse kraftige modellene være åpen kildekode eller lukket kildekode?

I dette innlegget vil vi analysere den tekniske differensieringen mellom disse tilnærmingene for å forstå mulighetene og begrensningene hver presenterer. Vi vil dekke følgende hovedaspekter:

Definere åpen kildekode vs lukket kildekode LLMer
Arkitektonisk åpenhet og tilpassbarhet
Ytelsesbenchmarking
Beregningskrav
Anvendelses allsidighet
Tilgjengelighet og lisensiering
Datavern og konfidensialitet
Kommersiell støtte og støtte

Mot slutten vil du ha et informert perspektiv på de tekniske avveiningene mellom åpen kildekode og lukket kildekode LLM-er for å veilede din egen AI-strategi. La oss dykke inn!

Definere åpen kildekode vs lukket kildekode LLM-er

Åpen kildekode LLM-er har offentlig tilgjengelige modellarkitekturer, kildekode og vektparametere. Dette gjør det mulig for forskere å inspisere internt, evaluere kvalitet, reprodusere resultater og bygge tilpassede varianter. Ledende eksempler inkluderer Anthropics ConstitutionalAI, Metas LLaMA og EleutherAIs GPT-NeoX.

I motsetning til dette behandler LLM-er med lukket kildekode modellarkitektur og vekter som proprietære eiendeler. Kommersielle enheter som Anthropic, DeepMind og OpenAI utvikler dem internt. Uten tilgjengelig kode eller designdetaljer møter reproduserbarhet og tilpasning begrensninger.

Arkitektonisk åpenhet og tilpassbarhet

Tilgang til åpen kildekode LLM internt låser opp tilpasningsmuligheter rett og slett ikke mulig med lukket kildekode-alternativer.

Ved å justere modellarkitekturen kan forskere utforske teknikker som å introdusere sparsom tilkobling mellom lag eller legge til dedikerte klassifiseringssymboler for å forbedre ytelsen på nisjeoppgaver. Med tilgang til vektparametere kan utviklere overføre læring eksisterende representasjoner eller initialisere varianter med ferdigtrente byggeklosser som T5 og BERT-innbygginger.

Denne tilpasningsmuligheten lar åpen kildekode LLM-er bedre betjene spesialiserte domener som biomedisinsk forskning, kodegenerering og utdanning. Den nødvendige kompetansen kan imidlertid heve barrieren for å levere implementeringer av produksjonskvalitet.

LLM-er med lukket kilde tilbyr begrenset tilpasning siden deres tekniske detaljer forblir proprietære. Deres støttespillere bruker imidlertid omfattende ressurser til intern forskning og utvikling. De resulterende systemene presser konvolutten på hva som er mulig med en generalisert LLM-arkitektur.

Så selv om de er mindre fleksible, utmerker LLM-er med lukket kildekode seg på bredt anvendelige naturlige språkoppgaver. De forenkler også integrasjon ved å samsvare med etablerte grensesnitt som OpenAPI-standarden.

Ytelsesbenchmarking

Til tross for arkitektonisk åpenhet, introduserer måling av åpen kildekode LLM-ytelse utfordringer. Deres fleksibilitet muliggjør utallige mulige konfigurasjoner og innstillingsstrategier. Det lar også modeller med prefiks som "åpen kildekode" faktisk inkludere proprietære teknikker som forvrenger sammenligninger.

LLM-er med lukket kilde kan skryte av tydeligere definerte resultatmål som støttespillere og annonserer spesifikke metriske terskler. For eksempel offentliggjør Anthropic ConstitutionalAIs nøyaktighet på kurerte NLU-problemsett. Microsoft fremhever hvordan GPT-4 overgår menneskelige grunnlinjer på SuperGLUE-verktøysettet for språkforståelse.

Når det er sagt, møtte disse snevert definerte benchmarkene kritikk for å overvurdere ytelsen på oppgaver i den virkelige verden og underrepresentere feil. Virkelig upartisk LLM-evaluering forblir et åpent forskningsspørsmål – for både åpen og lukket kildekode.

Beregningskrav

Trening av store språkmodeller krever omfattende beregningsressurser. OpenAI brukte millioner på å trene GPT-3 på skyinfrastruktur, mens Anthropic brukte GPUer verdt 10 millioner dollar for ConstitutionalAI.

Regningen for slike modeller ekskluderer de fleste enkeltpersoner og små team fra åpen kildekode-fellesskapet. Faktisk måtte EleutherAI fjerne GPT-J-modellen fra offentlig tilgang på grunn av eksploderende hostingkostnader.

Uten dype lommer utnytter open source LLM-suksesshistorier donerte dataressurser. LAION kuraterte deres teknologifokuserte LAION-5B-modell ved hjelp av crowdsourced data. Det ideelle prosjektet Anthropic ConstitutionalAI benyttet frivillig databehandling.

Den store tekniske støtten fra selskaper som Google, Meta og Baidu gir lukket kildeinnsats det økonomiske drivstoffet som trengs for å industrialisere LLM-utviklingen. Dette gjør det mulig å skalere til ufattelige lengder for grasrotinitiativer – bare se DeepMinds Gopher-modell på 280 milliarder parametere.

Anvendelse Allsidighet

Tilpassbarheten til åpen kildekode LLMs gjør det mulig å takle svært spesialiserte brukstilfeller. Forskere kan aggressivt modifisere interne modeller for å øke ytelsen på nisjeoppgaver som prediksjon av proteinstruktur, generering av kodedokumentasjon og matematisk bevisverifisering.

Når det er sagt, garanterer ikke muligheten til å få tilgang til og redigere kode en effektiv domenespesifikk løsning uten de riktige dataene. Omfattende opplæringsdatasett for smale applikasjoner krever betydelig innsats for å kurere og holde seg oppdatert.

Her kan LLM-er med lukket kildekode dra nytte av ressursene til å hente opplæringsdata fra interne depoter og kommersielle partnere. For eksempel lisensierer DeepMind databaser som ChEMBL for kjemi og UniProt for proteiner for å utvide applikasjonsrekkevidden. Datatilgang i industriell skala lar modeller som Gopher oppnå bemerkelsesverdig allsidighet til tross for arkitektonisk opasitet.

Tilgjengelighet og lisensiering

Den tillatelige lisensieringen av åpen kildekode LLM-er fremmer fri tilgang og samarbeid. Modeller som GPT-NeoX, LLaMA og Jurassic-1 Jumbo bruker avtaler som Creative Commons og Apache 2.0 for å muliggjøre ikke-kommersiell forskning og rettferdig kommersialisering.

I motsetning til dette har LLM-er med lukket kildekode restriktive lisenser som begrenser modelltilgjengeligheten. Kommersielle enheter kontrollerer tilgangen strengt for å sikre potensielle inntektsstrømmer fra prediksjons-APIer og bedriftspartnerskap.

Forståelig nok tar organisasjoner som Anthropic og Cohere betalt for tilgang til ConstitutionalAI og Cohere-512 grensesnitt. Dette risikerer imidlertid å prise ut viktige forskningsdomener, og skjeve utviklingen mot godt finansierte næringer.

Åpen lisensiering byr også på utfordringer, spesielt rundt attribusjon og ansvar. For forskningsbrukssaker gir imidlertid frihetene gitt av åpen kildekode-tilgjengelighet klare fordeler.

Personvern og konfidensialitet

Opplæringsdatasett for LLM-er samler vanligvis innhold fra ulike nettkilder som nettsider, vitenskapelige artikler og diskusjonsfora. Dette risikerer å dukke opp personlig identifiserbar eller på annen måte sensitiv informasjon i modellutdata.

For LLM-er med åpen kildekode gir gransking av datasettsammensetning det beste rekkverket mot konfidensialitetsproblemer. Evaluering av datakilder, filtreringsprosedyrer og dokumentering angående eksempler funnet under testing kan bidra til å identifisere sårbarheter.

Dessverre utelukker LLM-er med lukket kildekode slik offentlig revisjon. I stedet må forbrukerne stole på strengheten til interne vurderingsprosesser basert på annonserte retningslinjer. For kontekst lover Azure Cognitive Services å filtrere personlige data mens Google spesifiserer formelle personvernvurderinger og datamerking.

Totalt sett gir åpen kildekode LLM mer proaktiv identifisering av konfidensialitetsrisikoer i AI-systemer før disse feilene manifesterer seg i stor skala. Lukkede motparter tilbyr relativt begrenset åpenhet i datahåndteringspraksis.

Kommersiell støtte og støtte

Potensialet til å tjene penger på LLM-er med lukket kilde oppmuntrer til betydelige kommersielle investeringer for utvikling og vedlikehold. For eksempel, i påvente av lukrativ avkastning fra Azure AI-porteføljen, gikk Microsoft med på partnerskap på flere milliarder dollar med OpenAI rundt GPT-modeller.

I motsetning til dette er LLM-er med åpen kildekode avhengig av frivillige som tildeler personlig tid til vedlikehold eller tilskudd som gir begrenset finansiering. Denne ressursasymmetrien risikerer kontinuiteten og levetiden til åpen kildekode-prosjekter.

Barrierene for kommersialisering frigjør imidlertid åpen kildekode-samfunn til å fokusere på vitenskapelig fremgang fremfor profitt. Og den desentraliserte naturen til åpne økosystemer reduserer overtilliten til den vedvarende interessen til en enkelt støttespiller.

Til syvende og sist innebærer hver tilnærming avveininger rundt ressurser og insentiver. LLM-er med lukket kilde nyter større finansieringssikkerhet, men konsentrerer innflytelse. Åpne økosystemer fremmer mangfold, men lider av økt usikkerhet.

Navigere i Open Source vs Closed Source LLM-landskapet

Å velge mellom åpen eller lukket kildekode LLM krever matching av organisatoriske prioriteringer som tilpasningsmuligheter, tilgjengelighet og skalerbarhet med modellfunksjoner.

For forskere og startups gir åpen kildekode mer kontroll for å tilpasse modeller til spesifikke oppgaver. Lisenseringen legger også til rette for gratis deling av innsikt på tvers av samarbeidspartnere. Byrden med å skaffe opplæringsdata og infrastruktur kan imidlertid undergrave levedyktigheten i den virkelige verden.

Omvendt lover LLM-er med lukket kildekode betydelige kvalitetsforbedringer takket være rikelig med finansiering og data. Restriksjoner rundt tilgang og modifikasjoner begrenser imidlertid vitenskapelig åpenhet mens de binder distribusjoner til leverandørens veikart.

I praksis kan åpne standarder rundt arkitekturspesifikasjoner, modellsjekkpunkter og evalueringsdata bidra til å oppveie ulempene ved begge tilnærmingene. Delte grunnlag som Googles Transformer eller Oxfords REALTO-standarder forbedrer reproduserbarheten. Interoperabilitetsstandarder som ONNX tillater blanding av komponenter fra åpne og lukkede kilder.

Det som til syvende og sist betyr noe, er å velge det riktige verktøyet – åpen eller lukket kildekode – for den aktuelle jobben. De kommersielle enhetene som støtter LLM-er med lukket kildekode har ubestridelig innflytelse. Men lidenskapen og prinsippene til åpne vitenskapssamfunn vil fortsette å spille en avgjørende rolle for å drive AI-fremgang.

Neste

Nye teknologitrender for 2024: Mastercards rapport avslører effekten av generativ AI på handel

Ikke gå glipp av

The State of Multilingual LLMs: Moving Beyond English

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.