Intelliġenza Artifiċjali

Il-Battalja tal-Mudelli tal-Lingwa Sors Miftuħ vs Magħluq: Analiżi Teknika

ippubblikat

1 ġimgħa ilu

Frar 12, 2024

Mudelli lingwistiċi kbar (LLMs) ġibdu l-komunità tal-IA f’dawn l-aħħar snin, u wasslu għal skoperti fi Ipproċessar tal-lingwa naturali. Wara l-hype jinsab dibattitu kumpless - dawn il-mudelli qawwija għandhom ikunu sors miftuħ jew sors magħluq?

F'din il-kariga, aħna ser tanalizza d-differenzjazzjoni teknika bejn dawn l-approċċi biex nifhmu l-opportunitajiet u l-limitazzjonijiet li kull wieħed jippreżenta. Aħna nkopru l-aspetti ewlenin li ġejjin:

Id-definizzjoni ta' sors miftuħ vs sors magħluq LLMs
Trasparenza arkitettonika u customizability
Benchmarking tal-prestazzjoni
Rekwiżiti komputazzjonali
Versatilità tal-applikazzjoni
Aċċessibilità u liċenzjar
Privatezza tad-data u kunfidenzjalità
Appoġġ u appoġġ kummerċjali

Sa l-aħħar, ser ikollok perspettiva infurmata dwar il-kompromessi tekniċi bejn LLMs ta' sors miftuħ u sors magħluq biex tiggwida l-istrateġija ta' AI tiegħek stess. Ejja ngħaddu!

Id-definizzjoni ta' LLMs Open Source vs Closed Source

LLMs open source għandhom arkitetturi mudell aċċessibbli pubblikament, kodiċi sors, u parametri tal-piż. Dan jippermetti lir-riċerkaturi jispezzjonaw l-intern, jevalwaw il-kwalità, jirriproduċu r-riżultati, u jibnu varjanti tad-dwana. Eżempji ewlenin jinkludu ConstitutionalAI ta' Anthropic, LLaMA ta' Meta, u GPT-NeoX ta' EleutherAI.

B'kuntrast, LLMs ta' sors magħluq jittrattaw l-arkitettura tal-mudell u l-piżijiet bħala assi proprjetarji. Entitajiet kummerċjali bħal Anthropic, DeepMind, u OpenAI jiżviluppawhom internament. Mingħajr kodiċi aċċessibbli jew dettalji tad-disinn, ir-riproduċibbiltà u l-personalizzazzjoni jiffaċċjaw limitazzjonijiet.

Trasparenza arkitettonika u Customizability

Aċċess għal sorsi interni LLM miftuħ jiftaħ opportunitajiet ta 'adattament sempliċement mhux possibbli b'alternattivi ta' sors magħluq.

Billi jaġġustaw l-arkitettura tal-mudell, ir-riċerkaturi jistgħu jesploraw tekniki bħall-introduzzjoni ta 'konnettività skarsa bejn is-saffi jew iż-żieda ta' tokens ta 'klassifikazzjoni ddedikati biex itejbu l-prestazzjoni fuq kompiti niċċa. B'aċċess għall-parametri tal-piż, l-iżviluppaturi jistgħu jittrasferixxu jitgħallmu rappreżentazzjonijiet eżistenti jew jinizjalizzaw varjanti bi blokki tal-bini mħarrġa minn qabel bħal inkorporazzjonijiet T5 u BERT.

Din il-personalizzazzjoni tippermetti lill-LLMs ta' sors miftuħ iservu aħjar oqsma speċjalizzati bħar-riċerka bijomedika, il-ġenerazzjoni tal-kodiċi u l-edukazzjoni. Madankollu, l-għarfien espert meħtieġ jista' jgħolli l-ostaklu għat-twassil ta' implimentazzjonijiet ta' kwalità tal-produzzjoni.

LLMs sors magħluq joffru customization limitat peress li d-dettalji tekniċi tagħhom jibqgħu proprjetarji. Madankollu, dawk li jappoġġawhom jikkommettu riżorsi estensivi għar-riċerka u l-iżvilupp interni. Is-sistemi li jirriżultaw jimbuttaw il-pakkett fuq dak li hu possibbli b'arkitettura LLM ġeneralizzata.

Għalhekk, filwaqt li huma inqas flessibbli, LLMs ta' sors magħluq jisbqu f'kompiti tal-lingwa naturali applikabbli b'mod wiesa'. Jissimplifikaw ukoll l-integrazzjoni billi jikkonformaw ma 'interfaces stabbiliti bħall-istandard OpenAPI.

Benchmarking tal-Prestazzjoni

Minkejja t-trasparenza arkitettonika, il-kejl tal-prestazzjoni tal-LLM b'sors miftuħ jintroduċi sfidi. Il-flessibbiltà tagħhom tippermetti għadd ta' konfigurazzjonijiet u strateġiji ta' rfinar possibbli. Jippermetti wkoll mudelli prefissati bħala "sors miftuħ" biex fil-fatt jinkludu tekniki proprjetarji li jgħawġu t-tqabbil.

L-LLMs ta' sors magħluq jiftaħar miri ta' prestazzjoni definiti b'mod aktar ċar bħala l-benchmark tas-sostenituri tagħhom u jirreklamaw limiti metriċi speċifiċi. Pereżempju, Anthropic jippubbliċizza l-eżattezza ta' ConstitutionalAI fuq settijiet ta' problemi NLU kkurati. Microsoft tenfasizza kif GPT-4 jaqbeż il-linji bażi umani fuq is-sett ta' għodod għall-fehim tal-lingwa SuperGLUE.

Cela dit, dawn il-parametri referenzjarji definiti b'mod dejjaq iffaċċjaw kritika talli ddikjaraw iżżejjed il-prestazzjoni fuq kompiti tad-dinja reali u rrappreżentaw insuffiċjentement il-fallimenti. Evalwazzjoni LLM tassew imparzjali tibqa' mistoqsija ta' riċerka miftuħa - kemm għal approċċi ta' sors miftuħ kif ukoll magħluq.

Rekwiżiti Komputali

It-taħriġ ta 'mudelli lingwistiċi kbar jitlob riżorsi komputazzjonali estensivi. OpenAI nefaq miljuni ta' taħriġ lil GPT-3 fuq l-infrastruttura tal-cloud, filwaqt li Anthropic ikkonsma 'l fuq minn $10 miljun ta' GPUs għal ConstitutionalAI.

Il-kont għal mudelli bħal dawn jeskludi ħafna individwi u timijiet żgħar mill-komunità open source. Fil-fatt, EleutherAI kellha tneħħi l-mudell GPT-J mill-aċċess pubbliku minħabba l-isplodi tal-ispejjeż tal-hosting.

Mingħajr deep pockets, l-istejjer ta’ suċċess tal-LLM ta’ sors miftuħ jisfruttaw ir-riżorsi tal-kompjuters mogħtija b’donazzjoni. LAION ikkurat il-mudell LAION-5B tagħhom iffukat fuq it-teknoloġija bl-użu ta’ data crowdsourced. Il-proġett Anthropic ConstitutionalAI mingħajr skop ta' qligħ utilizza kompjuters volontarji.

L-appoġġ teknoloġiku kbir ta 'kumpaniji bħal Google, Meta, u Baidu jipprovdi sforzi ta' sors magħluq il-fjuwil finanzjarju meħtieġ biex jiġi industrijalizzat l-iżvilupp tal-LLM. Dan jippermetti l-iskala għal tulijiet li ma jistgħux jinftiehmu għal inizjattivi popolari – ara biss il-mudell Gopher ta’ parametru ta’ 280 biljun DeepMind.

Versatilità tal-Applikazzjoni

Il-personalizzabbiltà tal-LLMs ta’ sors miftuħ tagħti s-setgħa li jiġu indirizzati każijiet ta’ użu speċjalizzati ħafna. Ir-riċerkaturi jistgħu jimmodifikaw b'mod aggressiv l-intern tal-mudelli biex jagħtu spinta lill-prestazzjoni fuq kompiti niċċa bħal tbassir tal-istruttura tal-proteini, ġenerazzjoni ta 'dokumentazzjoni tal-kodiċi, u verifika ta' prova matematika.

Cela dit, l-abbiltà li taċċessa u teditja l-kodiċi ma tiggarantixxix soluzzjoni effettiva speċifika għad-dominju mingħajr id-dejta t-tajba. Settijiet ta' dejta ta' taħriġ komprensiv għal applikazzjonijiet dojoq jieħdu sforz sinifikanti biex jiġu kkurati u jinżammu aġġornati.

Hawnhekk l-LLMs b'sors magħluq jibbenefikaw mir-riżorsi biex iġibu dejta dwar it-taħriġ minn repożitorji interni u msieħba kummerċjali. Pereżempju, DeepMind tagħti liċenzja għal databases bħal ChEMBL għall-kimika u UniProt għall-proteini biex jespandu l-firxa tal-applikazzjoni. L-aċċess tad-dejta fuq skala industrijali jippermetti li mudelli bħal Gopher jiksbu versatilità notevoli minkejja l-opaċità arkitettonika.

Aċċessibilità u Liċenzjar

Il-liċenzjar permissiv ta' LLMs ta' sors miftuħ jippromwovi aċċess u kollaborazzjoni ħielsa. Mudelli bħal GPT-NeoX, LLaMA, u Jurassic-1 Jumbo jużaw ftehimiet bħal Creative Commons u Apache 2.0 biex jippermettu riċerka mhux kummerċjali u kummerċjalizzazzjoni ġusta.

B'kuntrast, LLMs ta' sors magħluq iġorru liċenzji restrittivi li jillimitaw id-disponibbiltà tal-mudell. Entitajiet kummerċjali jikkontrollaw sewwa l-aċċess biex jissalvagwardjaw flussi ta' dħul potenzjali minn APIs ta' tbassir u sħubijiet ta' intrapriżi.

Wieħed jifhem, organizzazzjonijiet bħal Anthropic u Cohere jitolbu ħlas għall-aċċess għall-interfaces ConstitutionalAI u Cohere-512. Madankollu, dan jirriskja l-ipprezzar ta' oqsma ta' riċerka importanti, u jxekkel l-iżvilupp lejn industriji ffinanzjati tajjeb.

Il-liċenzjar miftuħ joħloq sfidi wkoll, notevolment dwar l-attribuzzjoni u r-responsabbiltà. Għal każijiet ta' użu tar-riċerka iżda, il-libertajiet mogħtija mill-aċċessibbiltà ta' sors miftuħ joffru vantaġġi ċari.

Privatezza tad-Data u Kunfidenzjalità

Is-settijiet tad-dejta tat-taħriġ għal LLMs tipikament jiġbru kontenut minn diversi sorsi onlajn bħal paġni tal-web, artikoli xjentifiċi, u forums ta' diskussjoni. Dan jirriskja li joħroġ informazzjoni identifikabbli personalment jew mod ieħor sensittiva fl-outputs tal-mudell.

Għal LLMs ta' sors miftuħ, l-iskrutinju tal-kompożizzjoni tas-sett tad-dejta jipprovdi l-aħjar guardrail kontra kwistjonijiet ta' kunfidenzjalità. L-evalwazzjoni tas-sorsi tad-dejta, l-iffiltrar tal-proċeduri, u d-dokumentazzjoni dwar l-eżempji misjuba waqt l-ittestjar jistgħu jgħinu biex jiġu identifikati l-vulnerabbiltajiet.

Sfortunatament, LLMs ta' sors magħluq jipprekludu tali verifika pubblika. Minflok, il-konsumaturi jridu jistrieħu fuq ir-rigorożità tal-proċessi ta’ reviżjoni interna bbażati fuq politiki mħabbra. Għall-kuntest, Azure Cognitive Services iwiegħed li jiffiltra d-dejta personali filwaqt li Google jispeċifika reviżjonijiet formali tal-privatezza u t-tikkettar tad-dejta.

B'mod ġenerali, LLMs ta' sors miftuħ jagħtu s-setgħa lill-identifikazzjoni aktar proattiva tar-riskji tal-kunfidenzjalità fis-sistemi tal-IA qabel ma dawk id-difetti jidhru fuq skala kbira. Il-kontropartijiet magħluqa joffru trasparenza relattivament limitata fil-prattiki tal-immaniġġjar tad-dejta.

Appoġġ u Appoġġ Kummerċjali

Il-potenzjal li jiġu monetizzati LLMs ta' sors magħluq jinċentiva investiment kummerċjali sinifikanti għall-iżvilupp u l-manutenzjoni. Pereżempju, billi tantiċipa qligħ qligħ mill-portafoll ta 'Azure AI tagħha, Microsoft qablet li sħubijiet ta' bosta biljuni ta 'dollari ma' OpenAI madwar mudelli GPT.

B'kuntrast, LLMs open source jiddependu fuq voluntiera li jallokaw ħin personali għall-manutenzjoni jew għotjiet li jipprovdu finanzjament għal żmien limitat. Din l-assimetrija tar-riżorsi tirriskja l-kontinwità u l-lonġevità tal-proġetti open source.

Madankollu, l-ostakli għall-kummerċjalizzazzjoni jeħilsu wkoll lill-komunitajiet open source biex jiffokaw fuq il-progress xjentifiku fuq il-profitt. U n-natura deċentralizzata ta 'ekosistemi miftuħa ttaffi d-dipendenza żejda fuq l-interess sostnut ta' kwalunkwe sostenn wieħed.

Fl-aħħar mill-aħħar kull approċċ iġib kompromessi madwar ir-riżorsi u l-inċentivi. LLMs ta' sors magħluq igawdu sigurtà ta' finanzjament akbar iżda jikkonċentraw l-influwenza. Ekosistemi miftuħa jippromwovu d-diversità iżda jsofru inċertezza akbar.

In-navigazzjoni tal-Pajsaġġ LLM ta' Sors Miftuħ vs Sors Magħluq

Id-deċiżjoni bejn LLMs ta' sors miftuħ jew magħluq titlob li l-prijoritajiet organizzattivi jitqabblu bħall-personalizzazzjoni, l-aċċessibbiltà u l-iskalabbiltà mal-kapaċitajiet tal-mudell.

Għar-riċerkaturi u startups, is-sors miftuħ jagħti aktar kontroll biex jiġu rranġati mudelli għal kompiti speċifiċi. Il-liċenzjar jiffaċilita wkoll il-kondiviżjoni bla ħlas tal-għarfien bejn il-kollaboraturi. Madankollu, il-piż tas-sorsi tad-dejta u l-infrastruttura tat-taħriġ jista’ jimmina l-vijabbiltà fid-dinja reali.

Bil-maqlub, LLMs ta' sors magħluq iwiegħdu titjib tal-kwalità mdaqqsa bil-korteżija ta' fondi u dejta abbundanti. Madankollu, ir-restrizzjonijiet dwar l-aċċess u l-modifiki jillimitaw it-trasparenza xjentifika filwaqt li skjerament jorbtu mal-pjanijiet direzzjonali tal-bejjiegħ.

Fil-prattika, standards miftuħa madwar speċifikazzjonijiet ta 'arkitettura, punti ta' kontroll tal-mudell, u data ta 'evalwazzjoni jistgħu jgħinu biex ipattu l-iżvantaġġi taż-żewġ approċċi. Fondazzjonijiet kondiviżi bħal Transformer ta 'Google jew benchmarks REALTO ta' Oxford itejbu r-riproduċibilità. L-istandards tal-interoperabbiltà bħall-ONNX jippermettu li jitħalltu komponenti minn sorsi miftuħa u magħluqa.

Fl-aħħar mill-aħħar dak li jgħodd huwa li tagħżel l-għodda t-tajba - sors miftuħ jew magħluq - għax-xogħol li qed ikollha. L-entitajiet kummerċjali li jappoġġaw LLMs ta' sors magħluq għandhom influwenza innegabbli. Iżda l-passjoni u l-prinċipji tal-komunitajiet tax-xjenza miftuħa se jkomplu jkollhom rwol kruċjali li jmexxu l-progress tal-AI.

Sa jmiss

Xejriet Teknoloġiċi Emerġenti għall-2024: Ir-Rapport ta' Mastercard Jiżvela l-Impatt ta' AI Ġenerattiva fuq il-Kummerċ

M'għandekx Miss

L-Istat tal-LLMs Multilingwi: Nimxu Lil hinn mill-Ingliż

Aayush Mittal

Għamilt l-aħħar ħames snin ngħaddas ruħi fid-dinja affaxxinanti tal-Machine Learning u t-Tagħlim Profond. Il-passjoni u l-kompetenza tiegħi wassluni biex nikkontribwixxi għal aktar minn 50 proġett ta' inġinerija tas-softwer differenti, b'fokus partikolari fuq AI/ML. Il-kurżità kontinwa tiegħi ġibditni wkoll lejn Natural Language Processing, qasam li jien ħerqan li nesplora aktar.

Unite.AI

Il-Battalja tal-Mudelli tal-Lingwa Sors Miftuħ vs Magħluq: Analiżi Teknika

Intelliġenza Artifiċjali

Il-Battalja tal-Mudelli tal-Lingwa Sors Miftuħ vs Magħluq: Analiżi Teknika

Tabella tal-kontenut

Id-definizzjoni ta' LLMs Open Source vs Closed Source