Best Of

5 millors LLM de codi obert (maig de 2024)

actualitzat on Pot 1, 2024

En el món de la intel·ligència artificial (IA) en ràpida evolució, els grans models de llenguatge (LLM) han emergit com a pedra angular, impulsant innovacions i remodelant la manera com interactuem amb la tecnologia.

A mesura que aquests models es tornen cada cop més sofisticats, hi ha un èmfasi creixent en la democratització de l'accés als mateixos. Els models de codi obert, en particular, estan jugant un paper fonamental en aquesta democratització, oferint als investigadors, desenvolupadors i entusiastes l'oportunitat d'aprofundir en les seves complexitats, ajustar-los per a tasques específiques o fins i tot construir sobre les seves bases.

En aquest bloc, explorarem alguns dels principals LLM de codi obert que estan fent onades a la comunitat d'IA, cadascun aportant els seus punts forts i capacitats únics a la taula.

1. Truca 2

La Llama 2 de Meta és una incorporació innovadora a la seva línia de models d'IA. Aquest no és només un model més; està dissenyat per alimentar una sèrie d'aplicacions d'última generació. Les dades d'entrenament de Llama 2 són vastes i variades, cosa que la converteix en un avenç significatiu respecte al seu predecessor. Aquesta diversitat en la formació garanteix que Llama 2 no sigui només una millora incremental, sinó un pas monumental cap al futur de les interaccions impulsades per IA.

La col·laboració entre Meta i Microsoft ha ampliat els horitzons per a Llama 2. El model de codi obert ara és compatible amb plataformes com Azure i Windows, amb l'objectiu de proporcionar als desenvolupadors i organitzacions les eines per crear experiències generatives basades en IA. Aquesta associació posa de manifest la dedicació d'ambdues empreses a fer que la IA sigui més accessible i oberta a tothom.

Llama 2 no és només un successor del model original de Llama; representa un canvi de paradigma en l'àmbit del chatbot. Si bé el primer model de Llama va ser revolucionari a l'hora de generar text i codi, la seva disponibilitat es va limitar per evitar un mal ús. Llama 2, en canvi, està pensat per arribar a un públic més ampli. Està optimitzat per a plataformes com AWS, Azure i la plataforma d'allotjament de models d'IA d'Hugging Face. A més, amb la col·laboració de Meta amb Microsoft, Llama 2 està a punt de deixar la seva empremta no només a Windows, sinó també en dispositius alimentats amb el sistema Snapdragon de Qualcomm en xip.

La seguretat és el cor del disseny de Llama 2. Reconeixent els reptes als quals s'enfrontaven els grans models d'idioma anteriors, com ara GPT, que de vegades produïa contingut enganyós o nociu, Meta ha pres mesures exhaustives per garantir la fiabilitat de Llama 2. El model ha estat sotmès a un entrenament rigorós per minimitzar les "al·lucinacions", la desinformació i els biaixos.

Característiques principals de LLaMa 2:

Dades de formació diverses: Les dades d'entrenament de Llama 2 són extenses i variades, garantint una comprensió i un rendiment integrals.
Col·laboració amb Microsoft: Llama 2 és compatible amb plataformes com Azure i Windows, ampliant el seu àmbit d'aplicació.
Disponibilitat oberta: A diferència del seu predecessor, Llama 2 està disponible per a un públic més ampli, preparat per ajustar-se a diverses plataformes.
Disseny centrat en la seguretat: Meta ha posat èmfasi en la seguretat, assegurant que Llama 2 produeix resultats precisos i fiables alhora que minimitza les sortides nocives.
Versions optimitzades: Llama 2 es presenta en dues versions principals: Llama 2 i Llama 2-Chat, i aquesta última està especialment dissenyada per a converses bidireccionals. Aquestes versions oscil·len en complexitat entre 7 i 70 milions de paràmetres.
Formació millorada: Llama 2 es va entrenar amb dos milions de fitxes, un augment significatiu dels 1.4 bilions de fitxes del Llama original.

2. floració

El 2022, després d'un esforç de col·laboració global amb voluntaris de més de 70 països i experts de Hugging Face, es va donar a conèixer el projecte BLOOM. Aquest gran model de llenguatge (LLM), creat a través d'una iniciativa d'un any, està dissenyat per a la generació de text autoregressiva, capaç d'estendre un missatge de text determinat. Va ser entrenat en un corpus massiu de dades de text utilitzant una potència computacional substancial.

El debut de BLOOM va ser un pas important per fer més accessible la tecnologia d'IA generativa. Com a LLM de codi obert, compta amb 176 mil milions de paràmetres, cosa que el converteix en un dels més formidables de la seva classe. BLOOM té la competència per generar text coherent i precís en 46 idiomes i 13 llenguatges de programació.

El projecte posa èmfasi en la transparència, permetent l'accés públic al seu codi font i dades de formació. Aquesta obertura convida a l'examen, la utilització i la millora constants del model.

Accessible sense cap cost a través de la plataforma Hugging Face, BLOOM és un testimoni de la innovació col·laborativa en IA.

Característiques principals de Bloom:

Capacitats multilingües: BLOOM és capaç de generar text en 46 idiomes i 13 llenguatges de programació, mostrant el seu ampli ventall lingüístic.
Accés de codi obert: El codi font del model i les dades de formació estan disponibles públicament, promovent la transparència i la millora col·laborativa.
Generació autoregressiva de text: Dissenyat per continuar el text des d'una indicació determinada, BLOOM destaca per ampliar i completar seqüències de text.
Recompte massiu de paràmetres: Amb 176 mil milions de paràmetres, BLOOM és un dels LLM de codi obert més potents que existeixen.
Col·laboració global: Desenvolupat a través d'un projecte d'un any amb contribucions de voluntaris de més de 70 països i investigadors de Hugging Face.
Accessibilitat gratuïta: Els usuaris poden accedir i utilitzar BLOOM de forma gratuïta a través de l'ecosistema Hugging Face, millorant la seva democratització en el camp de la IA.
Formació a escala industrial: El model es va entrenar en grans quantitats de dades de text utilitzant recursos computacionals significatius, garantint un rendiment robust.

3. MPT-7B

MosaicML Foundations ha fet una contribució significativa a aquest espai amb la introducció de MPT-7B, el seu darrer LLM de codi obert. MPT-7B, un acrònim de MosaicML Pretrained Transformer, és un model de transformador d'estil GPT, només descodificador. Aquest model compta amb diverses millores, com ara implementacions de capes optimitzades pel rendiment i canvis arquitectònics que garanteixen una major estabilitat de l'entrenament.

Una característica destacada de MPT-7B és la seva formació en un ampli conjunt de dades que inclou 1 bilió de fitxes de text i codi. Aquesta formació rigorosa es va executar a la plataforma MosaicML durant un període de 9.5 dies.

La naturalesa de codi obert de MPT-7B el posiciona com una eina valuosa per a aplicacions comercials. Té el potencial d'afectar significativament l'anàlisi predictiva i els processos de presa de decisions de les empreses i organitzacions.

A més del model base, MosaicML Foundations també llança models especialitzats adaptats per a tasques específiques, com ara MPT-7B-Instruct per al seguiment d'instruccions breus, MPT-7B-Chat per a la generació de diàlegs i MPT-7B-StoryWriter-65k+ per a la creació d'històries llargues.

El viatge de desenvolupament de MPT-7B va ser complet, amb l'equip de MosaicML gestionant totes les etapes des de la preparació de les dades fins al desplegament en poques setmanes. Les dades es van obtenir de diversos dipòsits i l'equip va utilitzar eines com el GPT-NeoX d'EleutherAI i el tokenizer 20B per garantir una combinació d'entrenament variada i completa.

Visió general de les característiques principals de MPT-7B:

Llicència comercial: MPT-7B té llicència per a ús comercial, el que el converteix en un actiu valuós per a les empreses.
Àmplies dades de formació: El model compta amb formació en un ampli conjunt de dades d'1 bilió de fitxes.
Tractament llarg d'entrada: MPT-7B està dissenyat per processar entrades extremadament llargues sense compromís.
Velocitat i eficiència: El model està optimitzat per a un entrenament i inferència ràpids, garantint resultats oportuns.
Codi de codi obert: MPT-7B inclou un codi d'entrenament de codi obert eficient, que promou la transparència i la facilitat d'ús.
Excel·lència Comparativa: MPT-7B ha demostrat superioritat sobre altres models de codi obert de la gamma 7B-20B, amb la seva qualitat que coincideix amb la de LLaMA-7B.

4. Falcó

Falcon LLM, és un model que ha ascendit ràpidament al capdamunt de la jerarquia LLM. Falcon LLM, concretament Falcon-40B, és un LLM fonamental equipat amb 40 milions de paràmetres i s'ha entrenat amb un impressionant bilió de fitxes. Funciona com un model només de descodificador autoregressiu, la qual cosa significa essencialment que prediu el testimoni següent en una seqüència basada en els testimonis anteriors. Aquesta arquitectura recorda el model GPT. En particular, l'arquitectura de Falcon ha demostrat un rendiment superior a GPT-3, aconseguint aquesta proesa amb només el 75% del pressupost de càlcul d'entrenament i requerint molt menys càlcul durant la inferència.

L'equip de l'Institut d'Innovació Tecnològica va posar un gran èmfasi en la qualitat de les dades durant el desenvolupament de Falcon. Reconeixent la sensibilitat dels LLM a la qualitat de les dades d'entrenament, van construir una canalització de dades que es va escalar a desenes de milers de nuclis de CPU. Això va permetre un processament ràpid i l'extracció de contingut d'alta qualitat de la web, aconseguit mitjançant processos de filtratge i deduplicació extensos.

A més del Falcon-40B, TII també ha introduït altres versions, inclosa la Falcon-7B, que posseeix 7 milions de paràmetres i s'ha entrenat amb 1,500 mil milions de fitxes. També hi ha models especialitzats com Falcon-40B-Instruct i Falcon-7B-Instruct, fets a mida per a tasques específiques.

L'entrenament del Falcon-40B va ser un procés extens. El model es va entrenar al conjunt de dades RefinedWeb, un conjunt de dades web en anglès massiu construït per TII. Aquest conjunt de dades es va crear a sobre de CommonCrawl i es va sotmetre a un filtratge rigorós per garantir la qualitat. Un cop preparat el model, es va validar amb diversos punts de referència de codi obert, inclosos EAI Harness, HELM i BigBench.

Visió general de les característiques principals de Falcon LLM:

Paràmetres extensos: Falcon-40B està equipat amb 40 mil milions de paràmetres, que garanteixen un aprenentatge i un rendiment complets.
Model només de descodificador autoregressiu: Aquesta arquitectura permet a Falcon predir fitxes posteriors basant-se en les anteriors, de manera similar al model GPT.
Rendiment superior: Falcon supera el GPT-3 mentre utilitza només el 75% del pressupost informàtic d'entrenament.
Canalització de dades d'alta qualitat: El pipeline de dades de TII garanteix l'extracció de contingut d'alta qualitat del web, crucial per a la formació del model.
Varietat de models: A més de Falcon-40B, TII ofereix Falcon-7B i models especialitzats com Falcon-40B-Instruct i Falcon-7B-Instruct.
Disponibilitat de codi obert: Falcon LLM ha estat de codi obert, promovent l'accessibilitat i la inclusió en el domini de la IA.

5. Vicunya-13B

LMSYS ORG ha fet una marca significativa en l'àmbit dels LLM de codi obert amb la introducció de Vicuna-13B. Aquest chatbot de codi obert ha estat entrenat meticulosament ajustant LLaMA en converses compartides per usuaris procedents de ShareGPT. Les avaluacions preliminars, amb GPT-4 com a jutge, indiquen que Vicuna-13B aconsegueix més del 90% de qualitat de models reconeguts com OpenAI ChatGPT i Google Bard.

Sorprenentment, Vicuna-13B supera altres models notables com LLaMA i Stanford Alpaca en més del 90% dels casos. Tot el procés d'entrenament de Vicuna-13B es va executar amb un cost d'aproximadament 300 dòlars. Per a aquells interessats a explorar les seves capacitats, el codi, els pesos i una demostració en línia s'han posat a disposició del públic amb finalitats no comercials.

El model Vicuna-13B s'ha ajustat amb 70 converses ChatGPT compartides per usuaris, cosa que li permet generar respostes més detallades i ben estructurades. La qualitat d'aquestes respostes és comparable a ChatGPT. Avaluar els chatbots, però, és un esforç complex. Amb els avenços de GPT-4, hi ha una curiositat creixent pel seu potencial per servir com a marc d'avaluació automatitzat per a la generació de benchmarks i avaluacions de rendiment. Les troballes inicials suggereixen que GPT-4 pot produir classificacions coherents i avaluacions detallades quan es comparen les respostes del chatbot. Les avaluacions preliminars basades en GPT-4 mostren que Vicuna aconsegueix un 90% de capacitat de models com Bard/ChatGPT.

Visió general de les característiques principals de Vicuna-13B:

Naturalesa de codi obert: Vicuna-13B està disponible per a l'accés públic, promovent la transparència i la participació de la comunitat.
Àmplies dades de formació: El model s'ha entrenat en 70 converses compartides per usuaris, garantint una comprensió integral de les diverses interaccions.
Rendiment competitiu: El rendiment de Vicuna-13B està al mateix nivell que els líders del sector com ChatGPT i Google Bard.
Formació rendible: Tot el procés d'entrenament de Vicuna-13B es va executar a un baix cost d'uns 300 dòlars.
Afinació a LLaMA: El model s'ha ajustat a LLaMA, assegurant un rendiment millorat i una qualitat de resposta.
Disponibilitat de demostració en línia: Hi ha disponible una demostració en línia interactiva perquè els usuaris puguin provar i experimentar les capacitats de Vicuna-13B.

L'àmbit en expansió dels grans models lingüístics

L'àmbit dels grans models lingüístics és ampli i en constant expansió, amb cada nou model que supera els límits del que és possible. La naturalesa de codi obert dels LLM que es parla en aquest bloc no només mostra l'esperit col·laboratiu de la comunitat d'IA, sinó que també obre el camí per a futures innovacions.

Aquests models, des de les impressionants capacitats de chatbot de Vicuna fins a les mètriques de rendiment superiors de Falcon, representen el cim de la tecnologia LLM actual. A mesura que continuem assistint a avenços ràpids en aquest camp, està clar que els models de codi obert jugaran un paper crucial en la configuració del futur de la IA.

Tant si sou un investigador experimentat, un entusiasta de la intel·ligència artificial o algú curiós sobre el potencial d'aquests models, no hi ha millor moment per submergir-vos i explorar les grans possibilitats que ofereixen.

Temes relacionats:millor de

Fins a la propera

Les 10 millors eines d'IA per al màrqueting d'afiliats (maig de 2024)

No et perdis

Els 10 millors escriptors mèdics d'IA (maig de 2024)

Alex McFarland

Alex McFarland és un periodista i escriptor d'IA que explora els últims desenvolupaments en intel·ligència artificial. Ha col·laborat amb nombroses startups i publicacions d'IA a tot el món.

Antoine Tardif

Soci fundador de unit.AI i membre de la Consell Tecnològic de Forbes, Antoine és un futurista apassionat pel futur de la IA i la robòtica.

També és el fundador de Securities.io, un lloc web que se centra a invertir en tecnologia disruptiva.

Unite.AI

5 millors LLM de codi obert (maig de 2024)

Best Of

5 millors LLM de codi obert (maig de 2024)

Taula de continguts

1. Truca 2

2. floració

3. MPT-7B

4. Falcó

5. Vicunya-13B

L'àmbit en expansió dels grans models lingüístics

Missatges recents

Unite.AI

5 millors LLM de codi obert (maig de 2024)

Taula de continguts

1. Truca 2

2. floració

3. MPT-7B

4. Falcó

5. Vicunya-13B

L'àmbit en expansió dels grans models lingüístics

Potser t'agradi

Missatges recents