stomp 5 beste open source LLM's (mei 2024) - Unite.AI
Verbind je met ons
Array ( [ID] => 1 [voornaam gebruiker] => Antoine [achternaam gebruiker] => Tardif [bijnaam] => Antoine Tardif [gebruikersnaam] => admin [display_name] => Antoine Tardif [gebruikersnaam] => [e-mail beveiligd]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Een van de oprichters van unite.AI en lid van de Forbes Technologieraad, Antoine is een futuristisch die gepassioneerd is over de toekomst van AI en robotica. Hij is tevens de oprichter van Effecten.io, een website die zich richt op het investeren in disruptieve technologie. [user_avatar] => mm
)

Best Of

5 beste open source LLM's (mei 2024)

Bijgewerkt on
Open Source LLM's

In de snel evoluerende wereld van kunstmatige intelligentie (AI) zijn Large Language Models (LLM's) naar voren gekomen als een hoeksteen, die innovaties aanjaagt en de manier waarop we omgaan met technologie hervormt.

Naarmate deze modellen steeds geavanceerder worden, komt er steeds meer nadruk te liggen op het democratiseren van de toegang ertoe. Met name open-sourcemodellen spelen een cruciale rol in deze democratisering en bieden zowel onderzoekers, ontwikkelaars als enthousiastelingen de mogelijkheid om diep in hun fijne kneepjes te duiken, ze te verfijnen voor specifieke taken of zelfs op hun fundamenten voort te bouwen.

In deze blog zullen we enkele van de beste open-source LLM's onderzoeken die furore maken in de AI-gemeenschap, elk met zijn unieke sterke punten en mogelijkheden.

1. Lama 2

Meta's Llama 2 is een baanbrekende toevoeging aan hun AI-modellenreeks. Dit is niet zomaar een model; het is ontworpen om een ​​reeks ultramoderne toepassingen van brandstof te voorzien. De trainingsgegevens van Llama 2 zijn enorm en gevarieerd, waardoor het een aanzienlijke vooruitgang is ten opzichte van zijn voorganger. Deze diversiteit in training zorgt ervoor dat Llama 2 niet alleen een incrementele verbetering is, maar ook een monumentale stap in de richting van de toekomst van AI-gestuurde interacties.

De samenwerking tussen Meta en Microsoft heeft de horizon voor Llama 2 verbreed. Het open-sourcemodel wordt nu ondersteund op platforms zoals Azure en Windows, met als doel ontwikkelaars en organisaties de tools te bieden om generatieve AI-gestuurde ervaringen te creëren. Deze samenwerking onderstreept de toewijding van beide bedrijven om AI toegankelijker en toegankelijker te maken voor iedereen.

Llama 2 is niet alleen een opvolger van het originele Llama-model; het vertegenwoordigt een paradigmaverschuiving in de chatbot-arena. Hoewel het eerste Llama-model revolutionair was in het genereren van tekst en code, was de beschikbaarheid ervan beperkt om misbruik te voorkomen. Llama 2 zal daarentegen een breder publiek bereiken. Het is geoptimaliseerd voor platforms zoals AWS, Azure en het AI-modelhostingplatform van Hugging Face. Bovendien, met Meta's samenwerking met Microsoft, staat Llama 2 klaar om niet alleen zijn stempel te drukken op Windows, maar ook op apparaten die worden aangedreven door Qualcomm's Snapdragon-systeem-op-chip.

Veiligheid staat centraal in het ontwerp van Llama 2. Meta erkent de uitdagingen waarmee eerdere grote taalmodellen zoals GPT te maken hadden, die soms misleidende of schadelijke inhoud produceerden, en heeft uitgebreide maatregelen genomen om de betrouwbaarheid van Llama 2 te waarborgen. Het model heeft een grondige training ondergaan om 'hallucinaties', verkeerde informatie en vooroordelen te minimaliseren.

Belangrijkste kenmerken van LLaMa 2:

  • Diverse trainingsgegevens: De trainingsgegevens van Llama 2 zijn zowel uitgebreid als gevarieerd, waardoor een uitgebreid begrip en prestatie wordt gegarandeerd.
  • Samenwerking met Microsoft: Llama 2 wordt ondersteund op platforms zoals Azure en Windows, waardoor het toepassingsbereik wordt verbreed.
  • Open beschikbaarheid: In tegenstelling tot zijn voorganger is Llama 2 beschikbaar voor een breder publiek, klaar voor finetuning op meerdere platformen.
  • Veiligheidsgericht ontwerp: Meta heeft de nadruk gelegd op veiligheid en ervoor gezorgd dat Llama 2 nauwkeurige en betrouwbare resultaten produceert terwijl schadelijke output wordt geminimaliseerd.
  • Geoptimaliseerde versies: Llama 2 is er in twee hoofdversies: Llama 2 en Llama 2-Chat, waarbij de laatste speciaal is ontworpen voor tweerichtingsgesprekken. Deze versies variëren in complexiteit van 7 miljard tot 70 miljard parameters.
  • Verbeterde training: Llama 2 is getraind op twee miljoen tokens, een aanzienlijke toename ten opzichte van de oorspronkelijke Llama's 1.4 biljoen tokens.

2. Bloeien

In 2022 werd, na een wereldwijde samenwerking waarbij vrijwilligers uit meer dan 70 landen en experts van Hugging Face betrokken waren, het BLOOM-project onthuld. Dit grote taalmodel (LLM), gecreëerd via een initiatief van een jaar, is ontworpen voor autoregressieve tekstgeneratie, in staat om een ​​bepaalde tekstprompt uit te breiden. Het werd getraind op een enorm corpus aan tekstgegevens, waarbij gebruik werd gemaakt van substantiële rekenkracht.

Het debuut van BLOOM was een belangrijke stap in het toegankelijker maken van generatieve AI-technologie. Als open-source LLM beschikt het over 176 miljard parameters, waardoor het een van de meest formidabele in zijn klasse is. BLOOM heeft de vaardigheid om coherente en nauwkeurige tekst te genereren in 46 talen en 13 programmeertalen.

Het project legt de nadruk op transparantie, waardoor het publiek toegang krijgt tot de broncode en trainingsgegevens. Deze openheid nodigt uit tot voortdurend onderzoek, gebruik en verbetering van het model.

BLOOM is kosteloos toegankelijk via het Hugging Face-platform en is een bewijs van collaboratieve innovatie op het gebied van AI.

Belangrijkste kenmerken van Bloom:

  • Meertalige mogelijkheden: BLOOM is bedreven in het genereren van tekst in 46 talen en 13 programmeertalen, wat zijn brede taalkundige bereik aantoont.
  • Open source-toegang: De broncode en trainingsgegevens van het model zijn openbaar beschikbaar, wat de transparantie en gezamenlijke verbetering bevordert.
  • Autoregressieve tekstgeneratie: BLOOM is ontworpen om tekst vanaf een bepaalde prompt voort te zetten en blinkt uit in het uitbreiden en voltooien van tekstreeksen.
  • Enorme parametertelling: Met 176 miljard parameters is BLOOM een van de krachtigste open-source LLM's die er bestaan.
  • Wereldwijde samenwerking: Ontwikkeld via een project van een jaar met bijdragen van vrijwilligers uit meer dan 70 landen en Hugging Face-onderzoekers.
  • Gratis Toegankelijkheid: Gebruikers kunnen BLOOM gratis openen en gebruiken via het Hugging Face-ecosysteem, waardoor de democratisering ervan op het gebied van AI wordt versterkt.
  • Training op industriële schaal: Het model is getraind op grote hoeveelheden tekstgegevens met behulp van aanzienlijke computerbronnen, waardoor robuuste prestaties zijn gegarandeerd.

3. MPT-7B

MosaicML Foundations heeft een belangrijke bijdrage geleverd aan deze ruimte met de introductie van MPT-7B, hun nieuwste open-source LLM. MPT-7B, een acroniem voor MosaicML Pretrained Transformer, is een transformatormodel in GPT-stijl met alleen decoders. Dit model biedt verschillende verbeteringen, waaronder voor prestaties geoptimaliseerde laagimplementaties en architecturale veranderingen die zorgen voor meer trainingsstabiliteit.

Een opvallend kenmerk van MPT-7B is de training op een uitgebreide dataset met 1 biljoen tokens aan tekst en code. Deze rigoureuze training werd gedurende 9.5 dagen uitgevoerd op het MosaicML-platform.

Het open-source karakter van MPT-7B positioneert het als een waardevol hulpmiddel voor commerciële toepassingen. Het heeft het potentieel om voorspellende analyses en de besluitvormingsprocessen van bedrijven en organisaties aanzienlijk te beïnvloeden.

Naast het basismodel brengt MosaicML Foundations ook gespecialiseerde modellen uit die zijn toegesneden op specifieke taken, zoals MPT-7B-Instruct voor het volgen van korte instructies, MPT-7B-Chat voor het genereren van dialogen en MPT-7B-StoryWriter-65k+ voor het maken van lange verhalen.

De ontwikkelingsreis van MPT-7B was veelomvattend, waarbij het MosaicML-team alle stadia van gegevensvoorbereiding tot implementatie binnen een paar weken beheerde. De gegevens waren afkomstig uit verschillende opslagplaatsen en het team gebruikte tools zoals EleutherAI's GPT-NeoX en de 20B tokenizer om een ​​gevarieerde en uitgebreide trainingsmix te garanderen.

Belangrijkste kenmerken Overzicht van MPT-7B:

  • Commerciële licenties: MPT-7B heeft een licentie voor commercieel gebruik, waardoor het een waardevol bezit is voor bedrijven.
  • Uitgebreide trainingsgegevens: Het model biedt training op een enorme dataset van 1 biljoen tokens.
  • Lange invoerverwerking: MPT-7B is ontworpen om extreem lange invoer zonder compromissen te verwerken.
  • Snelheid en efficiëntie: Het model is geoptimaliseerd voor snelle training en gevolgtrekking, waardoor tijdige resultaten worden gegarandeerd.
  • Open-sourcecode: MPT-7B wordt geleverd met efficiënte open-source trainingscode, die transparantie en gebruiksgemak bevordert.
  • Vergelijkende uitmuntendheid: MPT-7B heeft aangetoond superieur te zijn ten opzichte van andere open-source modellen in de 7B-20B-reeks, met een kwaliteit die overeenkomt met die van LLaMA-7B.

4. valk

Falcon LLM is een model dat snel is opgeklommen naar de top van de LLM-hiërarchie. Falcon LLM, specifiek Falcon-40B, is een fundamentele LLM uitgerust met 40 miljard parameters en is getraind op een indrukwekkende een biljoen tokens. Het werkt als een autoregressief model met alleen decoders, wat in wezen betekent dat het het volgende token voorspelt in een reeks op basis van de voorgaande tokens. Deze architectuur doet denken aan het GPT-model. Opvallend is dat de architectuur van Falcon superieure prestaties heeft laten zien ten opzichte van GPT-3, waarbij deze prestatie is bereikt met slechts 75% van het trainingsrekenbudget en aanzienlijk minder rekenkracht vereist is tijdens inferentie.

Het team van het Technology Innovation Institute heeft tijdens de ontwikkeling van Falcon sterk de nadruk gelegd op datakwaliteit. Ze erkenden de gevoeligheid van LLM's voor de kwaliteit van trainingsgegevens en bouwden een gegevenspijplijn die schaalbaar was tot tienduizenden CPU-kernen. Dit maakte een snelle verwerking en de extractie van hoogwaardige inhoud van het web mogelijk, bereikt door uitgebreide filter- en deduplicatieprocessen.

Naast Falcon-40B heeft TII ook andere versies geïntroduceerd, waaronder Falcon-7B, die 7 miljard parameters bezit en is getraind op 1,500 miljard tokens. Er zijn ook gespecialiseerde modellen zoals Falcon-40B-Instruct en Falcon-7B-Instruct, op maat gemaakt voor specifieke taken.

Het trainen van Falcon-40B was een uitgebreid proces. Het model is getraind op de RefinedWeb-dataset, een enorme Engelse webdataset gebouwd door TII. Deze dataset is bovenop CommonCrawl gebouwd en is streng gefilterd om de kwaliteit te waarborgen. Nadat het model was opgesteld, werd het gevalideerd aan de hand van verschillende open-sourcebenchmarks, waaronder EAI Harness, HELM en BigBench.

Belangrijkste kenmerken Overzicht van Falcon LLM:

  • Uitgebreide parameters: Falcon-40B is uitgerust met 40 miljard parameters, wat zorgt voor uitgebreid leren en presteren.
  • Model met alleen autoregressieve decoder: Dankzij deze architectuur kan Falcon volgende tokens voorspellen op basis van voorgaande tokens, vergelijkbaar met het GPT-model.
  • Superieure prestatie: Falcon presteert beter dan GPT-3 en gebruikt slechts 75% van het rekenbudget voor training.
  • Datapijplijn van hoge kwaliteit: De datapijplijn van TII zorgt voor de extractie van hoogwaardige inhoud van internet, cruciaal voor de training van het model.
  • Verscheidenheid aan modellen: Naast Falcon-40B biedt TII Falcon-7B en gespecialiseerde modellen zoals Falcon-40B-Instruct en Falcon-7B-Instruct.
  • Open-source beschikbaarheid: Falcon LLM is open source en bevordert toegankelijkheid en inclusiviteit in het AI-domein.

5. Vicuña-13B

LMSYS ORG heeft een belangrijke stempel gedrukt op het gebied van open-source LLM's met de introductie van Vicuna-13B. Deze open-source chatbot is zorgvuldig getraind door LLaMA af te stemmen op door gebruikers gedeelde gesprekken afkomstig van ShareGPT. Voorlopige evaluaties, met GPT-4 als rechter, geven aan dat Vicuna-13B meer dan 90% kwaliteit behaalt van gerenommeerde modellen zoals OpenAI ChatGPT en Google Bard.

Het is indrukwekkend dat Vicuna-13B in meer dan 90% van de gevallen beter presteert dan andere opmerkelijke modellen zoals LLaMA en Stanford Alpaca. Het hele trainingsproces voor Vicuna-13B werd uitgevoerd voor ongeveer $ 300. Voor degenen die geïnteresseerd zijn in het verkennen van de mogelijkheden, zijn de code, gewichten en een online demo openbaar gemaakt voor niet-commerciële doeleinden.

Het Vicuna-13B-model is verfijnd met 70 door gebruikers gedeelde ChatGPT-gesprekken, waardoor het meer gedetailleerde en goed gestructureerde antwoorden kan genereren. De kwaliteit van deze reacties is vergelijkbaar met ChatGPT. Het evalueren van chatbots is echter een complexe onderneming. Met de vooruitgang in GPT-4 is er een groeiende nieuwsgierigheid naar het potentieel ervan om te dienen als een geautomatiseerd evaluatiekader voor het genereren van benchmarks en prestatiebeoordelingen. De eerste bevindingen suggereren dat GPT-4 consistente rangen en gedetailleerde beoordelingen kan produceren bij het vergelijken van chatbotreacties. Voorlopige evaluaties op basis van GPT-4 laten zien dat Vicuna 90% capaciteit bereikt van modellen zoals Bard/ChatGPT.

Belangrijkste kenmerken Overzicht van Vicuna-13B:

  • Open-source aard: Vicuna-13B is beschikbaar voor openbare toegang en bevordert transparantie en betrokkenheid van de gemeenschap.
  • Uitgebreide trainingsgegevens: Het model is getraind op 70 door gebruikers gedeelde gesprekken, waardoor een uitgebreid begrip van diverse interacties is gegarandeerd.
  • Concurrerende Prestaties: De prestaties van Vicuna-13B zijn vergelijkbaar met marktleiders als ChatGPT en Google Bard.
  • Kosteneffectieve training: Het hele trainingsproces voor Vicuna-13B werd uitgevoerd tegen lage kosten van ongeveer $ 300.
  • Fijnafstemming op LLaMA: Het model is nauwkeurig afgesteld op LLaMA, wat zorgt voor verbeterde prestaties en responskwaliteit.
  • Beschikbaarheid online demo: Er is een interactieve online demo beschikbaar voor gebruikers om de mogelijkheden van Vicuna-13B te testen en te ervaren.

Het groeiende rijk van grote taalmodellen

Het rijk van grote taalmodellen is enorm en breidt zich steeds verder uit, waarbij elk nieuw model de grenzen verlegt van wat mogelijk is. Het open-source karakter van de LLM's die in deze blog worden besproken, toont niet alleen de samenwerkingsgeest van de AI-gemeenschap, maar maakt ook de weg vrij voor toekomstige innovaties.

Deze modellen, van de indrukwekkende chatbotmogelijkheden van Vicuna tot de superieure prestatiestatistieken van Falcon, vertegenwoordigen het toppunt van de huidige LLM-technologie. Aangezien we getuige blijven van snelle vorderingen op dit gebied, is het duidelijk dat open-sourcemodellen een cruciale rol zullen spelen bij het vormgeven van de toekomst van AI.

Of je nu een doorgewinterde onderzoeker bent, een beginnende AI-enthousiasteling of iemand die nieuwsgierig is naar het potentieel van deze modellen, er is geen beter moment om erin te duiken en de enorme mogelijkheden die ze bieden te verkennen.

Alex McFarland is een AI-journalist en -schrijver die de nieuwste ontwikkelingen op het gebied van kunstmatige intelligentie onderzoekt. Hij heeft samengewerkt met tal van AI-startups en publicaties over de hele wereld.

Een van de oprichters van unite.AI en lid van de Forbes Technologieraad, Antoine is een futuristisch die gepassioneerd is over de toekomst van AI en robotica.

Hij is tevens de oprichter van Effecten.io, een website die zich richt op het investeren in disruptieve technologie.