Kunstig intelligens
Den mest kraftfulle åpne kilde LLM ennå: Meta LLAMA 3.1-405B
Llama 3.1-405B, utviklet av Meta AI, representerer et betydelig sprang fremover i åpne kilde språkmodeller. Med 405 milliarder parametere, står det som den største offentlig tilgjengelige språkmodellen til dags dato, og rivaliserer og overgår noen av de mest avanserte proprietære modellene i ulike benchmark.
Nøkkel funksjoner:
- 405 milliarder parametere
- 128K token kontekst lengde
- Flerspråklig støtte (8 språk)
- Instruksjon-tuned versjon tilgjengelig
- Åpen kilde med en permissiv lisens
Utgivelsen av en så kraftfull modell i åpen kilde domenet er en game-changer, demokratiserer tilgangen til state-of-the-art AI-kapasiteter og fremmer innovasjon over hele industrien.
Modell arkitektur og trening
Prosessen begynner med input tekst token som konverteres til token-embeddings. Disse embeddingene passerer gjennom flere lag av selv-oppmerksomhet og feedforward nettverk, som tillater modellen å fange komplekse relasjoner og avhengigheter innenfor teksten. Den autoregressive dekoding-mekanismen genererer deretter output tekst token, og fullfører prosessen.

-
Gruppert spørings oppmerksomhet (GQA)
Llama 3.1 utnytter Gruppert spørings oppmerksomhet, som er en viktig optimaliseringsteknikk som ikke fullstendig er dekket i den forrige responsen. La oss utforske dette i mer detalj:
Gruppert spørings oppmerksomhet (GQA) er en variant av multi-hode oppmerksomhet som har som mål å redusere beregningskostnader og minnebruk under inferens, særlig for lange sekvenser. I Llama 3.1 405B-modellen er GQA implementert med 8 nøkkel-verdi-hoder.
Her er hvordan GQA fungerer:
- I stedet for å ha separate nøkkel- og verdi-projeksjoner for hver oppmerksomhets-hode, grupperer GQA flere spørings-hoder for å dele samme nøkkel- og verdi-hoder.
- Denne grupperingen reduserer betydelig antallet parametere i nøkkel- og verdi-projeksjonene, noe som fører til mindre modell-størrelser og raskere inferens.
- Oppmerksomhets-beregningen kan uttrykkes som:
Oppmerksomhet(Q, K, V) = softmax(QK^T / sqrt(d_k))VHvor Q er gruppert i g grupper, og K og V har færre hoder enn Q.
Fordelene med GQA i Llama 3.1 405B inkluderer:
- Redusert minne-avtrykk: Færre nøkkel- og verdi-projeksjoner betyr mindre minne er nødvendig for å lagre modell-parametere.
- Raskere inferens: Med færre beregninger nødvendig for nøkkel- og verdi-projeksjoner, er inferens-hastigheten forbedret.
- Beholdt ytelse: Til tross for reduksjonen i parametere, har GQA vist seg å beholde sammenlignbar ytelse med standard multi-hode oppmerksomhet i mange oppgaver.
-
To-trinns forhånds-trening for utvidet kontekst
Artikkelen nevner en to-trinns forhånds-trening-prosess for å oppnå 128K token kontekst-vindu. Dette er et kritisk aspekt av Llama 3.1 405B’s kapasiteter:
Trinn 1: Initial forhånds-trening på 8K tokens
- Modellen er først trenet på sekvenser på opptil 8K tokens.
- Dette trinnet tillater modellen å lære generell språk-forståelse og genererings-kapasiteter.
Trinn 2: Fortsettende forhånds-trening for kontekst-utvidelse
- Etter den initielle treningen, gjennomgår modellen en fortsettende forhånds-trening for å øke kontekst-lengden til 128K tokens.
- Dette trinnet innebærer nøye designet trening-regimer for å hjelpe modellen å generalisere til lengre sekvenser uten å miste evnen til å håndtere kortere kontekster.
-
Flerspråklig kapasitet
mens den forrige responsen berørte flerspråklig kapasitet, kan vi utvide på hvordan Llama 3.1 405B implementerer dette:
Komposisjons-tilnærming:
- Llama 3.1 405B bruker separate encodere for forskjellige modaliteter (f.eks. bilder, tale).
- Disse encoderne transformerer input fra forskjellige modaliteter til en felles innbednings-rom som språk-modellen kan forstå.
Integrering med språk-modell:
- Utdataene fra disse spesialiserte encoderne føres deretter inn i hoved-språk-modellen.
- Dette tillater Llama 3.1 405B å prosessere og forstå forskjellige typer data samtidig, og å utføre oppgaver som involverer flere modaliteter.
Kryss-oppmerksomhets-mekanismer:
- For å håndtere integreringen av forskjellige modaliteter, bruker Llama 3.1 405B sannsynligvis kryss-oppmerksomhets-mekanismer.
- Disse mekanismene tillater modellen å fokusere på relevante informasjon fra forskjellige modaliteter når den genererer tekst eller utfører andre oppgaver.
Den flerspråklige kapasiteten til Llama 3.1 405B åpner opp for en rekke muligheter:
- Bilde-underskrift og visuell spørsmål-svar
- Tale-til-tekst-transkripsjon med kontekst-forståelse
- Flerspråklig resonnering-oppgaver som kombinerer tekst, bilder og potensielt andre data-typer
Trening detaljer
- Trenet på over 15 billioner tokens
- Egenbygd GPU-kluster med 39,3M GPU-timer for 405B-modellen
- Mangfoldig datasett-kurering for flerspråklig kapasitet
Den instruksjon-tuned versjonen gjennomgikk ytterligere trening:
- Fine-tunet på offentlig tilgjengelige instruksjons-datasett
- Over 25M syntetisk genererte eksempler
- Overvåket fine-tuning (SFT) og Forsterket læring med menneskelig tilbakemelding (RLHF)
Ytelses-benchmark
Tabellen sammenligner Llama 3.1 405B, Nemotron 4 340B Instruct, GPT-4 (0125), GPT-4 Omni og Claude 3.5 Sonnet. Nøkkel-benchmark inkluderer generelle oppgaver som MMLU og IFEval, kode-oppgaver som HumanEval og GSM8K, og resonnering-oppgaver som ARC Challenge. Hver benchmark-poeng reflekterer modellens evne til å forstå og generere menneske-lignende tekst, løse komplekse problemer og utføre kode. Notabelt, Llama 3.1 405B og Claude 3.5 Sonnet utmerker seg i flere benchmark, og viser deres avanserte kapasiteter i både generelle og domene-spesifikke oppgaver.
Fremtidige retninger
Utgivelsen av Llama 3.1-405B er sannsynligvis å akselerere innovasjon i flere områder:
- Forbedrede fine-tuningsteknikker for spesialiserte domener
- Utvikling av mer effektive inferens-metoder
- Fremgang i modell-komprimering og destillasjon
Konklusjon
Llama 3.1-405B representerer et betydelig milepæl i åpen kilde AI, og tilbyr kapasiteter som tidligere var eksklusive for lukkede modeller.
Ettersom vi fortsetter å utforske kraften til denne modellen, er det essensielt å nærme seg dens bruk med ansvar og etisk overveielse. Verktøyene og sikkerhetstiltakene som følger med modellen, gir en ramme for ansvarlig deploy, men kontinuerlig varsomhet og samarbeid innenfor samfunnet vil være avgjørende for å sikre at denne kraftfulle teknologien brukes til beste for samfunnet.














