Connect with us

Kunstig intelligens

Jamba: AI21 Labs’ Ny Hybrid Transformer-Mamba Sprogmodel

mm
Jamba AI21 style, a sleek hybrid machine with glowing circuitry, merging Transformer and Mamba components, surrounded by swirling data streams and abstract neural connections, set against a futuristic backdrop with soft, ambient lighting

Sprogmodeller har oplevet hurtig udvikling, med Transformer-baserede arkitekturer i spidsen for naturlijk sprogbehandling. however, da modellerne skalerer, er udfordringerne med at håndtere lange kontekster, hukommelseeffektivitet og gennemstrømning blevet mere udtalt.

AI21 Labs har introduceret en ny løsning med Jamba, en state-of-the-art stor sprogmodel (LLM), der kombinerer styrkerne fra både Transformer og Mamba-arkitekturer i en hybrid ramme. Denne artikel detaljerer Jambas arkitektur, præstation og potentiale anvendelser.

Overblik over Jamba

Jamba er en hybrid stor sprogmodel udviklet af AI21 Labs, der udnytter en kombination af Transformer-lag og Mamba-lag, integreret med en Mixture-of-Experts (MoE)-modul. Denne arkitektur giver Jamba mulighed for at balancere hukommelsesbrug, gennemstrømning og præstation, hvilket gør det til et kraftfuldt værktøj til en bred vifte af NLP-opgaver. Modellen er designet til at være inden for en enkelt 80GB GPU, hvilket giver høj gennemstrømning og en lille hukommelsesaftryk, samtidig med at den opretholder state-of-the-art-præstation på forskellige benchmarks.

Jambas Arkitektur

Jambas arkitektur er hjørnestenen i dens evner. Den er bygget på en ny hybrid design, der veksler Transformer-lag med Mamba-lag, med MoE-moduler for at forbedre modellens kapacitet uden at øge beregningskravene betydeligt.

1. Transformer-Lag

Transformer-arkitekturen er blevet standarden for moderne LLM’er på grund af dens evne til at håndtere parallel procesning effektivt og fange lange afhængigheder i tekst. however, dens præstation er ofte begrænset af høje hukommelses- og beregningskrav, især når der behandles lange kontekster. Jamba løser disse begrænsninger ved at integrere Mamba-lag, som vi vil udforske næste.

2. Mamba-Lag

Mamba er en ny state-space-model (SSM) designet til at håndtere lange afstandsforhold i sekvenser mere effektivt end traditionelle RNN’er eller selv Transformer. Mamba-lag er særligt effektive til at reducere den hukommelsesaftryk, der er forbundet med at gemme nøgle-værdi (KV)-caches i Transformer. Ved at veksle Mamba-lag med Transformer-lag reducerer Jamba den samlede hukommelsesbrug, samtidig med at den opretholder høj præstation, især i opgaver, der kræver lange kontekster.

3. Mixture-of-Experts (MoE) Moduler

MoE-modulen i Jamba introducerer en fleksibel tilgang til at skalerer modellens kapacitet. MoE giver modellen mulighed for at øge antallet af tilgængelige parametre uden at øge de aktive parametre proportionalt under inferens. I Jamba anvendes MoE på nogle af MLP-lagene, med router-mekanismen, der vælger de top-eksperter til at aktivere for hver token. Denne selektive aktivering giver Jamba mulighed for at opretholde høj effektivitet, samtidig med at den håndterer komplekse opgaver.

Jeg har brugt de sidste fem år på at dykke ned i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført til, at jeg har bidraget til over 50 forskellige software-udviklingsprojekter, med særlig fokus på AI/ML. Min vedvarende nysgerrighed har også ført mig i retning af Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.