Connect with us

Kunstig intelligens

Å bryte skaleringskoden: Hvordan AI-modeller omdefinierer reglene

mm

Kunstig intelligens har gjort bemerkelsesverdige fremskritt i de siste årene. Modeller som tidligere hadde vanskeligheter med grunnleggende oppgaver, utmerker seg nå i å løse matematikkproblemer, generere kode og svare på komplekse spørsmål. Sentral til denne fremgangen er konseptet skaleringslover—regler som forklarer hvordan AI-modeller forbedrer seg når de vokser, blir trent på mer data eller får tilgang til større beregningsressurser. I årevis har disse lovene fungert som en mal for å utvikle bedre AI.

Nylig har en ny trend dukket opp. Forskere finner måter å oppnå banebrytende resultater uten å bare gjøre modellene større. Denne skiftet er mer enn en teknisk evolusjon. Det omdefinierer hvordan AI blir bygget, gjør det mer effektivt, tilgjengelig og bærekraftig.

Grunnleggende om skaleringslover

Skaleringslover er som en formel for AI-forbedring. De fastslår at når du øker størrelsen på en modell, mater den med mer data eller gir den tilgang til mer beregningskraft, forbedres dens ytelse. For eksempel:

Modellstørrelse: Større modeller med flere parametre kan lære og representere mer komplekse mønster. Parametrene er de justerbare delene av en modell som tillater den å gjøre prediksjoner.

Data: Trening på store, diverse datasett hjelper modeller å generalisere bedre, slik at de kan håndtere oppgaver de ikke ble eksplisitt trent for.

Beregning: Mer beregningskraft tillater raskere og mer effektiv trening, og oppnår høyere ytelse.

Denne oppskriften har drevet AI-utviklingen i over ett tiår. Tidlige neurale nettverk som AlexNet og ResNet demonstrerte hvordan økning av modellstørrelse kunne forbedre bildegenkjenning. Så kom transformatorer hvor modeller som GPT-3 og Googles BERT har vist at skaleringslover kunne låse opp helt nye evner, som f.eks. few-shot learning.

Grensene for skaleringslover

Til tross for suksessen, har skaleringslover grenser. Når modeller vokser, avtar forbedringen fra å legge til flere parametre. Dette fenomenet, kjent som “loven om avtakende avkastning,” betyr at å doble modellens størrelse ikke doblerer dens ytelse. I stedet gir hver økning mindre gevinster. Dette betyr at for å ytterligere drive på ytelsen til slike modeller ville det kreve enda flere ressurser for relativt beskjedne gevinster. Dette har virkelige konsekvenser. Å bygge massive modeller kommer med betydelige finansielle og miljømessige kostnader. Trening av store modeller er dyrt. GPT-3 skal ha kostet millions av dollar å trene. Disse kostnadene gjør at toppmoderne AI blir utilgjengelig for mindre organisasjoner. Trening av massive modeller forbruker store mengder energi. En studie estimerte at trening av en enkelt stor modell kunne utslippe like mye karbon som fem biler gjennom hele deres levetid.

Forskere erkjente disse utfordringene og begynte å utforske alternativer. I stedet for å stole på brutalkraft, spurte de: Hvordan kan vi gjøre AI smartere, ikke bare større?

Å bryte skaleringskoden

Nylige gjennombrudd viser at det er mulig å overgå tradisjonelle skaleringslover. Smartere arkitekturer, raffinerte datastrategier og effektive treningsmetoder muliggjør at AI når nye høyder uten å kreve massive ressurser.

Smartere modellutforming: I stedet for å gjøre modellene større, fokuserer forskerne på å gjøre dem mer effektive. Eksempler er:

    • Sparse modeller: I stedet for å aktivere alle parametre på en gang, bruker sparse modeller bare de delene som trengs for en bestemt oppgave. Dette tilnærmingen sparer beregningskraft mens den opprettholder ytelsen. Et bemerkelsesverdig eksempel er Mistral 7B, som, til tross for å ha bare 7 milliarder parametre, overgår mye større modeller ved å bruke en sparse arkitektur.
    • Transformer-forbedringer: Transformere forblir ryggraden i moderne AI, men deres design utvikles. Innovasjoner som lineær oppmerksomhetsmekanismer gjør transformere raskere og mindre ressurskrevende.

Bedre datastrategier: Mer data er ikke alltid bedre. Kurerte, høykvalitetsdatasett overgår ofte ren mengde. For eksempel,

    • Fokuserte datasett: I stedet for å trene på massive, ufiltrede datasett, bruker forskerne rene og relevante datasett. For eksempel har OpenAI skiftet mot nøye utvalgte data for å forbedre påliteligheten.
    • Domænespesifikk trening: I spesialiserte områder som medisin eller lov, hjelper målrettede datasett modeller å fungere godt med færre eksempler.

Effektive treningsmetoder: Nye treningsmetoder reduserer ressurskrevende uten å ofre ytelse. Noen eksempler på disse treningsmetodene inkluderer:

    • Curriculum learning: Ved å starte med enklere oppgaver og gradvis introdusere vanskeligere, lærer modeller mer effektivt. Dette speiler hvordan mennesker lærer.
    • Teknikker som LoRA (Low-Rank Adaptation): Disse metodene finjusterer modeller effektivt uten å trenere dem fullstendig.
    • Gradient checkpointing: Denne tilnærmingen reduserer minnebruk under trening, muliggjør større modeller å kjøre på begrensede maskiner.

Emergerende evner: Som modeller vokser, viser de noen ganger overraskende evner, som å løse problemer de ikke ble eksplisitt trent for. Disse emergente evnene utfordrer tradisjonelle skaleringslover, da de ofte dukker opp i større modeller, men ikke i deres mindre motparter. Forskere undersøker nå måter å låse opp disse evnene mer effektivt, uten å stole på brutalkraft.

Hybride tilnærminger for smartere AI: Å kombinere neurale nettverk med symbolisk resonnering er en annen løftende retning. Disse hybride systemene kombinerer mønstergjenkjenning med logisk resonnering, gjør dem mer intelligente og tilpasningsdyktige. Denne tilnærmingen reduserer behovet for massive datasett og beregningskraft.

Virkelige eksempler

Dr. Tehseen Zia er en fast ansatt associate professor ved COMSATS University Islamabad, med en PhD i AI fra Vienna University of Technology, Østerrike. Som spesialist i kunstig intelligens, maskinlæring, datavitenskap og datavisjon, har han gjort betydelige bidrag med publikasjoner i anerkjente vitenskapelige tidsskrifter. Dr. Tehseen har også ledet flere industriprosjekter som hovedundersøker og tjenestegjort som AI-konsulent.