stub The Evolving Landscape of Generative AI: A Survey of Mixture of Experts, Multimodality, and the Quest for AGI - Unite.AI
Kontakt med oss

Kunstig generell intelligens

The Evolving Landscape of Generative AI: A Survey of Mixture of Experts, Multimodality, and the Quest for AGI

mm

Publisert

 on

Feltet kunstig intelligens (AI) har hatt en enorm vekst i 2023. Generativ AI, som fokuserer på å lage realistisk innhold som bilder, lyd, video og tekst, har vært i forkant av disse fremskrittene. Modeller som DALL-E 3, Stable Diffusion og ChatGPT har demonstrert nye kreative evner, men også reist bekymringer rundt etikk, skjevheter og misbruk.

Ettersom generativ AI fortsetter å utvikle seg i et raskt tempo, ser blandinger av eksperter (MoE), multimodal læring og ambisjoner mot kunstig generell intelligens (AGI) ut til å forme de neste grensene for forskning og applikasjoner. Denne artikkelen vil gi en omfattende oversikt over nåværende tilstand og fremtidig bane for generativ AI, og analysere hvordan innovasjoner som Googles Gemini og forventede prosjekter som OpenAIs Q* transformerer landskapet. Den vil undersøke implikasjonene i den virkelige verden på tvers av helsevesen, finans, utdanning og andre domener, samtidig som den tar for seg nye utfordringer rundt forskningskvalitet og AI-tilpasning til menneskelige verdier.

Utgivelsen av ChatGPT på slutten av 2022 utløste spesifikt fornyet spenning og bekymringer rundt AI, fra dens imponerende naturlige språkferdigheter til dens potensial til å spre feilinformasjon. I mellomtiden demonstrerer Googles nye Gemini-modell betydelig forbedret samtaleevne i forhold til forgjengere som LaMDA gjennom fremskritt som spike-and-slab oppmerksomhet. Ryktede prosjekter som OpenAIs Q* antyder å kombinere samtale-AI med forsterkende læring.

Disse innovasjonene signaliserer en skiftende prioritet mot multimodale, allsidige generative modeller. Konkurransene fortsetter også å øke mellom selskaper som Google, Meta, Anthropic og Cohere som kjemper om å flytte grenser innen ansvarlig AI-utvikling.

Utviklingen av AI-forskning

Etter hvert som evnene har vokst, har også forskningstrender og prioriteringer endret seg, ofte i samsvar med teknologiske milepæler. Fremveksten av dyp læring vekket interessen for nevrale nettverk, mens naturlig språkbehandling økte med ChatGPT-nivåmodeller. I mellomtiden fortsetter oppmerksomheten om etikk som en konstant prioritet midt i rask fremgang.

Preprint-repositories som arXiv har også sett eksponentiell vekst i AI-innsendinger, noe som muliggjør raskere spredning, men reduserer fagfellevurdering og øker risikoen for ukontrollerte feil eller skjevheter. Samspillet mellom forskning og virkelighetspåvirkning er fortsatt komplekst, noe som krever mer koordinert innsats for å styre fremskritt.

MoE og multimodale systemer – Den neste bølgen av generativ AI

For å muliggjøre mer allsidig, sofistikert kunstig intelligens på tvers av ulike applikasjoner, er to tilnærminger som vinner fremtredende blandinger av eksperter (MoE) og multimodal læring.

MoE-arkitekturer kombinerer flere spesialiserte nevrale nettverks-"eksperter" optimalisert for forskjellige oppgaver eller datatyper. Googles Gemini bruker MoE til å mestre både lange samtaleutvekslinger og konsise spørsmålssvar. MoE muliggjør håndtering av et bredere spekter av innganger uten ballongmodellstørrelse.

Multimodale systemer som Googles Gemini setter nye standarder ved å behandle varierte modaliteter utover bare tekst. Å realisere potensialet til multimodal AI krever imidlertid å overvinne viktige tekniske hindringer og etiske utfordringer.

Gemini: Redefinering av benchmarks i multimodalitet

Gemini er en multimodal konversasjons-AI, designet for å forstå sammenhenger mellom tekst, bilder, lyd og video. Dens doble koderstruktur, tverrmodale oppmerksomhet og multimodale dekoding muliggjør sofistikert kontekstuell forståelse. Gemini antas å overgå enkeltkodersystemer når det gjelder å knytte tekstkonsepter til visuelle områder. Ved å integrere strukturert kunnskap og spesialisert opplæring, overgår Gemini forgjengere som GPT-3 og GPT-4 på:

  • Bredde av modaliteter som håndteres, inkludert lyd og video
  • Ytelse på benchmarks som massiv multitask språkforståelse
  • Kodegenerering på tvers av programmeringsspråk
  • Skalerbarhet via skreddersydde versjoner som Gemini Ultra og Nano
  • Åpenhet gjennom begrunnelser for utdata

Tekniske hindringer i multimodale systemer

Å realisere robust multimodal AI krever løsning av problemer innen datamangfold, skalerbarhet, evaluering og tolkbarhet. Ubalanserte datasett og merknader inkonsekvens fører til skjevhet. Behandling av flere datastrømmer belaster dataressurser, og krever optimaliserte modellarkitekturer. Fremskritt innen oppmerksomhetsmekanismer og algoritmer er nødvendig for å integrere motstridende multimodale input. Skalerbarhetsproblemer vedvarer på grunn av omfattende beregningsoverhead. Det er avgjørende å avgrense evalueringsberegninger gjennom omfattende benchmarks. Det er også viktig å forbedre brukertilliten via forklarbar AI. Å takle disse tekniske hindringene vil være nøkkelen til å låse opp multimodale AIs evner.

Avanserte læringsteknikker som selvovervåket læring, meta-læring og finjustering er i forkant av AI-forskningen, og forbedrer autonomien, effektiviteten og allsidigheten til AI-modeller.

Selvstyrt læring: Autonomi i modelltrening

Selvovervåket læring legger vekt på autonom modelltrening ved bruk av umerkede data, og reduserer derved manuell merking og modellskjevheter. Den inkorporerer generative modeller som autoenkodere og GAN-er for datadistribusjonslæring og input-rekonstruksjon, og bruker kontrastive metoder som SimCLR og MoCo for å skille mellom positive og negative prøvepar. Selvforutsigelsesstrategier, inspirert av NLP og forbedret av nyere Vision Transformers, spiller en betydelig rolle i selvovervåket læring, og viser potensialet i å fremme AIs autonome treningsevner.

Meta-læring

Meta-læring, eller «lære å lære», fokuserer på å utstyre AI-modeller med evnen til raskt å tilpasse seg nye oppgaver ved hjelp av begrensede dataprøver. Denne teknikken er kritisk i situasjoner med begrenset datatilgjengelighet, og sikrer at modeller raskt kan tilpasse seg og utføre på tvers av ulike oppgaver. Den legger vekt på generalisering med få skudd, noe som gjør det mulig for AI å håndtere et bredt spekter av oppgaver med minimalt med data, noe som understreker viktigheten i utviklingen av allsidige og tilpasningsdyktige AI-systemer.

Finjustering: Tilpasse AI for spesifikke behov

Finjustering innebærer å tilpasse forhåndstrente modeller til spesifikke domener eller brukerpreferanser. Dens to primære tilnærminger inkluderer ende-til-ende finjustering, som justerer alle vektene til koderen og klassifisereren, og finjustering av funksjonsutvinning, hvor kodervektene fryses for nedstrøms klassifisering. Denne teknikken sikrer at generative modeller er effektivt tilpasset spesifikke brukerbehov eller domenekrav, og forbedrer deres anvendelighet på tvers av ulike kontekster.

Human Value Alignment: Harmonisering av AI med etikk

Samordning av menneskelige verdier konsentrerer seg om å samkjøre AI-modeller med menneskelig etikk og verdier, og sikre at beslutningene deres gjenspeiler samfunnsnormer og etiske standarder. Dette aspektet er avgjørende i scenarier der AI samhandler tett med mennesker, for eksempel i helsevesenet og personlige assistenter, for å sikre at AI-systemer tar beslutninger som er etisk og sosialt ansvarlige.

AGI utvikling

AGI fokuserer på å utvikle AI med evnen til helhetsforståelse og kompleks resonnement, i samsvar med menneskelige kognitive evner. Denne langsiktige ambisjonen flytter kontinuerlig grensene for AI-forskning og -utvikling. AGI Safety and Containment adresserer potensielle risikoer forbundet med avanserte AI-systemer, og understreker behovet for strenge sikkerhetsprotokoller og etisk samsvar med menneskelige verdier og samfunnsnormer.

Det innovative MoE

Mixture of Experts (MoE) modellarkitekturen representerer et betydelig fremskritt innen transformatorbaserte språkmodeller, og tilbyr enestående skalerbarhet og effektivitet. MoE-modeller, som Switch Transformer og Mixtral, redefinerer raskt modellskala og ytelse på tvers av forskjellige språkoppgaver.

Kjernekonsept

MoE-modeller bruker en sparsitetsdrevet arkitektur med flere ekspertnettverk og en trenerbar portmekanisme, optimaliserer beregningsressurser og tilpasser oppgavens kompleksitet. De viser betydelige fordeler når det gjelder fortreningshastighet, men møter utfordringer med finjustering og krever betydelig minne for å kunne slutte.

MoE-modeller er kjent for sin overlegne fortreningshastighet, med innovasjoner som DeepSpeed-MoE som optimaliserer inferens for å oppnå bedre ventetid og kostnadseffektivitet. Nylige fremskritt har effektivt taklet alt-til-alle kommunikasjonsflaskehalsen, forbedret trening og slutningseffektivitet.

Montering av byggeklossene for kunstig generell intelligens

AGI representerer den hypotetiske muligheten for at AI matcher eller overgår menneskelig intelligens på tvers av ethvert domene. Mens moderne kunstig intelligens utmerker seg med smale oppgaver, er AGI fortsatt langt unna og kontroversielt gitt dens potensielle risiko.

Inkrementelle fremskritt på områder som overføringslæring, fleroppgavetrening, samtaleevne og abstraksjon kommer imidlertid nærmere AGIs høye visjon. OpenAIs spekulative Q*-prosjekt har som mål å integrere forsterkende læring i LLM-er som enda et skritt fremover.

Etiske grenser og risikoen ved å manipulere AI-modeller

Jailbreaks lar angripere omgå de etiske grensene som er satt under AIs finjusteringsprosess. Dette resulterer i generering av skadelig innhold som feilinformasjon, hatytringer, phishing-e-poster og ondsinnet kode, som utgjør en risiko for enkeltpersoner, organisasjoner og samfunnet for øvrig. For eksempel kan en jailbroken modell produsere innhold som fremmer splittende fortellinger eller støtter cyberkriminelle aktiviteter. (lær MER)

Selv om det ikke har vært rapportert om nettangrep med jailbreaking ennå, er flere proof-of-concept-jailbreaks lett tilgjengelig online og for salg på det mørke nettet. Disse verktøyene gir meldinger designet for å manipulere AI-modeller som ChatGPT, noe som potensielt gjør det mulig for hackere å lekke sensitiv informasjon gjennom selskapets chatbots. Utbredelsen av disse verktøyene på plattformer som nettkriminalitetsfora fremhever hvor presserende det er å håndtere denne trusselen. (Les mer)

Redusere Jailbreak-risikoer

For å motvirke disse truslene er en flersidig tilnærming nødvendig:

  1. Robust finjustering: Inkludering av ulike data i finjusteringsprosessen forbedrer modellens motstand mot kontradiktorisk manipulasjon.
  2. Motstridende trening: Trening med motstridende eksempler forbedrer modellens evne til å gjenkjenne og motstå manipulerte input.
  3. Regelmessig evaluering: Kontinuerlig overvåking av utdata hjelper til med å oppdage avvik fra etiske retningslinjer.
  4. Menneskelig tilsyn: Å involvere menneskelige anmeldere gir et ekstra lag med sikkerhet.

AI-drevne trusler: Hallusinasjonsutnyttelsen

AI-hallusinasjon, der modeller genererer utdata som ikke er basert på treningsdataene deres, kan våpengjøres. For eksempel manipulerte angripere ChatGPT for å anbefale ikke-eksisterende pakker, noe som førte til spredning av skadelig programvare. Dette understreker behovet for kontinuerlig årvåkenhet og robuste mottiltak mot slik utnyttelse. (Utforsk videre)

Selv om etikken for å forfølge AGI fortsatt er full, fortsetter dens ambisjonsstrebelse å påvirke generative AI-forskningsretninger – enten nåværende modeller ligner springbrett eller omveier på vei til AI på menneskelig nivå.

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.