Kunstig generell intelligens
The Evolving Landscape of Generative AI: A Survey of Mixture of Experts, Multimodality, and the Quest for AGI
Feltet kunstig intelligens (AI) har hatt en enorm vekst i 2023. Generativ AI, som fokuserer på å lage realistisk innhold som bilder, lyd, video og tekst, har vært i forkant av disse fremskrittene. Modeller som DALL-E 3, Stable Diffusion og ChatGPT har demonstrert nye kreative evner, men også reist bekymringer rundt etikk, skjevheter og misbruk.
Ettersom generativ AI fortsetter å utvikle seg i et raskt tempo, ser blandinger av eksperter (MoE), multimodal læring og ambisjoner mot kunstig generell intelligens (AGI) ut til å forme de neste grensene for forskning og applikasjoner. Denne artikkelen vil gi en omfattende oversikt over nåværende tilstand og fremtidig bane for generativ AI, og analysere hvordan innovasjoner som Googles Gemini og forventede prosjekter som OpenAIs Q* transformerer landskapet. Den vil undersøke implikasjonene i den virkelige verden på tvers av helsevesen, finans, utdanning og andre domener, samtidig som den tar for seg nye utfordringer rundt forskningskvalitet og AI-tilpasning til menneskelige verdier.
Utgivelsen av ChatGPT på slutten av 2022 utløste spesifikt fornyet spenning og bekymringer rundt AI, fra dens imponerende naturlige språkferdigheter til dens potensial til å spre feilinformasjon. I mellomtiden demonstrerer Googles nye Gemini-modell betydelig forbedret samtaleevne i forhold til forgjengere som LaMDA gjennom fremskritt som spike-and-slab oppmerksomhet. Ryktede prosjekter som OpenAIs Q* antyder å kombinere samtale-AI med forsterkende læring.
Disse innovasjonene signaliserer en skiftende prioritet mot multimodale, allsidige generative modeller. Konkurransene fortsetter også å øke mellom selskaper som Google, Meta, Anthropic og Cohere som kjemper om å flytte grenser innen ansvarlig AI-utvikling.
Utviklingen av AI-forskning
Etter hvert som evnene har vokst, har også forskningstrender og prioriteringer endret seg, ofte i samsvar med teknologiske milepæler. Fremveksten av dyp læring vekket interessen for nevrale nettverk, mens naturlig språkbehandling økte med ChatGPT-nivåmodeller. I mellomtiden fortsetter oppmerksomheten om etikk som en konstant prioritet midt i rask fremgang.
Preprint-repositories som arXiv har også sett eksponentiell vekst i AI-innsendinger, noe som muliggjør raskere spredning, men reduserer fagfellevurdering og øker risikoen for ukontrollerte feil eller skjevheter. Samspillet mellom forskning og virkelighetspåvirkning er fortsatt komplekst, noe som krever mer koordinert innsats for å styre fremskritt.
MoE og multimodale systemer – Den neste bølgen av generativ AI
For å muliggjøre mer allsidig, sofistikert kunstig intelligens på tvers av ulike applikasjoner, er to tilnærminger som vinner fremtredende blandinger av eksperter (MoE) og multimodal læring.
MoE-arkitekturer kombinerer flere spesialiserte nevrale nettverks-"eksperter" optimalisert for forskjellige oppgaver eller datatyper. Googles Gemini bruker MoE til å mestre både lange samtaleutvekslinger og konsise spørsmålssvar. MoE muliggjør håndtering av et bredere spekter av innganger uten ballongmodellstørrelse.
Multimodale systemer som Googles Gemini setter nye standarder ved å behandle varierte modaliteter utover bare tekst. Å realisere potensialet til multimodal AI krever imidlertid å overvinne viktige tekniske hindringer og etiske utfordringer.
Gemini: Redefinering av benchmarks i multimodalitet
Gemini er en multimodal konversasjons-AI, designet for å forstå sammenhenger mellom tekst, bilder, lyd og video. Dens doble koderstruktur, tverrmodale oppmerksomhet og multimodale dekoding muliggjør sofistikert kontekstuell forståelse. Gemini antas å overgå enkeltkodersystemer når det gjelder å knytte tekstkonsepter til visuelle områder. Ved å integrere strukturert kunnskap og spesialisert opplæring, overgår Gemini forgjengere som GPT-3 og GPT-4 på:
- Bredde av modaliteter som håndteres, inkludert lyd og video
- Ytelse på benchmarks som massiv multitask språkforståelse
- Kodegenerering på tvers av programmeringsspråk
- Skalerbarhet via skreddersydde versjoner som Gemini Ultra og Nano
- Åpenhet gjennom begrunnelser for utdata
Tekniske hindringer i multimodale systemer
Å realisere robust multimodal AI krever løsning av problemer innen datamangfold, skalerbarhet, evaluering og tolkbarhet. Ubalanserte datasett og merknader inkonsekvens fører til skjevhet. Behandling av flere datastrømmer belaster dataressurser, og krever optimaliserte modellarkitekturer. Fremskritt innen oppmerksomhetsmekanismer og algoritmer er nødvendig for å integrere motstridende multimodale input. Skalerbarhetsproblemer vedvarer på grunn av omfattende beregningsoverhead. Det er avgjørende å avgrense evalueringsberegninger gjennom omfattende benchmarks. Det er også viktig å forbedre brukertilliten via forklarbar AI. Å takle disse tekniske hindringene vil være nøkkelen til å låse opp multimodale AIs evner.
Montering av byggeklossene for kunstig generell intelligens
AGI representerer den hypotetiske muligheten for at AI matcher eller overgår menneskelig intelligens på tvers av ethvert domene. Mens moderne kunstig intelligens utmerker seg med smale oppgaver, er AGI fortsatt langt unna og kontroversielt gitt dens potensielle risiko.
Inkrementelle fremskritt på områder som overføringslæring, fleroppgavetrening, samtaleevne og abstraksjon kommer imidlertid nærmere AGIs høye visjon. OpenAIs spekulative Q*-prosjekt har som mål å integrere forsterkende læring i LLM-er som enda et skritt fremover.
Etiske grenser og risikoen ved å manipulere AI-modeller
Jailbreaks lar angripere omgå de etiske grensene som er satt under AIs finjusteringsprosess. Dette resulterer i generering av skadelig innhold som feilinformasjon, hatytringer, phishing-e-poster og ondsinnet kode, som utgjør en risiko for enkeltpersoner, organisasjoner og samfunnet for øvrig. For eksempel kan en jailbroken modell produsere innhold som fremmer splittende fortellinger eller støtter cyberkriminelle aktiviteter. (lær MER)
Selv om det ikke har vært rapportert om nettangrep med jailbreaking ennå, er flere proof-of-concept-jailbreaks lett tilgjengelig online og for salg på det mørke nettet. Disse verktøyene gir meldinger designet for å manipulere AI-modeller som ChatGPT, noe som potensielt gjør det mulig for hackere å lekke sensitiv informasjon gjennom selskapets chatbots. Utbredelsen av disse verktøyene på plattformer som nettkriminalitetsfora fremhever hvor presserende det er å håndtere denne trusselen. (Les mer)
Redusere Jailbreak-risikoer
For å motvirke disse truslene er en flersidig tilnærming nødvendig:
- Robust finjustering: Inkludering av ulike data i finjusteringsprosessen forbedrer modellens motstand mot kontradiktorisk manipulasjon.
- Motstridende trening: Trening med motstridende eksempler forbedrer modellens evne til å gjenkjenne og motstå manipulerte input.
- Regelmessig evaluering: Kontinuerlig overvåking av utdata hjelper til med å oppdage avvik fra etiske retningslinjer.
- Menneskelig tilsyn: Å involvere menneskelige anmeldere gir et ekstra lag med sikkerhet.
AI-drevne trusler: Hallusinasjonsutnyttelsen
AI-hallusinasjon, der modeller genererer utdata som ikke er basert på treningsdataene deres, kan våpengjøres. For eksempel manipulerte angripere ChatGPT for å anbefale ikke-eksisterende pakker, noe som førte til spredning av skadelig programvare. Dette understreker behovet for kontinuerlig årvåkenhet og robuste mottiltak mot slik utnyttelse. (Utforsk videre)
Selv om etikken for å forfølge AGI fortsatt er full, fortsetter dens ambisjonsstrebelse å påvirke generative AI-forskningsretninger – enten nåværende modeller ligner springbrett eller omveier på vei til AI på menneskelig nivå.