Kunstig intelligens

Google’s Multimodal AI Gemini – En teknisk dybdeinnføring

Published December 11, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Sundar Pichai, Google’s CEO, sammen med Demis Hassabis fra Google DeepMind, har introdusert Gemini i desember 2023. Dette nye store språkmodellen er integrert på tvers av Google’s omfattende produktspekter, og tilbyr forbedringer som går igjennom tjenester og verktøy brukt av millioner.

Gemini, Google’s avanserte multimodale AI, er født fra det samarbeidende arbeidet mellom de forente DeepMind og Brain AI-laboratoriene. Gemini står på skuldrene av sine forgjengere, og lover å levere en mer sammenkoblet og intelligent samling av applikasjoner.

Kunngjøringen av Google Gemini, som ligger tett etter debutanten Bard, Duet AI og PaLM 2 LLM, markerer en tydelig intensjon fra Google til ikke bare å konkurrere, men å lede i AI-revolusjonen.

I motsetning til noen forestillinger om en AI-vinter, antyder lanseringen av Gemini en blomstrende AI-vår, full av potensial og vekst. Mens vi reflekterer over et år siden fremveksten av ChatGPT, som selv var et banebrytende øyeblikk for AI, indikerer Google’s trekk at industrien’s utvidelse er langt ifra over; faktisk kan den bare være i ferd med å ta fart.

Hva er Gemini?

Google’s Gemini-modell er i stand til å prosessere ulike datatyper som tekst, bilder, lyd og video. Den kommer i tre versjoner—Ultra, Pro og Nano—hver tilpasset bestemte applikasjoner, fra komplekse resonneringstasks til på-enhet-bruk. Ultra utmerker seg i multifacetterte oppgaver og vil være tilgjengelig på Bard Advanced, mens Pro tilbyr en balanse mellom ytelse og ressurs-effektivitet, allerede integrert i Bard for tekst-prompter. Nano, optimalisert for på-enhet-utplassering, kommer i to størrelser og har maskinvare-optimaliseringer som 4-bit-kvantifisering for offline-bruk i enheter som Pixel 8 Pro.

Gemini’s arkitektur er unik i sin innfødt multimodale utgangskapasitet, som bruker diskrete bilde-teksttoken for bilde-generering og integrerer lyd-egenskaper fra Universal Speech Model for nyansert lyd-forståelse. Dens evne til å håndtere video-data som sekvensielle bilder, sammenflettet med tekst eller lyd-innganger, eksemplifiserer dens multimodale dyktighet.

Gemini støtter sekvenser av tekst, bilde, lyd og video som innganger

Tilgang til Gemini

Gemini 1.0 ruller ut over Google’s økosystem, inkludert Bard, som nå drar nytte av de raffinerte kapasitetene til Gemini Pro. Google har også integrert Gemini i sine Søk, Annonser og Duet-tjenester, og forbedrer brukeropplevelsen med raskere og mer nøyaktige svar.

For de som er ivrige etter å utnytte kapasitetene til Gemini, tilbyr Google AI Studio og Google Cloud Vertex tilgang til Gemini Pro, med den siste som tilbyr større tilpasning og sikkerhetsfunksjoner.

For å oppleve de forbedrede kapasitetene til Bard, drevet av Gemini Pro, kan brukerne følge de følgende enkle trinnene:

Naviger til Bard: Åpne din foretrukne nettleser og gå til Bard-nettstedet.
Sikker innlogging: Tilgang til tjenesten ved å logge inn med din Google-konto, og sikre en sammenhengende og sikker opplevelse.
Interaktivt chat: Du kan nå bruke Bard, hvor Gemini Pro’s avanserte funksjoner kan velges.

Kraften av multimodalitet:

I sin kjerneløsning, bruker Gemini en transformer-basert arkitektur, lignende de som er brukt i suksessfulle NLP-modeller som GPT-3. Imidlertid ligger Gemini’s unikhet i dens evne til å prosessere og integrere informasjon fra flere modaliteter, inkludert tekst, bilder og kode. Dette oppnås gjennom en ny teknikk kalt cross-modal oppmerksomhet, som tillater modellen å lære relasjoner og avhengigheter mellom ulike typer data.

Her er en oppsummering av Gemini’s nøkkelkomponenter:

Multimodal encoder: Denne modulen prosesserer inndata fra hver modalitet (f.eks. tekst, bilde) uavhengig, og trekker ut relevante funksjoner og genererer individuelle representasjoner.
Cross-modal attention network: Dette nettverket er hjertet av Gemini. Det tillater modellen å lære relasjoner og avhengigheter mellom de ulike representasjonene, og muliggjør at de kan “snakke” sammen og berike sin forståelse.
Multimodal decoder: Denne modulen bruker de berikede representasjonene generert av cross-modal attention network til å utføre ulike oppgaver, som bilde-underskrift, tekst-til-bilde-generering og kode-generering.

Gemini-modellen er ikke bare om å forstå tekst eller bilder—det handler om å integrere ulike typer informasjon på en måte som er mye nærmere hvordan vi, som mennesker, oppfatter verden. For eksempel kan Gemini se på en sekvens av bilder og bestemme den logiske eller romlige rekkefølgen av objekter inni dem. Den kan også analysere designfunksjonene til objekter for å gjøre dommer, som hvilken av to biler har en mer aerodynamisk form.

Men Gemini’s talenter går langt utenfor bare visuell forståelse. Den kan omdanne en sett av instruksjoner til kode, og skape praktiske verktøy som en nedtellingstimer som ikke bare fungerer som rettledet, men også inkluderer kreative elementer, som motivasjonsemoter, for å forbedre brukerinteraksjonen. Dette indikerer en evne til å håndtere oppgaver som krever en blanding av kreativitet og funksjonalitet—ferdigheter som ofte anses som distinkt menneskelige.

Gemini’s kapasiteter : Romlig resonnering (Kilde)

Gemini’s kapasiteter utvides til å utføre programmeringsoppgaver(Kilde)

Gemini’s sofistikerte design er basert på en rik historie av neurale nettverksforskning og utnytter Google’s banebrytende TPU-teknologi for trening. Gemini Ultra har satt nye benchmark- resultater i ulike AI-domener, og viser bemerkelsesverdige ytelsesforbedringer i multimodale resonneringstasks.

Med dens evne til å parse gjennom og forstå komplekse data, tilbyr Gemini løsninger for virkelige verden-applikasjoner, spesielt i utdanning. Den kan analysere og korrigere løsninger på problemer, som i fysikk, ved å forstå håndskrevne notater og gi nøyaktig matematisk typesetting. Slike kapasiteter antyder en fremtid hvor AI assisterer i utdanningsmiljøer, og tilbyr studenter og lærere avanserte verktøy for læring og problemløsning.

Gemini’s har blitt brukt til å skape agenter som AlphaCode 2, som utmerker seg i konkurranse-programmeringsproblemer. Dette viser Gemini’s potensial til å fungere som en generalist AI, i stand til å håndtere komplekse, multi-trinnsproblemer.

Gemini Nano bringer kraften av AI til hverdagsenheter, og beholder imponerende kapasiteter i oppgaver som sammenfatting og leseforståelse, samt kode- og STEM-relaterte utfordringer. Disse mindre modellene er finjustert for å tilby høykvalitets AI-funksjoner på lavminne-enheter, og gjør avansert AI mer tilgjengelig enn noensinne.

Utviklingen av Gemini involverte innovasjoner i treningsalgoritmer og infrastruktur, som brukte Google’s siste TPUs. Dette muliggjorde effektiv skaling og robuste treningsprosesser, og sikret at selv de minste modellene leverer unik ytelse.

Treningsdatasettet for Gemini er like diversifisert som dens kapasiteter, og inkluderer webdokumenter, bøker, kode, bilder, lyd og videoer. Dette multimodale og flerspråklige datasettet sikrer at Gemini-modellene kan forstå og prosessere en bred variasjon av innholdstyper effektivt.

Gemini og GPT-4

Til tross for fremveksten av andre modeller, er spørsmålet på alle sinn hvordan Google’s Gemini sammenlignes med OpenAI’s GPT-4, bransjens benchmark for nye LLM-er. Google’s data antyder at mens GPT-4 kan utmerke seg i sunn fornuft-reasoning-oppgaver, har Gemini Ultra overtaket i nesten alle andre områder.

Gemini VS GPT-4

Ovenfor benchmark-tabell viser den imponerende ytelsen til Google’s Gemini AI over en rekke oppgaver. Merkverdig er at Gemini Ultra har oppnådd bemerkelsesverdige resultater i MMLU-benchmarken med 90,04% nøyaktighet, og indikerer dens overlegne forståelse i flervalgs-spørsmål over 57 emner.

I GSM8K, som vurderer grunnskolematematikk-spørsmål, scorer Gemini Ultra 94,4%, og viser dens avanserte aritmetiske prosesseringsferdigheter. I kode-benchmark, oppnår Gemini Ultra en score på 74,4% i HumanEval for Python-kode-generering, og indikerer dens sterke programmeringsspråk-forståelse.

DROP-benchmarken, som tester leseforståelse, ser Gemini Ultra igjen lede med en score på 82,4%. Mens i en sunn fornuft-reasoning-test, HellaSwag, utfører Gemini Ultra merkbart, selv om den ikke overgår den ekstremt høye benchmark satt av GPT-4.

Konklusjon

Gemini’s unike arkitektur, drevet av Google’s banebrytende teknologi, posisjonerer det som en formidabel aktør i AI-arenaen, og utfordrer eksisterende benchmark- resultater satt av modeller som GPT-4. Dens versjoner—Ultra, Pro og Nano—hver tilpasset bestemte behov, fra komplekse resonneringstasks til effektive på-enhet-applikasjoner, og viser Google’s forpliktelse til å gjøre avansert AI tilgjengelig over ulike plattformer og enheter.

Integreringen av Gemini i Google’s økosystem, fra Bard til Google Cloud Vertex, høydepunkteter dens potensial til å forbedre brukeropplevelsen over et spekter av tjenester. Det lover ikke bare å forfine eksisterende applikasjoner, men også å åpne nye veier for AI-drevne løsninger, enten i personlig assistanse, kreative innsats eller forretningsanalyse.

Mens vi ser fremover, understreker de kontinuerlige fremgangene i AI-modeller som Gemini viktigheten av pågående forskning og utvikling. Utfordringene med å trene slike sofistikerte modeller og sikre deres etiske og ansvarlige bruk, forblir i fremtredende diskusjon.

Aayush Mittal

Jeg har brukt de siste fem årene til å dykke ned i den fasiniserende verden av Machine Learning og Deep Learning. Min lidenskap og ekspertise har ført meg til å bidra til over 50 forskjellige prosjekter innen programvareutvikling, med særlig fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot Natural Language Processing, et felt jeg er ivrig etter å utforske videre.

Unite.AI

Google’s Multimodal AI Gemini – En teknisk dybdeinnføring

Hva er Gemini?

Konklusjon

You may like