Connect with us

Google’s Multimodal AI Gemini – En Dybdegående Teknisk Gennemgang

Kunstig intelligens

Google’s Multimodal AI Gemini – En Dybdegående Teknisk Gennemgang

mm
Google's First Multimodal Model: Gemini

Sundar Pichai, Google’s administrerende direktør, sammen med Demis Hassabis fra Google DeepMind, har præsenteret Gemini i december 2023. Dette nye store sprogmodel er integreret på tværs af Google’s omfattende produktportefølje, og tilbyder forbedringer, der breder sig gennem tjenester og værktøjer, der bruges af millioner.

Gemini, Google’s avancerede multimodale AI, er født af det samarbejdende arbejde mellem de samlede DeepMind og Brain AI-laboratorier. Gemini står på skuldrene af sine forgængere og lover at levere en mere sammenhængende og intelligent samling af applikationer.

Annonsen af Google Gemini, der ligger tæt efter debut’en af Bard, Duet AI og PaLM 2 LLM, markerer en tydelig intention fra Google om ikke kun at konkurrere, men at lede i AI-revolutionen.

I modsætning til enhver forestilling om en AI-vinter, tyder lanceringen af Gemini på en blomstrende AI-forår, fuld af potentiale og vækst. Da vi reflekterer over et år siden opdukken af ChatGPT, som i sig selv var et banebrydende øjeblik for AI, indikerer Google’s træk, at branchens udvidelse er langt fra ovre; faktisk kan den måske lige være begyndt at få fart.

Hvad er Gemini?

Google’s Gemini-model er i stand til at behandle diverse datatyper, såsom tekst, billeder, lyd og video. Den kommer i tre versioner – Ultra, Pro og Nano – hver tilpasset specifikke anvendelser, fra komplekse resonneringstasks til brug på enheden. Ultra excellerer i multifacetterede opgaver og vil være tilgængelig på Bard Advanced, mens Pro tilbyder en balance mellem ydelse og ressourceeffektivitet, allerede integreret i Bard til tekstprompt’er. Nano, optimeret til brug på enheden, kommer i to størrelser og har hardware-optimeringer som 4-bit-kvantificering til offline-brug i enheder som Pixel 8 Pro.

Gemini’s arkitektur er unik i sin indbyggede multimodale output-funktion, der bruger diskrete billedtoken til billedgenerering og integrerer lydfunktioner fra Universal Speech Model til nuanceret lydforståelse. Dens evne til at behandle video-data som sekventielle billeder, der er sammenflettede med tekst- eller lydindgang, demonstrerer dens multimodale dygtighed.

Gemini understøtter sekvenser af tekst, billeder, lyd og video som indgang

Gemini understøtter sekvenser af tekst, billeder, lyd og video som indgang

Adgang til Gemini

Gemini 1.0 ruller ud på tværs af Google’s økosystem, herunder Bard, der nu drager fordel af de raffinerede muligheder i Gemini Pro. Google har også integreret Gemini i sine Søg, Announcer og Duet-tjenester, og forbedrer brugeroplevelsen med hurtigere og mere præcise svar.

For dem, der er ivrige efter at udnytte Gemini’s muligheder, tilbyder Google AI Studio og Google Cloud Vertex adgang til Gemini Pro, hvor sidstnævnte giver større tilpasning og sikkerhedsfunktioner.

For at opleve de forbedrede muligheder i Bard, der er drevet af Gemini Pro, kan brugere følge følgende simple trin:

  1. Navigér til Bard: Åbn din foretrukne webbrowser og gå til Bard-webstedet.
  2. Sikker login: Få adgang til tjenesten ved at logge ind med din Google-konto, og sikrer en problemfri og sikker oplevelse.
  3. Interaktiv chat: Du kan nu bruge Bard, hvor Gemini Pro’s avancerede funktioner kan vælges.

Kraften af Multimodalitet:

I sin kerne bruger Gemini en transformer-baseret arkitektur, lignende dem, der er anvendt i succesfulde NLP-modeller som GPT-3. Gemini’s unikhed ligger dog i dens evne til at behandle og integrere information fra multiple modaliteter, herunder tekst, billeder og kode. Dette opnås gennem en ny teknik kaldet cross-modal attention, der giver modellen mulighed for at lære relationer og afhængigheder mellem forskellige typer data.

Her er en gennemgang af Gemini’s nøglekomponenter:

  • Multimodal Encoder: Dette modul behandler inputdata fra hver modalitet (f.eks. tekst, billeder) uafhængigt, og udtrækker relevante funktioner og genererer individuelle repræsentationer.
  • Cross-modal Attention Network: Dette netværk er hjertet af Gemini. Det giver modellen mulighed for at lære relationer og afhængigheder mellem de forskellige repræsentationer, og giver dem mulighed for at “tale” til hinanden og berige deres forståelse.
  • Multimodal Decoder: Dette modul anvender de berigede repræsentationer, der er genereret af cross-modal attention-netværket, til at udføre forskellige opgaver, såsom billedbeskrivelse, tekst-til-billedgenerering og kodegenerering.

Gemini-modellen er ikke kun om at forstå tekst eller billeder – det er om at integrere forskellige typer information på en måde, der er meget tættere på, hvordan vi, som mennesker, opfatter verden. For eksempel kan Gemini kigge på en sekvens af billeder og bestemme den logiske eller rumlige orden af objekter inden for dem. Den kan også analysere designfunktionerne af objekter for at træffe domme, såsom hvilken af to biler har en mere aerodynamisk form.

Men Gemini’s talenter går langt ud over kun visuel forståelse. Den kan omdanne en samling af instruktioner til kode, og skabe praktiske værktøjer som en nedtællings-timer, der ikke kun fungerer som instrueret, men også inkluderer kreative elementer, såsom motivations-emojis, for at forbedre brugerinteraktionen. Dette indikerer en evne til at håndtere opgaver, der kræver en blanding af kreativitet og funktionalitet – færdigheder, der ofte anses for at være særligt menneskelige.

Gemini's muligheder : Rumlig resonnering

Gemini’s muligheder : Rumlig resonnering (Kilde)

 

Gemini's muligheder strækker sig til at udføre programmeringsopgaver

Gemini’s muligheder strækker sig til at udføre programmeringsopgaver(Kilde)

Gemini’s sofistikerede design er baseret på en rig historie af neurale netværksforskning og udnytter Google’s avancerede TPU-teknologi til træning. Gemini Ultra har særligt sat nye benchmarks i forskellige AI-domæner, og viser bemærkelsesværdige præstationsforbedringer i multimodale resonneringstasks.

Med dens evne til at gennemløbe og forstå komplekse data, tilbyder Gemini løsninger til virkelige anvendelser, især i uddannelsesområdet. Den kan analysere og korrigere løsninger til problemer, som f.eks. i fysik, ved at forstå håndskrevne noter og give præcise matematiske typesætninger. Sådanne muligheder antyder en fremtid, hvor AI hjælper i uddannelsessammenhænge, og tilbyder studerende og undervisere avancerede værktøjer til læring og problemløsning.

Gemini’s er blevet udnyttet til at skabe agenter som AlphaCode 2, der excellerer i konkurrencerelaterede programmeringsopgaver. Dette demonstrerer Gemini’s potentiale til at fungere som en generalist AI, der kan håndtere komplekse, multi-step-opgaver.

Gemini Nano bringer AI’s kraft til hverdagsenheder, og opretholder imponerende evner i opgaver som sammenfatning og læseforståelse, samt kodning og STEM-relaterede udfordringer. Disse mindre modeller er finjusteret til at tilbyde højkvalitets AI-funktioner på lavmemorieenheder, og gør avanceret AI mere tilgængelig end nogensinde.

Udviklingen af Gemini involverede innovationer i træningsalgoritmer og infrastruktur, der anvendte Google’s seneste TPUs. Dette gjorde det muligt at effektivt skala og robuste træningsprocesser, og sikrede, at selv de mindste modeller leverede exceptionel præstation.

Træningsdatasettet for Gemini er lige så divers som dens muligheder, og inkluderer webdokumenter, bøger, kode, billeder, lyd og video. Dette multimodale og multilinguale dataset sikrer, at Gemini-modellerne kan forstå og behandle en bred vifte af indholdstyper effektivt.

Gemini og GPT-4

Trods opdukken af andre modeller, er spørgsmålet på alles læber, hvordan Google’s Gemini står i forhold til OpenAI’s GPT-4, branchens benchmark for nye LLM’er. Google’s data antyder, at mens GPT-4 måske excellerer i fælles fornuft-reasoneringstasks, har Gemini Ultra overhånden i næsten alle andre områder.

Gemini VS GPT-4

Gemini VS GPT-4

Den ovenstående benchmark-tabel viser Gemini’s imponerende præstation på tværs af en række opgaver. Bemærkelsesværdigt har Gemini Ultra opnået enestående resultater i MMLU-benchmark med 90,04% nøjagtighed, og viser sin overlegne forståelse i multiple-choice-spørgsmål på tværs af 57 fag.

I GSM8K, der vurderer grundskolematematik-spørgsmål, scorer Gemini Ultra 94,4%, og viser sin avancerede aritmetiske procesfærdigheder. I kodningsbenchmarks opnår Gemini Ultra en score på 74,4% i HumanEval for Python-kodegenerering, og viser sin stærke programmeringssprogforståelse.

DROP-benchmark, der tester læseforståelse, ser Gemini Ultra igen føre an med en score på 82,4%. I et fælles fornuft-reasoneringstest, HellaSwag, performer Gemini Ultra bemærkelsesværdigt, selvom den ikke overgår det ekstremt høje benchmark, der er sat af GPT-4.

Konklusion

Gemini’s unikke arkitektur, drevet af Google’s avancerede teknologi, positionerer det som en formidabel spiller i AI-arenaen, og udfordrer eksisterende benchmarks sat af modeller som GPT-4. Dens versioner – Ultra, Pro og Nano – hver især tilpasset specifikke behov, fra komplekse resonneringstasks til effektive anvendelser på enheden, viser Google’s engagement i at gøre avanceret AI tilgængelig på tværs af forskellige platforme og enheder.

Integreringen af Gemini i Google’s økosystem, fra Bard til Google Cloud Vertex, højligter dens potentiale til at forbedre brugeroplevelser på tværs af en bred vifte af tjenester. Det lover ikke kun at raffinere eksisterende applikationer, men også at åbne nye veje for AI-drevne løsninger, enten i personlig assistance, kreative foretagender eller forretningsanalyse.

Da vi ser fremad, understreger de kontinuerlige fremskridt i AI-modeller som Gemini vigtigheden af fortsat forskning og udvikling. Udfordringerne ved at træne sådanne sofistikerede modeller og sikre deres etiske og ansvarlige brug forbliver i forgrunden for diskussionen.

Jeg har brugt de sidste fem år på at dykke ned i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført til, at jeg har bidraget til over 50 forskellige software-udviklingsprojekter, med særlig fokus på AI/ML. Min vedvarende nysgerrighed har også ført mig i retning af Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.