Følg os

Kunstig intelligens

Udforskning af Gemini 1.5: Hvordan Googles seneste multimodale AI-model løfter AI-landskabet ud over dets forgænger

mm

I det hastigt udviklende landskab af kunstig intelligens fortsætter Google med at føre an med sin banebrydende udvikling inden for multimodal AI teknologier. Kort efter debuten af ​​Gemini 1.0, deres banebrydende multimodal stor sprogmodel, har Google nu løftet sløret for Gemini 1.5. Denne iteration forbedrer ikke kun kapaciteten etableret af Gemini 1.0 men medfører også betydelige forbedringer i Googles metode til behandling og integration af multimodale data. Denne artikel giver en udforskning af Gemini 1.5 og kaster lys over dens innovative tilgang og særlige træk.

Gemini 1.0: Grundlæggende

Gemini 6 blev lanceret af Google DeepMind og Google Research den 2023. december 1.0 og introducerede en ny race af multimodale AI-modeller, der er i stand til at forstå og generere indhold i forskellige formater, såsom tekst, lyd, billeder og video. Dette markerede et væsentligt skridt i kunstig intelligens, der udvidede mulighederne for at håndtere forskellige informationstyper.

Tvillingenes fremtrædende træk er dens evne til problemfrit at blande flere datatyper. I modsætning til konventionelle AI-modeller, der kan specialisere sig i et enkelt dataformat, integrerer Gemini tekst, billeder og lyd. Denne integration gør den i stand til at udføre opgaver som at analysere håndskrevne noter eller dechifrere komplekse diagrammer og derved løse et bredt spektrum af komplekse udfordringer.

Gemini-familien tilbyder modeller til forskellige applikationer: Ultra-modellen til komplekse opgaver, Pro-modellen til hastighed og skalerbarhed på store platforme som Google Bard, og Nano-modellerne (Nano-1 og Nano-2) med 1.8 milliarder og 3.25 milliarder parametre , henholdsvis designet til integration i enheder som Google Pixel 8 Pro-smartphone.

Springet til Gemini 1.5

Googles seneste udgivelse, Gemini 1.5, forbedrer funktionaliteten og den operationelle effektivitet fra sin forgænger, Gemini 1.0. Denne version anvender en ny ... Blanding af eksperter (MoE) arkitektur, en afvigelse fra den forenede, store modeltilgang set i dens forgænger. Denne arkitektur inkorporerer en samling af mindre, specialiserede transformator modeller, hver dygtig til at administrere specifikke segmenter af data eller særskilte opgaver. Denne opsætning giver Gemini 1.5 mulighed for dynamisk at engagere den mest passende ekspert baseret på de indkommende data, hvilket strømliner modellens evne til at lære og behandle information.

Denne innovative tilgang øger modellens trænings- og implementeringseffektivitet betydeligt ved kun at aktivere de nødvendige eksperter til opgaverne. Derfor er Gemini 1.5 i stand til hurtigt at mestre komplekse opgaver og levere resultater af høj kvalitet mere effektivt end konventionelle modeller. Sådanne fremskridt gør det muligt for Googles forskerhold at accelerere udviklingen og forbedringen af ​​Gemini-modellen og dermed udvide mulighederne inden for AI-domænet.

Udvidelse af muligheder

En bemærkelsesværdig forbedring i Gemini 1.5 er dens udvidede informationsbehandlingskapacitet. Modellens kontekstvindue, som er den mængde brugerdata, den kan analysere for at generere svar, udvides nu til op til 1 million tokens - en betydelig stigning fra de 32,000 tokens i Gemini 1.0. Denne forbedring betyder, at Gemini 1.5 Pro kan behandle store mængder data samtidigt, såsom en times videoindhold, elleve timers lyd eller store kodebaser og tekstdokumenter. Den er også blevet testet med succes med op til 10 millioner tokens, hvilket viser dens exceptionelle evne til at forstå og fortolke enorme datasæt.

Et glimt af Gemini 1.5's muligheder

Gemini 1.5's arkitektoniske forbedringer og det udvidede kontekstvindue giver den mulighed for at udføre sofistikeret analyse af store informationssæt. Uanset om det drejer sig om at dykke ned i de indviklede detaljer i Apollo 11-missionen udskrifter eller ved at fortolke en stumfilm, demonstrerer Gemini 1.5 uovertrufne problemløsningsevner, især med lange kodeblokke.

Gemini 4 Pro er udviklet på Googles avancerede TPUv1.5-acceleratorer og er blevet trænet på et forskelligartet datasæt, der omfatter forskellige domæner og inkluderer multimodalt og flersproget indhold. Denne brede træningsbase kombineret med finjustering baseret på menneskelige præferencedata sikrer, at Gemini 1.5 Pros output resonerer godt med menneskelige opfattelser.

Gennem strenge benchmark-tests mod et væld af opgaver overgår Gemini 1.5 Pro ikke kun sin forgænger i langt de fleste evalueringer, men står også tå-til-tå med den større Gemini 1.0 Ultra-model. Gemini 1.5 Pro udviser stærke "in-context learning"-evner, og opnår effektivt ny viden fra detaljerede prompter uden behov for yderligere justeringer. Dette var især tydeligt i dens præstationer på Maskinoversættelse fra én bog (MTOB) benchmark, hvor det blev oversat fra engelsk til Kalamang - et sprog, der tales af et lille antal mennesker - med færdigheder, der kan sammenlignes med menneskelig læring, hvilket understreger dets tilpasningsevne og læringseffektivitet.

Begrænset adgang til forhåndsvisning

Gemini 1.5 Pro er nu tilgængelig i en begrænset forhåndsvisning for udviklere og virksomhedskunder gennem AI Studio og Vertex AI, med planer om en bredere udgivelse og tilpasningsmuligheder i horisonten. Denne forhåndsvisningsfase giver en unik mulighed for at udforske dets udvidede kontekstvindue, med forbedringer i behandlingshastigheden, der forventes. Udviklere og virksomhedskunder, der er interesseret i Gemini 1.5 Pro, kan registrere sig gennem AI Studio eller kontakte deres Vertex AI-kontoteams for yderligere information.

The Bottom Line

Gemini 1.5 repræsenterer et bemærkelsesværdigt skridt fremad i udviklingen af ​​multimodal AI. Denne nye version bygger videre på fundamentet lagt af Gemini 1.0 og bringer forbedrede metoder til behandling og integration af forskellige typer data. Introduktionen af ​​en ny arkitektonisk tilgang og udvidede databehandlingsfunktioner fremhæver Googles løbende indsats for at forbedre AI-teknologi. Med sit potentiale for mere effektiv opgavehåndtering og avanceret læring viser Gemini 1.5 den kontinuerlige udvikling af AI. Den er i øjeblikket tilgængelig for en udvalgt gruppe af udviklere og virksomhedskunder og signalerer spændende muligheder for AI's fremtid med bredere tilgængelighed og yderligere fremskridt i horisonten.

Dr. Tehseen Zia er fast lektor ved COMSATS University Islamabad og har en ph.d. i kunstig intelligens fra Wiens teknologiske universitet, Østrig. Med speciale i kunstig intelligens, maskinlæring, datavidenskab og computersyn har han ydet betydelige bidrag med publikationer i velrenommerede videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som Principal Investigator og fungeret som AI-konsulent.