Artificial Intelligence

Een verkenning van Gemini 1.5: hoe het nieuwste multimodale AI-model van Google het AI-landschap naar een hoger niveau tilt dan zijn voorganger

gepubliceerd 20 februari 2024

Dr Tehseen Zia

In het snel evoluerende landschap van kunstmatige intelligentie blijft Google toonaangevend met zijn baanbrekende ontwikkelingen op het gebied van multimodale AI technologieën. Kort na het debuut van Gemini 1.0, hun allernieuwste multimodaal groottaalmodel, heeft Google nu onthuld Tweeling 1.5. Deze iteratie verbetert niet alleen de capaciteit die is gecreëerd door Tweeling 1.0 maar brengt ook aanzienlijke verbeteringen met zich mee in Googles methodologie voor het verwerken en integreren van multimodale data. Dit artikel biedt een verkenning van Gemini 1.5 en belicht de innovatieve aanpak en onderscheidende kenmerken ervan.

Gemini 1.0: de basis leggen

Gemini 6, gelanceerd door Google DeepMind en Google Research op 2023 december 1.0, introduceerde een nieuw soort multimodale AI-modellen die inhoud in verschillende formaten, zoals tekst, audio, afbeeldingen en video, kunnen begrijpen en genereren. Dit betekende een belangrijke stap op het gebied van AI, waardoor de mogelijkheden voor het beheren van diverse informatietypen werden vergroot.

De opvallende eigenschap van Gemini is het vermogen om meerdere gegevenstypen naadloos te combineren. In tegenstelling tot conventionele AI-modellen die zich mogelijk specialiseren in één enkel gegevensformaat, integreert Gemini tekst, beeld en audio. Dankzij deze integratie kan het taken uitvoeren zoals het analyseren van handgeschreven notities of het ontcijferen van complexe diagrammen, waardoor een breed spectrum aan complexe uitdagingen wordt opgelost.

De Gemini-familie biedt modellen voor diverse toepassingen: het Ultra-model voor complexe taken, het Pro-model voor snelheid en schaalbaarheid op grote platforms als Google Bard, en de Nano-modellen (Nano-1 en Nano-2) met 1.8 miljard en 3.25 miljard parameters , respectievelijk ontworpen voor integratie in apparaten zoals de Google Pixel 8 Pro-smartphone.

De sprong naar Gemini 1.5

De nieuwste release van Google, Gemini 1.5, verbetert de functionaliteit en operationele efficiëntie van zijn voorganger, Gemini 1.0. Deze versie maakt gebruik van een nieuwe Mengsel van deskundigen (MoE)-architectuur, een afwijking van de uniforme, grote modelbenadering van zijn voorganger. Deze architectuur omvat een verzameling kleinere, gespecialiseerde transformator modellen, elk bedreven in het beheren van specifieke gegevenssegmenten of afzonderlijke taken. Dankzij deze opzet kan Gemini 1.5 dynamisch de meest geschikte expert inschakelen op basis van de binnenkomende gegevens, waardoor het vermogen van het model om informatie te leren en te verwerken wordt gestroomlijnd.

Deze innovatieve aanpak verhoogt de trainings- en implementatie-efficiëntie van het model aanzienlijk door alleen de benodigde experts voor taken te activeren. Gemini 1.5 is daardoor in staat om complexe taken snel onder de knie te krijgen en efficiënter hoogwaardige resultaten te leveren dan conventionele modellen. Dergelijke ontwikkelingen stellen de onderzoeksteams van Google in staat om de ontwikkeling en verbetering van het Gemini-model te versnellen en zo de mogelijkheden binnen het AI-domein uit te breiden.

Mogelijkheden uitbreiden

Een opmerkelijke vooruitgang in Gemini 1.5 is de uitgebreide informatieverwerkingscapaciteit. Het contextvenster van het model, de hoeveelheid gebruikersdata die het kan analyseren om reacties te genereren, is nu uitgebreid tot 1 miljoen tokens – een aanzienlijke toename ten opzichte van de 32,000 tokens van Gemini 1.0. Deze verbetering betekent dat Gemini 1.5 Pro tegelijkertijd grote hoeveelheden data kan verwerken, zoals een uur videocontent, elf uur audio, of grote codebases en tekstdocumenten. Het is ook succesvol getest met maximaal 10 miljoen tokens, wat zijn uitzonderlijke vermogen om enorme datasets te begrijpen en te interpreteren aantoont.

Een blik op de mogelijkheden van Gemini 1.5

De architectuurverbeteringen en het uitgebreide contextvenster van Gemini 1.5 stellen het in staat om geavanceerde analyses uit te voeren op grote hoeveelheden informatie. Of het nu gaat om het verdiepen in de complexe details van de Apollo 11-missie transcripties of het interpreteren van een stomme film, Gemini 1.5 demonstreert een ongeëvenaard probleemoplossend vermogen, vooral met lange codeblokken.

Gemini 4 Pro is ontwikkeld met behulp van Google's geavanceerde TPUv1.5-accelerators en is getraind met een diverse dataset, die diverse domeinen en multimodale en meertalige content omvat. Deze brede trainingsbasis, gecombineerd met finetuning op basis van menselijke voorkeursgegevens, zorgt ervoor dat de output van Gemini 1.5 Pro goed aansluit bij de menselijke perceptie.

Door strenge benchmarktests Tegen een overvloed aan taken presteert Gemini 1.5 Pro niet alleen beter dan zijn voorganger in een grote meerderheid van de evaluaties, maar staat hij ook op gelijke voet met het grotere Gemini 1.0 Ultra-model. Gemini 1.5 Pro vertoont sterke mogelijkheden om in de context te leren, waardoor op effectieve wijze nieuwe kennis wordt verkregen uit gedetailleerde aanwijzingen zonder dat verdere aanpassingen nodig zijn. Dit kwam vooral tot uiting in zijn optreden op de Machinevertaling uit één boek (MTOB) benchmark, waar het werd vertaald van het Engels naar Kalamang – een taal die door een klein aantal mensen wordt gesproken – met een vaardigheid die vergelijkbaar is met die van menselijk leren, wat het aanpassingsvermogen en de leerefficiëntie ervan onderstreept.

Beperkte preview-toegang

Gemini 1.5 Pro is nu beschikbaar in een beperkte preview voor ontwikkelaars en zakelijke klanten AI-studio en Vertex-AI, met plannen voor een bredere release en aanpasbare opties in het verschiet. Deze preview-fase biedt een unieke kans om het uitgebreide contextvenster te verkennen, waarbij verbeteringen in de verwerkingssnelheid worden verwacht. Ontwikkelaars en zakelijke klanten die geïnteresseerd zijn in Gemini 1.5 Pro kunnen zich registreren via AI Studio of contact opnemen met hun Vertex AI-accountteams voor meer informatie.

The Bottom Line

Gemini 1.5 vertegenwoordigt een belangrijke stap voorwaarts in de ontwikkeling van multimodale AI. Voortbouwend op de basis die gelegd is met Gemini 1.0, biedt deze nieuwe versie verbeterde methoden voor het verwerken en integreren van verschillende soorten data. De introductie van een nieuwe architectuurbenadering en uitgebreide dataverwerkingsmogelijkheden onderstrepen Googles voortdurende inspanningen om AI-technologie te verbeteren. Met zijn potentieel voor efficiëntere taakafhandeling en geavanceerd leren, toont Gemini 1.5 de continue evolutie van AI. Momenteel beschikbaar voor een selecte groep ontwikkelaars en zakelijke klanten, signaleert het veelbelovende mogelijkheden voor de toekomst van AI, met een bredere beschikbaarheid en verdere ontwikkelingen in het verschiet.

Gerelateerde onderwerpen:Grote multimodale modellen Multimodale AI Multimodaal groottaalmodel

Grote visiemodellen (LVM's) mogelijk maken in domeinspecifieke taken door middel van transferleren

Mis het niet

Wat we tot nu toe weten over Sora van OpenAI

Dr Tehseen Zia

Dr. Tehseen Zia is een vaste universitair hoofddocent aan de COMSATS Universiteit Islamabad en heeft een doctoraat in AI behaald aan de Technische Universiteit van Wenen, Oostenrijk. Hij is gespecialiseerd in kunstmatige intelligentie, machinaal leren, datawetenschap en computervisie en heeft belangrijke bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook diverse industriële projecten geleid als hoofdonderzoeker en als AI-consultant.