Artificial Intelligence

Google's multimodale AI Gemini – een technische diepe duik

Bijgewerkt on 11 december 2023

Het eerste multimodale model van Google: Gemini

Sundar Pichai, CEO van Google, heeft dit samen met Demis Hassabis van Google DeepMind gedaan introduceerde Gemini in december 2023. Dit nieuwe grote taalmodel is geïntegreerd in het uitgebreide scala aan producten van Google en biedt verbeteringen die doorwerken in services en tools die door miljoenen mensen worden gebruikt.

Gemini, de geavanceerde multimodale AI van Google, is ontstaan uit de gezamenlijke inspanningen van de verenigde DeepMind- en Brain AI-laboratoria. Gemini staat op de schouders van zijn voorgangers en belooft een meer onderling verbonden en intelligent pakket aan applicaties te leveren.

De aankondiging van Google Gemini, vlak na het debuut van Bard, Duet AI en de PaLM 2 LLM, markeert een duidelijk voornemen van Google om niet alleen te concurreren maar ook leiding te geven aan de AI-revolutie.

In tegenstelling tot alle ideeën over een AI-winter, suggereert de lancering van Gemini een bloeiende AI-lente, vol potentieel en groei. Als we terugkijken op een jaar sinds de opkomst van ChatGPT, wat op zichzelf een baanbrekend moment was voor AI, geeft de stap van Google aan dat de expansie van de industrie nog lang niet voorbij is; het kan zelfs zijn dat het tempo alleen maar toeneemt.

Wat is Gemini?

Het Gemini-model van Google kan verschillende gegevenstypen verwerken, zoals tekst, afbeeldingen, audio en video. Het is verkrijgbaar in drie versies:Ultra, Pro en Nano—elk op maat gemaakt voor specifieke toepassingen, van complex redeneren tot gebruik op het apparaat. Ultra blinkt uit in veelzijdige taken en zal beschikbaar zijn op Bard Advanced, terwijl Pro een balans biedt tussen prestaties en hulpbronnenefficiëntie, al geïntegreerd in Bard voor tekstprompts. Nano, geoptimaliseerd voor implementatie op het apparaat, is verkrijgbaar in twee formaten en beschikt over hardware-optimalisaties zoals 4-bit kwantisering voor offline gebruik op apparaten zoals de Pixel 8 Pro.

De architectuur van Gemini is uniek vanwege de native multimodale uitvoermogelijkheden, waarbij gebruik wordt gemaakt van discrete beeldtokens voor het genereren van afbeeldingen en het integreren van audiofuncties van het Universal Speech Model voor genuanceerd audioverstaan. Het vermogen om videogegevens te verwerken als opeenvolgende afbeeldingen, verweven met tekst- of audio-invoer, illustreert zijn multimodale bekwaamheid.

Gemini ondersteunt reeksen tekst, afbeeldingen, audio en video als invoer

Toegang tot Tweelingen

Gemini 1.0 wordt uitgerold in het hele ecosysteem van Google, inclusief Bard, dat nu profiteert van de verfijnde mogelijkheden van Gemini Pro. Google heeft Gemini ook geïntegreerd in zijn zoek-, advertentie- en duet-services, waardoor de gebruikerservaring wordt verbeterd met snellere, nauwkeurigere reacties.

Voor degenen die graag de mogelijkheden van Gemini willen benutten, bieden Google AI Studio en Google Cloud Vertex toegang tot Gemini Pro, waarbij de laatste meer aanpassings- en beveiligingsfuncties biedt.

Om de verbeterde mogelijkheden van Bard, mogelijk gemaakt door Gemini Pro, te ervaren, kunnen gebruikers de volgende eenvoudige stappen nemen:

Navigeer naar Bard: Open uw favoriete webbrowser en ga naar de Bard-website.
Veilige login: Krijg toegang tot de service door u aan te melden met uw Google-account, zodat u verzekerd bent van een naadloze en veilige ervaring.
Interactieve chat: U kunt nu Bard gebruiken, waar u kunt kiezen voor de geavanceerde functies van Gemini Pro.

Kracht van multimodaliteit:

In de kern maakt Gemini gebruik van een op transformatoren gebaseerde architectuur, vergelijkbaar met de architectuur die wordt gebruikt in succesvolle NLP-modellen zoals GPT-3. Het unieke van Gemini ligt echter in het vermogen om informatie uit meerdere modaliteiten, waaronder tekst, afbeeldingen en code, te verwerken en te integreren. Dit wordt bereikt door een nieuwe techniek genaamd crossmodale aandacht, waarmee het model relaties en afhankelijkheden tussen verschillende soorten gegevens kan leren.

Hier is een overzicht van de belangrijkste componenten van Gemini:

Multimodale encoder: Deze module verwerkt de invoergegevens van elke modaliteit (bijvoorbeeld tekst, afbeelding) onafhankelijk, haalt relevante kenmerken eruit en genereert individuele representaties.
Crossmodaal aandachtsnetwerk: Dit netwerk is het hart van Gemini. Het stelt het model in staat relaties en afhankelijkheden tussen de verschillende representaties te leren, waardoor ze met elkaar kunnen ‘praten’ en hun begrip kunnen verrijken.
Multimodale decoder: Deze module maakt gebruik van de verrijkte representaties die worden gegenereerd door het cross-modale aandachtsnetwerk om verschillende taken uit te voeren, zoals het ondertitelen van afbeeldingen, het genereren van tekst naar afbeeldingen en het genereren van code.

Het Gemini-model gaat niet alleen over het begrijpen van tekst of afbeeldingen, het gaat over het integreren van verschillende soorten informatie op een manier die veel dichter aansluit bij hoe wij, als mensen, de wereld waarnemen. Gemini kan bijvoorbeeld naar een reeks afbeeldingen kijken en de logische of ruimtelijke volgorde van objecten daarin bepalen. Het kan ook de ontwerpkenmerken van objecten analyseren om een oordeel te vellen, bijvoorbeeld welke van twee auto's een meer aerodynamische vorm heeft.

Maar de talenten van Gemini gaan verder dan alleen visueel begrip. Het kan een reeks instructies omzetten in code, waardoor praktische hulpmiddelen worden gecreëerd, zoals een afteltimer die niet alleen functioneert zoals aangegeven, maar ook creatieve elementen bevat, zoals motiverende emoji's, om de gebruikersinteractie te verbeteren. Dit duidt op een vermogen om taken uit te voeren die een mix van creativiteit en functionaliteit vereisen – vaardigheden die vaak als duidelijk menselijk worden beschouwd.

De mogelijkheden van Gemini: ruimtelijk redeneren

De mogelijkheden van Tweelingen: ruimtelijk redeneren (bron)

De mogelijkheden van Gemini strekken zich uit tot het uitvoeren van programmeertaken (bron)

Het geavanceerde ontwerp van Gemini is gebaseerd op een rijke geschiedenis van onderzoek naar neurale netwerken en maakt voor training gebruik van de geavanceerde TPU-technologie van Google. Met name Gemini Ultra heeft nieuwe maatstaven gezet in verschillende AI-domeinen, waarbij opmerkelijke prestatieverbeteringen bij multimodale redeneertaken worden getoond.

Met zijn vermogen om complexe gegevens te ontleden en te begrijpen, biedt Gemini oplossingen voor toepassingen in de echte wereld, vooral in het onderwijs. Het kan oplossingen voor problemen analyseren en corrigeren, zoals in de natuurkunde, door handgeschreven aantekeningen te begrijpen en nauwkeurige wiskundige typografie te bieden. Dergelijke mogelijkheden suggereren een toekomst waarin AI helpt in onderwijsomgevingen en studenten en docenten geavanceerde hulpmiddelen biedt voor leren en probleemoplossing.

Gemini's is gebruikt om agenten zoals AlphaCode 2 te creëren, die uitblinkt in competitieve programmeerproblemen. Dit toont het potentieel van Gemini om op te treden als een generalistische AI, die in staat is om complexe, uit meerdere stappen bestaande problemen aan te pakken.

Gemini Nano brengt de kracht van AI naar alledaagse apparaten en behoudt indrukwekkende vaardigheden in taken als samenvatten en begrijpend lezen, maar ook in coderen en STEM-gerelateerde uitdagingen. Deze kleinere modellen zijn verfijnd om hoogwaardige AI-functionaliteiten te bieden op apparaten met een lager geheugen, waardoor geavanceerde AI toegankelijker is dan ooit.

De ontwikkeling van Gemini omvatte innovaties op het gebied van trainingsalgoritmen en infrastructuur, waarbij gebruik werd gemaakt van de nieuwste TPU's van Google. Dit maakte een efficiënte schaalbaarheid en robuuste trainingsprocessen mogelijk, waardoor zelfs de kleinste modellen uitzonderlijke prestaties konden leveren.

De trainingsdataset voor Gemini is net zo divers als de mogelijkheden ervan, inclusief webdocumenten, boeken, code, afbeeldingen, audio en video's. Deze multimodale en meertalige dataset zorgt ervoor dat Gemini-modellen een grote verscheidenheid aan inhoudstypen effectief kunnen begrijpen en verwerken.

Gemini en GPT-4

Ondanks de opkomst van andere modellen, is de vraag waar iedereen aan denkt hoe Google's Gemini zich verhoudt tot OpenAI's GPT-4, de benchmark in de sector voor nieuwe LLM's. Uit de gegevens van Google blijkt dat GPT-4 weliswaar uitblinkt in taken op het gebied van gezond verstand redeneren, maar dat Gemini Ultra op bijna elk ander gebied de overhand heeft.

Gemini VS GPT-4

De bovenstaande benchmarkingtabel toont de indrukwekkende prestaties van Google's Gemini AI bij een verscheidenheid aan taken. Opvallend is dat Gemini Ultra opmerkelijke resultaten heeft behaald in de MMLU-benchmark met een nauwkeurigheid van 90.04%, wat wijst op een superieur begrip van meerkeuzevragen over 57 onderwerpen.

In de GSM8K, die wiskundevragen op de basisschool beoordeelt, scoort Gemini Ultra 94.4%, wat zijn geavanceerde rekenkundige verwerkingsvaardigheden aantoont. In coderingsbenchmarks behaalde Gemini Ultra een score van 74.4% in de HumanEval voor Python-codegeneratie, wat wijst op een sterk begrip van de programmeertaal.

In de DROP-benchmark, die begrijpend lezen test, staat Gemini Ultra opnieuw aan de leiding met een score van 82.4%. Ondertussen presteert HellaSwag, Gemini Ultra, in een op gezond verstand redeneren, bewonderenswaardig, hoewel het de extreem hoge benchmark van GPT-4 niet overtreft.

Conclusie

De unieke architectuur van Gemini, mogelijk gemaakt door de geavanceerde technologie van Google, positioneert het als een formidabele speler in de AI-arena, die bestaande benchmarks van modellen als GPT-4 uitdaagt. De versies Ultra, Pro en Nano komen elk tegemoet aan specifieke behoeften, van complexe redeneertaken tot efficiënte applicaties op het apparaat, en tonen de inzet van Google om geavanceerde AI toegankelijk te maken op verschillende platforms en apparaten.

De integratie van Gemini in het ecosysteem van Google, van Bard tot Google Cloud Vertex, benadrukt het potentieel ervan om gebruikerservaringen over een spectrum aan services te verbeteren. Het belooft niet alleen bestaande toepassingen te verfijnen, maar ook nieuwe wegen te openen voor AI-gestuurde oplossingen, of het nu gaat om persoonlijke assistentie, creatieve inspanningen of bedrijfsanalyses.

Als we vooruitkijken, onderstrepen de voortdurende verbeteringen in AI-modellen zoals Gemini het belang van voortdurend onderzoek en ontwikkeling. De uitdagingen van het trainen van dergelijke geavanceerde modellen en het garanderen van hun ethisch en verantwoord gebruik blijven voorop staan in de discussie.

Gerelateerde onderwerpen:Tweelingen generatieve ai google GPT

Beleef de hype: AI-evenementen in Bay Area

Mis het niet

Google beschuldigd van misleiding met Gemini-aankondigingsvideo

Aayush Mittal

De afgelopen vijf jaar heb ik me verdiept in de fascinerende wereld van Machine Learning en Deep Learning. Door mijn passie en expertise heb ik bijgedragen aan meer dan 50 verschillende software engineering projecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een gebied dat ik graag verder wil verkennen.