Kunsmatige Intelligensie

Verken Gemini 1.5: Hoe Google se nuutste multimodale KI-model die KI-landskap verder verhef as sy voorganger

Gepubliseer

3 maande gelede

20 Februarie 2024

In die vinnig ontwikkelende landskap van kunsmatige intelligensie, gaan Google voort met sy baanbrekersontwikkelings in multimodale KI tegnologieë. Kort na die debuut van Gemini 1.0, hul voorpunt multimodale groottaalmodel, het Google nou onthul Tweeling 1.5. Hierdie iterasie verbeter nie net die kapasiteit wat deur Tweeling 1.0 maar bring ook aansienlike verbeterings in Google se metodologie vir die verwerking en integrering van multimodale data teweeg. Hierdie artikel bied 'n verkenning van Gemini 1.5, wat lig werp op sy innoverende benadering en kenmerkende kenmerke.

Gemini 1.0: Lê die fondament

Gemini 6, wat op 2023 Desember 1.0 deur Google DeepMind en Google Research bekendgestel is, het 'n nuwe ras van multimodale KI-modelle bekendgestel wat in staat is om inhoud in verskeie formate te verstaan en te genereer, soos teks, oudio, beelde en video. Dit was 'n belangrike stap in KI, wat die omvang vir die bestuur van diverse inligtingtipes verbreed het.

Tweeling se uitstaande kenmerk is sy vermoë om veelvuldige datatipes naatloos te meng. Anders as konvensionele KI-modelle wat dalk in 'n enkele dataformaat spesialiseer, integreer Gemini teks, beeldmateriaal en oudio. Hierdie integrasie stel dit in staat om take uit te voer soos om handgeskrewe notas te ontleed of komplekse diagramme te ontsyfer, en sodoende 'n breë spektrum van komplekse uitdagings op te los.

Die Gemini-familie bied modelle vir verskeie toepassings: die Ultra-model vir komplekse take, die Pro-model vir spoed en skaalbaarheid op groot platforms soos Google Bard, en die Nano-modelle (Nano-1 en Nano-2) met 1.8 miljard en 3.25 miljard parameters , onderskeidelik, ontwerp vir integrasie in toestelle soos die Google Pixel 8 Pro-slimfoon.

Die sprong na Tweeling 1.5

Google se jongste vrystelling, Gemini 1.5, verbeter die funksionaliteit en bedryfsdoeltreffendheid van sy voorganger, Gemini 1.0. Hierdie weergawe neem 'n roman aan Mengsel-van-kundiges (MoE) argitektuur, 'n afwyking van die verenigde, groot model benadering gesien in sy voorganger. Hierdie argitektuur bevat 'n versameling kleiner, gespesialiseerde transformator modelle, elke bedrewe in die bestuur van spesifieke segmente van data of afsonderlike take. Hierdie opstelling stel Gemini 1.5 in staat om die mees geskikte kundige op grond van die inkomende data dinamies te betrek, wat die model se vermoë om inligting te leer en te verwerk stroomlyn.

Hierdie innoverende benadering verhoog die model se opleiding- en ontplooiingsdoeltreffendheid aansienlik deur slegs die nodige kundiges vir take te aktiveer. Gevolglik is Gemini 1.5 in staat om komplekse take vinnig te bemeester en hoë kwaliteit resultate meer doeltreffend te lewer as konvensionele modelle. Sulke vooruitgang stel Google se navorsingspanne in staat om die ontwikkeling en verbetering van die Gemini-model te versnel, wat die moontlikhede binne die KI-domein uitbrei.

Uitbreiding van vermoëns

'n Opmerklike vooruitgang in Gemini 1.5 is sy uitgebreide inligtingverwerkingsvermoë. Die konteksvenster van die model, wat die hoeveelheid gebruikersdata is wat dit kan ontleed om antwoorde te genereer, strek nou tot tot 1 miljoen tekens - 'n aansienlike toename vanaf die 32,000 1.0 tekens van Gemini 1.5. Hierdie verbetering beteken Gemini 10 Pro kan gelyktydig uitgebreide hoeveelhede data verwerk, soos 'n uur se video-inhoud, elf uur se oudio, of groot kodebasisse en tekstuele dokumente. Dit is ook suksesvol getoets met tot XNUMX miljoen tokens, wat sy uitsonderlike vermoë om enorme datastelle te verstaan en te interpreteer, ten toon stel.

'n Kykie na Gemini 1.5 se vermoëns

Gemini 1.5 se argitektoniese verbeterings en die uitgebreide konteksvenster bemagtig dit om gesofistikeerde ontleding oor groot inligtingstelle uit te voer. Of dit nou in die ingewikkelde besonderhede van die Apollo 11-sending gaan transkripsies of die interpretasie van 'n stil film, Gemini 1.5 demonstreer ongeëwenaarde probleemoplossingsvermoëns, veral met lang kodeblokke.

Gemini 4 Pro, wat ontwikkel is op Google se gevorderde TPUv1.5-versnellers, is opgelei op 'n diverse datastel wat verskeie domeine insluit en multimodale en veeltalige inhoud insluit. Hierdie breë opleidingsbasis, gekombineer met fyninstelling gebaseer op menslike voorkeurdata, verseker dat Gemini 1.5 Pro se uitsette goed met menslike persepsies resoneer.

deur streng maatstaftoetsing teen 'n oorvloed take presteer Gemini 1.5 Pro nie net beter as sy voorganger in 'n oorgrote meerderheid van evaluerings nie, maar staan ook tone-tot-toon met die groter Gemini 1.0 Ultra-model. Gemini 1.5 Pro vertoon sterk "in-konteks leer"-vermoëns, en verkry effektief nuwe kennis uit gedetailleerde aanwysings sonder dat verdere aanpassings nodig is. Dit was veral duidelik in sy prestasie op die Masjienvertaling uit een boek (MTOB)-maatstaf, waar dit van Engels na Kalamang vertaal is—'n taal wat deur 'n klein aantal mense gepraat word—met vaardigheid wat vergelykbaar is met dié van menslike leer, wat die aanpasbaarheid en leerdoeltreffendheid daarvan beklemtoon.

Beperkte voorskoutoegang

Gemini 1.5 Pro is nou beskikbaar in 'n beperkte voorskou vir ontwikkelaars en ondernemingskliënte deur AI Studio en Vertex AI, met planne vir 'n wyer vrystelling en aanpasbare opsies op die horison. Hierdie voorskoufase bied 'n unieke geleentheid om sy uitgebreide konteksvenster te verken, met verbeterings in verwerkingspoed wat verwag word. Ontwikkelaars en ondernemingskliënte wat in Gemini 1.5 Pro belangstel, kan deur AI Studio registreer of hul Vertex AI-rekeningspanne kontak vir verdere inligting.

Die Bottom Line

Gemini 1.5 verteenwoordig 'n noemenswaardige stap vorentoe in die ontwikkeling van multimodale KI. Gebou op die grondslag wat deur Gemini 1.0 gelê is, bring hierdie nuwe weergawe verbeterde metodes vir die verwerking en integrasie van verskillende tipes data. Die bekendstelling van 'n nuwe argitektoniese benadering en uitgebreide dataverwerkingsvermoëns beklemtoon Google se voortdurende poging om KI-tegnologie te verbeter. Met sy potensiaal vir meer doeltreffende taakhantering en gevorderde leer, toon Gemini 1.5 die voortdurende evolusie van KI. Tans beskikbaar vir 'n uitgesoekte groep ontwikkelaars en ondernemingskliënte, dui dit opwindende moontlikhede vir die toekoms van KI aan, met groter beskikbaarheid en verdere vooruitgang op die horison.

Verwante onderwerpe:Groot multimodale modelle Multimodale KI Multimodale groottaalmodel

Bemagtiging van grootvisiemodelle (LVM's) in domeinspesifieke take deur oordragleer

Moenie mis nie

Wat ons tot dusver van OpenAI se Sora weet

Dr Tehseen Zia

Dr. Tehseen Zia is 'n vaste medeprofessor by COMSATS Universiteit Islamabad, met 'n PhD in KI van Wene Universiteit van Tegnologie, Oostenryk. Hy spesialiseer in kunsmatige intelligensie, masjienleer, datawetenskap en rekenaarvisie en het beduidende bydraes gelewer met publikasies in betroubare wetenskaplike tydskrifte. Dr. Tehseen het ook verskeie industriële projekte gelei as die Hoofondersoeker en het as 'n KI-konsultant gedien.