Umjetna inteligencija

Istraživanje Geminija 1.5: Kako Googleov najnoviji multimodalni AI model podiže AI pejzaž iznad svog prethodnika

Objavljeno 20. veljače 2024.

dr. Tehseen Zia

U krajoliku umjetne inteligencije koji se brzo razvija, Google nastavlja voditi svojim pionirskim razvojem u multimodalni AI tehnologije. Ubrzo nakon debija Gemini 1.0, njihov vrhunski multimodalni veliki jezični model, Google je sada predstavio Gemini 1.5. Ova iteracija ne samo da poboljšava kapacitet koji je uspostavio Gemini 1.0 ali također donosi značajna poboljšanja u Googleovoj metodologiji za obradu i integraciju multimodalnih podataka. Ovaj članak pruža istraživanje Geminija 1.5, bacajući svjetlo na njegov inovativni pristup i prepoznatljive značajke.

Gemini 1.0: Postavljanje temelja

Pokrenut od strane Google DeepMinda i Google Researcha 6. prosinca 2023., Gemini 1.0 predstavio je novu vrstu multimodalnih AI modela sposobnih za razumijevanje i generiranje sadržaja u različitim formatima, kao što su tekst, audio, slike i video. Ovo je označilo značajan korak u AI, šireći opseg za upravljanje različitim vrstama informacija.

Geminijeva istaknuta značajka je njegova sposobnost besprijekornog spajanja više tipova podataka. Za razliku od konvencionalnih AI modela koji se mogu specijalizirati za jedan format podataka, Gemini integrira tekst, slike i zvuk. Ova integracija omogućuje obavljanje zadataka poput analize rukom pisanih bilješki ili dešifriranja složenih dijagrama, čime se rješava širok spektar složenih izazova.

Obitelj Gemini nudi modele za različite primjene: Ultra model za složene zadatke, Pro model za brzinu i skalabilnost na glavnim platformama poput Google Barda i Nano modele (Nano-1 i Nano-2) s 1.8 milijardi i 3.25 milijardi parametara , odnosno dizajniran za integraciju u uređaje poput pametnog telefona Google Pixel 8 Pro.

Skok u Blizance 1.5

Googleovo najnovije izdanje, Gemini 1.5, poboljšava funkcionalnost i operativnu učinkovitost svog prethodnika, Geminija 1.0. Ova verzija usvaja novi Mješavina stručnjaka (MoE) arhitekturu, odstupanje od unificiranog pristupa velikom modelu viđenog u njegovom prethodniku. Ova arhitektura uključuje zbirku manjih, specijaliziranih modeli transformatora, svaki vješt u upravljanju određenim segmentima podataka ili različitim zadacima. Ova postavka omogućuje Geminiju 1.5 da dinamički uključi najprikladnijeg stručnjaka na temelju ulaznih podataka, usmjeravajući sposobnost modela da uči i obrađuje informacije.

Ovaj inovativni pristup značajno povećava učinkovitost obuke i implementacije modela aktiviranjem samo potrebnih stručnjaka za zadatke. Posljedično, Gemini 1.5 sposoban je brzo savladati složene zadatke i pružiti visokokvalitetne rezultate učinkovitije od konvencionalnih modela. Takvi napredci omogućuju Googleovim istraživačkim timovima da ubrzaju razvoj i poboljšanje Gemini modela, proširujući mogućnosti unutar domene umjetne inteligencije.

Proširenje mogućnosti

Značajan napredak u Gemini 1.5 je njegova proširena mogućnost obrade informacija. Kontekstni prozor modela, koji predstavlja količinu korisničkih podataka koju može analizirati za generiranje odgovora, sada se proteže na do milijun tokena - što je znatno povećanje u odnosu na 1 32,000 tokena u Gemini 1.0. Ovo poboljšanje znači da Gemini 1.5 Pro može istovremeno obrađivati velike količine podataka, kao što je sat video sadržaja, jedanaest sati zvuka ili velike kodne baze i tekstualni dokumenti. Također je uspješno testiran s do 10 milijuna tokena, pokazujući svoju iznimnu sposobnost razumijevanja i interpretacije ogromnih skupova podataka.

Uvid u mogućnosti Geminija 1.5

Arhitektonska poboljšanja Geminija 1.5 i prošireni kontekstni prozor omogućuju mu izvođenje sofisticirane analize nad velikim skupovima informacija. Bilo da se radi o istraživanju zamršenih detalja misije Apollo 11 transkripti ili tumačenje nijemog filma, Gemini 1.5 pokazuje neusporedive sposobnosti rješavanja problema, posebno s dugim blokovima koda.

Razvijen na Googleovim naprednim TPUv4 akceleratorima, Gemini 1.5 Pro je obučen na raznolikom skupu podataka, koji obuhvaća različite domene i uključuje multimodalni i višejezični sadržaj. Ova široka baza za obuku, u kombinaciji s finim podešavanjem na temelju podataka o ljudskim preferencijama, osigurava da rezultati Geminija 1.5 Pro dobro rezoniraju s ljudskom percepcijom.

Kroz rigorozno referentno testiranje u odnosu na mnoštvo zadataka, Gemini 1.5 Pro ne samo da nadmašuje svog prethodnika u velikoj većini procjena, već je i rame uz rame s većim modelom Gemini 1.0 Ultra. Gemini 1.5 Pro pokazuje snažne sposobnosti "učenja u kontekstu", učinkovito stječući nova znanja iz detaljnih upita bez potrebe za daljnjim prilagodbama. To je bilo osobito vidljivo u njegovoj izvedbi na Strojni prijevod iz jedne knjige (MTOB), gdje je preveden s engleskog na kalamang—jezik kojim govori mali broj ljudi—sa vještinom usporedivom s onom ljudskog učenja, naglašavajući njegovu prilagodljivost i učinkovitost učenja.

Ograničeni pristup pretpregledu

Gemini 1.5 Pro sada je dostupan u ograničenom pregledu za programere i poslovne korisnike AI Studio i Vrh AI, s planovima za šire izdanje i prilagodljive opcije na horizontu. Ova faza pregleda nudi jedinstvenu priliku za istraživanje njegovog proširenog kontekstnog prozora, s očekivanim poboljšanjima u brzini obrade. Programeri i poslovni korisnici zainteresirani za Gemini 1.5 Pro mogu se registrirati putem AI Studija ili kontaktirati svoje Vertex AI račun timove za dodatne informacije.

Bottom Line

Gemini 1.5 predstavlja značajan korak naprijed u razvoju multimodalne umjetne inteligencije. Nadovezujući se na temelje koje je postavio Gemini 1.0, ova nova verzija donosi poboljšane metode za obradu i integraciju različitih vrsta podataka. Uvođenje novog arhitektonskog pristupa i proširenih mogućnosti obrade podataka naglašava Googleove kontinuirane napore za poboljšanjem tehnologije umjetne inteligencije. Svojim potencijalom za učinkovitije rješavanje zadataka i napredno učenje, Gemini 1.5 pokazuje kontinuiranu evoluciju umjetne inteligencije. Trenutno dostupan odabranoj skupini programera i poslovnih korisnika, signalizira uzbudljive mogućnosti za budućnost umjetne inteligencije, sa širom dostupnošću i daljnjim napretkom na horizontu.

Srodne teme:Veliki multimodalni modeli Multimodalni AI Multimodalni model velikog jezika

Sljedeći

Osnaživanje modela velike vizije (LVM) u zadacima specifičnim za domenu kroz prijenos učenja

Ne propustite

Što do sada znamo o OpenAI-jevoj Sori

dr. Tehseen Zia

Dr. Tehseen Zia redoviti je izvanredni profesor na Sveučilištu COMSATS u Islamabadu, s doktoratom iz umjetne inteligencije na Tehnološkom sveučilištu u Beču, Austrija. Specijalizirao se za umjetnu inteligenciju, strojno učenje, podatkovnu znanost i računalni vid, dao je značajan doprinos publikacijama u uglednim znanstvenim časopisima. Dr. Tehseen također je vodio razne industrijske projekte kao glavni istraživač i radio kao konzultant za umjetnu inteligenciju.