Dirbtinis intelektas

„Google“ daugiarūšis AI Gemini – techninis gilus pasinerimas

Atnaujinta on Gruodis 11, 2023

Pirmasis „Google“ daugiarūšis modelis: Dvyniai

Sundaras Pichai, „Google“ generalinis direktorius, kartu su Demisu Hassabiu iš „Google DeepMind“ turi 2023 metų gruodį pristatė Dvynius. Šis naujas didelis kalbos modelis yra integruotas į didžiulį „Google“ produktų asortimentą ir siūlo patobulinimus, kuriuos teikia milijonai naudojamų paslaugų ir įrankių.

Gemini, pažangus daugiarūšis „Google“ AI, sukurtas bendradarbiaujant suvienytų „DeepMind“ ir „Brain AI“ laboratorijoms. Dvyniai stovi ant savo pirmtakų pečių ir žada pateikti labiau tarpusavyje susietą ir išmanų programų rinkinį.

„Google Gemini“ paskelbimas, kuris buvo artimas po Bard, Duet AI ir PaLM 2 LLM debiuto, rodo aiškų „Google“ ketinimą ne tik konkuruoti, bet ir pirmauti AI revoliucijoje.

Priešingai nei bet kokia AI žiemos samprata, „Gemini“ pasirodymas rodo klestintį AI pavasarį, kupiną potencialo ir augimo. Pagalvodami apie metus nuo ChatGPT atsiradimo, kuris pats buvo novatoriškas AI momentas, „Google“ žingsnis rodo, kad pramonės plėtra toli gražu nesibaigė; Tiesą sakant, tai gali tik įsibėgėti.

Kas yra Dvyniai?

Google Gemini modelis gali apdoroti įvairių tipų duomenis, pvz., tekstą, vaizdus, garsą ir vaizdo įrašus. Yra trijų versijų -Ultra, užir Nano– kiekviena pritaikyta konkrečioms programoms, nuo sudėtingų samprotavimų iki naudojimo įrenginyje. „Ultra“ puikiai atlieka įvairias užduotis ir bus pasiekiama „Bard Advanced“, o „Pro“ siūlo našumo ir efektyvaus išteklių balansą, jau integruotą į „Bard“ tekstiniams raginimams. „Nano“, optimizuotas diegti įrenginyje, yra dviejų dydžių ir turi aparatinės įrangos optimizavimą, pvz., 4 bitų kvantavimą, skirtą naudoti neprisijungus tokiuose įrenginiuose kaip „Pixel 8 Pro“.

„Gemini“ architektūra yra unikali savo natūralia daugiarūšio išvesties galimybe, naudojant atskirus vaizdo žetonus vaizdams generuoti ir integruoti universaliojo kalbos modelio garso funkcijas, kad būtų galima suprasti niuansus. Jo gebėjimas apdoroti vaizdo duomenis kaip nuoseklius vaizdus, susipintus su teksto ar garso įvestimis, parodo jo daugiarūšį meistriškumą.

Gemini palaiko teksto, vaizdo, garso ir vaizdo įrašų sekas kaip įvestis

Prieiga prie Dvynių

„Gemini 1.0“ pradedama naudoti visoje „Google“ ekosistemoje, įskaitant „Bard“, kuri dabar naudojasi patobulintomis „Gemini Pro“ galimybėmis. „Google“ taip pat integravo „Gemini“ į savo paieškos, skelbimų ir „Duet“ paslaugas, pagerindama naudotojų patirtį, teikdama greitesnius ir tikslesnius atsakymus.

Tiems, kurie nori išnaudoti „Gemini“ galimybes, „Google AI Studio“ ir „Google Cloud Vertex“ siūlo prieigą prie „Gemini Pro“, o pastarasis suteikia daugiau tinkinimo ir saugos funkcijų.

Norėdami patirti patobulintas „Gemini Pro“ maitinamos „Bard“ galimybes, vartotojai gali atlikti šiuos paprastus veiksmus:

Eikite į Bardą: atidarykite pageidaujamą žiniatinklio naršyklę ir eikite į Bard svetainę.
Saugus prisijungimas: pasiekite paslaugą prisijungę naudodami „Google“ paskyrą, užtikrindami sklandžią ir saugią patirtį.
Interaktyvus pokalbis: Dabar galite naudoti Bard, kur galima pasirinkti išplėstines Gemini Pro funkcijas.

Multimodalumo galia:

Iš esmės „Gemini“ naudoja transformatoriumi pagrįstą architektūrą, panašią į naudojamą sėkminguose NLP modeliuose, tokiuose kaip GPT-3. Tačiau Dvynių unikalumas slypi jo gebėjime apdoroti ir integruoti informaciją iš kelių būdų, įskaitant tekstą, vaizdus ir kodą. Tai pasiekiama naudojant naują techniką, vadinamą kryžminis dėmesys, kuri leidžia modeliui išmokti ryšius ir priklausomybes tarp skirtingų tipų duomenų.

Štai pagrindiniai Dvynių komponentai:

Daugiarūšis kodavimo įrenginys: Šis modulis apdoroja kiekvieno modalumo įvesties duomenis (pvz., tekstą, vaizdą) atskirai, išskirdamas atitinkamas savybes ir generuodamas individualias reprezentacijas.
Kryžminis dėmesio tinklas: Šis tinklas yra Dvynių širdis. Tai leidžia modeliui išmokti ryšius ir priklausomybes tarp skirtingų reprezentacijų, leidžiant jiems „kalbėtis“ vieniems su kitais ir praturtinti jų supratimą.
Daugiarūšis dekoderis: Šis modulis naudoja įvairiarūšio dėmesio tinklo sukurtas praturtintas reprezentacijas, kad būtų galima atlikti įvairias užduotis, tokias kaip vaizdų antraštės, teksto į vaizdą generavimas ir kodo generavimas.

Dvynių modelis – tai ne tik teksto ar vaizdų supratimas – tai įvairios informacijos integravimas tokiu būdu, kuris yra daug artimesnis mūsų, žmonių, suvokimui apie pasaulį. Pavyzdžiui, Dvyniai gali pažvelgti į vaizdų seką ir nustatyti juose esančių objektų loginę ar erdvinę tvarką. Jis taip pat gali analizuoti objektų dizaino ypatybes, kad būtų galima nuspręsti, pavyzdžiui, kuris iš dviejų automobilių turi aerodinamiškesnę formą.

Tačiau Dvynių talentai neapsiriboja tik vizualiniu supratimu. Jis gali paversti instrukcijų rinkinį kodu, sukuriant praktinius įrankius, pvz., atgalinės atskaitos laikmatį, kuris ne tik veikia taip, kaip nurodyta, bet ir apima kūrybinius elementus, pvz., motyvuojančius jaustukus, kad pagerintų vartotojo sąveiką. Tai rodo gebėjimą atlikti užduotis, kurioms reikalingas kūrybiškumo ir funkcionalumo derinys – įgūdžiai, kurie dažnai laikomi aiškiai žmogiškais.

Dvynių galimybės: Erdvinis samprotavimas (Šaltinis)

Dvynių galimybės apima programavimo užduočių vykdymą (Šaltinis)

Sudėtingas „Gemini“ dizainas pagrįstas turtinga neuroninių tinklų tyrimų istorija, o mokymuose naudojama pažangiausia „Google“ TPU technologija. Visų pirma „Gemini Ultra“ nustatė naujus etalonus įvairiose AI srityse, pademonstruodama nepaprastą našumo padidėjimą atliekant daugiarūšio mąstymo užduotis.

Gemini, turėdamas galimybę analizuoti ir suprasti sudėtingus duomenis, siūlo sprendimus realaus pasaulio programoms, ypač švietimui. Jis gali analizuoti ir taisyti problemų sprendimus, kaip ir fizikoje, suprasdamas ranka rašytus užrašus ir pateikdamas tikslų matematinį rinkimą. Tokios galimybės rodo ateitį, kurioje dirbtinis intelektas padės ugdymo įstaigose, siūlydamas studentams ir pedagogams pažangias mokymosi ir problemų sprendimo priemones.

„Gemini's“ buvo panaudota kuriant tokius agentus kaip „AlphaCode 2“, kuris puikiai sprendžia konkurencinio programavimo problemas. Tai parodo Dvynių potencialą veikti kaip bendras dirbtinis intelektas, galintis spręsti sudėtingas, daugiapakopes problemas.

Gemini Nano suteikia dirbtinio intelekto galią kasdieniams įrenginiams, išlaikant įspūdingus gebėjimus atliekant tokias užduotis kaip apibendrinimas ir skaitymo supratimas, taip pat kodavimo ir su STEM susijusiais iššūkiais. Šie mažesni modeliai yra tiksliai sureguliuoti, kad pasiūlytų aukštos kokybės dirbtinio intelekto funkcijas mažesnės atminties įrenginiuose, todėl pažangus AI būtų prieinamesnis nei bet kada anksčiau.

Kuriant „Gemini“ buvo įdiegtos mokymo algoritmų ir infrastruktūros naujovės, naudojant naujausius „Google“ TPU. Tai leido efektyviai keisti mastelį ir vykdyti tvirtus mokymo procesus, užtikrinant, kad net ir mažiausi modeliai pasižymi išskirtiniu našumu.

Dvynių mokymo duomenų rinkinys yra toks pat įvairus, kaip ir jo galimybės, įskaitant žiniatinklio dokumentus, knygas, kodus, vaizdus, garsą ir vaizdo įrašus. Šis daugiarūšis ir daugiakalbis duomenų rinkinys užtikrina, kad Gemini modeliai galėtų efektyviai suprasti ir apdoroti įvairius turinio tipus.

Dvyniai ir GPT-4

Nepaisant kitų modelių atsiradimo, visiems kyla klausimas, kaip „Google Gemini“ atsilieka nuo OpenAI GPT-4, pramonės etalono naujų LLM. „Google“ duomenys rodo, kad nors GPT-4 gali tobulėti atliekant sveiko proto samprotavimo užduotis, „Gemini Ultra“ turi pranašumą beveik visose kitose srityse.

Dvyniai VS GPT-4

Aukščiau pateiktoje palyginimo lentelėje parodytas įspūdingas „Google Gemini AI“ našumas atliekant įvairias užduotis. Pažymėtina, kad „Gemini Ultra“ pasiekė puikių MMLU etalono rezultatų su 90.04% tikslumu, o tai rodo, kad ji puikiai supranta 57 dalykų klausimus su atsakymų variantais.

GSM8K, kuriame vertinami mokykliniai matematikos klausimai, „Gemini Ultra“ surinko 94.4%, parodydamas pažangius aritmetinio apdorojimo įgūdžius. Kodavimo etalonuose „Gemini Ultra“ pasiekė 74.4% „HumanEval for Python“ kodo generavimo balą, o tai rodo, kad jis puikiai supranta programavimo kalbą.

DROP etalonas, kuriuo tikrinamas skaitymo supratimas, rodo, kad Gemini Ultra vėl pirmauja su 82.4 % balu. Tuo tarpu sveiko proto samprotavimų teste „HellaSwag“ „Gemini Ultra“ veikia puikiai, nors ir nepranoksta itin aukšto GPT-4 nustatyto etalono.

Išvada

Unikali „Gemini“ architektūra, paremta pažangiausiomis „Google“ technologijomis, suteikia jam didžiulį žaidėją dirbtinio intelekto arenoje ir meta iššūkį esamiems modelių, tokių kaip GPT-4, etalonams. Jos versijos – „Ultra“, „Pro“ ir „Nano“ – atitinka konkrečius poreikius – nuo sudėtingų samprotavimo užduočių iki veiksmingų įrenginyje esančių programų, parodydamos „Google“ įsipareigojimą padaryti pažangų AI pasiekiamą įvairiose platformose ir įrenginiuose.

„Gemini“ integravimas į „Google“ ekosistemą – nuo Bardo iki „Google Cloud Vertex“ – išryškina jos potencialą pagerinti naudotojų patirtį įvairiose paslaugų srityse. Ji žada ne tik patobulinti esamas programas, bet ir atverti naujus būdus dirbtinio intelekto sprendimams, nesvarbu, ar tai būtų personalizuota pagalba, kūrybinės pastangos ar verslo analizė.

Žvelgiant į ateitį, nuolatiniai dirbtinio intelekto modelių, tokių kaip Dvyniai, pažanga pabrėžia nuolatinių tyrimų ir plėtros svarbą. Tokių sudėtingų modelių mokymo ir etiško bei atsakingo jų naudojimo iššūkiai išlieka diskusijų priešakyje.

Susijusios temos:Dvyniai generatyvinis ai "Google"GPT

Kitas

Ride the Hype: AI įvykiai Bay Area

Nepraleiskite

„Google“ apkaltinta klaidinimu naudojant „Gemini“ pranešimo vaizdo įrašą

Aayush Mittal

Pastaruosius penkerius metus praleidau pasinerdamas į žavų mašininio mokymosi ir giluminio mokymosi pasaulį. Mano aistra ir patirtis paskatino mane prisidėti prie daugiau nei 50 įvairių programinės įrangos inžinerijos projektų, ypatingą dėmesį skiriant AI/ML. Mano nuolatinis smalsumas taip pat patraukė mane į natūralios kalbos apdorojimą – sritį, kurią noriu tyrinėti toliau.