Tehisintellekt

Google'i multimodaalne AI Gemini – tehniline sügav sukeldumine

Ajakohastatud on Detsember 11, 2023

Google'i esimene multimodaalne mudel: Gemini

Google'i tegevjuht Sundar Pichai ja Demis Hassabis Google DeepMindist on seda teinud tutvustas Kaksikud 2023. aasta detsembris. See uus suur keelemudel on integreeritud Google'i tohutusse tootevalikusse, pakkudes täiustusi, mis levivad miljonite poolt kasutatavate teenuste ja tööriistade kaudu.

Gemini, Google'i täiustatud multimodaalne AI, on sündinud ühendatud DeepMind ja Brain AI laborite koostööst. Gemini seisab oma eelkäijate õlgadel, lubades pakkuda omavahel paremini ühendatud ja intelligentsemat rakenduste komplekti.

Google Gemini teadaanne, mis pesitses vahetult pärast Bardi, Duet AI ja PaLM 2 LLM debüüti, tähistab Google'i selget kavatsust mitte ainult konkureerida, vaid juhtida AI revolutsiooni.

Vastupidiselt arusaamadele tehisintellekti talvest viitab Gemini turule jõudev AI kevad, mis on täis potentsiaali ja kasvu. Mõeldes aasta peale ChatGPT esilekerkimisest, mis ise oli AI jaoks murranguline hetk, näitab Google'i samm, et tööstuse laienemine pole veel kaugeltki lõppenud. tegelikult võib see lihtsalt hoogu võtta.

Mis on Kaksikud?

Google'i Gemini mudel on võimeline töötlema erinevaid andmetüüpe, nagu tekst, pildid, heli ja video. See on saadaval kolmes versioonis -Ultra, Proja Nano— igaüks on kohandatud konkreetsete rakenduste jaoks, alates keerukatest arutlustest kuni seadmesisese kasutamiseni. Ultra töötab suurepäraselt mitmekülgsete ülesannetega ja on saadaval Bard Advancedis, samas kui Pro pakub jõudluse ja ressursitõhususe tasakaalu, mis on juba tekstiviipade jaoks Bardisse integreeritud. Nano, mis on optimeeritud seadmes juurutamiseks, on saadaval kahes suuruses ja sisaldab riistvara optimeerimisi, nagu 4-bitine kvantimine võrguühenduseta kasutamiseks sellistes seadmetes nagu Pixel 8 Pro.

Gemini arhitektuur on ainulaadne oma loomuliku multimodaalse väljundvõime poolest, kasutades kujutise genereerimiseks diskreetseid pildimärke ja integreerides universaalse kõnemudeli helifunktsioone nüansirikka heli mõistmiseks. Selle võime käsitleda videoandmeid järjestikuste piltidena, mis on põimitud teksti- või helisisenditega, näitab selle multimodaalset võimekust.

Gemini toetab sisenditena teksti, pildi, heli ja video jadasid

Kaksikute juurde pääsemine

Gemini 1.0 levib Google'i ökosüsteemis, sealhulgas Bardis, mis saab nüüd kasu Gemini Pro täiustatud võimalustest. Google on integreerinud Gemini ka oma otsingu-, reklaami- ja duetiteenustesse, parandades kasutajakogemust kiiremate ja täpsemate vastustega.

Neile, kes soovivad Gemini võimalusi ära kasutada, pakuvad Google AI Studio ja Google Cloud Vertex juurdepääsu Gemini Pro-le, kusjuures viimane pakub suuremaid kohandamis- ja turvafunktsioone.

Gemini Pro jõul töötava Bardi täiustatud võimaluste kogemiseks saavad kasutajad teha järgmisi lihtsaid samme.

Navigeerige Bardisse: avage eelistatud veebibrauser ja minge Bardi veebisaidile.
Turvaline sisselogimine: pääsete teenusele juurde, logides sisse oma Google'i kontoga, tagades sujuva ja turvalise kasutuskogemuse.
Interaktiivne vestlus: Nüüd saate kasutada Bardi, kus saab valida Gemini Pro täiustatud funktsioonid.

Multimodaalsuse jõud:

Oma tuumaks kasutab Gemini trafopõhist arhitektuuri, mis sarnaneb edukate NLP-mudelite (nt GPT-3) kasutatule. Kaksikute ainulaadsus seisneb aga tema võimes töödelda ja integreerida mitmest modaalsusest pärinevat teavet, sealhulgas teksti, pilte ja koodi. See saavutatakse uudse tehnika abil, mida nimetatakse ristmodaalne tähelepanu, mis võimaldab mudelil õppida seoseid ja sõltuvusi eri tüüpi andmete vahel.

Siin on Gemini põhikomponentide jaotus:

Multimodaalne kodeerija: See moodul töötleb iga modaalsuse sisendandmeid (nt tekst, pilt) iseseisvalt, eraldades asjakohased funktsioonid ja genereerides individuaalseid esitusi.
Transpordiliikidevaheline tähelepanuvõrgustik: See võrgustik on Kaksikute süda. See võimaldab mudelil õppida seoseid ja sõltuvusi erinevate esituste vahel, võimaldades neil üksteisega "vestelda" ja rikastada oma arusaamist.
Multimodaalne dekooder: See moodul kasutab rikastatud esitusi, mis on loodud ristmodaalse tähelepanuvõrgu poolt, et täita erinevaid ülesandeid, nagu piltide pealdised, tekstist pildiks genereerimine ja koodi genereerimine.

Kaksikute mudel ei seisne ainult teksti või piltide mõistmises – see on erinevat tüüpi teabe integreerimine viisil, mis on palju lähemal sellele, kuidas me inimestena maailma tajume. Näiteks saavad Kaksikud vaadata kujutiste jada ja määrata nendes olevate objektide loogilise või ruumilise järjekorra. Samuti saab see analüüsida objektide disainifunktsioone, et teha otsuseid, näiteks kumb kahest autost on aerodünaamilisema kujuga.

Kuid Kaksikute anded ulatuvad kaugemale visuaalsest mõistmisest. See võib muuta juhiste komplekti koodiks, luues praktilisi tööriistu, nagu taimer, mis mitte ainult ei tööta vastavalt juhistele, vaid sisaldab ka loomingulisi elemente, nagu motiveerivad emotikonid, et parandada kasutajate suhtlust. See näitab võimet tulla toime ülesannetega, mis nõuavad loovuse ja funktsionaalsuse segu – oskusi, mida sageli peetakse selgelt inimlikeks.

Kaksikute võimed: ruumiline arutlusvõime

Kaksikute võimed: ruumiline mõtlemine (allikas)

Kaksikute võimalused ulatuvad programmeerimisülesannete täitmiseni (allikas)

Gemini keerukas disain põhineb närvivõrkude uurimise rikkalikul ajalool ja kasutab koolituseks Google'i tipptasemel TPU-tehnoloogiat. Eelkõige on Gemini Ultra seadnud uusi võrdlusaluseid erinevates tehisintellekti valdkondades, näidates märkimisväärset jõudluse kasvu multimodaalsetes arutlusülesannetes.

Tänu oma võimele keerulisi andmeid sõeluda ja mõista, pakub Gemini lahendusi reaalmaailma rakendustele, eriti hariduses. See suudab analüüsida ja parandada probleemide lahendusi, nagu füüsikas, mõistes käsitsi kirjutatud märkmeid ja pakkudes täpset matemaatilist ladumist. Sellised võimalused viitavad tulevikule, kus AI abistab haridusasutustes, pakkudes õpilastele ja õpetajatele täiustatud tööriistu õppimiseks ja probleemide lahendamiseks.

Gemini't on kasutatud selliste agentide loomiseks nagu AlphaCode 2, mis paistab silma konkurentsivõimeliste programmeerimisprobleemidega. See näitab Kaksikute potentsiaali tegutseda üldise tehisintellektina, kes on võimeline lahendama keerulisi mitmeastmelisi probleeme.

Gemini Nano toob tehisintellekti võimsuse igapäevastesse seadmetesse, säilitades muljetavaldavad võimed sellistes ülesannetes nagu kokkuvõtete tegemine ja lugemise mõistmine, aga ka kodeerimine ja STEM-iga seotud väljakutsed. Need väiksemad mudelid on peenhäälestatud, et pakkuda kvaliteetseid tehisintellekti funktsioone väiksema mälumahuga seadmetes, muutes täiustatud AI kättesaadavamaks kui kunagi varem.

Gemini arendus hõlmas uuendusi koolitusalgoritmides ja infrastruktuuris, kasutades Google'i uusimaid TPU-sid. See võimaldas tõhusat skaleerimist ja jõulisi koolitusprotsesse, tagades, et isegi väikseimad mudelid pakuvad erakordset jõudlust.

Gemini treeningandmete kogum on sama mitmekesine kui selle võimalused, sealhulgas veebidokumendid, raamatud, kood, pildid, heli ja videod. See multimodaalne ja mitmekeelne andmestik tagab, et Gemini mudelid saavad aru ja töödelda tõhusalt mitmesuguseid sisutüüpe.

Kaksikud ja GPT-4

Hoolimata teiste mudelite esilekerkimisest, on kõigi peas küsimus, kuidas Google'i Gemini konkureerib OpenAI GPT-4-ga, mis on tööstusharu uute LLM-ide etalon. Google'i andmed viitavad sellele, et kuigi GPT-4 võib olla hiilgav tervemõistuslike arutlusülesannetega, on Gemini Ultral ülekaal peaaegu kõigis teistes valdkondades.

Kaksikud VS GPT-4

Ülaltoodud võrdlustabel näitab Google'i Gemini AI muljetavaldavat jõudlust mitmesuguste ülesannete puhul. Nimelt on Gemini Ultra saavutanud märkimisväärseid tulemusi MMLU võrdlusaluses 90.04% täpsusega, mis näitab tema paremat mõistmist valikvastustega küsimustes 57 subjekti lõikes.

GSM8K-s, mis hindab kooliastme matemaatikaküsimusi, saavutab Gemini Ultra 94.4%, mis näitab oma täiustatud aritmeetilise töötlemise oskusi. Kodeerimise võrdlusnäitajates saavutas Gemini Ultra 74.4% punktisumma HumanEval for Pythoni koodi genereerimisel, mis näitab selle tugevat programmeerimiskeele mõistmist.

DROP-i etalon, mis testib loetust arusaamist, näeb Gemini Ultra taas juhtpositsioonil 82.4% skooriga. Samal ajal toimib Gemini Ultra terve mõistuse testis HellaSwag suurepäraselt, kuigi see ei ületa GPT-4 seatud ülikõrget etaloni.

Järeldus

Gemini ainulaadne arhitektuur, mis põhineb Google'i tipptehnoloogial, positsioneerib selle tehisintellekti areenil suurepärase mängijana, esitades väljakutse olemasolevatele mudelitele nagu GPT-4. Selle versioonid – Ultra, Pro ja Nano – vastavad konkreetsetele vajadustele, alates keerulistest arutlusülesannetest kuni tõhusate seadmesiseste rakendusteni, näidates Google'i pühendumust täiustatud tehisintellekti kättesaadavaks tegemisel erinevatel platvormidel ja seadmetel.

Gemini integreerimine Google'i ökosüsteemi Bardist kuni Google Cloud Vertexini tõstab esile selle potentsiaali parandada kasutajakogemust paljudes teenustes. See lubab mitte ainult täiustada olemasolevaid rakendusi, vaid avada ka uusi võimalusi AI-põhiste lahenduste jaoks, olgu selleks siis isikupärastatud abi, loomingulised ettevõtmised või ärianalüütika.

Tulevikku vaadates rõhutavad AI-mudelite, nagu Gemini, pidevad edusammud käimasoleva uurimis- ja arendustegevuse tähtsust. Selliste keerukate mudelite koolitamise ning nende eetilise ja vastutustundliku kasutamise tagamise väljakutsed on endiselt arutelude esiplaanil.

Seotud teemad:Kaksikud generatiivne ai google GPT

Järgmisena

Ride the Hype: AI sündmused lahe piirkonnas

Ära jäta

Google'it süüdistatakse Gemini teadaandevideoga eksitamises

Aayush Mittal

Olen viimased viis aastat veetnud masinõppe ja süvaõppe põnevasse maailma sukeldudes. Minu kirg ja teadmised on pannud mind panustama enam kui 50 erinevasse tarkvaratehnoloogia projekti, keskendudes eelkõige AI/ML-ile. Minu jätkuv uudishimu on tõmmanud mind ka loomuliku keele töötlemise poole, valdkonda, mida ma innukalt edasi uurin.